Сбер представил MALVINA — нейросетевой редактор изображений с попиксельной точностью

Команда Сбера анонсировала новый инструмент для редактирования изображений под названием MALVINA (Multimodal Artificial Language VIsion Neural Assistant). По словам разработчиков, редактор позволяет вносить изменения в изображения на основе текстовых запросов, стремясь к максимальному сохранению деталей оригинальной картинки, не затронутых правками. MALVINA уже интегрирована в сервис GigaChat и доступна для использования.

Представители Сбера утверждают, что их разработка демонстрирует превосходство в точности редактирования по сравнению с такими моделями, как GPT-4o, Gemini и Grok, особенно в задачах, требующих сохранения исходных элементов изображения. В основе MALVINA лежит диффузионный подход, в отличие от авторегрессионного, который, по мнению создателей, чаще "перерисовывает по мотивам", а не редактирует точечно.

Архитектура MALVINA включает VLM-модель (GigaChat Vision), которая обрабатывает исходное изображение и текстовый запрос, формируя инструкции для диффузионной модели. Также используется блок Mixture-of-Experts для адаптации к различным задачам редактирования. Для обучения нейросети использовались как открытые наборы данных, так и специально собранные и синтезированные примеры, общее число которых превысило 1,5 миллиона.

Для оценки качества была разработана собственная метрика VLM-score, а также проводились слепые сравнения (SBS) с участием людей, где MALVINA, по данным Сбера, показала лучшие результаты, чем Gemini. Примеры работы включают удаление и добавление объектов, изменение фона, стилизацию, реставрацию старых фото и работу с изображениями людей. Сбер предоставил открытый доступ к более чем 1100 коллажам, использованным для сравнения.

Разработчики отмечают, что, как и все генеративные модели, MALVINA может не всегда давать идеальный результат с первой попытки и иногда требует нескольких итераций или уточнения запроса. В планах на будущее — дальнейшее улучшение качества, добавление новых функций, таких как интеграция текста на изображения, и возможность работы с несколькими референсными картинками.

Источник: playground.ru

Новый трейлер Elden Ring: Nightreign посвятили призрачной деве — Ревенанту

Пт Май 30 , 2025

Обложка: скриншот из Elden Ring: Nightreign Создатели Elden Ring: Nightreign представили очередной «классовый» трейлер — его посвятили Ревенанту, призрачной деве, что скитается по миру в поисках мести. Судя по ролику, это будет довольно непростой класс для игры. Хотя бы потому что Ревенант — героиня поддержки. Пассивная особенность этого класса — […]

Сбер представил MALVINA — нейросетевой редактор изображений с попиксельной точностью

Новый трейлер Elden Ring: Nightreign посвятили призрачной деве — Ревенанту

Samsung осталась единственным мировым производителем смартфонов, который выпускает их полностью самостоятельно

Маск опроверг заявление Дурова о сделке по интеграции Grok в Telegram, но история ещё не окончена

«Будем душить»: Минцифры РФ хочет ограничить работу AWS и прочих зарубежных облачных сервисов

Японский стартап представил одноместный электромобиль за $7000, чтобы расшевелить местный авторынок

CD Projekt Red анонсировала ещё одно обновление для The Witcher 3: Wild Hunt — игра получит кроссплатформенную поддержку модов

Сегодня 5 игр удаляют из подписки Game Pass [31 мая]

В Forza Motorsport на Fujimi Kaido установлен новый мировой рекорд дрифта

Один из основателей Xbox возглавил команду ZeroOne в Amazon и работает над инновационным потребительским продуктом

Capcom бесплатно добавят в Kunitsu-Gami: Path of the Goddess новый режим Otherworldly Venture

Achilles: Survivor выпустят на Xbox во второй половине 2025 года, с релизом версии 1.0