Top.Mail.Ru
Baidu представила ERNIE-Image: мощная 8B-модель для генерации изображений с открытым исходным кодом | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Бонус за
обратную связь
Интернет-магазин
Серверного оборудования
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

Baidu представила ERNIE-Image: мощная 8B-модель для генерации изображений с открытым исходным кодом

~ 2 мин
81
Простой
Новости
Baidu представила ERNIE-Image: мощная 8B-модель для генерации изображений с открытым исходным кодом

Введение

Baidu официально представила новейшую открытую модель для генерации изображений ERNIE-Image. Модель объемом всего 8 миллиардов параметров демонстрирует выдающуюся производительность, сопоставимую и даже превосходящую значительно более крупные аналоги, включая закрытые системы и нейросети с сотнями миллиардов параметров. Особенно хорошо модель справляется при генерации изображений по сложным инструкциям, сохраняет качество в рендеринге текста и сохраняет структуру изображения вне зависимости от промпта. Модель, ее код и веса уже доступны на GitHub и Hugging Face под свободной лицензией Apache 2.0, что открывает широкие возможности для коммерческого использования.

Подробнее о ERNIE-Image

ERNIE-Image построена на базе однопоточного диффузионного трансформера (DiT) с 8 миллиардами параметров, что делает крайне компактной в сравнении с моделями конкурентов. В отличие от многих аналогов, например, Flux, использующих параллельные "ветки" для обработки текста и изображения, ERNIE-Image применяет единый, общий трансформер для всех типов данных с самого начала, что упрощает и ускоряет процесс генерации без потери качества. Важной частью архитектуры ERNIE-Image является облегченный модуль Prompt Enhancer, представляющий собой настроенную 3B LLM, которая автоматически преобразует краткие пользовательские запросы в подробные, структурированные описания, значительно повышая стабильность и качество результата. ERNIE-Image отлично справляется с точным воплощением сложных, многосоставных инструкций. Модель выпущена в двух версиях: стандартная ERNIE-Image, требующая 50 шагов для достижения максимальной точности, и оптимизированная ERNIE-Image-Turbo, которая, благодаря методам DMD и RL, способна генерировать изображения высокого качества всего за 8 шагов, что ускоряет вывод в несколько раз. На мощных ускорителях, таких как H200, Turbo-версия генерирует изображение за 11 секунд.

Модель превосходно выполняет задачи, где критически важны детализация, взаимосвязи между множеством объектов и точное следование длинным текстовым описаниям. В сравнительных бенчмарках 8B ERNIE-Image успешно конкурирует с более крупной моделью Qwen Image и обходит Z-image, демонстрируя лучшую точность. Еще одна сильная сторона модели ERNIE-Image — генерация текста. В то время как многие конкуренты часто выдают нечитаемые символы, особенно на русском языке, ERNIE-Image удивительно хорошо справляется с рендерингом плотного, объемного и чувствительного к макету текста. Это делает ее идеальным инструментом для создания инфографики, макетов интерфейсов, рекламных материалов и другого визуального контента, насыщенного текстовой информацией. Помимо этого, модель поддерживает широкий спектр художественных стилей: от гиперреалистичной фотографии и чистого, ориентированного на дизайн, изображения до более стилизованных, кинематографичных и атмосферных визуальных решений.

Благодаря компактному размеру, ERNIE-Image может работать на потребительских графических процессорах с 24 ГБ видеопамяти, таких как NVIDIA RTX 3090 или 4090. Это существенно снижает порог входа для ИИ-энтузиастов, разработчиков и небольших команд.

Выводы

С выпуском ERNIE-Image Baidu сделала сильный ход, предоставив сообществу открытую модель, которая на равных конкурирует с лучшими проприетарными решениями. Выдающаяся точность выполнения инструкций, качественный рендеринг текста и компактность, позволяющая запускать ее на доступном оборудовании. делают ERNIE-Image одним из лучших диффузионных трансформеров на рынка. А лицензия Apache 2.0 и полная открытость кода и весов делают ERNIE-Image привлекательным инструментом для коммерческой разработки в сфере дизайна, маркетинга и создания визуального контента.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-18:30 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-18:30 (по МСК)