
Baidu представила открытую 8B-модель ERNIE-Image для генерации картинок
Подберём игровой ПК за 2 шага
Ответьте на несколько вопросов — покажем готовые сборки
Компания Baidu официально выпустила ERNIE-Image — мощную модель для генерации изображений на базе архитектуры Diffusion Transformer (DiT). Разработка содержит 8 миллиардов параметров и распространяется по открытой лицензии. Инструмент позиционируется как решение для точного следования сложным текстовым инструкциям и создания профессиональной графики.
Краткое содержание
- Baidu выпустила открытую модель ERNIE-Image на базе архитектуры DiT;
- Нейросеть безошибочно генерирует текст на изображениях, включая китайский и русский языки;
- Алгоритм поддерживает создание многопанельных комиксов и раскадровок;
- Для локального запуска требуется потребительская видеокарта с 24 ГБ видеопамяти.
Точная работа с текстом и макетами
Ключевым преимуществом ERNIE-Image выступает способность корректно интегрировать текст в генерируемые изображения. Многие популярные нейросети выдают нечитаемые символы при попытке создать постер или инфографику. Разработка Baidu успешно справляется с плотным макетом и поддерживает мультиязычный рендеринг. Это делает алгоритм подходящим инструментом для проектирования рекламных баннеров и интерфейсов.
Дополнительно нейросеть оптимизирована для генерации структурированных изображений. Алгоритм умеет создавать многопанельные комиксы и раскадровки, сохраняя визуальную согласованность персонажей от кадра к кадру. В тестах на точность выполнения сложных инструкций (GENEval) новая модель занимает лидирующие позиции среди всех решений с открытым исходным кодом.
Архитектура и системные требования
В основе ERNIE-Image лежит архитектура Diffusion Transformer, объединяющая обработку текста и визуальных токенов в единую последовательность. Модель насчитывает 8 миллиардов параметров. Разработчики также предусмотрели режим ERNIE Image Turbo. Оптимизированная версия выдает готовый результат всего за 8 шагов вывода вместо стандартных 50, что ускоряет генерацию примерно в шесть раз.
Несмотря на сложность архитектуры, инструмент отличается низким порогом входа. Базовая версия модели способна работать локально на потребительских графических ускорителях, оснащенных 24 ГБ видеопамяти (например, уровня RTX 3090 или RTX 4090), для чего вполне достаточно наших игровых компьютеров верхнего сегмента.
Преимущества для коммерческой разработки
Baidu распространяет ERNIE-Image по лицензии Apache 2.0, что допускает свободное коммерческое использование, модификацию и интеграцию алгоритма в сторонние продукты. Нейросеть поддерживает работу со средой ComfyUI, а также тонкую настройку через AI-Toolkit. Наличие открытых весов позволяет профильным специалистам дообучать модель под конкретные бизнес-задачи.
Запуск и дообучение современных генеративных моделей требует надежной вычислительной базы с большим объемом быстрой видеопамяти. Сбалансированные решения из категории серверов для ИИ гарантируют стабильную скорость генерации и отсутствие узких мест при длительных многопоточных вычислениях.
Не пропусти главное в мире ПК
Мы публикуем последние новости из компьютерного мира. Подписывайся, чтобы быть в курсе и ничего не пропустить.














