
DiffusionGemma: 26B на одной карте и в разы быстрее
Подберём игровой ПК за 2 шага
Ответьте на несколько вопросов — покажем готовые сборки
Google выложила DiffusionGemma — открытую модель, которая генерирует текст не по одному токену слева направо, а блоками сразу, через диффузию. Результат — скорость в разы выше обычных моделей. При этом она компактная: после сжатия помещается примерно в 18 гигабайт видеопамяти и работает на одной рабочей станции, без серверной стойки. Лицензия Apache 2.0, в коммерцию брать можно.
Краткое содержание
- архитектура Gemma 4, «смесь экспертов»: 26 млрд параметров всего, активны лишь 3,8 млрд;
- генерирует текст блоками по 256 токенов через диффузию, а не по одному токену подряд — отсюда скорость;
- свыше 1000 токенов в секунду на NVIDIA H100 и больше 700 на настольной RTX 5090;
- после сжатия около 18 ГБ видеопамяти, лицензия Apache 2.0 — хватает одной рабочей станции.
Чем диффузия отличается от обычной генерации
Привычные языковые модели пишут текст слева направо, по одному токену за шаг: каждое следующее слово опирается на предыдущее. DiffusionGemma устроена иначе. Она берёт «холст» на 256 токенов и заполняет его целиком, а потом за несколько проходов очищает от шума — как проявляющаяся фотография. Внутри блока внимание работает в обе стороны, и токены уточняют друг друга параллельно. Меньше последовательных шагов — выше пропускная способность.
- база — Gemma 4 на «смеси экспертов»: 26 млрд параметров, в работе одновременно 3,8 млрд;
- генерация блоками по 256 токенов с двусторонним вниманием вместо токена за токеном;
- по описанию Google понимает не только текст, но и изображения с видео; на выходе — текст.
Скорость и железо
Скорость и требования к железу — вот где модель выигрывает. На NVIDIA H100 она выдаёт больше тысячи токенов в секунду, на настольной RTX 5090 — за 700. После квантизации в 4-битный формат NVFP4 весит около 18 гигабайт, а значит влезает в одну видеокарту на 24 гигабайта. Никакой стойки и связки из нескольких ускорителей — обычная рабочая станция.
- после квантизации (4-битный NVFP4) — около 18 ГБ видеопамяти, хватает одной карты на 24 ГБ;
- запуск через vLLM, Transformers, llama.cpp и MLX; веса на Hugging Face, Kaggle и Vertex AI;
- заявленный прирост скорости — четырёхкратный против сопоставимых обычных моделей.
Где подвох
За скорость приходится платить точностью. На классических тестах вроде MMLU и в задачах на код DiffusionGemma уступает обычной Gemma 4 того же поколения — это размен качества на пропускную способность, а не бесплатный обед. Сама диффузионная генерация текста — технология свежая, инструментов вокруг неё пока меньше, чем вокруг привычных моделей. Но если задача не выжать максимум в бенчмарках, а быстро и дёшево обрабатывать поток на месте — чат, суммаризация, разбор документов, — то размен выглядит выгодным.
Мнение DigitalRazor
DiffusionGemma интересна не местами в рейтингах, а связкой «быстро и дёшево»: модель на 26 миллиардов параметров работает на одной станции и выдаёт сотни токенов в секунду. Для чат-ботов, суммаризации и разбора документов на месте это нередко важнее пары процентов в тестах. Когда нужна высокая пропускная способность при низкой задержке и без облака — это кандидат под компактную ИИ-станцию. Поможем подобрать станцию с видеокартой на 24 гигабайта под такие модели.
Не пропусти главное в мире ПК
Мы публикуем последние новости из компьютерного мира. Подписывайся, чтобы быть в курсе и ничего не пропустить.














