8 800 500-99-26 Для звонков по России

Игровые ПК

Все модели

Модельный ряд
DigitalRazor

Уникальные

Уникальные компьютеры
с твоим дизайном

ПК в наличии

ПК готовые к отгрузке
в день заказа

Конфигуратор

Собрать
компьютер мечты

Подобрать игровой компьютер

По особенностям

По задачам

По видеокарте

По процессору

По цене

По играм

Рабочие станции

Персональные системы для 3D-графики, видеомонтажа и инжиниринга. Максимальная стабильность в профессиональном ПО.

GPU-серверы

Платформы для ИИ и HPC с поддержкой до 8 GPU. Создание отказоустойчивых кластеров для непрерывной обработки данных.

Подобрать рабочую станцию

По направлению

По задачам ИИ

По видеокарте

По процессору

По программам

GPU-серверы

Посмотреть все

RackStation Ai

Компактные решения для рендер-ферм, VFX и инференса

DevBox AI

Для локального обучения LLM, генеративных моделей и R&D

Scale

Для LLM > 70b, генеративных моделей и корпоративных задач.

HPC

Для построения AI кластеров, R&D центров и дата-центров

Ответьте на несколько вопросов о проекте — инженер подготовит детальный расчет

Подобрать GPU-сервер

По направлению

Серверы для ИИ

По задачам ИИ

По видеокарте

По конфигурации

Услуги

Посмотреть все

Апгрейд центр

Трейд-ин

Аксессуары

Клиентам

Подробные правила и условия обмена и возврата товаров

Частые вопросы

Быстрый способ найти ответ на интересующий вас вопрос

Компания

Почему выбирают компанию DigitalRazor

Уникальность, агрессивный дизайн, эффективность и мощная производительность.

Подробнее

Контакты Связаться с нами Отзывы Более 20 тыс. довольных клиентов Вакансии Стань частью нашей команды Проекты Истории реализованных проектов

Медиа

Новости События из мира игр, технологий и индустрии Статьи Полезные статьи о железе, играх и всём, что между

8 800 500-99-26 Ежедневно с 10:00 до 21:00

Главная
Медиа
Новости
Софт
DiffusionGemma: 26B на одной карте и в разы быстрее

DiffusionGemma: 26B на одной карте и в разы быстрее

Софт

17.06.2026

2 мин

DiffusionGemma: 26B на одной карте и в разы быстрее

DigitalRazor

Подписаться в Telegram

Содержание 4 раздела

Краткое содержание Чем диффузия отличается от обычной генерации Скорость и железо Где подвох

Получите готовый ПК под свои задачи

Подберём ПК под ваши задачи, соберём, протестируем и доставим готовым к работе.

Собрать свой ПК

или свяжитесь с нами

Подберём игровой ПК за 2 шага

Ответьте на несколько вопросов — покажем готовые сборки

Google выложила DiffusionGemma — открытую модель, которая генерирует текст не по одному токену слева направо, а блоками сразу, через диффузию. Результат — скорость в разы выше обычных моделей. При этом она компактная: после сжатия помещается примерно в 18 гигабайт видеопамяти и работает на одной рабочей станции, без серверной стойки. Лицензия Apache 2.0, в коммерцию брать можно.

Краткое содержание

архитектура Gemma 4, «смесь экспертов»: 26 млрд параметров всего, активны лишь 3,8 млрд;
генерирует текст блоками по 256 токенов через диффузию, а не по одному токену подряд — отсюда скорость;
свыше 1000 токенов в секунду на NVIDIA H100 и больше 700 на настольной RTX 5090;
после сжатия около 18 ГБ видеопамяти, лицензия Apache 2.0 — хватает одной рабочей станции.

Чем диффузия отличается от обычной генерации

Привычные языковые модели пишут текст слева направо, по одному токену за шаг: каждое следующее слово опирается на предыдущее. DiffusionGemma устроена иначе. Она берёт «холст» на 256 токенов и заполняет его целиком, а потом за несколько проходов очищает от шума — как проявляющаяся фотография. Внутри блока внимание работает в обе стороны, и токены уточняют друг друга параллельно. Меньше последовательных шагов — выше пропускная способность.

база — Gemma 4 на «смеси экспертов»: 26 млрд параметров, в работе одновременно 3,8 млрд;
генерация блоками по 256 токенов с двусторонним вниманием вместо токена за токеном;
по описанию Google понимает не только текст, но и изображения с видео; на выходе — текст.

Скорость и железо

Скорость и требования к железу — вот где модель выигрывает. На NVIDIA H100 она выдаёт больше тысячи токенов в секунду, на настольной RTX 5090 — за 700. После квантизации в 4-битный формат NVFP4 весит около 18 гигабайт, а значит влезает в одну видеокарту на 24 гигабайта. Никакой стойки и связки из нескольких ускорителей — обычная рабочая станция.

после квантизации (4-битный NVFP4) — около 18 ГБ видеопамяти, хватает одной карты на 24 ГБ;
запуск через vLLM, Transformers, llama.cpp и MLX; веса на Hugging Face, Kaggle и Vertex AI;
заявленный прирост скорости — четырёхкратный против сопоставимых обычных моделей.

Где подвох

За скорость приходится платить точностью. На классических тестах вроде MMLU и в задачах на код DiffusionGemma уступает обычной Gemma 4 того же поколения — это размен качества на пропускную способность, а не бесплатный обед. Сама диффузионная генерация текста — технология свежая, инструментов вокруг неё пока меньше, чем вокруг привычных моделей. Но если задача не выжать максимум в бенчмарках, а быстро и дёшево обрабатывать поток на месте — чат, суммаризация, разбор документов, — то размен выглядит выгодным.

Мнение DigitalRazor

DiffusionGemma интересна не местами в рейтингах, а связкой «быстро и дёшево»: модель на 26 миллиардов параметров работает на одной станции и выдаёт сотни токенов в секунду. Для чат-ботов, суммаризации и разбора документов на месте это нередко важнее пары процентов в тестах. Когда нужна высокая пропускная способность при низкой задержке и без облака — это кандидат под компактную ИИ-станцию. Поможем подобрать станцию с видеокартой на 24 гигабайта под такие модели.

Для каких задач

Подробнее

Видеокарты

RTX / RTX PRO / H200 NVL

Объем видеопамяти до 282 ГБ

Процессоры

Threadripper PRO

Количество ядер до 96

RAM до 1024 ГБ DDR5

Форм-фактор 4.5U

Для каких задач

Подробнее

Видеокарты

RTX / RTX PRO / H200 NVL

Объем видеопамяти до 576 ГБ

Процессоры

Threadripper PRO

Количество ядер до 96

RAM до 1024 ГБ DDR5

Форм-фактор 6.5U

Для каких задач

Подробнее

Видеокарты

RTX PRO 6000 / RTX 5090

Объем видеопамяти до 768 ГБ

Процессоры

AMD Epyc, Intel Xeon

Количество ядер до 320

RAM до 3072 ГБ DDR5

Форм-фактор 6U

Для каких задач

Подробнее

Видеокарты

L40s / RTX PRO / H200 NVL

Объем видеопамяти до 564 ГБ

Процессоры

AMD EPYC, Intel Xeon

Количество ядер до 128

RAM до 1536 ГБ DDR5

Форм-фактор 2U

Для каких задач

Подробнее

Видеокарты

L40s / RTX PRO / H200 NVL

Объем видеопамяти до 1128 ГБ

Процессоры

AMD EPYC, Intel Xeon

Количество ядер до 256

RAM до 2048 ГБ DDR5

Форм-фактор 4U

Для каких задач

Подробнее

Видеокарты

NVIDIA H200 SXM

Объем видеопамяти до 1128 ГБ

Процессоры

AMD EPYC, Intel Xeon

Количество ядер до 256

RAM до 2048 ГБ DDR5

Форм-фактор 5U

Не пропусти главное в мире ПК

Мы публикуем последние новости из компьютерного мира. Подписывайся, чтобы быть в курсе и ничего не пропустить.

Получите готовый ПК под свои задачи

Подберём ПК под ваши задачи, соберём, протестируем и доставим готовым к работе.

Собрать свой ПК

или свяжитесь с нами

ИИ

Автор DigitalRazor

Мы более 10 лет разрабатываем и производим современные компьютеры, рабочие станции и GPU-серверы, сочетая технологии, опыт и индивидуальный подход.
Наша миссия — делать выбор техники простым и вдохновлять пользователей на новые достижения.

Все статьи автора