
Nemotron 3 Ultra: открытые 550 млрд — что под них нужно
Подберём сервер под задачи
Ответьте на несколько вопросов — подготовим предложение
NVIDIA отдала в открытый доступ Nemotron 3 Ultra — флагманскую модель на 550 миллиардов параметров. Открыты не только веса, но и обучающие данные с рецептами: бери, запускай у себя, дообучай под свою задачу. Но прежде чем радоваться, считаем железо. Разберём по делу: сколько видеопамяти и сколько ускорителей нужно, чтобы поднять такую модель в своём контуре.
Краткое содержание
- 550 млрд параметров всего, активны лишь 55 млрд — архитектура «смесь экспертов» (MoE), гибрид Transformer и Mamba;
- открыты веса, обучающие данные и рецепты (лицензия OpenMDW) — модель можно поднять у себя и дообучить под свою задачу;
- одна сборка запускается на трёх поколениях ускорителей — Ampere, Hopper и Blackwell;
- чтобы держать модель локально, нужно ориентировочно от ~300 ГБ видеопамяти (NVFP4) до ~1,1 ТБ (BF16).
Что за модель и чем она необычна
Nemotron 3 Ultra — флагман линейки открытых моделей NVIDIA. Внутри 550 миллиардов параметров, но на каждый токен работает лишь около 55 миллиардов: это «смесь экспертов», когда из общего набора задействуется только нужная часть. Поверх неё — гибрид классического трансформера и блоков Mamba, которые обрабатывают длинные последовательности почти линейно. Благодаря этому контекст в миллион токенов перестаёт быть аттракционом и становится рабочим инструментом.
Лицензия — OpenMDW: модель можно поднять в собственном периметре, дообучить под свою предметную область и не гонять данные наружу. По заявленным замерам, генерация идёт примерно впятеро быстрее открытых моделей того же класса, а на типовой задаче уходит на треть меньше токенов.
Сколько это видеопамяти
Главная ловушка «смеси экспертов» в том, что в память нужно загрузить все 550 миллиардов параметров, даже если на каждом шаге считается лишь часть. Активные 55 миллиардов определяют скорость, а полный объём — требования к видеопамяти. В пересчёте на вес модели картина такая:
- формат BF16 (без сжатия) — около 1,1 ТБ видеопамяти, это два узла по восемь ускорителей;
- формат FP8 — порядка 550 ГБ, помещается в один узел из восьми ускорителей по 80 ГБ;
- формат NVFP4 на Blackwell — ориентировочно 300 ГБ, хватит четырёх-пяти ускорителей.
Сверху ляжет кэш под контекст: миллион токенов требует памяти отдельно. Здесь и выручают блоки Mamba — по объёму они растут куда скромнее, чем чистый трансформер, поэтому длинный контекст обходится дешевле, чем у привычных моделей.
Что учесть закупщику
Приятный нюанс: одна и та же сборка идёт на трёх поколениях ускорителей — Ampere, Hopper и Blackwell. Парк, который уже стоит в стойке, скорее всего, подойдёт; ради лучшей плотности по памяти и формата NVFP4 имеет смысл смотреть на Blackwell, но входной билет — это не обязательно новейшее железо. Запускать можно через готовый микросервис NIM или вручную, дообучать — через NeMo.
Дальше — простая экономика. Держать такую модель в аренде по токенам удобно для экспериментов, но при постоянной нагрузке и требованиях к данным свой GPU-сервер окупается и оставляет всё внутри контура. Вопрос лишь в том, чтобы трезво посчитать видеопамять и не переплатить за избыточную конфигурацию.
Мнение DigitalRazor
Открытые веса вместе с данными и рецептами — редкий случай, когда серьёзную модель можно полностью забрать к себе и дообучить под свою задачу. Для устойчивой нагрузки это весомый довод в пользу собственного GPU-сервера, а не аренды по токенам. Поможем посчитать видеопамять под нужный формат и собрать узел без переплаты за лишние ускорители.













