8 800 500-99-26 Для звонков по России
Nemotron 3 Ultra: открытые 550 млрд — что под них нужно
Софт
3 мин

Nemotron 3 Ultra: открытые 550 млрд — что под них нужно

DigitalRazor
DigitalRazor
Подписаться в Telegram
Содержание 4 раздела
Краткое содержание Что за модель и чем она необычна Сколько это видеопамяти Что учесть закупщику
Подберём сервер под вашу задачу

Подберём конфигурацию сервера и отправим предложение.

Смотреть серверы
или свяжитесь с нами
Telegram Telegram WhatsApp WhatsApp ВКонтакте ВКонтакте MAX MAX

Подберём сервер под задачи

Ответьте на несколько вопросов — подготовим предложение

NVIDIA отдала в открытый доступ Nemotron 3 Ultra — флагманскую модель на 550 миллиардов параметров. Открыты не только веса, но и обучающие данные с рецептами: бери, запускай у себя, дообучай под свою задачу. Но прежде чем радоваться, считаем железо. Разберём по делу: сколько видеопамяти и сколько ускорителей нужно, чтобы поднять такую модель в своём контуре.

Краткое содержание

  • 550 млрд параметров всего, активны лишь 55 млрд — архитектура «смесь экспертов» (MoE), гибрид Transformer и Mamba;
  • открыты веса, обучающие данные и рецепты (лицензия OpenMDW) — модель можно поднять у себя и дообучить под свою задачу;
  • одна сборка запускается на трёх поколениях ускорителей — Ampere, Hopper и Blackwell;
  • чтобы держать модель локально, нужно ориентировочно от ~300 ГБ видеопамяти (NVFP4) до ~1,1 ТБ (BF16).

Что за модель и чем она необычна

Nemotron 3 Ultra — флагман линейки открытых моделей NVIDIA. Внутри 550 миллиардов параметров, но на каждый токен работает лишь около 55 миллиардов: это «смесь экспертов», когда из общего набора задействуется только нужная часть. Поверх неё — гибрид классического трансформера и блоков Mamba, которые обрабатывают длинные последовательности почти линейно. Благодаря этому контекст в миллион токенов перестаёт быть аттракционом и становится рабочим инструментом.

Лицензия — OpenMDW: модель можно поднять в собственном периметре, дообучить под свою предметную область и не гонять данные наружу. По заявленным замерам, генерация идёт примерно впятеро быстрее открытых моделей того же класса, а на типовой задаче уходит на треть меньше токенов.

Сколько это видеопамяти

Главная ловушка «смеси экспертов» в том, что в память нужно загрузить все 550 миллиардов параметров, даже если на каждом шаге считается лишь часть. Активные 55 миллиардов определяют скорость, а полный объём — требования к видеопамяти. В пересчёте на вес модели картина такая:

  • формат BF16 (без сжатия) — около 1,1 ТБ видеопамяти, это два узла по восемь ускорителей;
  • формат FP8 — порядка 550 ГБ, помещается в один узел из восьми ускорителей по 80 ГБ;
  • формат NVFP4 на Blackwell — ориентировочно 300 ГБ, хватит четырёх-пяти ускорителей.

Сверху ляжет кэш под контекст: миллион токенов требует памяти отдельно. Здесь и выручают блоки Mamba — по объёму они растут куда скромнее, чем чистый трансформер, поэтому длинный контекст обходится дешевле, чем у привычных моделей.

Что учесть закупщику

Приятный нюанс: одна и та же сборка идёт на трёх поколениях ускорителей — Ampere, Hopper и Blackwell. Парк, который уже стоит в стойке, скорее всего, подойдёт; ради лучшей плотности по памяти и формата NVFP4 имеет смысл смотреть на Blackwell, но входной билет — это не обязательно новейшее железо. Запускать можно через готовый микросервис NIM или вручную, дообучать — через NeMo.

Дальше — простая экономика. Держать такую модель в аренде по токенам удобно для экспериментов, но при постоянной нагрузке и требованиях к данным свой GPU-сервер окупается и оставляет всё внутри контура. Вопрос лишь в том, чтобы трезво посчитать видеопамять и не переплатить за избыточную конфигурацию.

Мнение DigitalRazor

Открытые веса вместе с данными и рецептами — редкий случай, когда серьёзную модель можно полностью забрать к себе и дообучить под свою задачу. Для устойчивой нагрузки это весомый довод в пользу собственного GPU-сервера, а не аренды по токенам. Поможем посчитать видеопамять под нужный формат и собрать узел без переплаты за лишние ускорители.

Для каких задач Компактный GPU-сервер до 2 видеокарт для начальных задач в AI и графике. Оптимален для инференса, визуализации, VFX и рендеринга в студиях и лабораториях, где важна гибкость.
Подробнее
Видеокарты
RTX / RTX PRO / H200 NVL
Объем видеопамяти до 282 ГБ
Процессоры
Threadripper PRO
Количество ядер до 96
RAM до 1024 ГБ DDR5
Форм-фактор 4.5U
Для каких задач Универсальная платформа на 4–6 GPU для локального обучения моделей и генеративных задач. Подходит для команд, которым важна надёжность сервера и свобода выбора графики — от RTX 5090 до PRO RTX 6000.
Подробнее
Видеокарты
RTX / RTX PRO / H200 NVL
Объем видеопамяти до 576 ГБ
Процессоры
Threadripper PRO
Количество ядер до 96
RAM до 1024 ГБ DDR5
Форм-фактор 6.5U
Для каких задач Сервер промышленного уровня на 8 GPU с кластерной архитектурой. Предназначен для дата-центров и AI-ферм, где требуется масштабируемость и полная загрузка ресурсов под обучение LLM и R&D.
Подробнее
Видеокарты
RTX PRO 6000 / RTX 5090
Объем видеопамяти до 768 ГБ
Процессоры
AMD Epyc, Intel Xeon
Количество ядер до 320
RAM до 3072 ГБ DDR5
Форм-фактор 6U
Для каких задач Серия серверов для кластеризации на 4 GPU. Предназначены для дата-центров и AI-ферм, где требуется повышенная плотность для обучение LLM и R&D.
Подробнее
Видеокарты
L40s / RTX PRO / H200 NVL
Объем видеопамяти до 564 ГБ
Процессоры
AMD EPYC, Intel Xeon
Количество ядер до 128
RAM до 1536 ГБ DDR5
Форм-фактор 2U
Для каких задач Серия серверов для кластеризации на 8 GPU. Предназначены для дата-центров и AI-ферм, где требуется повышенная плотность для обучение LLM и R&D.
Подробнее
Видеокарты
L40s / RTX PRO / H200 NVL
Объем видеопамяти до 1128 ГБ
Процессоры
AMD EPYC, Intel Xeon
Количество ядер до 256
RAM до 2048 ГБ DDR5
Форм-фактор 4U
Для каких задач HGX объединяет 8 видеокарт NVIDIA H200, достигая экстремальной плотности производительности. Благодаря внутренней связности NVSwitch мгновенно интегрируется в масштабные вычислительные кластеры.
Подробнее
Видеокарты
NVIDIA H200 SXM
Объем видеопамяти до 1128 ГБ
Процессоры
AMD EPYC, Intel Xeon
Количество ядер до 256
RAM до 2048 ГБ DDR5
Форм-фактор 5U
Подберём сервер под вашу задачу

Подберём конфигурацию сервера и отправим предложение.

Смотреть серверы
или свяжитесь с нами
Telegram Telegram WhatsApp WhatsApp ВКонтакте ВКонтакте MAX MAX
9.1К

Так же будет интересно почитать

Сайт использует cookies
Узнать подробнее