
MiniMax M3: что нужно, чтобы поднять 428 млрд у себя
Подберём игровой ПК за 2 шага
Ответьте на несколько вопросов — покажем готовые сборки
MiniMax выложила в открытый доступ M3 — мультимодальную модель на 428 млрд параметров с контекстом в миллион токенов. Веса доступны всем, запускать можно у себя. Вопрос ровно один: какое железо для этого нужно. Разбираем по «железному» счёту — сколько это видеопамяти и сколько ускорителей под одну такую модель.
Краткое содержание
- 428 млрд параметров всего, активны лишь 23 млрд — архитектура «смесь экспертов» (MoE);
- открытые веса, запуск через vLLM, SGLang или Transformers — модель остаётся в вашем периметре;
- родная мультимодальность (текст, изображения, видео) и контекст до 1 млн токенов;
- чтобы держать модель локально, нужно от ~220 ГБ видеопамяти со сжатием и до ~450 ГБ без него.
Что за модель
M3 построена по схеме «смесь экспертов»: из 428 млрд параметров на каждый токен работают только 23 млрд. Вычисления от этого дешевеют — модель отвечает как небольшая, а знает как большая. Сверху — новый механизм внимания MiniMax Sparse Attention: на контексте в миллион токенов разработчики обещают девятикратное ускорение на обработке запроса и пятнадцатикратное на генерации против прошлой версии, M2. Модель родно работает с текстом, картинками и видео, а в тестах на агентные задачи держит крепкий уровень — например, 59 процентов на SWE-Bench Pro.
Сколько железа нужно, чтобы поднять её у себя
Здесь кроется главный нюанс «смеси экспертов» — обманчивая лёгкость. Активны 23 млрд параметров, но в видеопамяти должны лежать все 428 млрд: выгружать неактивных экспертов в оперативную память нельзя, иначе задержки убьют интерактивность. Отсюда и аппетит к видеопамяти. По оценкам сообщества, в сжатом виде модель занимает примерно так:
- без сжатия (8 бит) — ориентировочно 430–450 ГБ видеопамяти;
- умеренное сжатие (5–6 бит) — около 280–360 ГБ;
- агрессивное (4 бита) — порядка 220–250 ГБ при разумном балансе качества;
- плюс запас под кэш контекста: миллион токенов требует памяти сверх этого.
Вывод простой: одной видеокартой не обойтись. Даже в сжатии до 4 бит нужен сервер с несколькими ускорителями — например, четыре карты по 80 ГБ или пара по 141 ГБ. Без сжатия счёт идёт уже на шесть-восемь ускорителей. Это полноценный GPU-сервер, а не рабочая станция под столом.
Что это значит для закупщика
Открытые веса дают то, чего не даёт облачный доступ: модель остаётся внутри периметра, данные не уходят наружу, а стоимость запросов не растёт со временем. Плата за это — стартовые вложения в железо. Если M3 нужна под агентов, разработку или работу с длинными документами и при этом критична приватность, экономика складывается в пользу своего GPU-сервера. Если запросов немного, а приватность некритична, дешевле арендовать мощности. Граница проходит по объёму нагрузки и требованиям к данным — и считать её нужно под конкретный сценарий.
Мнение DigitalRazor
M3 — наглядный пример того, как открытые модели разгоняют спрос на серверные GPU. «Смесь экспертов» экономит на вычислениях, но не на памяти: чтобы держать 428 млрд параметров локально, нужен узел с несколькими ускорителями и честно посчитанным объёмом видеопамяти под модель и контекст. Перед закупкой зафиксируйте целевое квантование и длину контекста — от них напрямую зависит, хватит ли четырёх карт или понадобится восемь. Поможем подобрать и собрать GPU-сервер под конкретную модель.
Не пропусти главное в мире ПК
Мы публикуем последние новости из компьютерного мира. Подписывайся, чтобы быть в курсе и ничего не пропустить.














