
GLM-5.2: открытые 753 млрд против GPT-5.5
Подберём игровой ПК за 2 шага
Ответьте на несколько вопросов — покажем готовые сборки
Z.ai (бывшая Zhipu AI) выложила в открытый доступ GLM-5.2 — модель на 753 миллиарда параметров с контекстом в миллион токенов и лицензией MIT. Для бизнеса важно вот что: на коде она обходит закрытую GPT-5.5, а держать её можно в своём контуре, без облака. Остаётся один вопрос — какое железо потянет такую модель.
Краткое содержание
- 753 млрд параметров всего, активны лишь 98 млрд — это «смесь экспертов» (MoE), 8 из 256 на каждый токен;
- веса открыты, лицензия MIT — модель можно поднять в своём периметре и использовать в коммерции;
- контекст до 1 млн токенов; на коде обходит GPT-5.5 — SWE-bench Pro 62,1 против 58,6;
- под локальный запуск нужно около 754 ГБ видеопамяти в FP8 и до 1,5 ТБ в BF16.
Что выложила Z.ai
GLM-5.2 — открытая модель от китайской Z.ai, бывшей Zhipu AI. Внутри «смесь экспертов»: из 753 миллиардов параметров на каждый токен работают только 98 миллиардов, восемь экспертов из 256. Это держит цену инференса ниже, чем у плотной модели того же размера. Контекст подняли с прежних 200 тысяч токенов до миллиона, а обучали модель на длинных сессиях кодовых агентов — отсюда её сила в инженерных задачах.
Чем обошла закрытых конкурентов
Главная интрига — открытая модель догнала и местами обошла закрытых лидеров. На Design Arena GLM-5.2 вышла на первое место с рейтингом 1360 против 1350 у Claude Fable 5. На инженерных тестах счёт тоже в её пользу:
- SWE-bench Pro — 62,1 против 58,6 у GPT-5.5;
- FrontierSWE — 74,4 процента против 72,6;
- Terminal-Bench 2.1 — 81,0; это первая открытая модель, перешагнувшая планку в 80 процентов.
Плюс цена: за токен GLM-5.2 выходит примерно в шесть раз дешевле GPT-5.5. Для тех, кто гоняет кодового ассистента на потоке, разница в счёте за месяц получается ощутимой.
Сколько железа нужно, чтобы поднять её у себя
Открытые веса — это половина дела. Вторая половина в том, на чём всё это запускать. Модель большая, и даже в сжатом виде требует серверного масштаба памяти:
- FP8 — около 754 ГБ только под веса: это узел из восьми ускорителей со 140 ГБ видеопамяти и больше, восемь карт дают примерно 1,1 ТБ и оставляют запас под контекст;
- BF16, полные веса — порядка 1,5 ТБ, это уже два таких узла, шестнадцать ускорителей;
- контекст в миллион токенов раздувает кэш, поэтому память нужна сверх весов — закладывайте запас.
Архитектура немного помогает: механизм IndexShare снижает число операций в 2,9 раза, а предсказание нескольких токенов сразу ускоряет генерацию. Но на объём памяти это не влияет — веса всё равно нужно куда-то положить.
Где подвох
GLM-5.2 — не коробка под столом. Это сервер, а под полные веса — два сервера, набитых ускорителями с большой видеопамятью. Главный барьер в России именно тут: достать восемь, а то и шестнадцать карт уровня 140 гигабайт сложнее и дороже, чем саму модель скачать. Лицензия MIT в этом смысле — приятная редкость: коммерческое использование без региональных ограничений, что для импортозамещения важно. Модель заточена под код и агентов; ради обычного чат-бота держать отдельный узел смысла мало.
Мнение DigitalRazor
GLM-5.2 — редкий случай, когда открытая модель реально догнала закрытых лидеров на коде и при этом остаётся в вашем периметре. Но порог входа железный: под FP8 нужен узел из восьми ускорителей с большой видеопамятью, под полные веса — два. Если цель — свой ассистент для разработки с кодом внутри контура, посчитайте экономику собственного GPU-сервера против аренды и облачного API на горизонте года. Под нужный формат модели мы соберём узел и заложим запас памяти под длинный контекст.
Не пропусти главное в мире ПК
Мы публикуем последние новости из компьютерного мира. Подписывайся, чтобы быть в курсе и ничего не пропустить.














