8 800 500-99-26 Для звонков по России

Игровые ПК

Все модели

Модельный ряд
DigitalRazor

Уникальные

Уникальные компьютеры
с твоим дизайном

ПК в наличии

ПК готовые к отгрузке
в день заказа

Конфигуратор

Собрать
компьютер мечты

Подобрать игровой компьютер

По особенностям

По задачам

По видеокарте

По процессору

По цене

По играм

Рабочие станции

Персональные системы для 3D-графики, видеомонтажа и инжиниринга. Максимальная стабильность в профессиональном ПО.

GPU-серверы

Платформы для ИИ и HPC с поддержкой до 8 GPU. Создание отказоустойчивых кластеров для непрерывной обработки данных.

Подобрать рабочую станцию

По направлению

По задачам ИИ

По видеокарте

По процессору

По программам

GPU-серверы

Посмотреть все

RackStation Ai

Компактные решения для рендер-ферм, VFX и инференса

DevBox AI

Для локального обучения LLM, генеративных моделей и R&D

Scale

Для LLM > 70b, генеративных моделей и корпоративных задач.

HPC

Для построения AI кластеров, R&D центров и дата-центров

Ответьте на несколько вопросов о проекте — инженер подготовит детальный расчет

Подобрать GPU-сервер

По задачам ИИ

По видеокарте

По конфигурации

По процессору

Услуги

Посмотреть все

Апгрейд центр

Трейд-ин

Аксессуары

Клиентам

Подробные правила и условия обмена и возврата товаров

Частые вопросы

Быстрый способ найти ответ на интересующий вас вопрос

Компания

Почему выбирают компанию DigitalRazor

Уникальность, агрессивный дизайн, эффективность и мощная производительность.

Подробнее

Контакты Связаться с нами Отзывы Более 20 тыс. довольных клиентов Вакансии Стань частью нашей команды Проекты Истории реализованных проектов

Медиа

Новости События из мира игр, технологий и индустрии Статьи Полезные статьи о железе, играх и всём, что между

8 800 500-99-26 Ежедневно с 10:00 до 20:00

Главная
Медиа
Новости
Софт
Релиз Mamba-3: новая ИИ-модель с уникальной архитектурой для быстрого инференса

Релиз Mamba-3: новая ИИ-модель с уникальной архитектурой для быстрого инференса

Олег Олегович

Новости

Релиз Mamba-3: новая ИИ-модель с уникальной архитектурой для быстрого инференса

19.03.2026

3 мин

Подписаться в Telegram

Содержание

Краткое содержание
Ограничения линейных моделей и фокус на инференс
Три главных архитектурных изменения
Отказ от коротких свёрток и гибридное будущее
Открытый исходный код и оптимизация ядер

Не знаете, какой ПК взять?

Ответьте на несколько вопросов — получите готовую сборку с ценой.

Команда Together AI совместно с ведущими научными институтами официально представила новую языковую модель Mamba-3. Предыдущая версия системы делала упор на ускорение процесса обучения, но теперь фокус полностью сместился на максимальную скорость генерации текста. Новая архитектура класса SSM обходит популярные решения и классические трансформеры по скорости работы при сохранении невероятно высокого качества ответов.

Краткое содержание

Состоялся релиз новой языковой модели Mamba-3 от команды Together AI;
Главной целью проекта стало ускорение инференса и снижение задержек при генерации;
Модель получила уникальную архитектуру с поддержкой комплексных чисел и технологии MIMO;
Новинка обходит классические трансформеры по скорости работы на любых длинах контекста;
Команда проекта выложила исходный код ядер в открытый доступ для всех желающих.

Ограничения линейных моделей и фокус на инференс

Современный рынок искусственного интеллекта диктует новые правила. Компании массово внедряют агентивные рабочие процессы, которые постоянно генерируют огромные объёмы текста для решения сложных многоступенчатых задач. Поэтому сейчас скорость выдачи готовых ответов играет более важную роль, чем скорость первоначального обучения алгоритмов на серверах. Команда Together AI приняла этот вызов и переработала внутреннюю структуру системы, чтобы обеспечить по-настоящему молниеносный инференс.

Главное преимущество линейных моделей кроется в их названии: вычислительные затраты масштабируются линейно по мере роста длины контекста. Это происходит благодаря фиксированному размеру состояния. Классический трансформер, наоборот, постоянно увеличивает потребление памяти из-за бесконечного роста кэша ключей и значений (KV-кэш). Трансформер запоминает всю прошлую информацию, а модель класса SSM вынуждена сжимать все прошлые данные в одно фиксированное представление. Чтобы заставить этот небольшой фиксированный объём памяти работать эффективнее, команде пришлось серьёзно усложнить внутреннюю математику процесса.

Три главных архитектурных изменения

Чтобы добиться превосходства над конкурентами, новая архитектура получила три ключевых изменения в базовой структуре. Во-первых, формула рекуррентности стала гораздо сложнее и выразительнее. Это позволило модели лучше улавливать контекст и взаимосвязи слов. Во-вторых, система научилась отслеживать состояния с помощью комплексных чисел, что значительно расширило её математические возможности.

В-третьих, появилась продвинутая экспериментальная версия с поддержкой технологии MIMO. Этот подход позволяет нейросети обрабатывать сразу несколько потоков данных параллельно внутри одного слоя. Такая инновация значительно повышает точность ответов без какого-либо ущерба для скорости генерации. Во время тестов версия Mamba-3 с параметром SISO уверенно обошла прошлую модель Mamba-2, популярную сеть Gated DeltaNet и даже классический трансформер Llama-3.2-1B по скорости обработки промптов и выдачи текста на всех длинах контекста при размере в 1,5 миллиарда параметров.

Отказ от коротких свёрток и гибридное будущее

Архитектура претерпела и другие важные изменения. Команда отказалась от классических коротких свёрток, которые активно использовались в прошлых версиях линейных алгоритмов. Вместо этого в систему добавили новые модули нормализации QKNorm, которые отлично стабилизируют работу всей платформы во время обучения. Также модель получила обновлённые компоненты RoPE для более эффективной работы с комплексными числами.

Несмотря на все улучшения, линейные модели с фиксированным состоянием физически уступают классическим трансформерам в задачах точного поиска информации по тексту. Трансформер просто извлекает точную цитату из своего огромного кэша, а линейная модель пытается вспомнить данные из сжатого состояния. Поэтому будущее индустрии явно в создании гибридных моделей, где молниеносные слои Mamba-3 будут работать в паре с точными слоями классического механизма внимания.

Открытый исходный код и оптимизация ядер

Команда проекта открыто делится своими наработками с сообществом. Исходный код ядер, которые написали с использованием передовых инструментов Triton, TileLang и CuTe DSL, уже лежит в публичном доступе. Такой глубокий подход к программированию на низком уровне позволил выжать максимум производительности из современных графических ускорителей архитектуры Hopper. Любой желающий энтузиаст может скачать эти быстрые ядра и использовать их для запуска собственных локальных нейросетей.

Обучение агентивного ИИ требует колоссальных ресурсов, но далеко не всегда безопасно доверять важные данные сторонним облачным сервисам. Если твоему проекту нужна надёжная и независимая инфраструктура, заказывай сборку кастомных GPU-серверов от компании DigitalRazor. Мы создаём бескомпромиссные вычислительные узлы на базе актуальных графических чипов.

Не пропусти главное в мире ПК

Мы публикуем последние новости из компьютерного мира. Подписывайся, чтобы быть в курсе и ничего не пропустить.

Подписаться 145к

ИИ

Автор Олег Олегович

С доставшимся от родителей воображением рассказываю о компьютерах и технологиях. Так что речь не о классике, если видишь слово «блок». В 14 лет починил видеокарту в духовке. Всё, что с вентилятором и радиатором — это ко мне.

Все статьи автора