
Qwen3.5-Omni: 256 тысяч токенов контекста и генерация речи в реальном времени
Команда Alibaba Cloud представила Qwen3.5-Omni — новое поколение продвинутой мультимодальной модели. Она принимает на вход текст, изображения, аудио и видео, а затем генерирует текст и человеческую речь в режиме реального времени. Компания выпустила новинку сразу в трёх размерах — Plus, Flash и Light. Получить доступ к ним можно через Offline API и Realtime API.
Краткое содержание
- Команда Alibaba Cloud представила мультимодальные модели Qwen3.5-Omni;
- Контекстное окно новинки расширили с 32 до 256 тысяч токенов;
- Нейросеть распознаёт 113 языков и превосходит конкурентов в тестах;
- Алгоритмы научились самостоятельно писать код по видеозаписям экрана.
Расширенный контекст и архитектура
Главным отличием новинки от предшественника Qwen3-Omni стал серьёзно возросший масштаб. Контекстное окно расширили с 32 тысяч до 256 тысяч токенов. Теперь модель легко обрабатывает более 10 часов аудио или около 400 секунд видео в разрешении 720p за один запрос.
Распознавание речи охватывает 113 языков и диалектов, хотя ранее алгоритмы понимали всего 19. Синтез голоса также шагнул вперёд — нейросеть свободно говорит на 36 языках вместо прежних 10. Оба ключевых компонента системы под названиями Thinker и Talker перешли на архитектуру Hybrid-Attention MoE.
Алгоритмы прошли предварительное обучение на массиве из более чем 100 миллионов часов аудиовизуальных данных. Для тренировки и локального запуска столь масштабных проектов требуются серьёзные вычислительные мощности. Для этих целей отлично подойдут современные серверы для искусственного интеллекта с топовыми видеокартами на борту.
Доминирование в тестах и умный стриминг
Версия Plus продемонстрировала выдающиеся результаты на большинстве из 36 аудиовизуальных бенчмарков. В задачах общего понимания звука, перевода и ведения диалога она уверенно обошла модель Gemini 3.1 Pro. Генерация речи тоже оказалась на высоте. Модель Qwen3.5-Omni-Plus обогнала решения от ElevenLabs, GPT-Audio и Minimax по стабильности голоса.
Среди свежих возможностей появилась функция семантического прерывания. ИИ чётко отличает реальную реплику человека от случайного фонового шума. Также компания добавила клонирование голоса, гибкое управление эмоциями, встроенный WebSearch и инструмент FunctionCall. Технология ARIA динамически выравнивает текстовые и речевые токены. Это полностью устраняет пропуски слов при потоковом воспроизведении.
Написание кода по видеозаписи
Неожиданным побочным эффектом такого масштабного расширения стала совершенно новая способность. Представители Alibaba Cloud назвали эту фишку Audio-Visual Vibe Coding. Модель внимательно смотрит видеозапись экрана с аудиоинструкциями и затем пишет полностью рабочий программный код. Ей даже не нужен текстовый промпт для старта работы.
В компании подчёркивают, что никто не тренировал эту способность целенаправленно. Она возникла сама по себе как эмерджентное свойство в процессе обработки колоссальных объёмов информации.
Работать с подобными ИИ-инструментами и писать собственный код гораздо приятнее на качественном оборудовании. Мощные рабочие станции от DigitalRazor обеспечат безупречную плавность любых процессов и позволят забыть о системных зависаниях.
Не пропусти главное в мире ПК
Мы публикуем последние новости из компьютерного мира. Подписывайся, чтобы быть в курсе и ничего не пропустить.










