8 800 500-99-26 Для звонков по России
Qwen3.5-Omni: 256 тысяч токенов контекста и генерация речи в реальном времени
Софт
2 мин

Qwen3.5-Omni: 256 тысяч токенов контекста и генерация речи в реальном времени

Содержание 4 раздела
Краткое содержание Расширенный контекст и архитектура Доминирование в тестах и умный стриминг Написание кода по видеозаписи
Получите готовый ПК под свои задачи

Подберём ПК под ваши задачи, соберём, протестируем и доставим готовым к работе.

Собрать свой ПК
или свяжитесь с нами
Telegram Telegram WhatsApp WhatsApp ВКонтакте ВКонтакте MAX MAX
DigitalRazor
DigitalRazor
Подписаться в Telegram

Команда Alibaba Cloud представила Qwen3.5-Omni — новое поколение продвинутой мультимодальной модели. Она принимает на вход текст, изображения, аудио и видео, а затем генерирует текст и человеческую речь в режиме реального времени. Компания выпустила новинку сразу в трёх размерах — Plus, Flash и Light. Получить доступ к ним можно через Offline API и Realtime API.

Краткое содержание

  • Команда Alibaba Cloud представила мультимодальные модели Qwen3.5-Omni;
  • Контекстное окно новинки расширили с 32 до 256 тысяч токенов;
  • Нейросеть распознаёт 113 языков и превосходит конкурентов в тестах;
  • Алгоритмы научились самостоятельно писать код по видеозаписям экрана.

Расширенный контекст и архитектура

Главным отличием новинки от предшественника Qwen3-Omni стал серьёзно возросший масштаб. Контекстное окно расширили с 32 тысяч до 256 тысяч токенов. Теперь модель легко обрабатывает более 10 часов аудио или около 400 секунд видео в разрешении 720p за один запрос.

Qwen3.5-Omni

Распознавание речи охватывает 113 языков и диалектов, хотя ранее алгоритмы понимали всего 19. Синтез голоса также шагнул вперёд — нейросеть свободно говорит на 36 языках вместо прежних 10. Оба ключевых компонента системы под названиями Thinker и Talker перешли на архитектуру Hybrid-Attention MoE.

Алгоритмы прошли предварительное обучение на массиве из более чем 100 миллионов часов аудиовизуальных данных. Для тренировки и локального запуска столь масштабных проектов требуются серьёзные вычислительные мощности. Для этих целей отлично подойдут современные серверы для искусственного интеллекта с топовыми видеокартами на борту.

Доминирование в тестах и умный стриминг

Версия Plus продемонстрировала выдающиеся результаты на большинстве из 36 аудиовизуальных бенчмарков. В задачах общего понимания звука, перевода и ведения диалога она уверенно обошла модель Gemini 3.1 Pro. Генерация речи тоже оказалась на высоте. Модель Qwen3.5-Omni-Plus обогнала решения от ElevenLabs, GPT-Audio и Minimax по стабильности голоса.

Qwen3.5-Omni
Qwen3.5-Omni
Qwen3.5-Omni

Среди свежих возможностей появилась функция семантического прерывания. ИИ чётко отличает реальную реплику человека от случайного фонового шума. Также компания добавила клонирование голоса, гибкое управление эмоциями, встроенный WebSearch и инструмент FunctionCall. Технология ARIA динамически выравнивает текстовые и речевые токены. Это полностью устраняет пропуски слов при потоковом воспроизведении.

Qwen3.5-Omni
Qwen3.5-Omni

Написание кода по видеозаписи

Неожиданным побочным эффектом такого масштабного расширения стала совершенно новая способность. Представители Alibaba Cloud назвали эту фишку Audio-Visual Vibe Coding. Модель внимательно смотрит видеозапись экрана с аудиоинструкциями и затем пишет полностью рабочий программный код. Ей даже не нужен текстовый промпт для старта работы.

В компании подчёркивают, что никто не тренировал эту способность целенаправленно. Она возникла сама по себе как эмерджентное свойство в процессе обработки колоссальных объёмов информации.

Работать с подобными ИИ-инструментами и писать собственный код гораздо приятнее на качественном оборудовании. Мощные рабочие станции от DigitalRazor обеспечат безупречную плавность любых процессов и позволят забыть о системных зависаниях.

Не пропусти главное в мире ПК

Мы публикуем последние новости из компьютерного мира. Подписывайся, чтобы быть в курсе и ничего не пропустить.

Подписаться 142к
Получите готовый ПК под свои задачи

Подберём ПК под ваши задачи, соберём, протестируем и доставим готовым к работе.

Собрать свой ПК
или свяжитесь с нами
Telegram Telegram WhatsApp WhatsApp ВКонтакте ВКонтакте MAX MAX
10.2К

Так же будет интересно почитать

Сайт использует cookies
Узнать подробнее