Top.Mail.Ru
Alibaba Qwen3-ASR-Flash — передовая модель для распознавания речи | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

Alibaba Qwen3-ASR-Flash — передовая модель для распознавания речи

~ 2 мин
55
Простой
Новости
Alibaba Qwen3-ASR-Flash — передовая модель для распознавания речи

Введение

Alibaba продолжает череду релизов новых ИИ-моделей и 8 сентября компания вновь порадовала сообщество, представив нейросеть Qwen3-ASR-Flash для распознавания речи. Разработанная на базе флагманской архитектуры Qwen3-Omni и обученная на массиве данных объемом в десятки миллионов часов аудиозаписей, эта система устанавливает новые стандарты в своей нише.

Подробнее о Alibaba Qwen3-ASR-Flash

В отличие от традиционных решений, модель Qwen3-ASR-Flash демонстрирует высочайшую точность даже в условиях акустических помех и при работе со сложными лингвистическими конструкциями. Бенчмарки Alibaba подтвердили, что нейросеть превосходит своих конкурентов. При работе с традиционным китайским языком (путунхуа) показатель ошибок составил лишь 3,97%, что значительно лучше результатов Gemini-2.5-Pro (8,98%) и GPT4o-Transcribe (15,72%). Модель также успешно справляется с распознаванием региональных акцентов, демонстрируя всего 3,48% ошибок для китайских диалектов и 3,81% для английской речи. При расшифровке текстов песен уровень ошибок не превысил 4,51%, что существенно ниже показателей конкурентов. Внутренние тесты с полными музыкальными композициями подтвердили это преимущество: 9,96% против 32,79% у Gemini-2.5-Pro и 58,59% у GPT4o-Transcribe.

Результаты тестирования ИИ-модели Qwen3-ASR-Flash
Результаты тестирования ИИ-модели Qwen3-ASR-Flash для транскрибации речи. Источник: X.

Такой выдающейся производительности удалось добиться благодаря использованию гибкой системы контекстной коррекции. Пока стандартные ИИ для транскрибации требуют строгого форматирования ключевых слов, Qwen3-ASR-Flash позволяет использовать произвольные текстовые материалы для улучшения точности распознавания. Пользователи могут предоставлять списки терминов, полноценные документы или их комбинацию без необходимости сложной предварительной обработки запроса.

Нейросеть Qwen3-ASR-Flash поддерживает 11 языков с учетом диалектных особенностей, включая путунхуа, кантонский, сычуаньский, миньнаньский, британский и американский варианты английского, а также французский, немецкий, испанский, итальянский, португальский, русский, японский, корейский и арабский языки. Дополнительные возможности Qwen3-ASR-Flash включают автоматическое определение языка речи, фильтрацию неречевых фрагментов и подавление фонового шума, что обеспечивает беспрецедентное качество расшифровки по сравнению с существующими аналогами.

Выводы

Alibaba постепенно занимает весомую долю рынка специализированных ИИ-моделей, наращивая конкуренцию с OpenAI, Google и Nvidia. Причем, компания делает успехи не только в области нишевых ИИ, но и в секторе больших языковых моделей, что подтверждается недавним анонсом новой облачной нейросети Qwen3-Max-Preview.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-19:00 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-19:00 (по МСК)