Alibaba продолжает череду релизов новых ИИ-моделей и 8 сентября компания вновь порадовала сообщество, представив нейросеть Qwen3-ASR-Flash для распознавания речи. Разработанная на базе флагманской архитектуры Qwen3-Omni и обученная на массиве данных объемом в десятки миллионов часов аудиозаписей, эта система устанавливает новые стандарты в своей нише.
Подробнее о Alibaba Qwen3-ASR-Flash
В отличие от традиционных решений, модель Qwen3-ASR-Flash демонстрирует высочайшую точность даже в условиях акустических помех и при работе со сложными лингвистическими конструкциями. Бенчмарки Alibaba подтвердили, что нейросеть превосходит своих конкурентов. При работе с традиционным китайским языком (путунхуа) показатель ошибок составил лишь 3,97%, что значительно лучше результатов Gemini-2.5-Pro (8,98%) и GPT4o-Transcribe (15,72%). Модель также успешно справляется с распознаванием региональных акцентов, демонстрируя всего 3,48% ошибок для китайских диалектов и 3,81% для английской речи. При расшифровке текстов песен уровень ошибок не превысил 4,51%, что существенно ниже показателей конкурентов. Внутренние тесты с полными музыкальными композициями подтвердили это преимущество: 9,96% против 32,79% у Gemini-2.5-Pro и 58,59% у GPT4o-Transcribe.
Результаты тестирования ИИ-модели Qwen3-ASR-Flash для транскрибации речи. Источник: .
Такой выдающейся производительности удалось добиться благодаря использованию гибкой системы контекстной коррекции. Пока стандартные ИИ для транскрибации требуют строгого форматирования ключевых слов, Qwen3-ASR-Flash позволяет использовать произвольные текстовые материалы для улучшения точности распознавания. Пользователи могут предоставлять списки терминов, полноценные документы или их комбинацию без необходимости сложной предварительной обработки запроса.
Нейросеть Qwen3-ASR-Flash поддерживает 11 языков с учетом диалектных особенностей, включая путунхуа, кантонский, сычуаньский, миньнаньский, британский и американский варианты английского, а также французский, немецкий, испанский, итальянский, португальский, русский, японский, корейский и арабский языки. Дополнительные возможности Qwen3-ASR-Flash включают автоматическое определение языка речи, фильтрацию неречевых фрагментов и подавление фонового шума, что обеспечивает беспрецедентное качество расшифровки по сравнению с существующими аналогами.
Выводы
Alibaba постепенно занимает весомую долю рынка специализированных ИИ-моделей, наращивая конкуренцию с OpenAI, Google и Nvidia. Причем, компания делает успехи не только в области нишевых ИИ, но и в секторе больших языковых моделей, что подтверждается недавним анонсом новой облачной нейросети Qwen3-Max-Preview.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.