Alibaba продолжает череду релизов новых ИИ-моделей и 8 сентября компания вновь порадовала сообщество, представив нейросеть Qwen3-ASR-Flash для распознавания речи. Разработанная на базе флагманской архитектуры Qwen3-Omni и обученная на массиве данных объемом в десятки миллионов часов аудиозаписей, эта система устанавливает новые стандарты в своей нише.
Подробнее о Alibaba Qwen3-ASR-Flash
В отличие от традиционных решений, модель Qwen3-ASR-Flash демонстрирует высочайшую точность даже в условиях акустических помех и при работе со сложными лингвистическими конструкциями. Бенчмарки Alibaba подтвердили, что нейросеть превосходит своих конкурентов. При работе с традиционным китайским языком (путунхуа) показатель ошибок составил лишь 3,97%, что значительно лучше результатов Gemini-2.5-Pro (8,98%) и GPT4o-Transcribe (15,72%). Модель также успешно справляется с распознаванием региональных акцентов, демонстрируя всего 3,48% ошибок для китайских диалектов и 3,81% для английской речи. При расшифровке текстов песен уровень ошибок не превысил 4,51%, что существенно ниже показателей конкурентов. Внутренние тесты с полными музыкальными композициями подтвердили это преимущество: 9,96% против 32,79% у Gemini-2.5-Pro и 58,59% у GPT4o-Transcribe.
Результаты тестирования ИИ-модели Qwen3-ASR-Flash для транскрибации речи. Источник: X.
Такой выдающейся производительности удалось добиться благодаря использованию гибкой системы контекстной коррекции. Пока стандартные ИИ для транскрибации требуют строгого форматирования ключевых слов, Qwen3-ASR-Flash позволяет использовать произвольные текстовые материалы для улучшения точности распознавания. Пользователи могут предоставлять списки терминов, полноценные документы или их комбинацию без необходимости сложной предварительной обработки запроса.
Нейросеть Qwen3-ASR-Flash поддерживает 11 языков с учетом диалектных особенностей, включая путунхуа, кантонский, сычуаньский, миньнаньский, британский и американский варианты английского, а также французский, немецкий, испанский, итальянский, португальский, русский, японский, корейский и арабский языки. Дополнительные возможности Qwen3-ASR-Flash включают автоматическое определение языка речи, фильтрацию неречевых фрагментов и подавление фонового шума, что обеспечивает беспрецедентное качество расшифровки по сравнению с существующими аналогами.
Выводы
Alibaba постепенно занимает весомую долю рынка специализированных ИИ-моделей, наращивая конкуренцию с OpenAI, Google и Nvidia. Причем, компания делает успехи не только в области нишевых ИИ, но и в секторе больших языковых моделей, что подтверждается недавним анонсом новой облачной нейросети Qwen3-Max-Preview.
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Получите скидку 3 000 рублей или бесплатную доставку за подписку на новости*!
* — скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка.
Мы получили ваш отзыв!
Он появится на сайте после модерации.
Мы получили ваш отзыв!
Он появится на сайте после модерации.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.