Nvidia Parakeet-TDT-0.6B-v2 — новая LLM для транскрибации аудио

08.05.2025

~ 2 мин

2527

Простой

Новости

Введение

Компания Nvidia 1 мая 2025 года представила языковую модель, предназначенную для автоматического распознавания речи (ASR) — Parakeet-TDT-0.6B-v2. Разработчики заявляют, что новая открытая LLM способна расшифровывать час аудио всего за секунду, что эквивалентно результатам проприетарных аналогов, вроде GPT-4o и ElevenLabs Scribe. Parakeet-TDT-0.6B-v2 распространяется под свободной лицензией CC-BY-4.0, благодаря чему ее могут интегрировать в свои приложения даже коммерческие проекты.

Подробнее о Parakeet-TDT-0.6B-v2

После выхода на платформе Hugging Face, языковая модель Parakeet-TDT-0.6B-v2 стала лидером рейтинга Open ASR Leaderboard, в который входят лучшие LLM с открытым исходным кодом. По метрике для оценки среднего количества ошибок Word Error Rate (WER), новая нейросеть достигла 6,05% потери точности — это значительно больше, чем у моделей GPT-4o-transcribe, которая имеет 2,46% потери точности, и ElevenLabs Scribe с 3,3%. Примечательно, что на втором месте рейтинга находится языковая модель Phi-4 от Microsoft, однако, она также не поддерживает русский язык, как и Parakeet-TDT-0.6B-v2. В других метриках, таких как LibriSpeech WER для оценки распознавания чистой речи, нейросеть имеет 1.69% точности, а в бенчмарке SNR 5 для оценки распознавания зашумленного текста, потеря точности составила 8.39%. В задачах обработки телефонных звонков, где аудио сжимается через μ-law, потери в точности тоже минимальны — всего 4.1%.

Нейросеть способна игнорировать внешний шум, может расставлять пунктуацию и точные временные метки для каждого слова, а также поддерживает транскрибацию песен и телефонных разговоров, что особенно полезно при использовании в бизнес-приложениях. Также стоит отметить, что Parakeet-TDT-0.6B-v2 поддерживает аудио-форматы .wav и .flac с частотой 16 кГц. Несмотря на то, что модель оптимизирована для работы на GPU Nvidia (A100, H100, T4, V100), благодаря количеству параметров на уровне 600 миллионов, Parakeet-TDT-0.6B-v2 можно запускать на слабых компьютерах с 2 ГБ оперативной памяти и даже смартфонах.

Архитектура модели Nvidia Parakeet-TDT-0.6B-v2 включает в себя FastConformer и TDT. Fast Conformer — это модифицированная архитектура Conformer, которая кратно ускоряет распознавание речи за счет 8-кратного увеличения параметра downsampling, что обуславливается использованием облегченных программных элементов и комбинированного механизма внимания с улучшенным пониманием контекста. TDT — специальный декодер, который предсказывает слова, звуки и их длительность. Особенность TDT заключается в фокусировке только на важных элементах аудио, не расходуя токены на лишние сегменты речи, вроде протягивания букв и пауз. Это сокращает расход вычислительных ресурсов и ускоряет обработку речи без потери точности. Благодаря этим технологиям, нейросеть способна обрабатывать аудиозаписи в 3386 раз быстрее, чем при ручной транскрибации аудио-пакета объемом 128 байт. Для интеграции новой языковой модели в приложения доступны Python-скрипты и фреймворк NeMo.

Parakeet-TDT-0.6B-v2 обучалась на 128 GPU A100 в течение 10 000 часов с использованием синтетических данных и 120 000 часах реальной человеческой речи из видеороликов на YouTube и телефонных разговорах. Часть датасета Granary, на котором обучена модель, пока недоступна пользователям, но Nvidia заявила, что откроет доступ к ним после конференции Interspeech 2025. Компания также акцентировала внимание на том, что при обучении не использовались персональные данные пользователей, а документация включает описание методов сбора данных и оценки приватности.

Выводы

Независимые разработчики уже окрестили Parakeet-TDT-0.6B-v2 как прорыв в области нейросетей для обработки речи и даже всего opensource-сообщества. Благодаря новой нейросети от Nvidia, компании и энтузиасты по всему миру смогут использовать компактный и эффективный искусственный интеллект для создания сервисов транскрибации, голосовых ассистентов и генераторов субтитров, причем, абсолютно бесплатно. Релиз Parakeet-TDT-0.6B-v2 свидетельствует об укреплении компании Nvidia на рынке разработки передовых моделей LLM, постепенно навязывая конкуренцию таким ИИ-гигантам, как OpenAI и Google.

Автор:

Serverflow