Nvidia Parakeet-TDT-0.6B-v2 — новая LLM для транскрибации аудио
Автор: ServerFlow
Языковая модель Nvidia Parakeet-TDT-0.6B-v2 стала лучшей нейросетью в рейтинге open source проектов на Hugging Face.
Введение
Компания Nvidia 1 мая 2025 года представила языковую модель, предназначенную для автоматического распознавания речи (ASR) — Parakeet-TDT-0.6B-v2. Разработчики заявляют, что новая открытая LLM способна расшифровывать час аудио всего за секунду, что эквивалентно результатам проприетарных аналогов, вроде GPT-4o и ElevenLabs Scribe. Parakeet-TDT-0.6B-v2 распространяется под свободной лицензией CC-BY-4.0, благодаря чему ее могут интегрировать в свои приложения даже коммерческие проекты.
Подробнее о Parakeet-TDT-0.6B-v2
После выхода на платформе Hugging Face, языковая модель Parakeet-TDT-0.6B-v2 стала лидером рейтинга Open ASR Leaderboard, в который входят лучшие LLM с открытым исходным кодом. По метрике для оценки среднего количества ошибок Word Error Rate (WER), новая нейросеть достигла 6,05% потери точности — это значительно больше, чем у моделей GPT-4o-transcribe, которая имеет 2,46% потери точности, и ElevenLabs Scribe с 3,3%. Примечательно, что на втором месте рейтинга находится языковая модель Phi-4 от Microsoft, однако, она также не поддерживает русский язык, как и Parakeet-TDT-0.6B-v2. В других метриках, таких как LibriSpeech WER для оценки распознавания чистой речи, нейросеть имеет 1.69% точности, а в бенчмарке SNR 5 для оценки распознавания зашумленного текста, потеря точности составила 8.39%. В задачах обработки телефонных звонков, где аудио сжимается через μ-law, потери в точности тоже минимальны — всего 4.1%.
Нейросеть способна игнорировать внешний шум, может расставлять пунктуацию и точные временные метки для каждого слова, а также поддерживает транскрибацию песен и телефонных разговоров, что особенно полезно при использовании в бизнес-приложениях. Также стоит отметить, что Parakeet-TDT-0.6B-v2 поддерживает аудио-форматы .wav и .flac с частотой 16 кГц. Несмотря на то, что модель оптимизирована для работы на GPU Nvidia (A100, H100, T4, V100), благодаря количеству параметров на уровне 600 миллионов, Parakeet-TDT-0.6B-v2 можно запускать на слабых компьютерах с 2 ГБ оперативной памяти и даже смартфонах.
Архитектура модели Nvidia Parakeet-TDT-0.6B-v2 включает в себя FastConformer и TDT. Fast Conformer — это модифицированная архитектура Conformer, которая кратно ускоряет распознавание речи за счет 8-кратного увеличения параметра downsampling, что обуславливается использованием облегченных программных элементов и комбинированного механизма внимания с улучшенным пониманием контекста. TDT — специальный декодер, который предсказывает слова, звуки и их длительность. Особенность TDT заключается в фокусировке только на важных элементах аудио, не расходуя токены на лишние сегменты речи, вроде протягивания букв и пауз. Это сокращает расход вычислительных ресурсов и ускоряет обработку речи без потери точности. Благодаря этим технологиям, нейросеть способна обрабатывать аудиозаписи в 3386 раз быстрее, чем при ручной транскрибации аудио-пакета объемом 128 байт. Для интеграции новой языковой модели в приложения доступны Python-скрипты и фреймворк NeMo.
Parakeet-TDT-0.6B-v2 обучалась на 128 GPU A100 в течение 10 000 часов с использованием синтетических данных и 120 000 часах реальной человеческой речи из видеороликов на YouTube и телефонных разговорах. Часть датасета Granary, на котором обучена модель, пока недоступна пользователям, но Nvidia заявила, что откроет доступ к ним после конференции Interspeech 2025. Компания также акцентировала внимание на том, что при обучении не использовались персональные данные пользователей, а документация включает описание методов сбора данных и оценки приватности.
Выводы
Независимые разработчики уже окрестили Parakeet-TDT-0.6B-v2 как прорыв в области нейросетей для обработки речи и даже всего opensource-сообщества. Благодаря новой нейросети от Nvidia, компании и энтузиасты по всему миру смогут использовать компактный и эффективный искусственный интеллект для создания сервисов транскрибации, голосовых ассистентов и генераторов субтитров, причем, абсолютно бесплатно. Релиз Parakeet-TDT-0.6B-v2 свидетельствует об укреплении компании Nvidia на рынке разработки передовых моделей LLM, постепенно навязывая конкуренцию таким ИИ-гигантам, как OpenAI и Google.
Nvidia Parakeet-TDT-0.6B-v2 — новая LLM для транскрибации аудио
Компания Nvidia 1 мая 2025 года представила языковую модель, предназначенную для автоматического распознавания речи (ASR) — Parakeet-TDT-0.6B-v2. Разработчики заявляют, что новая открытая LLM способна расшифровывать час аудио всего за секунду, что эквивалентно результатам проприетарных аналогов, вроде GPT-4o и ElevenLabs Scribe. Parakeet-TDT-0.6B-v2 распространяется под свободной лицензией CC-BY-4.0, благодаря чему ее могут интегрировать в свои приложения даже коммерческие проекты.
Подробнее о Parakeet-TDT-0.6B-v2
После выхода на платформе Hugging Face, языковая модель Parakeet-TDT-0.6B-v2 стала лидером рейтинга Open ASR Leaderboard, в который входят лучшие LLM с открытым исходным кодом. По метрике для оценки среднего количества ошибок Word Error Rate (WER), новая нейросеть достигла 6,05% потери точности — это значительно больше, чем у моделей GPT-4o-transcribe, которая имеет 2,46% потери точности, и ElevenLabs Scribe с 3,3%. Примечательно, что на втором месте рейтинга находится языковая модель Phi-4 от Microsoft, однако, она также не поддерживает русский язык, как и Parakeet-TDT-0.6B-v2. В других метриках, таких как LibriSpeech WER для оценки распознавания чистой речи, нейросеть имеет 1.69% точности, а в бенчмарке SNR 5 для оценки распознавания зашумленного текста, потеря точности составила 8.39%. В задачах обработки телефонных звонков, где аудио сжимается через μ-law, потери в точности тоже минимальны — всего 4.1%.
Нейросеть способна игнорировать внешний шум, может расставлять пунктуацию и точные временные метки для каждого слова, а также поддерживает транскрибацию песен и телефонных разговоров, что особенно полезно при использовании в бизнес-приложениях. Также стоит отметить, что Parakeet-TDT-0.6B-v2 поддерживает аудио-форматы .wav и .flac с частотой 16 кГц. Несмотря на то, что модель оптимизирована для работы на GPU Nvidia (A100, H100, T4, V100), благодаря количеству параметров на уровне 600 миллионов, Parakeet-TDT-0.6B-v2 можно запускать на слабых компьютерах с 2 ГБ оперативной памяти и даже смартфонах.
Архитектура модели Nvidia Parakeet-TDT-0.6B-v2 включает в себя FastConformer и TDT. Fast Conformer — это модифицированная архитектура Conformer, которая кратно ускоряет распознавание речи за счет 8-кратного увеличения параметра downsampling, что обуславливается использованием облегченных программных элементов и комбинированного механизма внимания с улучшенным пониманием контекста. TDT — специальный декодер, который предсказывает слова, звуки и их длительность. Особенность TDT заключается в фокусировке только на важных элементах аудио, не расходуя токены на лишние сегменты речи, вроде протягивания букв и пауз. Это сокращает расход вычислительных ресурсов и ускоряет обработку речи без потери точности. Благодаря этим технологиям, нейросеть способна обрабатывать аудиозаписи в 3386 раз быстрее, чем при ручной транскрибации аудио-пакета объемом 128 байт. Для интеграции новой языковой модели в приложения доступны Python-скрипты и фреймворк NeMo.
Parakeet-TDT-0.6B-v2 обучалась на 128 GPU A100 в течение 10 000 часов с использованием синтетических данных и 120 000 часах реальной человеческой речи из видеороликов на YouTube и телефонных разговорах. Часть датасета Granary, на котором обучена модель, пока недоступна пользователям, но Nvidia заявила, что откроет доступ к ним после конференции Interspeech 2025. Компания также акцентировала внимание на том, что при обучении не использовались персональные данные пользователей, а документация включает описание методов сбора данных и оценки приватности.
Выводы
Независимые разработчики уже окрестили Parakeet-TDT-0.6B-v2 как прорыв в области нейросетей для обработки речи и даже всего opensource-сообщества. Благодаря новой нейросети от Nvidia, компании и энтузиасты по всему миру смогут использовать компактный и эффективный искусственный интеллект для создания сервисов транскрибации, голосовых ассистентов и генераторов субтитров, причем, абсолютно бесплатно. Релиз Parakeet-TDT-0.6B-v2 свидетельствует об укреплении компании Nvidia на рынке разработки передовых моделей LLM, постепенно навязывая конкуренцию таким ИИ-гигантам, как OpenAI и Google.
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Получите скидку 3 000 рублей или бесплатную доставку за подписку на новости*!
* — скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка.
Мы получили ваш отзыв!
Он появится на сайте после модерации.
Мы получили ваш отзыв!
Он появится на сайте после модерации.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.