Top.Mail.Ru
Nvidia Parakeet-TDT-0.6B-v2 — новая LLM для транскрибации аудио | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Уважаемые клиенты, 08.05 и 09.05 магазин ServerFlow не работает. Все оформленные заявки будут обработаны 12.05.25.
С праздником! С Днем Победы!
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение
Nvidia Parakeet-TDT-0.6B-v2 — новая LLM для транскрибации аудио

Автор:

Nvidia Parakeet-TDT-0.6B-v2 — новая LLM для транскрибации аудио

Языковая модель Nvidia Parakeet-TDT-0.6B-v2 стала лучшей нейросетью в рейтинге open source проектов на Hugging Face.

Введение Компания Nvidia 1 мая 2025 года представила языковую модель, предназначенную для автоматического распознавания речи (ASR) — Parakeet-TDT-0.6B-v2. Разработчики заявляют, что новая открытая LLM способна расшифровывать час аудио всего за секунду, что эквивалентно результатам проприетарных аналогов, вроде GPT-4o и ElevenLabs Scribe. Parakeet-TDT-0.6B-v2 распространяется под свободной лицензией CC-BY-4.0, благодаря чему ее могут интегрировать в свои приложения даже коммерческие проекты. Подробнее о Parakeet-TDT-0.6B-v2 После выхода на платформе Hugging Face, языковая модель Parakeet-TDT-0.6B-v2 стала лидером рейтинга Open ASR Leaderboard, в который входят лучшие LLM с открытым исходным кодом. По метрике для оценки среднего количества ошибок Word Error Rate (WER), новая нейросеть достигла 6,05% потери точности — это значительно больше, чем у моделей GPT-4o-transcribe, которая имеет 2,46% потери точности, и ElevenLabs Scribe с 3,3%. Примечательно, что на втором месте рейтинга находится языковая модель Phi-4 от Microsoft, однако, она также не поддерживает русский язык, как и Parakeet-TDT-0.6B-v2. В других метриках, таких как LibriSpeech WER для оценки распознавания чистой речи, нейросеть имеет 1.69% точности, а в бенчмарке SNR 5 для оценки распознавания зашумленного текста, потеря точности составила 8.39%. В задачах обработки телефонных звонков, где аудио сжимается через μ-law, потери в точности тоже минимальны — всего 4.1%.  Нейросеть способна игнорировать внешний шум, может расставлять пунктуацию и точные временные метки для каждого слова, а также поддерживает транскрибацию песен и телефонных разговоров, что особенно полезно при использовании в бизнес-приложениях. Также стоит отметить, что Parakeet-TDT-0.6B-v2 поддерживает аудио-форматы .wav и .flac с частотой 16 кГц. Несмотря на то, что модель оптимизирована для работы на GPU Nvidia (A100, H100, T4, V100), благодаря количеству параметров на уровне 600 миллионов, Parakeet-TDT-0.6B-v2 можно запускать на слабых компьютерах с 2 ГБ оперативной памяти и даже смартфонах.  Архитектура модели Nvidia Parakeet-TDT-0.6B-v2 включает в себя FastConformer и TDT. Fast Conformer — это модифицированная архитектура Conformer, которая кратно ускоряет распознавание речи за счет 8-кратного увеличения параметра downsampling, что обуславливается использованием облегченных программных элементов и комбинированного механизма внимания с улучшенным пониманием контекста. TDT — специальный декодер, который предсказывает слова, звуки и их длительность. Особенность TDT заключается в фокусировке только на важных элементах аудио, не расходуя токены на лишние сегменты речи, вроде протягивания букв и пауз. Это сокращает расход вычислительных ресурсов и ускоряет обработку речи без потери точности. Благодаря этим технологиям, нейросеть способна обрабатывать аудиозаписи в 3386 раз быстрее, чем при ручной транскрибации аудио-пакета объемом 128 байт. Для интеграции новой языковой модели в приложения доступны Python-скрипты и фреймворк NeMo. Parakeet-TDT-0.6B-v2 обучалась на 128 GPU A100 в течение 10 000 часов с использованием синтетических данных и 120 000 часах реальной человеческой речи из видеороликов на YouTube и телефонных разговорах. Часть датасета Granary, на котором обучена модель, пока недоступна пользователям, но Nvidia заявила, что откроет доступ к ним после конференции Interspeech 2025. Компания также акцентировала внимание на том, что при обучении не использовались персональные данные пользователей, а документация включает описание методов сбора данных и оценки приватности.  Выводы Независимые разработчики уже окрестили Parakeet-TDT-0.6B-v2 как прорыв в области нейросетей для обработки речи и даже всего opensource-сообщества. Благодаря новой нейросети от Nvidia, компании и энтузиасты по всему миру смогут использовать компактный и эффективный искусственный интеллект для создания сервисов транскрибации, голосовых ассистентов и генераторов субтитров, причем, абсолютно бесплатно. Релиз Parakeet-TDT-0.6B-v2 свидетельствует об укреплении компании Nvidia на рынке разработки передовых моделей LLM, постепенно навязывая конкуренцию таким ИИ-гигантам, как OpenAI и Google.

Nvidia Parakeet-TDT-0.6B-v2 — новая LLM для транскрибации аудио

~ 2 мин
119
Простой
Новости
Nvidia Parakeet-TDT-0.6B-v2 — новая LLM для транскрибации аудио

Введение

Компания Nvidia 1 мая 2025 года представила языковую модель, предназначенную для автоматического распознавания речи (ASR) — Parakeet-TDT-0.6B-v2. Разработчики заявляют, что новая открытая LLM способна расшифровывать час аудио всего за секунду, что эквивалентно результатам проприетарных аналогов, вроде GPT-4o и ElevenLabs Scribe. Parakeet-TDT-0.6B-v2 распространяется под свободной лицензией CC-BY-4.0, благодаря чему ее могут интегрировать в свои приложения даже коммерческие проекты.

Подробнее о Parakeet-TDT-0.6B-v2

После выхода на платформе Hugging Face, языковая модель Parakeet-TDT-0.6B-v2 стала лидером рейтинга Open ASR Leaderboard, в который входят лучшие LLM с открытым исходным кодом. По метрике для оценки среднего количества ошибок Word Error Rate (WER), новая нейросеть достигла 6,05% потери точности — это значительно больше, чем у моделей GPT-4o-transcribe, которая имеет 2,46% потери точности, и ElevenLabs Scribe с 3,3%. Примечательно, что на втором месте рейтинга находится языковая модель Phi-4 от Microsoft, однако, она также не поддерживает русский язык, как и Parakeet-TDT-0.6B-v2. В других метриках, таких как LibriSpeech WER для оценки распознавания чистой речи, нейросеть имеет 1.69% точности, а в бенчмарке SNR 5 для оценки распознавания зашумленного текста, потеря точности составила 8.39%. В задачах обработки телефонных звонков, где аудио сжимается через μ-law, потери в точности тоже минимальны — всего 4.1%. 

Нейросеть способна игнорировать внешний шум, может расставлять пунктуацию и точные временные метки для каждого слова, а также поддерживает транскрибацию песен и телефонных разговоров, что особенно полезно при использовании в бизнес-приложениях. Также стоит отметить, что Parakeet-TDT-0.6B-v2 поддерживает аудио-форматы .wav и .flac с частотой 16 кГц. Несмотря на то, что модель оптимизирована для работы на GPU Nvidia (A100, H100, T4, V100), благодаря количеству параметров на уровне 600 миллионов, Parakeet-TDT-0.6B-v2 можно запускать на слабых компьютерах с 2 ГБ оперативной памяти и даже смартфонах. 

Архитектура модели Nvidia Parakeet-TDT-0.6B-v2 включает в себя FastConformer и TDT. Fast Conformer — это модифицированная архитектура Conformer, которая кратно ускоряет распознавание речи за счет 8-кратного увеличения параметра downsampling, что обуславливается использованием облегченных программных элементов и комбинированного механизма внимания с улучшенным пониманием контекста. TDT — специальный декодер, который предсказывает слова, звуки и их длительность. Особенность TDT заключается в фокусировке только на важных элементах аудио, не расходуя токены на лишние сегменты речи, вроде протягивания букв и пауз. Это сокращает расход вычислительных ресурсов и ускоряет обработку речи без потери точности. Благодаря этим технологиям, нейросеть способна обрабатывать аудиозаписи в 3386 раз быстрее, чем при ручной транскрибации аудио-пакета объемом 128 байт. Для интеграции новой языковой модели в приложения доступны Python-скрипты и фреймворк NeMo.

Parakeet-TDT-0.6B-v2 обучалась на 128 GPU A100 в течение 10 000 часов с использованием синтетических данных и 120 000 часах реальной человеческой речи из видеороликов на YouTube и телефонных разговорах. Часть датасета Granary, на котором обучена модель, пока недоступна пользователям, но Nvidia заявила, что откроет доступ к ним после конференции Interspeech 2025. Компания также акцентировала внимание на том, что при обучении не использовались персональные данные пользователей, а документация включает описание методов сбора данных и оценки приватности. 

Выводы

Независимые разработчики уже окрестили Parakeet-TDT-0.6B-v2 как прорыв в области нейросетей для обработки речи и даже всего opensource-сообщества. Благодаря новой нейросети от Nvidia, компании и энтузиасты по всему миру смогут использовать компактный и эффективный искусственный интеллект для создания сервисов транскрибации, голосовых ассистентов и генераторов субтитров, причем, абсолютно бесплатно. Релиз Parakeet-TDT-0.6B-v2 свидетельствует об укреплении компании Nvidia на рынке разработки передовых моделей LLM, постепенно навязывая конкуренцию таким ИИ-гигантам, как OpenAI и Google.

Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.

Написать отзыв

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-19:00 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-19:00 (по МСК)