Top.Mail.Ru
VoxCPM2: уникальная 2B TTS-модель для генерации голоса с поддержкой русского языка | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Бонус за
обратную связь
Интернет-магазин
Серверного оборудования
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

VoxCPM2: уникальная 2B TTS-модель для генерации голоса с поддержкой русского языка

~ 2 мин
42
Простой
Новости
VoxCPM2: уникальная 2B TTS-модель для генерации голоса с поддержкой русского языка

Введение

Китайский ИИ-стартап OpenBMB представил VoxCPM2, крупнейшее обновление своего открытого семейства TTS-нейросетей. Модель объемом всего 2 миллиарда параметров демонстрирует высочайшее качество генерации речи по текстовому запросу благодаря обучению на 2 миллионах часов многоязычных аудиоданных. При своих компактных габаритах, VoxCPM2 поддерживает 30 языков, включая русский, английский, японский, корейский, а также 9 диалектов китайского. Ключевая архитектурная особенность модели — полный отказ от дискретной токенизации: VoxCPM2 работает напрямую с непрерывными представлениями в латентном пространстве AudioVAE V2, что позволяет сохранять мельчайшие акустические нюансы, включая дыхание, интонационные переходы и эмоциональные оттенки.

Подробнее о VoxCPM2

Традиционные TTS-системы, включая прямых конкурентов VoxCPM2 в лице ElevenLabs и MiniMax-Speech, сначала преобразуют аудио в дискретные токены через аудиокодеки (EnCodec, SoundStream), а затем предсказывают следующий токен языковой моделью. Такой подход неизбежно приводит к потере акустической информации — квантование непрерывного сигнала убирает дыхательные паузы, микроинтонации и эмоциональную окраску. Но VoxCPM2 идет совершенно иным путем: модель использует четырехстадийный пайплайн (LocEnc-TSLM-RALM-LocDiT) выполняет диффузионную авторегрессию непосредственно в непрерывном латентном пространстве, минуя дискретизацию. В результате генерируется голос, в котором слышны дыхание, ритмические паузы и естественная вариативность тона, ранее недостижимые в открытых TTS.

В основе VoxCPM2 лежит асимметричный аудиокодек AudioVAE V2: энкодер принимает референсный сигнал с частотой 16 кГц и сжимает его в компактное латентное представление, декодер восстанавливает аудио сразу в студийном качестве 48 кГц, встроенное суперразрешение исключает необходимость во внешних апсемплерах. Энкодер построен на каузальных сверточных моделях с функцией активации Snake, что позволяет захватывать временные зависимости без предсказания токенов; декодер использует систему sample rate conditioning для адаптивной генерации под разные уровни качества.

Архитектура TTS-модели VoxCPM2
Архитектура TTS-модели VoxCPM2. Источник: GitHub.

VoxCPM2 поддерживает режима работы с голосом.
  • Voice Design. Генерация полностью нового голоса по текстовому описанию на естественном языке — достаточно указать пол, возраст, тембр, эмоцию и темп, никакого референсного аудио не требуется. На бенчмарке InstructTTSEval модель показала лучшие результаты среди всех открытых решений для английского языка в этой задаче.
  • Controllable Voice Cloning. Клонирование голоса по короткому аудиофрагменту с возможностью управления стилем, эмоциями и скоростью речи через текстовые промпты при сохранении оригинального тембра.
  • Ultimate Cloning. При передаче точного транскрипта вместе с референсом модель воспроизводит ритм, интонации и манеру речи с точностью до дыхательных пауз и индивидуальных речевых особенностей.
При развертывании VoxCPM2 на NVIDIA RTX 4090 задержка генерации составляет ~0,3 секунды, а при использовании движка Nano-vLLM задержка снижается до ~0,13 секунды, что обеспечивает полноценную потоковую генерацию в реальном времени. Минимальные требования для развертывания VoxCPM2 — около 8 ГБ видеопамяти, модель запускается на потребительских картах уровня RTX 3060/4060. Также поддерживается SFT для добавления новых языков или стилей, а также LoRA для глубокой имитации конкретного спикера — требуется 5-10 минут аудио и около 20 ГБ VRAM для дообучения.

На тесте Seed-TTS-eval VoxCPM2 демонстрирует WER 1,84% для английского и CER 0,97%  для китайского (меньше значит лучше) при сходстве голоса (SIM) 75,3% и 79,5% соответственно. На мультиязычном Minimax-MLS-test модель лидирует по SIM в подавляющем большинстве из 24 языков, опережая MiniMax, ElevenLabs, FishAudio S2 и Qwen3-TTS. В прямом сравнении с ElevenLabs: английский SIM 85,4% против 61,3%, китайский 82,5% против 67,7%, арабский 79,1% против 70,6%. Однако по метрике разборчивости WER картина неоднозначная: для арабского VoxCPM2 показывает 13,046% против 1,666% у ElevenLabs, для чешского — 24,132% против 2,108%. На редких и сложных языках модель звучит похоже, но не всегда разборчиво.

Код и веса выложены под лицензией Apache 2.0 на Hugging FaceGitHub и ModelScope — модель полностью открыта и допускает свободное коммерческое использование без роялти.

Выводы

VoxCPM2 — это настоящий феномен, ведь разработчикам удалось достичь высочайшей точности при генерации голоса при размере модели всего в 2 миллиарда параметров. Особенно удивляет, что разработчики из КНР провели эффективное обучение не только на родных диалектах китайского и английском, но и русском языке, в результате чего сгенерированные аудио звучат очень четко, разборчиво и с учетом тембра и интонации. Кроме того, превосходство над проприетарной ElevenLabs по сходству голоса в популярных языках при полностью открытом исходном коде — сильный аргумент в пользу open-source TTS. OpenBMB сделала технологию, которая ещё год назад была доступна только по подписке за сотни долларов, бесплатной и работающей на обычных игровых видеокартах, и это стоит многого.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-18:30 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-18:30 (по МСК)