VoxCPM2: уникальная 2B TTS-модель для генерации голоса с поддержкой русского языка

14.04.2026

~ 2 мин

784

Простой

Новости

Введение

Китайский ИИ-стартап OpenBMB представил VoxCPM2, крупнейшее обновление своего открытого семейства TTS-нейросетей. Модель объемом всего 2 миллиарда параметров демонстрирует высочайшее качество генерации речи по текстовому запросу благодаря обучению на 2 миллионах часов многоязычных аудиоданных. При своих компактных габаритах, VoxCPM2 поддерживает 30 языков, включая русский, английский, японский, корейский, а также 9 диалектов китайского. Ключевая архитектурная особенность модели — полный отказ от дискретной токенизации: VoxCPM2 работает напрямую с непрерывными представлениями в латентном пространстве AudioVAE V2, что позволяет сохранять мельчайшие акустические нюансы, включая дыхание, интонационные переходы и эмоциональные оттенки.

Подробнее о VoxCPM2

Традиционные TTS-системы, включая прямых конкурентов VoxCPM2 в лице ElevenLabs и MiniMax-Speech, сначала преобразуют аудио в дискретные токены через аудиокодеки (EnCodec, SoundStream), а затем предсказывают следующий токен языковой моделью. Такой подход неизбежно приводит к потере акустической информации — квантование непрерывного сигнала убирает дыхательные паузы, микроинтонации и эмоциональную окраску. Но VoxCPM2 идет совершенно иным путем: модель использует четырехстадийный пайплайн (LocEnc-TSLM-RALM-LocDiT) выполняет диффузионную авторегрессию непосредственно в непрерывном латентном пространстве, минуя дискретизацию. В результате генерируется голос, в котором слышны дыхание, ритмические паузы и естественная вариативность тона, ранее недостижимые в открытых TTS.

В основе VoxCPM2 лежит асимметричный аудиокодек AudioVAE V2: энкодер принимает референсный сигнал с частотой 16 кГц и сжимает его в компактное латентное представление, декодер восстанавливает аудио сразу в студийном качестве 48 кГц, встроенное суперразрешение исключает необходимость во внешних апсемплерах. Энкодер построен на каузальных сверточных моделях с функцией активации Snake, что позволяет захватывать временные зависимости без предсказания токенов; декодер использует систему sample rate conditioning для адаптивной генерации под разные уровни качества.

Архитектура TTS-модели VoxCPM2. Источник: GitHub.

VoxCPM2 поддерживает режима работы с голосом.

Voice Design. Генерация полностью нового голоса по текстовому описанию на естественном языке — достаточно указать пол, возраст, тембр, эмоцию и темп, никакого референсного аудио не требуется. На бенчмарке InstructTTSEval модель показала лучшие результаты среди всех открытых решений для английского языка в этой задаче.
Controllable Voice Cloning. Клонирование голоса по короткому аудиофрагменту с возможностью управления стилем, эмоциями и скоростью речи через текстовые промпты при сохранении оригинального тембра.
Ultimate Cloning. При передаче точного транскрипта вместе с референсом модель воспроизводит ритм, интонации и манеру речи с точностью до дыхательных пауз и индивидуальных речевых особенностей.

При развертывании VoxCPM2 на NVIDIA RTX 4090 задержка генерации составляет ~0,3 секунды, а при использовании движка Nano-vLLM задержка снижается до ~0,13 секунды, что обеспечивает полноценную потоковую генерацию в реальном времени. Минимальные требования для развертывания VoxCPM2 — около 8 ГБ видеопамяти, модель запускается на потребительских картах уровня RTX 3060/4060. Также поддерживается SFT для добавления новых языков или стилей, а также LoRA для глубокой имитации конкретного спикера — требуется 5-10 минут аудио и около 20 ГБ VRAM для дообучения.

На тесте Seed-TTS-eval VoxCPM2 демонстрирует WER 1,84% для английского и CER 0,97% для китайского (меньше значит лучше) при сходстве голоса (SIM) 75,3% и 79,5% соответственно. На мультиязычном Minimax-MLS-test модель лидирует по SIM в подавляющем большинстве из 24 языков, опережая MiniMax, ElevenLabs, FishAudio S2 и Qwen3-TTS. В прямом сравнении с ElevenLabs: английский SIM 85,4% против 61,3%, китайский 82,5% против 67,7%, арабский 79,1% против 70,6%. Однако по метрике разборчивости WER картина неоднозначная: для арабского VoxCPM2 показывает 13,046% против 1,666% у ElevenLabs, для чешского — 24,132% против 2,108%. На редких и сложных языках модель звучит похоже, но не всегда разборчиво.

Код и веса выложены под лицензией Apache 2.0 на Hugging Face, GitHub и ModelScope — модель полностью открыта и допускает свободное коммерческое использование без роялти.

Выводы

VoxCPM2 — это настоящий феномен, ведь разработчикам удалось достичь высочайшей точности при генерации голоса при размере модели всего в 2 миллиарда параметров. Особенно удивляет, что разработчики из КНР провели эффективное обучение не только на родных диалектах китайского и английском, но и русском языке, в результате чего сгенерированные аудио звучат очень четко, разборчиво и с учетом тембра и интонации. Кроме того, превосходство над проприетарной ElevenLabs по сходству голоса в популярных языках при полностью открытом исходном коде — сильный аргумент в пользу open-source TTS. OpenBMB сделала технологию, которая ещё год назад была доступна только по подписке за сотни долларов, бесплатной и работающей на обычных игровых видеокартах, и это стоит многого.

Автор:

Serverflow

Комментарии 2

Мира

15.04.2026

Фраза про «обычные игровые видеокарты» звучит немного лукаво, потому что для дообучения с LoRA уже требуется около 20 ГБ VRAM, а это далеко не массовый уровень.

Комментатор смешивает запуск готовой модели и её дообучение - в тексте прямо сказано, что для инференса достаточно около 8 ГБ видеопамяти, а повышенные требования относятся уже к отдельному сценарию адаптации модели.

Костя

В тексте слишком смело подаётся превосходство над ElevenLabs, хотя там же прямо сказано, что по разборчивости на ряде языков у VoxCPM2 результаты заметно слабее.

Это не опровергает материал, потому что в статье и не скрывается неоднозначность по WER - наоборот, там честно разделены два аспекта, сходство голоса и разборчивость, и превосходство заявлено именно в части voice similarity на популярных языках.