Китайский ИИ-стартап OpenBMB представил VoxCPM2, крупнейшее обновление своего открытого семейства TTS-нейросетей. Модель объемом всего 2 миллиарда параметров демонстрирует высочайшее качество генерации речи по текстовому запросу благодаря обучению на 2 миллионах часов многоязычных аудиоданных. При своих компактных габаритах, VoxCPM2 поддерживает 30 языков, включая русский, английский, японский, корейский, а также 9 диалектов китайского. Ключевая архитектурная особенность модели — полный отказ от дискретной токенизации: VoxCPM2 работает напрямую с непрерывными представлениями в латентном пространстве AudioVAE V2, что позволяет сохранять мельчайшие акустические нюансы, включая дыхание, интонационные переходы и эмоциональные оттенки.
Подробнее о VoxCPM2
Традиционные TTS-системы, включая прямых конкурентов VoxCPM2 в лице ElevenLabs и MiniMax-Speech, сначала преобразуют аудио в дискретные токены через аудиокодеки (EnCodec, SoundStream), а затем предсказывают следующий токен языковой моделью. Такой подход неизбежно приводит к потере акустической информации — квантование непрерывного сигнала убирает дыхательные паузы, микроинтонации и эмоциональную окраску. Но VoxCPM2 идет совершенно иным путем: модель использует четырехстадийный пайплайн (LocEnc-TSLM-RALM-LocDiT) выполняет диффузионную авторегрессию непосредственно в непрерывном латентном пространстве, минуя дискретизацию. В результате генерируется голос, в котором слышны дыхание, ритмические паузы и естественная вариативность тона, ранее недостижимые в открытых TTS.
В основе VoxCPM2 лежит асимметричный аудиокодек AudioVAE V2: энкодер принимает референсный сигнал с частотой 16 кГц и сжимает его в компактное латентное представление, декодер восстанавливает аудио сразу в студийном качестве 48 кГц, встроенное суперразрешение исключает необходимость во внешних апсемплерах. Энкодер построен на каузальных сверточных моделях с функцией активации Snake, что позволяет захватывать временные зависимости без предсказания токенов; декодер использует систему sample rate conditioning для адаптивной генерации под разные уровни качества.
Архитектура TTS-модели VoxCPM2. Источник: .
VoxCPM2 поддерживает режима работы с голосом.
Voice Design. Генерация полностью нового голоса по текстовому описанию на естественном языке — достаточно указать пол, возраст, тембр, эмоцию и темп, никакого референсного аудио не требуется. На бенчмарке InstructTTSEval модель показала лучшие результаты среди всех открытых решений для английского языка в этой задаче.
Controllable Voice Cloning. Клонирование голоса по короткому аудиофрагменту с возможностью управления стилем, эмоциями и скоростью речи через текстовые промпты при сохранении оригинального тембра.
Ultimate Cloning. При передаче точного транскрипта вместе с референсом модель воспроизводит ритм, интонации и манеру речи с точностью до дыхательных пауз и индивидуальных речевых особенностей.
При развертывании VoxCPM2 на NVIDIA RTX 4090 задержка генерации составляет ~0,3 секунды, а при использовании движка Nano-vLLM задержка снижается до ~0,13 секунды, что обеспечивает полноценную потоковую генерацию в реальном времени. Минимальные требования для развертывания VoxCPM2 — около 8 ГБ видеопамяти, модель запускается на потребительских картах уровня RTX 3060/4060. Также поддерживается SFT для добавления новых языков или стилей, а также LoRA для глубокой имитации конкретного спикера — требуется 5-10 минут аудио и около 20 ГБ VRAM для дообучения.
На тесте Seed-TTS-eval VoxCPM2 демонстрирует WER 1,84% для английского и CER 0,97% для китайского (меньше значит лучше) при сходстве голоса (SIM) 75,3% и 79,5% соответственно. На мультиязычном Minimax-MLS-test модель лидирует по SIM в подавляющем большинстве из 24 языков, опережая MiniMax, ElevenLabs, FishAudio S2 и Qwen3-TTS. В прямом сравнении с ElevenLabs: английский SIM 85,4% против 61,3%, китайский 82,5% против 67,7%, арабский 79,1% против 70,6%. Однако по метрике разборчивости WER картина неоднозначная: для арабского VoxCPM2 показывает 13,046% против 1,666% у ElevenLabs, для чешского — 24,132% против 2,108%. На редких и сложных языках модель звучит похоже, но не всегда разборчиво.
Код и веса выложены под лицензией Apache 2.0 на , и — модель полностью открыта и допускает свободное коммерческое использование без роялти.
Выводы
VoxCPM2 — это настоящий феномен, ведь разработчикам удалось достичь высочайшей точности при генерации голоса при размере модели всего в 2 миллиарда параметров. Особенно удивляет, что разработчики из КНР провели эффективное обучение не только на родных диалектах китайского и английском, но и русском языке, в результате чего сгенерированные аудио звучат очень четко, разборчиво и с учетом тембра и интонации. Кроме того, превосходство над проприетарной ElevenLabs по сходству голоса в популярных языках при полностью открытом исходном коде — сильный аргумент в пользу open-source TTS. OpenBMB сделала технологию, которая ещё год назад была доступна только по подписке за сотни долларов, бесплатной и работающей на обычных игровых видеокартах, и это стоит многого.
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Скидка 1 500 ₽ или бесплатная доставка - уже сейчас 🔥
Мы ценим обратную связь от клиентов. При оформлении заказа вы можете сообщить о своём намерении поделиться впечатлением о работе ServerFlow после получения товара.
* - скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка до ПВЗ СДЭК.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.
При оформлении заказа в ServerFlow вы можете сообщить о намерении оставить отзыв о нашей работе после получения товара.
Нам важно ваше честное мнение. Оно помогает развивать сервис и даёт другим клиентам представление о нашей работе.
Вы можете оставить отзыв на удобной для вас платформе:
Google Maps
2GIS
Яндекс Карты
Как работает акция
Применяя промокод, вы подтверждаете намерение поделиться впечатлением о работе ServerFlow после получения заказа. Мы применяем бонус уже к текущему заказу в знак благодарности за обратную связь.
Условия акции:
скидка 1 500 ₽ при заказе от 30 000 ₽
или бесплатная доставка* при заказе до 30 000 ₽
* Бесплатная доставка заказа осуществляется до ПВЗ СДЭК.