Qwen3-TTS-VD-Flash и Qwen3-TTS-VC-Flash — TTS-модели с поддержкой русского

24.12.2025

~ 2 мин

428

Простой

Новости

Введение

Alibaba планирует расширить линейку моделей Qwen для генерации голоса, анонсировав сразу два новых решения: Qwen3-TTS-VD-Flash и Qwen3-TTS-VC-Flash, Demo которых уже доступно на Hugging Face. Новинки ориентированы на разные сценарии работы с речью, но объединены общей целью — сделать генерацию и воспроизведение голоса более гибкими, быстрыми и универсальными, включая мультиязычные задачи и креативное использование.

Подробнее о Qwen3-TTS-VD-Flash и Qwen3-TTS-VC-Flash

Первая модель Qwen3-TTS-VC-Flash предназначена для клонирования голоса и ориентирована на максимальное упрощение пользовательского опыта. Модели достаточно 3 секунды аудиозаписи, чтобы Qwen3-TTS-VC-Flash начала с высочайшей точностью воспроизводить речь, сохраняя тембр и характер диктора. Нейрость поддерживает 10 языков, включая русский, английский, китайский, немецкий, итальянский, португальский, испанский, японский, корейский и французский, что делает Qwen3-TTS-VC-Flash универсальным инструментом для мультиязычной локализации видео и аудиоконтента. Alibaba заявляет, что в мультиязычных тестах модель показывает более низкий уровень ошибок по сравнению с такими популярными решениями, как ElevenLabs и MiniMax. Также компания отметила способность корректно работать со сложными текстами и даже имитировать нетипичные звуки, включая голоса животных.

Вторая модель Qwen3-TTS-VD-Flash предназначена для синтез голоса с нуля. Вместо выбора готовых пресетов пользователь описывает желаемый голос текстом, задавая пол, возраст, тембр, характер и стиль речи. Такой подход близок к функционалу GPT-4o mini-tts, однако Alibaba заявляет, что по ряду тестов VD-Flash превосходит TTS-модель OpenAI и даже Gemini 2.5 Pro от Google. Это делает модель пригодной для использования в сфере маркетинга, озвучивания контента и создания уникальных голосовых идентификаторов брендов. Qwen3-TTS-VD-Flash также поддерживает 10 языков, в том числе русский.

Выводы

Анонс Qwen3-TTS-VD-Flash и Qwen3-TTS-VC-Flash показывает, что Alibaba делает ставку на гибкость и креативность в области TTS-технологий. VC-Flash снижает порог входа для качественного клонирования голоса, а VD-Flash предлагает инструмент для генерации уникальной речи без ограничений по пресетам. В совокупности эти модели усиливают позиции Alibaba на рынке TTS-решений и подчеркивают общий тренд на персонализированный, мультиязычный и высококачественный синтез речи.

Автор:

Serverflow