Alibaba планирует расширить линейку моделей Qwen для генерации голоса, анонсировав сразу два новых решения: Qwen3-TTS-VD-Flash и Qwen3-TTS-VC-Flash, Demo которых уже доступно на Hugging Face. Новинки ориентированы на разные сценарии работы с речью, но объединены общей целью — сделать генерацию и воспроизведение голоса более гибкими, быстрыми и универсальными, включая мультиязычные задачи и креативное использование.
Подробнее о Qwen3-TTS-VD-Flash и Qwen3-TTS-VC-Flash
Первая модель Qwen3-TTS-VC-Flash предназначена для клонирования голоса и ориентирована на максимальное упрощение пользовательского опыта. Модели достаточно 3 секунды аудиозаписи, чтобы Qwen3-TTS-VC-Flash начала с высочайшей точностью воспроизводить речь, сохраняя тембр и характер диктора. Нейрость поддерживает 10 языков, включая русский, английский, китайский, немецкий, итальянский, португальский, испанский, японский, корейский и французский, что делает Qwen3-TTS-VC-Flash универсальным инструментом для мультиязычной локализации видео и аудиоконтента. Alibaba заявляет, что в мультиязычных тестах модель показывает более низкий уровень ошибок по сравнению с такими популярными решениями, как ElevenLabs и MiniMax. Также компания отметила способность корректно работать со сложными текстами и даже имитировать нетипичные звуки, включая голоса животных.
Вторая модель Qwen3-TTS-VD-Flash предназначена для синтез голоса с нуля. Вместо выбора готовых пресетов пользователь описывает желаемый голос текстом, задавая пол, возраст, тембр, характер и стиль речи. Такой подход близок к функционалу GPT-4o mini-tts, однако Alibaba заявляет, что по ряду тестов VD-Flash превосходит TTS-модель OpenAI и даже Gemini 2.5 Pro от Google. Это делает модель пригодной для использования в сфере маркетинга, озвучивания контента и создания уникальных голосовых идентификаторов брендов. Qwen3-TTS-VD-Flash также поддерживает 10 языков, в том числе русский.
Выводы
Анонс Qwen3-TTS-VD-Flash и Qwen3-TTS-VC-Flash показывает, что Alibaba делает ставку на гибкость и креативность в области TTS-технологий. VC-Flash снижает порог входа для качественного клонирования голоса, а VD-Flash предлагает инструмент для генерации уникальной речи без ограничений по пресетам. В совокупности эти модели усиливают позиции Alibaba на рынке TTS-решений и подчеркивают общий тренд на персонализированный, мультиязычный и высококачественный синтез речи.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.