Компания Alibaba выложила в открытый доступ на Hugging Face и GitGub линейку моделей генерации речи Qwen3-TTS. Модели используют собственный Qwen3-TTS-Tokenizer-12Hz, что позволяет эффективно сжимать аудиосигналы и воспроизводить их с высокой точностью, сохраняя чистоту речи и акустические особенности окружения. TTS-модели поддерживают десять основных языков, включая русский, а также поддерживают управление тоном, ритмом и эмоциональной окраской речи, обеспечивая генерацию аудио с низкой задержкой.
Подробнее о Qwen3-TTS
Линейка Qwen3-TTS включает модели двух размеров — 1.7 миллиардов и 0.6 миллиардов параметров. Модели 1.7B обеспечивают максимальную производительность и гибкое управление голосом. Qwen3-TTS-1,7b включает варианты VoiceDesign для генерации голосов по пользовательским описаниям и CustomVoice для детальной стилизации целевых тимбров, сохраняя потоковую генерацию и инструктивное управление. Базовая модель 1.7B-Base позволяет клонировать голос за три секунды аудио и может использоваться для дообучения других моделей.
Модели Qwen3-TTS-0.6b обеспечивают баланс между производительностью и эффективностью. Версия CustomVoice предоставляет функции настройки голоса, а 0.6B-Base также поддерживает быстрое клонирование голоса и возможность дообучения под конкретные задачи.
Архитектура моделей обеспечивает полностью сквозное моделирование речи, обходя ограничения традиционных LM+DiT схем. Dual-Track генерация позволяет выдавать первые аудиопакеты после обработки всего одного символа, достигая крайне низкой задержки в 97 мс. Модели демонстрируют высокую устойчивость к шуму текста, адаптивно изменяя тон, ритм и эмоциональную окраску в соответствии с семантикой и инструкциями. По результатам бенчмарков Qwen3-TTS показала выдающееся качество в задачах голосового дизайна, клонирования голоса и управления стилем речи, превосходя существующие закрытые и открытые решения.
Пайплайн генерации речи Qwen3-TTS. Источник: .
Выводы
Открытая линейка Qwen3-TTS предоставляет разработчикам полный набор возможностей для создания, клонирования и управления голосом с высокой скоростью и качеством. Широкая поддержка языков, адаптивного управления голосом, а также компактные размеры и низкая задержка генерации позволяет использовать эти передовые модели в реальном времени для интерактивных приложений, а SOTA качество воспроизведения и токенизации делает их конкурентоспособными по сравнению с проприетарными решениями на рынке.
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Скидка 1 500 ₽ или бесплатная доставка - уже сейчас 🔥
Мы ценим обратную связь от клиентов. При оформлении заказа вы можете сообщить о своём намерении поделиться впечатлением о работе ServerFlow после получения товара.
* - скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка до ПВЗ СДЭК.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.
При оформлении заказа в ServerFlow вы можете сообщить о намерении оставить отзыв о нашей работе после получения товара.
Нам важно ваше честное мнение. Оно помогает развивать сервис и даёт другим клиентам представление о нашей работе.
Вы можете оставить отзыв на удобной для вас платформе:
Google Maps
2GIS
Яндекс Карты
Как работает акция
Применяя промокод, вы подтверждаете намерение поделиться впечатлением о работе ServerFlow после получения заказа. Мы применяем бонус уже к текущему заказу в знак благодарности за обратную связь.
Условия акции:
скидка 1 500 ₽ при заказе от 30 000 ₽
или бесплатная доставка* при заказе до 30 000 ₽
* Бесплатная доставка заказа осуществляется до ПВЗ СДЭК.