ИИ-модель Audio-Flamingo-3 от Nvidia, представленная в июне 2025 году и специализирующаяся на обработке аудио-данных, стала лидером рейтинга MMAU, оценивающего LLM в области распознавания звуков и точности ответов.
Подробнее о Nvidia Audio-Flamingo-3
Nvidia Audio-Flamingo-3 7b базируется на единой энкодерной архитектуре для распознавания речи, звуков и музыки, а в качестве декодера используется архитектура популярной китайской LLM Qwen2.5‑7B. Кроме того, для обучения Flamingo-3 использовались 4 новых датасета: AudioSkills‑XL, LongAudio‑XL, AF‑Think и AF‑Chat, состоящие из аудио-данных разных форматов. Это позволяет новой модели обрабатывать длинные аудиовходы вплоть до 10 минут (16000 токенов), поддерживает функцию ввода запроса как голосом, так и текстом (1024 символа), распознает как двухмерный, так и одномерный звук. Помимо базовой модели, Nvidia также представила AF3-Chat — вариация Audio-Flamingo-3, настроенная специально для многопользовательского голосового чата.
Выводы
Nvidia уже не в первый раз выпускает языковые модели, специализирующиеся на конкретных задачах, которые занимают лидерские позиции во всех возможных бенчмарках. Например, ИИ-модель NVIDIA cuOpt установила стандарты в оптимизации логистики, а Hydra-MDP заняла первое место в испытаниях автономных автомобилей. Скорее всего, Nvidia использует наработки из этих нейросетей для улучшения так называемых моделей физического искусственного интеллекта, которые в будущем будут управлять автономными роботами, идею использования и разработки которых Nvidia активно популяризирует последние несколько лет.
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Получите скидку 3 000 рублей или бесплатную доставку за подписку на новости*!
* — скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка.
Мы получили ваш отзыв!
Он появится на сайте после модерации.
Мы получили ваш отзыв!
Он появится на сайте после модерации.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.