ИИ-модель Audio-Flamingo-3 от Nvidia, представленная в июне 2025 году и специализирующаяся на обработке аудио-данных, стала лидером рейтинга MMAU, оценивающего LLM в области распознавания звуков и точности ответов.
Подробнее о Nvidia Audio-Flamingo-3
Nvidia Audio-Flamingo-3 7b базируется на единой энкодерной архитектуре для распознавания речи, звуков и музыки, а в качестве декодера используется архитектура популярной китайской LLM Qwen2.5‑7B. Кроме того, для обучения Flamingo-3 использовались 4 новых датасета: AudioSkills‑XL, LongAudio‑XL, AF‑Think и AF‑Chat, состоящие из аудио-данных разных форматов. Это позволяет новой модели обрабатывать длинные аудиовходы вплоть до 10 минут (16000 токенов), поддерживает функцию ввода запроса как голосом, так и текстом (1024 символа), распознает как двухмерный, так и одномерный звук. Помимо базовой модели, Nvidia также представила AF3-Chat — вариация Audio-Flamingo-3, настроенная специально для многопользовательского голосового чата.
Выводы
Nvidia уже не в первый раз выпускает языковые модели, специализирующиеся на конкретных задачах, которые занимают лидерские позиции во всех возможных бенчмарках. Например, ИИ-модель NVIDIA cuOpt установила стандарты в оптимизации логистики, а Hydra-MDP заняла первое место в испытаниях автономных автомобилей. Скорее всего, Nvidia использует наработки из этих нейросетей для улучшения так называемых моделей физического искусственного интеллекта, которые в будущем будут управлять автономными роботами, идею использования и разработки которых Nvidia активно популяризирует последние несколько лет.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.