Top.Mail.Ru
Nvidia выпустила Eagle 2.5 — новую языковую модель для анализа видео и изображений | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение
Nvidia выпустила Eagle 2.5 — новую языковую модель для анализа видео и изображений

Автор:

Nvidia выпустила Eagle 2.5 — новую языковую модель для анализа видео и изображений

Eagle 2.5 — языковая модель для визуального анализа от Nvidia.

Введение Компания Nvidia разработала собственную мультимодальными LLM Eagle 2.5 8b, предназначенную для визуального анализа и обработки изображений или видеороликов. Как заявляет Nvidia, Eagle 2.5 способна эффективна при работе с объемными, высококачественными материалами. Подробнее о Eagle 2.5 Eagle 2.5 8b — это передовая языковая модель объемом 8 миллиардов параметров. Искусственный интеллект способен ознакомиться с видео или изображением и распознать увиденное, после чего сгенерирует релевантный ответ по запросу пользователя. К примеру, Eagle 2.5 8b может найти нужный отрезок видео, точно определив его содержимое по промпту. Кроме того, компания заявляет, что при увеличении контекста видео, производительность Eagle 2.5 8b увеличивается, благодаря чему юзеры будут получать наиболее релевантные результаты. Примечательно, что Eagle 2.5 8b входит в семейство языковых моделей, предназначенных для мультимодельного обучения, из чего следует, что новая LLM может использоваться для обучения других нейросетей.  Производительность Eagle 2.5 8b в бенчмарке MME. Источник: Nvidia GiHub. При обучении Eagle 2.5 8b использовался особый подход — выборка приоритетной информации и продвинутое пост-обучение. За счет выборки данных модель акцентирует внимание только на важных визуальных блоках, а также уменьшается вероятность появления галлюцинаций. В свою очередь, продвинутое пост-обучение постепенно увеличивает контекстное окно модели, проходя этапы с 32 000, 64 000 и 128 000 токенов, за счет чего при большем контексте модели увеличивается ее производительность. В качестве набора данных для обучения новой LLM использовался пул Eagle-Video-110K. Кроме того, Eagle 2.5 8b также разработана на основе гибридной архитектуры, в которой используется платформа SigLIP для машинного зрения и MLP для поддержки мультимодального функционала.  При своем небольшом количестве параметров, Eagle 2.5 8b удается достигать высоких результатов в установленных тестах. К примеру, в бенчмарке MME (с вводом 512 кадров) модель набирает 72,4%, что сопоставимо результатам более крупных моделей, таких как Qwen2.5-VL-72b и InternVL2.5-78b, оптимизированных для машинного зрения. При этом, столь высокая производительность достигается без использования квантизации данных для выполнения конкретной задачи. В тестах на распознавание видео она набирает 74,8 балла в MVBench, 77,6 балла в MLVU и 66,4 балла в LongVideoBench. В тестах на распознавание изображений модель набирает 94,1 балла в DocVQA, 87,5 балла в ChartQA и 80,4 балла в InfoVQA и другие. Эти результаты не просто находятся на уровне GPT-4o, но и превосходят производительность нейросети от OpenAI. Сравнение производительности Eagle 2.5 8b и моделей конкурентов в задачах визуального анализа. Источник: Nvidia GiHub. Выводы Nvidia продолжает развивать направление ИИ-технологий, разрабатывая не только передовое вычислительное оборудование, но и собственные нейросети. Вполне возможно, что в будущем Nvidia начнет выпускать более комплексные, мультимодальные решения, которые будут нацелены на реализацию не только для разработчиков новейших LLM, но и на массовый потребительский рынок, начав полноценную конкуренцию с OpenAI и другими компаниями.

Nvidia выпустила Eagle 2.5 — новую языковую модель для анализа видео и изображений

~ 2 мин
93
Простой
Новости
Nvidia выпустила Eagle 2.5 — новую языковую модель для анализа видео и изображений

Введение

Компания Nvidia разработала собственную мультимодальными LLM Eagle 2.5 8b, предназначенную для визуального анализа и обработки изображений или видеороликов. Как заявляет Nvidia, Eagle 2.5 способна эффективна при работе с объемными, высококачественными материалами.

Подробнее о Eagle 2.5

Eagle 2.5 8b — это передовая языковая модель объемом 8 миллиардов параметров. Искусственный интеллект способен ознакомиться с видео или изображением и распознать увиденное, после чего сгенерирует релевантный ответ по запросу пользователя. К примеру, Eagle 2.5 8b может найти нужный отрезок видео, точно определив его содержимое по промпту. Кроме того, компания заявляет, что при увеличении контекста видео, производительность Eagle 2.5 8b увеличивается, благодаря чему юзеры будут получать наиболее релевантные результаты. Примечательно, что Eagle 2.5 8b входит в семейство языковых моделей, предназначенных для мультимодельного обучения, из чего следует, что новая LLM может использоваться для обучения других нейросетей. 

Производительность Eagle 2.5 8b в MME
Производительность Eagle 2.5 8b в бенчмарке MME. Источник: Nvidia GiHub.

При обучении Eagle 2.5 8b использовался особый подход — выборка приоритетной информации и продвинутое пост-обучение. За счет выборки данных модель акцентирует внимание только на важных визуальных блоках, а также уменьшается вероятность появления галлюцинаций. В свою очередь, продвинутое пост-обучение постепенно увеличивает контекстное окно модели, проходя этапы с 32 000, 64 000 и 128 000 токенов, за счет чего при большем контексте модели увеличивается ее производительность. В качестве набора данных для обучения новой LLM использовался пул Eagle-Video-110K. Кроме того, Eagle 2.5 8b также разработана на основе гибридной архитектуры, в которой используется платформа SigLIP для машинного зрения и MLP для поддержки мультимодального функционала. 

При своем небольшом количестве параметров, Eagle 2.5 8b удается достигать высоких результатов в установленных тестах. К примеру, в бенчмарке MME (с вводом 512 кадров) модель набирает 72,4%, что сопоставимо результатам более крупных моделей, таких как Qwen2.5-VL-72b и InternVL2.5-78b, оптимизированных для машинного зрения. При этом, столь высокая производительность достигается без использования квантизации данных для выполнения конкретной задачи. В тестах на распознавание видео она набирает 74,8 балла в MVBench, 77,6 балла в MLVU и 66,4 балла в LongVideoBench. В тестах на распознавание изображений модель набирает 94,1 балла в DocVQA, 87,5 балла в ChartQA и 80,4 балла в InfoVQA и другие. Эти результаты не просто находятся на уровне GPT-4o, но и превосходят производительность нейросети от OpenAI.

Сравнение производительности Eagle 2.5 8b и аналогов
Сравнение производительности Eagle 2.5 8b и моделей конкурентов в задачах визуального анализа. Источник: Nvidia GiHub.

Выводы

Nvidia продолжает развивать направление ИИ-технологий, разрабатывая не только передовое вычислительное оборудование, но и собственные нейросети. Вполне возможно, что в будущем Nvidia начнет выпускать более комплексные, мультимодальные решения, которые будут нацелены на реализацию не только для разработчиков новейших LLM, но и на массовый потребительский рынок, начав полноценную конкуренцию с OpenAI и другими компаниями.

Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.

Написать отзыв

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-19:00 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-19:00 (по МСК)