Nvidia выпустила Eagle 2.5 — новую языковую модель для анализа видео и изображений

Автор: ServerFlow

Eagle 2.5 — языковая модель для визуального анализа от Nvidia.

Введение Компания Nvidia разработала собственную мультимодальными LLM Eagle 2.5 8b, предназначенную для визуального анализа и обработки изображений или видеороликов. Как заявляет Nvidia, Eagle 2.5 способна эффективна при работе с объемными, высококачественными материалами. Подробнее о Eagle 2.5 Eagle 2.5 8b — это передовая языковая модель объемом 8 миллиардов параметров. Искусственный интеллект способен ознакомиться с видео или изображением и распознать увиденное, после чего сгенерирует релевантный ответ по запросу пользователя. К примеру, Eagle 2.5 8b может найти нужный отрезок видео, точно определив его содержимое по промпту. Кроме того, компания заявляет, что при увеличении контекста видео, производительность Eagle 2.5 8b увеличивается, благодаря чему юзеры будут получать наиболее релевантные результаты. Примечательно, что Eagle 2.5 8b входит в семейство языковых моделей, предназначенных для мультимодельного обучения, из чего следует, что новая LLM может использоваться для обучения других нейросетей. Производительность Eagle 2.5 8b в бенчмарке MME. Источник: Nvidia GiHub. При обучении Eagle 2.5 8b использовался особый подход — выборка приоритетной информации и продвинутое пост-обучение. За счет выборки данных модель акцентирует внимание только на важных визуальных блоках, а также уменьшается вероятность появления галлюцинаций. В свою очередь, продвинутое пост-обучение постепенно увеличивает контекстное окно модели, проходя этапы с 32 000, 64 000 и 128 000 токенов, за счет чего при большем контексте модели увеличивается ее производительность. В качестве набора данных для обучения новой LLM использовался пул Eagle-Video-110K. Кроме того, Eagle 2.5 8b также разработана на основе гибридной архитектуры, в которой используется платформа SigLIP для машинного зрения и MLP для поддержки мультимодального функционала. При своем небольшом количестве параметров, Eagle 2.5 8b удается достигать высоких результатов в установленных тестах. К примеру, в бенчмарке MME (с вводом 512 кадров) модель набирает 72,4%, что сопоставимо результатам более крупных моделей, таких как Qwen2.5-VL-72b и InternVL2.5-78b, оптимизированных для машинного зрения. При этом, столь высокая производительность достигается без использования квантизации данных для выполнения конкретной задачи. В тестах на распознавание видео она набирает 74,8 балла в MVBench, 77,6 балла в MLVU и 66,4 балла в LongVideoBench. В тестах на распознавание изображений модель набирает 94,1 балла в DocVQA, 87,5 балла в ChartQA и 80,4 балла в InfoVQA и другие. Эти результаты не просто находятся на уровне GPT-4o, но и превосходят производительность нейросети от OpenAI. Сравнение производительности Eagle 2.5 8b и моделей конкурентов в задачах визуального анализа. Источник: Nvidia GiHub. Выводы Nvidia продолжает развивать направление ИИ-технологий, разрабатывая не только передовое вычислительное оборудование, но и собственные нейросети. Вполне возможно, что в будущем Nvidia начнет выпускать более комплексные, мультимодальные решения, которые будут нацелены на реализацию не только для разработчиков новейших LLM, но и на массовый потребительский рынок, начав полноценную конкуренцию с OpenAI и другими компаниями.

Nvidia выпустила Eagle 2.5 — новую языковую модель для анализа видео и изображений

24.04.2025

~ 2 мин

Простой

Новости

Введение

Компания Nvidia разработала собственную мультимодальными LLM Eagle 2.5 8b, предназначенную для визуального анализа и обработки изображений или видеороликов. Как заявляет Nvidia, Eagle 2.5 способна эффективна при работе с объемными, высококачественными материалами.

Подробнее о Eagle 2.5

Eagle 2.5 8b — это передовая языковая модель объемом 8 миллиардов параметров. Искусственный интеллект способен ознакомиться с видео или изображением и распознать увиденное, после чего сгенерирует релевантный ответ по запросу пользователя. К примеру, Eagle 2.5 8b может найти нужный отрезок видео, точно определив его содержимое по промпту. Кроме того, компания заявляет, что при увеличении контекста видео, производительность Eagle 2.5 8b увеличивается, благодаря чему юзеры будут получать наиболее релевантные результаты. Примечательно, что Eagle 2.5 8b входит в семейство языковых моделей, предназначенных для мультимодельного обучения, из чего следует, что новая LLM может использоваться для обучения других нейросетей.

Производительность Eagle 2.5 8b в бенчмарке MME. Источник: Nvidia GiHub.

При обучении Eagle 2.5 8b использовался особый подход — выборка приоритетной информации и продвинутое пост-обучение. За счет выборки данных модель акцентирует внимание только на важных визуальных блоках, а также уменьшается вероятность появления галлюцинаций. В свою очередь, продвинутое пост-обучение постепенно увеличивает контекстное окно модели, проходя этапы с 32 000, 64 000 и 128 000 токенов, за счет чего при большем контексте модели увеличивается ее производительность. В качестве набора данных для обучения новой LLM использовался пул Eagle-Video-110K. Кроме того, Eagle 2.5 8b также разработана на основе гибридной архитектуры, в которой используется платформа SigLIP для машинного зрения и MLP для поддержки мультимодального функционала.

При своем небольшом количестве параметров, Eagle 2.5 8b удается достигать высоких результатов в установленных тестах. К примеру, в бенчмарке MME (с вводом 512 кадров) модель набирает 72,4%, что сопоставимо результатам более крупных моделей, таких как Qwen2.5-VL-72b и InternVL2.5-78b, оптимизированных для машинного зрения. При этом, столь высокая производительность достигается без использования квантизации данных для выполнения конкретной задачи. В тестах на распознавание видео она набирает 74,8 балла в MVBench, 77,6 балла в MLVU и 66,4 балла в LongVideoBench. В тестах на распознавание изображений модель набирает 94,1 балла в DocVQA, 87,5 балла в ChartQA и 80,4 балла в InfoVQA и другие. Эти результаты не просто находятся на уровне GPT-4o, но и превосходят производительность нейросети от OpenAI.

Сравнение производительности Eagle 2.5 8b и аналогов

Сравнение производительности Eagle 2.5 8b и моделей конкурентов в задачах визуального анализа. Источник: Nvidia GiHub.

Выводы

Nvidia продолжает развивать направление ИИ-технологий, разрабатывая не только передовое вычислительное оборудование, но и собственные нейросети. Вполне возможно, что в будущем Nvidia начнет выпускать более комплексные, мультимодальные решения, которые будут нацелены на реализацию не только для разработчиков новейших LLM, но и на массовый потребительский рынок, начав полноценную конкуренцию с OpenAI и другими компаниями.

Автор:

Serverflow

Nvidia выпустила Eagle 2.5 — новую языковую модель для анализа видео и изображений

Введение

Подробнее о Eagle 2.5

Выводы

Комментарии 0

Написать отзыв

Написать комментарий

Nvidia выпустила Eagle 2.5 — новую языковую модель для анализа видео и изображений

Введение

Подробнее о Eagle 2.5

Выводы

Комментарии 0

Написать отзыв

Написать комментарий

Отправить резюме

Консультация IT-специалиста

Задать вопрос

Получить спец. цену

Получить КП за час

Сообщите о проблеме

Получить КП на электронную почту