Nvidia выпустила Eagle 2.5 — новую языковую модель для анализа видео и изображений
Автор: ServerFlow
Eagle 2.5 — языковая модель для визуального анализа от Nvidia.
Введение
Компания Nvidia разработала собственную мультимодальными LLM Eagle 2.5 8b, предназначенную для визуального анализа и обработки изображений или видеороликов. Как заявляет Nvidia, Eagle 2.5 способна эффективна при работе с объемными, высококачественными материалами.
Подробнее о Eagle 2.5
Eagle 2.5 8b — это передовая языковая модель объемом 8 миллиардов параметров. Искусственный интеллект способен ознакомиться с видео или изображением и распознать увиденное, после чего сгенерирует релевантный ответ по запросу пользователя. К примеру, Eagle 2.5 8b может найти нужный отрезок видео, точно определив его содержимое по промпту. Кроме того, компания заявляет, что при увеличении контекста видео, производительность Eagle 2.5 8b увеличивается, благодаря чему юзеры будут получать наиболее релевантные результаты. Примечательно, что Eagle 2.5 8b входит в семейство языковых моделей, предназначенных для мультимодельного обучения, из чего следует, что новая LLM может использоваться для обучения других нейросетей.
Производительность Eagle 2.5 8b в бенчмарке MME. Источник: Nvidia GiHub.
При обучении Eagle 2.5 8b использовался особый подход — выборка приоритетной информации и продвинутое пост-обучение. За счет выборки данных модель акцентирует внимание только на важных визуальных блоках, а также уменьшается вероятность появления галлюцинаций. В свою очередь, продвинутое пост-обучение постепенно увеличивает контекстное окно модели, проходя этапы с 32 000, 64 000 и 128 000 токенов, за счет чего при большем контексте модели увеличивается ее производительность. В качестве набора данных для обучения новой LLM использовался пул Eagle-Video-110K. Кроме того, Eagle 2.5 8b также разработана на основе гибридной архитектуры, в которой используется платформа SigLIP для машинного зрения и MLP для поддержки мультимодального функционала.
При своем небольшом количестве параметров, Eagle 2.5 8b удается достигать высоких результатов в установленных тестах. К примеру, в бенчмарке MME (с вводом 512 кадров) модель набирает 72,4%, что сопоставимо результатам более крупных моделей, таких как Qwen2.5-VL-72b и InternVL2.5-78b, оптимизированных для машинного зрения. При этом, столь высокая производительность достигается без использования квантизации данных для выполнения конкретной задачи. В тестах на распознавание видео она набирает 74,8 балла в MVBench, 77,6 балла в MLVU и 66,4 балла в LongVideoBench. В тестах на распознавание изображений модель набирает 94,1 балла в DocVQA, 87,5 балла в ChartQA и 80,4 балла в InfoVQA и другие. Эти результаты не просто находятся на уровне GPT-4o, но и превосходят производительность нейросети от OpenAI.
Сравнение производительности Eagle 2.5 8b и моделей конкурентов в задачах визуального анализа. Источник: Nvidia GiHub.
Выводы
Nvidia продолжает развивать направление ИИ-технологий, разрабатывая не только передовое вычислительное оборудование, но и собственные нейросети. Вполне возможно, что в будущем Nvidia начнет выпускать более комплексные, мультимодальные решения, которые будут нацелены на реализацию не только для разработчиков новейших LLM, но и на массовый потребительский рынок, начав полноценную конкуренцию с OpenAI и другими компаниями.
Nvidia выпустила Eagle 2.5 — новую языковую модель для анализа видео и изображений
Компания Nvidia разработала собственную мультимодальными LLM Eagle 2.5 8b, предназначенную для визуального анализа и обработки изображений или видеороликов. Как заявляет Nvidia, Eagle 2.5 способна эффективна при работе с объемными, высококачественными материалами.
Подробнее о Eagle 2.5
Eagle 2.5 8b — это передовая языковая модель объемом 8 миллиардов параметров. Искусственный интеллект способен ознакомиться с видео или изображением и распознать увиденное, после чего сгенерирует релевантный ответ по запросу пользователя. К примеру, Eagle 2.5 8b может найти нужный отрезок видео, точно определив его содержимое по промпту. Кроме того, компания заявляет, что при увеличении контекста видео, производительность Eagle 2.5 8b увеличивается, благодаря чему юзеры будут получать наиболее релевантные результаты. Примечательно, что Eagle 2.5 8b входит в семейство языковых моделей, предназначенных для мультимодельного обучения, из чего следует, что новая LLM может использоваться для обучения других нейросетей.
Производительность Eagle 2.5 8b в бенчмарке MME. Источник: Nvidia GiHub.
При обучении Eagle 2.5 8b использовался особый подход — выборка приоритетной информации и продвинутое пост-обучение. За счет выборки данных модель акцентирует внимание только на важных визуальных блоках, а также уменьшается вероятность появления галлюцинаций. В свою очередь, продвинутое пост-обучение постепенно увеличивает контекстное окно модели, проходя этапы с 32 000, 64 000 и 128 000 токенов, за счет чего при большем контексте модели увеличивается ее производительность. В качестве набора данных для обучения новой LLM использовался пул Eagle-Video-110K. Кроме того, Eagle 2.5 8b также разработана на основе гибридной архитектуры, в которой используется платформа SigLIP для машинного зрения и MLP для поддержки мультимодального функционала.
При своем небольшом количестве параметров, Eagle 2.5 8b удается достигать высоких результатов в установленных тестах. К примеру, в бенчмарке MME (с вводом 512 кадров) модель набирает 72,4%, что сопоставимо результатам более крупных моделей, таких как Qwen2.5-VL-72b и InternVL2.5-78b, оптимизированных для машинного зрения. При этом, столь высокая производительность достигается без использования квантизации данных для выполнения конкретной задачи. В тестах на распознавание видео она набирает 74,8 балла в MVBench, 77,6 балла в MLVU и 66,4 балла в LongVideoBench. В тестах на распознавание изображений модель набирает 94,1 балла в DocVQA, 87,5 балла в ChartQA и 80,4 балла в InfoVQA и другие. Эти результаты не просто находятся на уровне GPT-4o, но и превосходят производительность нейросети от OpenAI.
Сравнение производительности Eagle 2.5 8b и моделей конкурентов в задачах визуального анализа. Источник: Nvidia GiHub.
Выводы
Nvidia продолжает развивать направление ИИ-технологий, разрабатывая не только передовое вычислительное оборудование, но и собственные нейросети. Вполне возможно, что в будущем Nvidia начнет выпускать более комплексные, мультимодальные решения, которые будут нацелены на реализацию не только для разработчиков новейших LLM, но и на массовый потребительский рынок, начав полноценную конкуренцию с OpenAI и другими компаниями.
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Получите скидку 3 000 рублей или бесплатную доставку за подписку на новости*!
* — скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка.
Мы получили ваш отзыв!
Он появится на сайте после модерации.
Мы получили ваш отзыв!
Он появится на сайте после модерации.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.