Команда AllenAI (Ai2) представила новую линейку своих флагманских ИИ-моделей — OLMo 3. Не изменяя традициям, 3 новых LLM-решения стартапа имеют открытый исходный код и поддерживают режим размышления, но в новой линейке разработчики обеспечили значительный прирост производительностей и увеличили контекстное окно, а также добавили прозрачный процесс аналитики модели при генерации ответа. Несмотря на компактные размеры, модели семейства OLMo 3 обеспечивают эффективность, сопоставимую с более крупными LLM.
Подробнее о OLMo 3
В новом релизе Ai2 выпустила 3 ИИ-модели: OLMo 3-Base, OLMo 3-Think и OLMo 3-Instruct, доступные в версиях на 7 и 32 миллиарда параметров, каждая из которых работает с контекстным окном в 65 тысяч токенов. Наибольший интерес вызывает модель OLMo 3-Think-32b, которая стала первой моделью этого разработчика, которая поддерживает прозрачные пошаговые рассуждения, благодаря чему пользователи могут мониторить всю логику решения задачи в реальном времени. В свою очередь, OLMo 3-Instruct в лучшей степени следует пользовательским инструкциям, а модель OLMo 3-Base ориентирована на универсальность при выполнении операций.
Стоит отметить, что команда Ai2 впервые раскрыла источники данных, этапы подготовки корпусов, логи тренировки, внутренние контрольные точки и методологию оценки эффективности, полностью открыв юзерам подробности о процессе обучения нового семейства ИИ. Это позволяет исследователям проверять, как формируются выводы моделей, и отслеживать каждую фазу развития системы. Для обучения OLMo 3 использовался корпус Dolma 3, включающий шесть триллионов токенов из интернета, научных публикаций и исходного кода. Одновременно Ai2 представил Dolci Suite — набор инструментов для дообучения моделей на задачах рассуждений, а также систему OLMES для воспроизводимой проверки качества. Семейство OLMo 3 также показывает впечатляющие результаты. Согласно данным Ai2, модель OLMo 3-Base 7b обучалась в 2,5 раза эффективнее, чем Llama*-3.1-8B. Кроме того, эффективность работы OLMo 3-Think-32b сопоставимо с производительностью более крупными ИИ и других открытых ИИ-решений, в частности, модели Alibaba Qwen 32b. Все модели распространяются по лицензии Apache 2.0 и доступны на Hugging Face и в интерфейсе Ai2 Playground.
Производительность моделей OLMo 3 в сравнении с другими LLM. Источник: AllenAI.
Выводы
Семейство OLMo 3 представляет новую ступень развития открытого искусственного интеллекта. Разработчики полностью открыли все подробности не только работы самих нейросетей, но и осветили подробности о процессе их обучения, что полностью соответствует принципам open-source подхода. OLMo 3 продолжает тенденцию, заложенную предыдущими версиями: делает ИИ более понятным, прозрачным и доступным для исследований, компаний и разработчиков по всему миру.
*LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена
**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.