Ai2 представил OLMo 3.1-32B Think — новая LLM с акцентом на глубокое размышление

13.12.2025

~ 2 мин

567

Простой

Новости

Введение

ИИ-стартап Ai2 объявил о выпуске OLMo 3.1 32B Think — новой флагманской модели в рамках семейства OLMo 3, ориентированной на задачи, требующие сложного пошагового рассуждения. Модель распространяется под лицензией Apache 2.0, что делает ее доступной для исследовательского и образовательного использования с полным раскрытием кода, контрольных точек и данных обучения.

Подробнее о OLMo 3.1 32B Think

OLMo 3.1 32B Think является трансформер-моделью с 32 миллиардами параметров и обучена исключительно на англоязычном датасете Dolma 3, после чего модель прошла многоэтапное пост-обучение на специализированных наборах Dolci, направленных на развитие математического, алгоритмического и программного мышления. В Ai2 подчеркивают, что ключевая цель серии OLMo — не только достичь высокого качества, но обеспечить максимальную открытость: архитектура, данные и процесс обучения полностью задокументированы и доступны в открытом доступе.

Финальная версия OLMo 3.1 32B Think формировалась в три этапа. Сначала модель прошла SFT-обучение, включающем задачи по математике, программированию, общему чату и работе с инструкциями. Затем применялась техника DPO, где модель обучалась выбирать более качественные способы выстраивания рассуждения. Завершающим этапом стало обучение с подкреплением на основе проверяемых вознаграждений (RLVR), ориентированного на строго проверяемые математические и кодовые ответы. Именно этот этап, по словам разработчиков, дал основной прирост производительности в задачах формального рассуждения.

В математическом бенчмарке MATH модель набрала 96,2%, превзойдя OLMo 2 32B Instruct с результатом 49,2% и Qwen 2.5 32B с 80,2%. В задачах AIME 2024 результат составил 80,6%, а на AIME 2025 — 78,1%, что значительно выше показателей большинства открытых альтернатив. В более сложном наборе OMEGA модель достигла 53,4%, тогда как OLMo 2 32B показал менее 10 %. В задачах логического мышления OLMo 3.1 32B Think набрала 88,6% на BigBenchHard, 80,1% на ZebraLogic и 89,2% на AGI Eval English. В программировании модель показала 91,5% на HumanEvalPlus и 83,3% на LiveCodeBench v3, что выводит ее в один ряд с лучшими открытыми моделями для агентного кодинга. В тестах на следование инструкциям результаты также выросли: 93,8% на IFEval и 68,1% на IFBench, что заметно выше показателей версий без RLVR-этапа.

Результаты тестирования OLMo 3.1 32B Think. Источник: Ai2.

Также модель набрала 86,4% на MMLU и 57,5% на GPQA, уступая некоторым закрытым и мультимодальным моделям, но при этом сохраняя конкурентоспособность в открытом сегменте. В диалоговых оценках AlpacaEval 2 LC результат составил 69,1%, а по метрикам безопасности модель получила 83,6%, что указывает на более устойчивое поведение по сравнению с предыдущими поколениями OLMo Think. OLMo 3.1 32B Think доступна в формате BF16 и может запускаться как через библиотеку Transformers, так и через vLLM или другие совместимые движки инференса.

Выводы

OLMo 3.1 32B Think закрепляет за Ai2 позицию одного из лидеров открытого ИИ-стека в области задач на эффективное рассуждение. По совокупности математических, логических и кодовых бенчмарков модель выходит на уровень лучших open-source решений с 32 миллиардами параметров и в ряде задач приближается к более крупным проприетарным системам. При этом полная прозрачность обучения и лицензия Apache 2.0 делают ее особенно ценной для исследователей, университетов и команд ИИ-энтузиастов, которым важны воспроизводимость и контроль над моделью, а не только метрики эффективности.

Автор:

Serverflow