Некоммерческий исследовательский институт искусственного интеллекта AllenAI (Ai2) 13 марта 2025 года выпустил в открытые источники свою новую ИИ-модель OLMo 2 с 32 миллиардами параметров. По заявлениям разработчиков, OLMo 2 32b превосходит передовую нейросеть GPT-4o mini, а также сравнима с моделями Gemma 3 27b и Qwen 2.5 32b.
Параметры модели OLMo 2 32b в разных бенчмарках в сравнении с популярными коммерческими моделями. Источник: .
Особенности OLMo 2 32b
В отличие от других популярных моделей ИИ с открытым исходным кодом, вроде серии Llama* или Gemma, разработчики команды AllenAI поделились с сообществом не только кодом, но и наборами данных обучения (набор Dolmino на 843 миллиарда токенов), технической документацией, весовыми коэффициентами и т.д. Благодаря этому, команда обеспечивает полную прозрачность своего проекта, не скрывая какой-либо информации о моделях серии OLMo 2 от своих пользователей, а также предоставляя правдивые характеристики. При обучении OLMo 2 32b использовался так называемый трехфазный подход. На первой фазе модель изучила языковые шаблоны из 3,9 триллионов токенов. На втором этапе OLMo 2 32b изучила технические документы и академический контент. На третьем этапе ИИ освоила следование инструкциям с использованием фреймворка Tulu 3.1, который сочетает в себе контролируемые и подкрепляемые подходы к обучению языковых моделей. Благодаря такому формату обучения, модель OLMo 2 32b не только сравнима по производительности с передовыми LLM с малым количеством параметров, но и потребляет всего треть вычислительных ресурсов системы при локальном развертывании.
График производительности разных моделей OLMo в сравнении с популярными малыми LLM. Источник: .
Также разработчики из AllenAI рассказали, как разрабатывалась и обучалась OLMo 2 32b. Чтобы эффективно управлять процессом обучения, команда создала особую программную систему OLMo-core, которая способна эффективно координировать работу нескольких вычислительных систем. В качестве вычислительного устройства для обучения OLMo 2 использовалась Augusta AI — суперкомпьютере из 160 узлов на базе ИИ-ускорителей Nvidia H100. За счет этой системы, разработчикам удалось достигнуть скорости обработки данных до 1800 токенов в секунду на 1 GPU. Разработчики AllenAI в ближайшем будущем начнут расширять спектр возможностей нейросети OLMo 2 32b, а также оптимизируют ее способность выстраивать более точные логические цепочки. Помимо версии с 32 миллиардами параметров, в серию OLMo 2 также входят модели с 7 и 13 миллиардами параметров — все версии ИИ OLMo 2 доступны на сайте команды AllenAI и на платформе Hugging Face.
Выводы
На фоне нарастающего ИИ-тренда, на рынке стали выходить модели не только от крупных западных и китайских разработчиков, но и от малоизвестных стартапов, что наглядно демонстрирует выход OLMo 2 32b от команды AllenAI. Конечно, на данный момент OLMo 2 32b не может сравниться по производительности с DeepSeek R1 или GPT-4.5, однако, появление новых игроков в индустрии будет увеличивать конкуренцию, что положительно скажется на частоте появления новых LLM.
*LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена
**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.