Olmo 2:1b — новая компактная языковая модель от Ai2

04.05.2025

~ 2 мин

367

Простой

Новости

Введение

На прошлой неделе исследовательская организация Ai2, специализирующаяся на разработке искусственного интеллекта, анонсировала выпуск сверхмалой языковой модели Olmo 2 1b. Несмотря на скромный размер (1 миллиард параметров), система, по заявлению разработчиков, опережает аналогичные решения от Google, Meta* и Alibaba в ключевых дисциплинах.

Подробнее об Olmo 2:1b

Новейшая языковая модель распространяется под открытой лицензией Apache 2.0 через платформу Hugging Face. В отличие от многих аналогов, Olmo 2 1B позволяет воссоздать ее “с нуля” — команда Ai2 опубликовала не только исходный код своей нейросети, но и обучающие датасеты (Olmo-mix-1124, Dolmino-mix-1124). Благодаря этому, разработчики искусственного интеллекта могут гибко модифицировать и дообучать нейросеть Olmo 2:1b. Хотя небольшие модели уступают крупным проектом в большинстве сложных задач, они популярны из-за другого преимущества — очень низкие требования к вычислительным ресурсам системы. Например, Olmo 2 1b способна работать даже на обычном ноутбуке, слабом ПК или смартфоне, то есть для запуска необходимо менее 5 ГБ VRAM. Тренд на миниатюризацию нейросетей подтверждают и другие релизы: Microsoft с семейством Phi 4 и Qwen с моделью Omni 3B 2.5, выпущенные в конце апреля 2025 года.

Для тренировки Olmo 2 1b использовалось 4 триллиона токенов — базовых единиц данных, объединяющих текст, сгенерированный ИИ, и материалы, созданные людьми (1 миллион токенов эквивалентно 750 000 словам). В тесте GSM8K, который оценивает математические способности нейросетей, модель Olmo 2 1b набрала больше баллов (68% правильных ответов), чем Google Gemma 3 1B, Meta Llama* 3.2 1B и Alibaba Qwen 2.5 1.5B. Она также лидирует в бенчмарке TruthfulQA (43% правильных ответов), где проверяется релевантность ответов. Помимо этого, нейросеть Olmo 2 1b демонстрирует высочайшую скорость генерации ответов благодаря облегченным весам. Вместо использования привычной архитектуры MoE, Olmo 2 1b применяет глубинные RoPE‑позиционные кодировки и оптимизатор Lion/AdamW с обучающим LR‑свичем, который также применялся в модели OLMo 2 13b

Разработчики предупреждают, что Olmo 2 1B, как и любая ИИ-система, может генерировать неточную информацию, токсичный или социально-неприемлемый контент, если недобросовестные пользователи будут применять методы обхода ограничений нейросетей. Из-за этих рисков Ai2 не рекомендует использовать модель в коммерческих продуктах без применения дополнительных механизмов контроля ответов.

Выводы

Компания Ai2 и ее решения семейства Olmo 2 демонстрируют готовность небольших ИИ-стартапов выходить на глобальный рынок и активно конкурировать с проприетарными или открытыми моделями от крупных корпораций. Вполне возможно, что уже в ближайшем будущем методы оптимизации и сжатия языковых моделей дойдут до того уровня, когда даже передовые LLM можно будет локально запускать даже на таких слабых устройствах, как смартфоны или даже одноплатные компьютеры, при этом минимально теряя точность оригинальной версии нейросети.

Автор:

Serverflow

Olmo 2:1b — новая компактная языковая модель от Ai2

Введение

Подробнее об Olmo 2:1b

Выводы

Комментарии 0