Top.Mail.Ru
Olmo 2:1b — новая компактная языковая модель от Ai2 | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение
Olmo 2:1b — новая компактная языковая модель от Ai2

Автор:

Olmo 2:1b — новая компактная языковая модель от Ai2

Компания Ai2 представила новую компактную нейросеть Olmo 2:1b.

Введение На прошлой неделе исследовательская организация Ai2, специализирующаяся на разработке искусственного интеллекта, анонсировала выпуск сверхмалой языковой модели Olmo 2 1b. Несмотря на скромный размер (1 миллиард параметров), система, по заявлению разработчиков, опережает аналогичные решения от Google, Meta* и Alibaba в ключевых дисциплинах. Подробнее об Olmo 2:1b Новейшая языковая модель распространяется под открытой лицензией Apache 2.0 через платформу Hugging Face. В отличие от многих аналогов, Olmo 2 1B позволяет воссоздать ее “с нуля” — команда Ai2 опубликовала не только исходный код своей нейросети, но и обучающие датасеты (Olmo-mix-1124, Dolmino-mix-1124). Благодаря этому, разработчики искусственного интеллекта могут гибко модифицировать и дообучать нейросеть Olmo 2:1b. Хотя небольшие модели уступают крупным проектом в большинстве сложных задач, они популярны из-за другого преимущества — очень низкие требования к вычислительным ресурсам системы. Например, Olmo 2 1b способна работать даже на обычном ноутбуке, слабом ПК или смартфоне, то есть для запуска необходимо менее 5 ГБ VRAM. Тренд на миниатюризацию нейросетей подтверждают и другие релизы: Microsoft с семейством Phi 4 и Qwen с моделью Omni 3B 2.5, выпущенные в конце апреля 2025 года. Для тренировки Olmo 2 1b использовалось 4 триллиона токенов — базовых единиц данных, объединяющих текст, сгенерированный ИИ, и материалы, созданные людьми (1 миллион токенов эквивалентно 750 000 словам). В тесте GSM8K, который оценивает математические способности нейросетей, модель Olmo 2 1b набрала больше баллов (68% правильных ответов), чем Google Gemma 3 1B, Meta Llama* 3.2 1B и Alibaba Qwen 2.5 1.5B. Она также лидирует в бенчмарке TruthfulQA (43% правильных ответов), где проверяется релевантность ответов. Помимо этого, нейросеть Olmo 2 1b демонстрирует высочайшую скорость генерации ответов благодаря облегченным весам. Вместо использования привычной архитектуры MoE, Olmo 2 1b применяет глубинные RoPE‑позиционные кодировки и оптимизатор Lion/AdamW с обучающим LR‑свичем, который также применялся в модели OLMo 2 13b Разработчики предупреждают, что Olmo 2 1B, как и любая ИИ-система, может генерировать неточную информацию, токсичный или социально-неприемлемый контент, если недобросовестные пользователи будут применять методы обхода ограничений нейросетей. Из-за этих рисков Ai2 не рекомендует использовать модель в коммерческих продуктах без применения дополнительных механизмов контроля ответов. Выводы Компания Ai2 и ее решения семейства Olmo 2 демонстрируют готовность небольших ИИ-стартапов выходить на глобальный рынок и активно конкурировать с проприетарными или открытыми моделями от крупных корпораций. Вполне возможно, что уже в ближайшем будущем методы оптимизации и сжатия языковых моделей дойдут до того уровня, когда даже передовые LLM можно будет локально запускать даже на таких слабых устройствах, как смартфоны или даже одноплатные компьютеры, при этом минимально теряя точность оригинальной версии нейросети.

Olmo 2:1b — новая компактная языковая модель от Ai2

~ 2 мин
156
Простой
Новости
Olmo 2:1b — новая компактная языковая модель от Ai2

Введение

На прошлой неделе исследовательская организация Ai2, специализирующаяся на разработке искусственного интеллекта, анонсировала выпуск сверхмалой языковой модели Olmo 2 1b. Несмотря на скромный размер (1 миллиард параметров), система, по заявлению разработчиков, опережает аналогичные решения от Google, Meta* и Alibaba в ключевых дисциплинах.

Подробнее об Olmo 2:1b

Новейшая языковая модель распространяется под открытой лицензией Apache 2.0 через платформу Hugging Face. В отличие от многих аналогов, Olmo 2 1B позволяет воссоздать ее “с нуля” — команда Ai2 опубликовала не только исходный код своей нейросети, но и обучающие датасеты (Olmo-mix-1124, Dolmino-mix-1124). Благодаря этому, разработчики искусственного интеллекта могут гибко модифицировать и дообучать нейросеть Olmo 2:1b. Хотя небольшие модели уступают крупным проектом в большинстве сложных задач, они популярны из-за другого преимущества — очень низкие требования к вычислительным ресурсам системы. Например, Olmo 2 1b способна работать даже на обычном ноутбуке, слабом ПК или смартфоне, то есть для запуска необходимо менее 5 ГБ VRAM. Тренд на миниатюризацию нейросетей подтверждают и другие релизы: Microsoft с семейством Phi 4 и Qwen с моделью Omni 3B 2.5, выпущенные в конце апреля 2025 года.

Для тренировки Olmo 2 1b использовалось 4 триллиона токенов — базовых единиц данных, объединяющих текст, сгенерированный ИИ, и материалы, созданные людьми (1 миллион токенов эквивалентно 750 000 словам). В тесте GSM8K, который оценивает математические способности нейросетей, модель Olmo 2 1b набрала больше баллов (68% правильных ответов), чем Google Gemma 3 1B, Meta Llama* 3.2 1B и Alibaba Qwen 2.5 1.5B. Она также лидирует в бенчмарке TruthfulQA (43% правильных ответов), где проверяется релевантность ответов. Помимо этого, нейросеть Olmo 2 1b демонстрирует высочайшую скорость генерации ответов благодаря облегченным весам. Вместо использования привычной архитектуры MoE, Olmo 2 1b применяет глубинные RoPE‑позиционные кодировки и оптимизатор Lion/AdamW с обучающим LR‑свичем, который также применялся в модели OLMo 2 13b

Разработчики предупреждают, что Olmo 2 1B, как и любая ИИ-система, может генерировать неточную информацию, токсичный или социально-неприемлемый контент, если недобросовестные пользователи будут применять методы обхода ограничений нейросетей. Из-за этих рисков Ai2 не рекомендует использовать модель в коммерческих продуктах без применения дополнительных механизмов контроля ответов.

Выводы

Компания Ai2 и ее решения семейства Olmo 2 демонстрируют готовность небольших ИИ-стартапов выходить на глобальный рынок и активно конкурировать с проприетарными или открытыми моделями от крупных корпораций. Вполне возможно, что уже в ближайшем будущем методы оптимизации и сжатия языковых моделей дойдут до того уровня, когда даже передовые LLM можно будет локально запускать даже на таких слабых устройствах, как смартфоны или даже одноплатные компьютеры, при этом минимально теряя точность оригинальной версии нейросети.


Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-19:00 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-19:00 (по МСК)