Top.Mail.Ru
LFM2-2.6B-Exp — экспериментальная LLM в лидерах среди 3b-моделей | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Скидка
за отзыв!
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

LFM2-2.6B-Exp — экспериментальная LLM в лидерах среди 3b-моделей

~ 2 мин
85
Простой
Новости
LFM2-2.6B-Exp — экспериментальная LLM в лидерах среди 3b-моделей

Введение

ИИ-стартап Liquid выпустил в открытый доступ LFM2-2.6B-Exp — экспериментальную версию модели семейства LFM2, построенную на основе базовой LFM2-2.6B и обученную с применением чистого RL. Основной фокус этой контрольной точки — качественное выполнение инструкций, работа с фактологическими знаниями и решение математических задач. В сегменте компактных моделей до 3 млрд параметров она демонстрирует нетипично высокую эффективность, что делает ее заметным участником среди современных малых LLM.

Подробнее о LFM2-2.6B-Exp

Ключевым отличием LFM2-2.6B-Exp является ее производительность на прикладных бенчмарках. В частности, результат модели в IFBench превышает показатель DeepSeek R1-0528, несмотря на то, что последняя превосходит ее по размеру примерно в 263 раза. Это подчеркивает ориентацию проекета на оптимизацию обучения и архитектуры, а не на экстенсивный рост числа параметров.

Модель относится к линейке LFM2, которая охватывает конфигурации от 350 млн до 2,6 млрд параметров. Версия 2.6B содержит около 2,57 млрд параметров и использует 30 слоев, из которых 22 приходятся на блоки с вентильной логикой, а 8 — на механизмы внимания. Длина контекста во всей серии зафиксирована на уровне 32 768 токенов, словарный запас составляет 65 536 токенов, а вычисления ориентированы на формат bfloat16. Обучение всех моделей серии проводилось с бюджетом порядка 10 трлн токенов и распространяется под открытой лицензией LFM v1.0. Поддерживаются восемь языков, включая английский, китайский, арабский, основные европейские языки, а также японский и корейский.

С архитектурной точки зрения LFM2-2.6B-Exp использует гибридный подход, сочетающий короткие свертки и механизмы внимания. В основе лежат десять блоков сверточных LIV-сетей с двойными мультипликативными вентилями, дополненные шестью блоками сгруппированного внимания к запросам (GQA). Такая компоновка позволяет эффективно обрабатывать длинный контекст при относительно умеренных вычислительных затратах.

Предварительное обучение модели проводилось на смешанном корпусе данных, где около 75 процентов приходятся на англоязычный контент, примерно 20 процентов — на другие естественные языки, а около 5% — на данные, связанные с кодом. Источниками выступали как открытые интернет-данные, так и лицензированные материалы. После этого применялся многоэтапный подход к дообучению, включающий масштабное supervised fine-tuning для половины задач, пользовательский DPO с нормализацией по длине контекста, итеративное объединение моделей и финальный этап обучения с подкреплением с проверяемыми вознаграждениями.

С учетом размеров модели разработчики рекомендуют дообучение под конкретные сценарии использования. LFM2-2.6B-Exp особенно хорошо подходит для агентских систем, задач извлечения и структурирования данных, RAG-сценариев, творческого письма и многошаговых диалогов. При этом модель не позиционируется как оптимальное решение для задач, требующих глубокой специализированной экспертизы или сложного программирования.

Тестирование LFM2-2.6B-Exp
Результаты тестирования LFM2-2.6B-Exp. Источник: Hugging Face.

Выводы

LFM2-2.6B-Exp демонстрирует, что компактные языковые модели могут конкурировать с существенно более крупными системами за счет продуманной архитектуры и агрессивного использования обучения с подкреплением. Высокие результаты на бенчмарках, длинный контекст и открытая лицензия делают ее привлекательной основой для прикладных и исследовательских решений. Модель доступна для запуска через экосистему Hugging Face Transformers, а также совместима с vLLM и llama.cpp, что упрощает ее интеграцию как в серверные, так и в локальные среды.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-18:30 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-18:30 (по МСК)