Бесплатная
доставка по РФ
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение
Компания Microsoft создала однобитную языковую модель

Автор:

Компания Microsoft создала однобитную языковую модель

1-битную языковую модель BitNet b1.58 2B4T можно запускать прямо на CPU.

Введение 16 апреля 2025 года компания Microsoft выложила в открытый доступ на платформу Hugging Face новейшую языковую модель BitNet b1.58 2B4T. Особенностью этой нейросети является ее уникальная архитектура, получившая название “битнет” — новая LLM является 1-битной, благодаря чему их можно ее можно запускать даже на слабых CPU.  Подробнее о модели BitNet b1.58 2B4T Архитектура “битнет” — это способ создания максимально сжатых языковых моделей для их дальнейшего запуска на системах с низкой производительностью. Если традиционные LLM сжимаются квантизацией, при котором уменьшается количество битов, необходимых для представления весов. Это позволяет запускать языковые модели в системах с небольшим объемом памяти. В свою очередь, “Битнет” квантизирует веса в 3 значения — “-1”, “0” и “1”. Microsoft заявляет, что такой способ квантизации позволяет сохранять точность языковой модели при значительной экономии памяти и вычислительных ресурсов системы. Также разработчики рассказали, что модель BitNet b1.58 2B4T имеет 2 миллиарда параметров, большая часть из которых приходится на веса, а для ее инференса будет достаточно всего 400 МБ. BitNet b1.58 2B4T была обучена на 4 триллионах токенов — столько же информации, сколько в 33 миллионах книг.  Производительность модели не только не уступает, но и превосходит такие нейросети, как Meta Llama* 3.2:1B, Google Gemma 3:1B и Alibaba Qwen 2.5:1.5B, что доказывается результатами тестов GSM8K и PIQA, ориентированных на оценку знаний базовой математики и здравого смысла. Также тестировщики отмечают, что в ряде задач нейросеть генерирует ответы в 2 раза быстрее, чем аналоги от конкурентов, а также расходует меньше памяти.  Подробное сравнение производительности и размера BitNet b1.58 2B4T по сравнению с аналогами. Источник: Hugging Face. Благодаря этому, нейросеть можно с легкостью запускать на пользовательских центральных процессорах, вводя промпты в командной строке. Длина контекстного окна модели составляет 4096 токенов — это немного для больших нейросетей, но для однобитной LLM с возможностью запуска в CPU, это весьма много.  Однако, чтобы производительность модели отвечала заявленной, пользователям необходимо использовать специально разработанный фреймворк от Microsoft bitnet.cpp, поддерживаемый далеко не на всех центральных процессорах. К примеру, bitnet.cpp нельзя использовать на любых графических процессорах. Выводы Microsoft наглядно показала, что малые языковые модели становятся не только более эффективными, но и более доступными. С учетом того, что архитектура “битнет” только появилась, а BitNet b1.58 2B4T стала первой LLM, использующей эту архитектуру, можно предположить, что новая технология максимального сжатия нейросетей будет продолжать совершенствоваться и в будущем появятся модели, которые можно будет разместить на еще более слабом оборудовании. *LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена. **Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена.

Компания Microsoft создала однобитную языковую модель

~ 2 мин
74
Простой
Новости
Компания Microsoft создала однобитную языковую модель

Введение

16 апреля 2025 года компания Microsoft выложила в открытый доступ на платформу Hugging Face новейшую языковую модель BitNet b1.58 2B4T. Особенностью этой нейросети является ее уникальная архитектура, получившая название “битнет” — новая LLM является 1-битной, благодаря чему их можно ее можно запускать даже на слабых CPU. 

Подробнее о модели BitNet b1.58 2B4T

Архитектура “битнет” — это способ создания максимально сжатых языковых моделей для их дальнейшего запуска на системах с низкой производительностью. Если традиционные LLM сжимаются квантизацией, при котором уменьшается количество битов, необходимых для представления весов. Это позволяет запускать языковые модели в системах с небольшим объемом памяти. В свою очередь, “Битнет” квантизирует веса в 3 значения — “-1”, “0” и “1”. Microsoft заявляет, что такой способ квантизации позволяет сохранять точность языковой модели при значительной экономии памяти и вычислительных ресурсов системы. Также разработчики рассказали, что модель BitNet b1.58 2B4T имеет 2 миллиарда параметров, большая часть из которых приходится на веса, а для ее инференса будет достаточно всего 400 МБ. BitNet b1.58 2B4T была обучена на 4 триллионах токенов — столько же информации, сколько в 33 миллионах книг. 

Производительность модели не только не уступает, но и превосходит такие нейросети, как Meta Llama* 3.2:1B, Google Gemma 3:1B и Alibaba Qwen 2.5:1.5B, что доказывается результатами тестов GSM8K и PIQA, ориентированных на оценку знаний базовой математики и здравого смысла. Также тестировщики отмечают, что в ряде задач нейросеть генерирует ответы в 2 раза быстрее, чем аналоги от конкурентов, а также расходует меньше памяти. 

BitNet b1.58 2B4T
Подробное сравнение производительности и размера BitNet b1.58 2B4T по сравнению с аналогами. Источник: Hugging Face.

Благодаря этому, нейросеть можно с легкостью запускать на пользовательских центральных процессорах, вводя промпты в командной строке. Длина контекстного окна модели составляет 4096 токенов — это немного для больших нейросетей, но для однобитной LLM с возможностью запуска в CPU, это весьма много. 

Однако, чтобы производительность модели отвечала заявленной, пользователям необходимо использовать специально разработанный фреймворк от Microsoft bitnet.cpp, поддерживаемый далеко не на всех центральных процессорах. К примеру, bitnet.cpp нельзя использовать на любых графических процессорах.

Выводы

Microsoft наглядно показала, что малые языковые модели становятся не только более эффективными, но и более доступными. С учетом того, что архитектура “битнет” только появилась, а BitNet b1.58 2B4T стала первой LLM, использующей эту архитектуру, можно предположить, что новая технология максимального сжатия нейросетей будет продолжать совершенствоваться и в будущем появятся модели, которые можно будет разместить на еще более слабом оборудовании.

*LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена.

**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена.
Автор: Serverflow Serverflow
Поделиться

Комментарии 1

Написать комментарий
Тортуга
Если основное преимущество это скорость ответа, то пусть идут лесом. Поясню: юзеры которые реально шарят в нейронках, и получается те которые будут заниматься их размещение на своих устройствах, в курсе ситуации со скоростью. Медленные ответы говорят о куда более глубоком анализе информации и вопроса, а также серчинга в интернете. Быстрый ответ равно поверхностное суждение. Тем более, вы писшете об этом как о неком "прорыве", на деле даже на скриншоте в статье нейросеть практически везде уступает конкурентам, так что накину вам идей: грок в телеграме, яндекс гпт. Тоже быстро отвечают, а пользоваться вы ими на серьезных щах будете?
Serverflow
А ведь речи о потери качества ответа не идет: это вполне возможно тот самый виток эволюции нейросетей, когда вдумчивый и аргументированный ответ получается не за 3-5 минут, а мгновенно. Тем более, Grok разместить на своем устройстве нельзя, а ИИ от майкрософта можно. Так что, нужно чуть больше времени посмотреть на его работу, прежде чем давать однозначные оценки :)

Написать отзыв

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-19:00 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-19:00 (по МСК)