Компания Microsoft создала однобитную языковую модель
Автор: ServerFlow
1-битную языковую модель BitNet b1.58 2B4T можно запускать прямо на CPU.
Введение
16 апреля 2025 года компания Microsoft выложила в открытый доступ на платформу Hugging Face новейшую языковую модель BitNet b1.58 2B4T. Особенностью этой нейросети является ее уникальная архитектура, получившая название “битнет” — новая LLM является 1-битной, благодаря чему их можно ее можно запускать даже на слабых CPU.
Подробнее о модели BitNet b1.58 2B4T
Архитектура “битнет” — это способ создания максимально сжатых языковых моделей для их дальнейшего запуска на системах с низкой производительностью. Если традиционные LLM сжимаются квантизацией, при котором уменьшается количество битов, необходимых для представления весов. Это позволяет запускать языковые модели в системах с небольшим объемом памяти. В свою очередь, “Битнет” квантизирует веса в 3 значения — “-1”, “0” и “1”. Microsoft заявляет, что такой способ квантизации позволяет сохранять точность языковой модели при значительной экономии памяти и вычислительных ресурсов системы. Также разработчики рассказали, что модель BitNet b1.58 2B4T имеет 2 миллиарда параметров, большая часть из которых приходится на веса, а для ее инференса будет достаточно всего 400 МБ. BitNet b1.58 2B4T была обучена на 4 триллионах токенов — столько же информации, сколько в 33 миллионах книг.
Производительность модели не только не уступает, но и превосходит такие нейросети, как Meta Llama* 3.2:1B, Google Gemma 3:1B и Alibaba Qwen 2.5:1.5B, что доказывается результатами тестов GSM8K и PIQA, ориентированных на оценку знаний базовой математики и здравого смысла. Также тестировщики отмечают, что в ряде задач нейросеть генерирует ответы в 2 раза быстрее, чем аналоги от конкурентов, а также расходует меньше памяти.
Подробное сравнение производительности и размера BitNet b1.58 2B4T по сравнению с аналогами. Источник: Hugging Face.
Благодаря этому, нейросеть можно с легкостью запускать на пользовательских центральных процессорах, вводя промпты в командной строке. Длина контекстного окна модели составляет 4096 токенов — это немного для больших нейросетей, но для однобитной LLM с возможностью запуска в CPU, это весьма много.
Однако, чтобы производительность модели отвечала заявленной, пользователям необходимо использовать специально разработанный фреймворк от Microsoft bitnet.cpp, поддерживаемый далеко не на всех центральных процессорах. К примеру, bitnet.cpp нельзя использовать на любых графических процессорах.
Выводы
Microsoft наглядно показала, что малые языковые модели становятся не только более эффективными, но и более доступными. С учетом того, что архитектура “битнет” только появилась, а BitNet b1.58 2B4T стала первой LLM, использующей эту архитектуру, можно предположить, что новая технология максимального сжатия нейросетей будет продолжать совершенствоваться и в будущем появятся модели, которые можно будет разместить на еще более слабом оборудовании.
*LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена.
**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена.
Компания Microsoft создала однобитную языковую модель
16 апреля 2025 года компания Microsoft выложила в открытый доступ на платформу Hugging Face новейшую языковую модель BitNet b1.58 2B4T. Особенностью этой нейросети является ее уникальная архитектура, получившая название “битнет” — новая LLM является 1-битной, благодаря чему их можно ее можно запускать даже на слабых CPU.
Подробнее о модели BitNet b1.58 2B4T
Архитектура “битнет” — это способ создания максимально сжатых языковых моделей для их дальнейшего запуска на системах с низкой производительностью. Если традиционные LLM сжимаются квантизацией, при котором уменьшается количество битов, необходимых для представления весов. Это позволяет запускать языковые модели в системах с небольшим объемом памяти. В свою очередь, “Битнет” квантизирует веса в 3 значения — “-1”, “0” и “1”. Microsoft заявляет, что такой способ квантизации позволяет сохранять точность языковой модели при значительной экономии памяти и вычислительных ресурсов системы. Также разработчики рассказали, что модель BitNet b1.58 2B4T имеет 2 миллиарда параметров, большая часть из которых приходится на веса, а для ее инференса будет достаточно всего 400 МБ. BitNet b1.58 2B4T была обучена на 4 триллионах токенов — столько же информации, сколько в 33 миллионах книг.
Производительность модели не только не уступает, но и превосходит такие нейросети, как Meta Llama* 3.2:1B, Google Gemma 3:1B и Alibaba Qwen 2.5:1.5B, что доказывается результатами тестов GSM8K и PIQA, ориентированных на оценку знаний базовой математики и здравого смысла. Также тестировщики отмечают, что в ряде задач нейросеть генерирует ответы в 2 раза быстрее, чем аналоги от конкурентов, а также расходует меньше памяти.
Подробное сравнение производительности и размера BitNet b1.58 2B4T по сравнению с аналогами. Источник: Hugging Face.
Благодаря этому, нейросеть можно с легкостью запускать на пользовательских центральных процессорах, вводя промпты в командной строке. Длина контекстного окна модели составляет 4096 токенов — это немного для больших нейросетей, но для однобитной LLM с возможностью запуска в CPU, это весьма много.
Однако, чтобы производительность модели отвечала заявленной, пользователям необходимо использовать специально разработанный фреймворк от Microsoft bitnet.cpp, поддерживаемый далеко не на всех центральных процессорах. К примеру, bitnet.cpp нельзя использовать на любых графических процессорах.
Выводы
Microsoft наглядно показала, что малые языковые модели становятся не только более эффективными, но и более доступными. С учетом того, что архитектура “битнет” только появилась, а BitNet b1.58 2B4T стала первой LLM, использующей эту архитектуру, можно предположить, что новая технология максимального сжатия нейросетей будет продолжать совершенствоваться и в будущем появятся модели, которые можно будет разместить на еще более слабом оборудовании.
*LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена.
**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена.
Если основное преимущество это скорость ответа, то пусть идут лесом. Поясню: юзеры которые реально шарят в нейронках, и получается те которые будут заниматься их размещение на своих устройствах, в курсе ситуации со скоростью. Медленные ответы говорят о куда более глубоком анализе информации и вопроса, а также серчинга в интернете. Быстрый ответ равно поверхностное суждение. Тем более, вы писшете об этом как о неком "прорыве", на деле даже на скриншоте в статье нейросеть практически везде уступает конкурентам, так что накину вам идей: грок в телеграме, яндекс гпт. Тоже быстро отвечают, а пользоваться вы ими на серьезных щах будете?
Serverflow
А ведь речи о потери качества ответа не идет: это вполне возможно тот самый виток эволюции нейросетей, когда вдумчивый и аргументированный ответ получается не за 3-5 минут, а мгновенно. Тем более, Grok разместить на своем устройстве нельзя, а ИИ от майкрософта можно. Так что, нужно чуть больше времени посмотреть на его работу, прежде чем давать однозначные оценки :)
Получите скидку 3 000 рублей или бесплатную доставку за подписку на новости*!
* — скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка.
Мы получили ваш отзыв!
Он появится на сайте после модерации.
Мы получили ваш отзыв!
Он появится на сайте после модерации.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.