Когда мы используем современные большие языковые модели, все, на что мы смотрим — это их уровень интеллекта и эффективности. Однако мы редко задумываемся, что за высокой производительностью LLM стоит такая вещь, как гигантские массивы чисел, называемые весами. Эти веса, которые могут занимать десятки и даже сотни гигабайт, по сути, являются самой ИИ-моделью, и то как именно организованы и сохранены веса на диске, зависит итоговая эффективность LLM, скорость загрузки модели в память, безопасность процесса, совместимость с различными движками и многое многое другое. В этой статье мы поговорим о том, какие веса ИИ-моделей существуют, как они влияют на использование языковых моделей и какой формат выбрать для оптимальной работы с искусственным интеллектом.
Safetensors — безопасный стандарт от HuggingFace
На сегодняшний день формат Safetensors по праву считается одним из самых популярных и востребованных стандартов для хранения весов LLM. Он был разработан платформой HuggingFace с очень важной целью: сделать загрузку моделей не только быстрой, но и, в первую очередь, безопасной. Ключевое преимущество Safetensors перед классическим форматом .bin от PyTorch заключается в устранении рисков, связанных с использованием уязвимого модуля pickle. Дело в том, что при загрузке файлов .bin злонамеренно модифицированный вес может привести к выполнению произвольного кода на машине пользователя. Safetensors решает эту проблему, используя технологию Safe Serialization (защита данных при переводе весов в новый формат), что наделяет его иммунитетом к подобным хакерским атакам.
Помимо безопасности, этот формат предлагает и значительные преимущества в области производительности. Благодаря оптимизированной структуре Safetensors позволяет осуществлять практически мгновенную загрузку весов, что особенно заметно при использовании NVMe дисков, а также эффективно работать с распределенной нагрузкой в средах с большим количеством центральных и графических процессоров. Широкая поддержка со стороны основных игроков экосистемы, включая сам HuggingFace Hub, высокопроизводительные серверные движки вроде vLLM, а также множество других фреймворков, делает Safetensors универсальным решением для хранения весов языковых моделей.
Формата весов LLM Safetensors от Hugging Face считается самым надежным, что и обеспечивает его популярность. Источник: .
GGUF — специализированный формат для llama.cpp
Если Safetensors — это универсальный солдат, то GGUF — это узкий специалист, созданный для выполнения конкретной задачи. Этот формат был разработан сообществом проекта llama.cpp и продвигался как новый эволюционный шаг после предыдущего формата хранения весов GGML. Единственная цель GGUF — обеспечить максимально эффективный и экономичный инференс ИИ-моделей на доступном оборудовании, вплоть до обычных потребительских GPU и даже CPU. GGUF с самого рождения заточен под работу с квантованными моделями, поддерживая множество градаций сжатия, таких как Q4_K_M, Q5_K_S и множество других форматов.
Квантизация позволяет значительно сократить размер модели и требования к развертывания, обеспечивая экономичный и эффективный инференс практически без потери качества ответов. Яркий пример: модель DeepSeek-R1 с 671 миллиардами параметров в исходном формате FP16 занимает около 404 ГБ, тогда как ее версия в GGUF с квантизацией Q4_K_M и 14 миллиардами параметров весит примерно 9 ГБ, что делает ее доступной для запуска на большинстве современных ПК. Формат является самодостаточным и содержит в одном файле не только веса, но и всю необходимую метаинформацию о структуре модели, ее параметрах и токенизаторе. Благодаря своей эффективности и удобству, GGUF был интегрирован в такие популярные инструменты для локального запуска моделей, как LM Studio, Ollama (не считая llama.cpp). Можно с уверенностью сказать, что GGUF стал основным форматом хранения весов для энтузиастов и разработчиков, желающих экспериментировать и запускать мощные LLM на локальных машинах.
Схема формата хранения весов GGUF. Источник: .
Другие форматы: PyTorch, BIN, NPZ и проприетарные решения
Хотя современные стандарты задают тон индустрии локального инференса, в сети до сих пор можно встретить и наследие прошлого. Наибольшее распространение среди “исторических” форматов имеют собственные веса PyTorch — файлы с расширениями .bin или .pt. Несмотря на то, что это стандартный способ сохранения моделей, обученных в PyTorch, его главным недостатком остается уязвимость, связанная с pickle, о которой уже упоминалось выше. Форматы вроде NPZ, пришедшие из экосистемы NumPy, или различные реализации BIN-файлов, сегодня встречаются крайне редко, в основном в старых репозиториях и одних из первых ИИ-моделях.
Отдельно стоит упомянуть проприетарные форматы, которые разрабатываются крупными компаниями для своих аппаратных и программных экосистем. Huawei, например, использует форматы MindIR (MindSpore IR) для своего фреймворка MindSpore и AIR (Ascend Intermediate Representation) для работы на ИИ-ускорителях Ascend. Эти форматы оптимизированы для максимальной производительности на конкретном железе, но их использование за пределами экосистемы Huawei крайне ограничено. Знать о существовании этих форматов полезно для общего развития, но для практической работы сегодня следует ориентироваться на два основных стандарта: универсальный Safetensors и экономичный GGUF.
Конвертация между форматами
Поскольку есть множество ИИ-экосистем, а технологии LLM не стоят на месте, часто возникает необходимость преобразовать модель из одного формата в другой. К счастью, этот процесс хорошо автоматизирован. Наиболее частый сценарий — конвертация исходной модели из PyTorch (.bin) в безопасный Safetensors с помощью утилит от HuggingFace, что часто делается автоматически при загрузке весов ИИ на HuggingFace Hub. Следующий шаг — преобразование модели из формата HuggingFace (Safetensors) в GGUF для последующего использования в llama.cpp или совместимых с ним инструментах. Для этого в арсенале сообщества есть специальные скрипты конвертации, например, convert.py из репозитория llama.cpp.
Это рутинная, но важная задача для ИИ-инженеров и энтузиастов, желающих подготовить модель под использование в конкретном движке. Однако для конечного пользователя, который просто хочет скачать и запустить модель, в большинстве случаев этот этап уже пройден. Модели на популярных платформах, как правило, доступны сразу в нескольких форматах хранения весов, что избавляет от необходимости самостоятельно заниматься конвертацией.
Конвертация весов из формата Safetensors в GGUF очень распространена, поскольку это позволяет развертывать сжатые модели на слабых устройствах. Источник: .
Какой формат выбрать для ваших задач?
Выбор оптимального формата целиком и полностью зависит от того, какой инструмент или движок вы планируете использовать для запуска вашей LLM.
Safetensors — универсальный формат для серверного развертывания, работы с Hugging Face Transformers и безопасной загрузки ИИ-моделей на устройство.
GGUF — оптимальный выбор для запуска LLM на CPU и пользовательских GPU через llama.cpp или Ollama с поддержкой продвинутой квантизации для экономичного инференса.
PyTorch (.bin/.pt) — устаревший формат, который следует использовать только при отсутствии альтернативных форматов весов ИИ-моделей, но в большинстве сценариев инференса лучше отказаться от него.
Специализированные форматы — при инференсе на специфическом оборудовании, вроде ИИ-ускорителей Huawei Atlas/Ascend или видеокарт Moore Threads MTT, могут понадобиться особые форматы, разработанные компанией-производителем аппаратной платформы.
Помните, что используемый ИИ-движок и тип оборудования определяет формат хранения весов, поэтому всегда проверяйте документацию инструмента инференса и аппаратного обеспечения перед выбором формата.
Выводы
Форматы хранения весов хоть и остаются невидимыми для пользователей LLM, все еще являются критически важным фундаментом для работы с большими языковыми моделями. Именно они определяют, насколько быстро модель будет загружена, насколько безопасно она будет запущена и на каком оборудовании это вообще возможно. Правильный выбор формата хранения весов — это не просто техническая формальность, а прямой выбор в пользу удобства, производительности и безопасности вашего проекта, а понимание различий между ними позволяет осознанно подходить к развертыванию моделей и является необходимым шагом для глубокого погружения в мир LLM. Тем не менее, индустрия искусственного интеллекта развивается стремительными темпами, поэтому не за горами появление новых, инновационных форматов хранения весов LLM, которые привнесут нечто совершенно новое. А пока этого не произошло, важно продолжать углубляться в тему изучения подноготной сферы ИИ, поэтому в следующей статье мы рассмотрим, как бэкенды для LLM влияют на процессы локального инференса.
Хотелось бы чуть больше информации про "Специализированные форамты", все таки хочется все варианты рассмотреть перед сбокрой
Serverflow
Специализированные форматы редко используются, потому что они привязаны к конкретным аппаратным платформам и фреймворкам, что ограничивает их универсальность и совместимость. Большинство пользователей предпочитает более универсальные и широко поддерживаемые форматы, такие как Safetensors или GGUF, которые обеспечивают гибкость и поддержку на большем спектре устройств.
Скидка 3 000 ₽ или бесплатная доставка — уже сейчас 🔥
Мы ценим вашу обратную связь. После покупки оставьте отзыв о ServerFlow на Яндексе и условия акции будут исполнены.
* — скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.