Форматы весов LLM: Safetensors, GGUF и другие способы хранения моделей

25.09.2025

~ 15 мин

7322

Средний

Статьи

Введение

Когда мы используем современные большие языковые модели, все, на что мы смотрим — это их уровень интеллекта и эффективности. Однако мы редко задумываемся, что за высокой производительностью LLM стоит такая вещь, как гигантские массивы чисел, называемые весами. Эти веса, которые могут занимать десятки и даже сотни гигабайт, по сути, являются самой ИИ-моделью, и то как именно организованы и сохранены веса на диске, зависит итоговая эффективность LLM, скорость загрузки модели в память, безопасность процесса, совместимость с различными движками и многое многое другое. В этой статье мы поговорим о том, какие веса ИИ-моделей существуют, как они влияют на использование языковых моделей и какой формат выбрать для оптимальной работы с искусственным интеллектом.

Safetensors — безопасный стандарт от HuggingFace

На сегодняшний день формат Safetensors по праву считается одним из самых популярных и востребованных стандартов для хранения весов LLM. Он был разработан платформой HuggingFace с очень важной целью: сделать загрузку моделей не только быстрой, но и, в первую очередь, безопасной. Ключевое преимущество Safetensors перед классическим форматом .bin от PyTorch заключается в устранении рисков, связанных с использованием уязвимого модуля pickle. Дело в том, что при загрузке файлов .bin злонамеренно модифицированный вес может привести к выполнению произвольного кода на машине пользователя. Safetensors решает эту проблему, используя технологию Safe Serialization (защита данных при переводе весов в новый формат), что наделяет его иммунитетом к подобным хакерским атакам.

Помимо безопасности, этот формат предлагает и значительные преимущества в области производительности. Благодаря оптимизированной структуре Safetensors позволяет осуществлять практически мгновенную загрузку весов, что особенно заметно при использовании NVMe дисков, а также эффективно работать с распределенной нагрузкой в средах с большим количеством центральных и графических процессоров. Широкая поддержка со стороны основных игроков экосистемы, включая сам HuggingFace Hub, высокопроизводительные серверные движки вроде vLLM, а также множество других фреймворков, делает Safetensors универсальным решением для хранения весов языковых моделей.

Формата весов LLM Safetensors от Hugging Face считается самым надежным, что и обеспечивает его популярность. Источник: Hugging Face.

GGUF — специализированный формат для llama.cpp

Если Safetensors — это универсальный солдат, то GGUF — это узкий специалист, созданный для выполнения конкретной задачи. Этот формат был разработан сообществом проекта llama.cpp и продвигался как новый эволюционный шаг после предыдущего формата хранения весов GGML. Единственная цель GGUF — обеспечить максимально эффективный и экономичный инференс ИИ-моделей на доступном оборудовании, вплоть до обычных потребительских GPU и даже CPU. GGUF с самого рождения заточен под работу с квантованными моделями, поддерживая множество градаций сжатия, таких как Q4_K_M, Q5_K_S и множество других форматов.

Квантизация позволяет значительно сократить размер модели и требования к развертывания, обеспечивая экономичный и эффективный инференс практически без потери качества ответов. Яркий пример: модель DeepSeek-R1 с 671 миллиардами параметров в исходном формате FP16 занимает около 404 ГБ, тогда как ее версия в GGUF с квантизацией Q4_K_M и 14 миллиардами параметров весит примерно 9 ГБ, что делает ее доступной для запуска на большинстве современных ПК. Формат является самодостаточным и содержит в одном файле не только веса, но и всю необходимую метаинформацию о структуре модели, ее параметрах и токенизаторе. Благодаря своей эффективности и удобству, GGUF был интегрирован в такие популярные инструменты для локального запуска моделей, как LM Studio, Ollama (не считая llama.cpp). Можно с уверенностью сказать, что GGUF стал основным форматом хранения весов для энтузиастов и разработчиков, желающих экспериментировать и запускать мощные LLM на локальных машинах.

Схема формата хранения весов GGUF. Источник: Hugging Face.

Другие форматы: PyTorch, BIN, NPZ и проприетарные решения

Хотя современные стандарты задают тон индустрии локального инференса, в сети до сих пор можно встретить и наследие прошлого. Наибольшее распространение среди “исторических” форматов имеют собственные веса PyTorch — файлы с расширениями .bin или .pt. Несмотря на то, что это стандартный способ сохранения моделей, обученных в PyTorch, его главным недостатком остается уязвимость, связанная с pickle, о которой уже упоминалось выше. Форматы вроде NPZ, пришедшие из экосистемы NumPy, или различные реализации BIN-файлов, сегодня встречаются крайне редко, в основном в старых репозиториях и одних из первых ИИ-моделях.

Отдельно стоит упомянуть проприетарные форматы, которые разрабатываются крупными компаниями для своих аппаратных и программных экосистем. Huawei, например, использует форматы MindIR (MindSpore IR) для своего фреймворка MindSpore и AIR (Ascend Intermediate Representation) для работы на ИИ-ускорителях Ascend. Эти форматы оптимизированы для максимальной производительности на конкретном железе, но их использование за пределами экосистемы Huawei крайне ограничено. Знать о существовании этих форматов полезно для общего развития, но для практической работы сегодня следует ориентироваться на два основных стандарта: универсальный Safetensors и экономичный GGUF.

Конвертация между форматами

Поскольку есть множество ИИ-экосистем, а технологии LLM не стоят на месте, часто возникает необходимость преобразовать модель из одного формата в другой. К счастью, этот процесс хорошо автоматизирован. Наиболее частый сценарий — конвертация исходной модели из PyTorch (.bin) в безопасный Safetensors с помощью утилит от HuggingFace, что часто делается автоматически при загрузке весов ИИ на HuggingFace Hub. Следующий шаг — преобразование модели из формата HuggingFace (Safetensors) в GGUF для последующего использования в llama.cpp или совместимых с ним инструментах. Для этого в арсенале сообщества есть специальные скрипты конвертации, например, convert.py из репозитория llama.cpp.

Это рутинная, но важная задача для ИИ-инженеров и энтузиастов, желающих подготовить модель под использование в конкретном движке. Однако для конечного пользователя, который просто хочет скачать и запустить модель, в большинстве случаев этот этап уже пройден. Модели на популярных платформах, как правило, доступны сразу в нескольких форматах хранения весов, что избавляет от необходимости самостоятельно заниматься конвертацией.

Конвертация весов из формата Safetensors в GGUF очень распространена, поскольку это позволяет развертывать сжатые модели на слабых устройствах. Источник: ReadMedium.

Какой формат выбрать для ваших задач?

Выбор оптимального формата целиком и полностью зависит от того, какой инструмент или движок вы планируете использовать для запуска вашей LLM.

Safetensors — универсальный формат для серверного развертывания, работы с Hugging Face Transformers и безопасной загрузки ИИ-моделей на устройство.
GGUF — оптимальный выбор для запуска LLM на CPU и пользовательских GPU через llama.cpp или Ollama с поддержкой продвинутой квантизации для экономичного инференса.
PyTorch (.bin/.pt) — устаревший формат, который следует использовать только при отсутствии альтернативных форматов весов ИИ-моделей, но в большинстве сценариев инференса лучше отказаться от него.
Специализированные форматы — при инференсе на специфическом оборудовании, вроде ИИ-ускорителей Huawei Atlas/Ascend или видеокарт Moore Threads MTT, могут понадобиться особые форматы, разработанные компанией-производителем аппаратной платформы.

Помните, что используемый ИИ-движок и тип оборудования определяет формат хранения весов, поэтому всегда проверяйте документацию инструмента инференса и аппаратного обеспечения перед выбором формата.

Выводы

Форматы хранения весов хоть и остаются невидимыми для пользователей LLM, все еще являются критически важным фундаментом для работы с большими языковыми моделями. Именно они определяют, насколько быстро модель будет загружена, насколько безопасно она будет запущена и на каком оборудовании это вообще возможно. Правильный выбор формата хранения весов — это не просто техническая формальность, а прямой выбор в пользу удобства, производительности и безопасности вашего проекта, а понимание различий между ними позволяет осознанно подходить к развертыванию моделей и является необходимым шагом для глубокого погружения в мир LLM. Тем не менее, индустрия искусственного интеллекта развивается стремительными темпами, поэтому не за горами появление новых, инновационных форматов хранения весов LLM, которые привнесут нечто совершенно новое. А пока этого не произошло, важно продолжать углубляться в тему изучения подноготной сферы ИИ, поэтому в следующей статье мы рассмотрим, как бэкенды для LLM влияют на процессы локального инференса.

Автор:

Serverflow

Комментарии 1

Виталий

28.09.2025

Хотелось бы чуть больше информации про "Специализированные форамты", все таки хочется все варианты рассмотреть перед сбокрой

Специализированные форматы редко используются, потому что они привязаны к конкретным аппаратным платформам и фреймворкам, что ограничивает их универсальность и совместимость. Большинство пользователей предпочитает более универсальные и широко поддерживаемые форматы, такие как Safetensors или GGUF, которые обеспечивают гибкость и поддержку на большем спектре устройств.