Обзор GigaChat3: локальная LLM от Сбера на вашем железе

18.12.2025

~ 15 мин

8193

Средний

Статьи

Введение

Выпуск революционных ИИ-моделей — это больше не прерогатива исключительно западных гигантов индустрии искусственного интеллекта, ведь совсем недавно лаборатория Sber AI представила фулл-стек отечественных нейросетей. О топовых ИИ-генераторах изображений мы уже рассказали в отдельной статье, а сегодня пришло время поговорить о не менее значимом семействе LLM третьего поколения — GigaChat3. И эти нейронки не просто догнали мировых лидеров, но и предложили рынку уникальное, локальное решение, идеально адаптированное под задачи российских бизнес сред. Это самое крупное и технологичное обновление в секторе ИИ, которое когда-либо предлагал российский IT-сектор. В этой статье специалисты компании ServerFlow расскажут вам, что из себя представляют ИИ-модели GigaChat3, какие нейронки вошли в это семейство, в чем особенность их архитектуры и что нужно до их локального запуска.

Что такое GigaChat3 и почему это самое крупное обновление Сбера

GigaChat3 — это новейшее, полностью переработанное поколение MoE-моделей LLM GigaChat, обученных с нуля на собственных датасетах Сбера из 5,5 триллилонов токенов данных, в которые входили данные на русском, английском, китайском и других языках. Ключевым отличием от моделей GigaChat 1.0 и 2.0 стал выпуск сразу нескольких вариаций LLM — как полноразмерной версии с огромным количеством параметров для развертывания в кластерах, так и компактной GGUF-версии для потребительского использования. Более того, Сбер выпустил не только просто языковые модели, а целую экосистему, включающую компоненты для работы с текстом, изображениями и даже звуком. Благодаря открытости весов и совместимости со стандартным open source-инструментарием, локальный GigaChat получил возможность напрямую конкурировать с такими флагманами ИИ-индустрии, как Qwen3, Mistral3 и DeepSeek 3.2. И самое главное, что GigaChat3 — это исконно отечественные модели с нативным пониманием русского языка, что решает проблему культурного и лингвистического непонимания западных ИИ-моделей и делает решения Сбера незаменимым инструментом для российских пользователей и отечественного бизнеса.

Архитектура GigaChat3 и что изменилось внутри

В основе качественного скачка GigaChat3 лежат три ключевых архитектурных инновации:

Multi-Head Latent Attention (MLA) — это новая разновидность механизма внимания. Ее суть в работе с “латентными” (скрытыми, сжатыми) представлениями ключей и значений, что на 40% снижает вычислительные затраты и объем требуемой памяти. Для пользователя это означает увеличение пропускной способности, снижение стоимости инференса и стабильную работу с большим контекстным окном GigaChat3.
Multi-Token Prediction (MTP) — технология, при которой модель предсказывает несколько последующих токенов одновременно, а не один за другим. Этот подход, также используемый в моделях Mistral и Gemini, ускоряет процесс генерации текста в 2-4 раза, что является одним из главных отличий GigaChat3 от предыдущих поколений.
Расширенное контекстное окно — флагманская модель GigaChat3 Ultra предлагает огромное контекстное окно до 131 000 токенов, что позволяет нейросети обрабатывать масштабные пользовательские запросы и эффективно удерживать контекст на протяжении всего диалога. Это ставит GigaChat3 Ultra в один ряд с лидерами рынка, вроде OpenAI GPT-4.1, DeepSeek-R1, GPT-OSS-120B и Qwen 3.

Линейка моделей GigaChat3 — что выбрать пользователю?

В семейство моделей GigaChat3 вошли решения, каждое из которых оптимизировано под конкретные задачи и аппаратные возможности. Понимание их различий — ключ к успешному внедрению GigaChat3 в бизнес-среды.

GigaChat3-10B-A1.8B-GGUF — локальный запуск на ПК, ноутбуке и телефоне

Эта компактная версия с 10 миллиардами параметров, которую также называют Lightning за быструю скорость вывода — точка входа в мир GigaChat3 на ПК для широкой аудитории. Формат GGUF создан специально для эффективного инференса нейронок на CPU, а также гибридных чипах Apple через форматы Metal и Vulkan. Это первая полностью доступная локальная версия GigaChat3, которая работает с популярными оболочками и движками LLM:

Llama.cpp: для запуска из командной строки.
LM Studio и Jan.ai: для пользователей, предпочитающих графический интерфейс.
MCP (Model Context Protocol): для интеграции в среду разработки.

Модель GigaChat3-10B-A1.8B-GGUF требует для запуска всего 8-16 ГБ оперативной памяти, что делает ее пригодной к использованию даже на современных потребительских ноутбуках, открывая путь к приватному и бесплатному ИИ-ассистенту без облачного подключения. Кроме того, открытое ИИ-сообщество уже подготовило квантизированные версии в формате Q4_K_M, что делает GigaChat3-10B-A1.8B-GGUF еще более доступной для массового использования за счет снижения требований до 6 ГБ RAM. Также доступны и другие форматы квантизации, вроде Q8, Q6, Q5_K_M и т.д.

GigaChat3-10B-A1.8B-GGUF доступна в открытой ИИ-библиотеке Hugging Face. Источник: Hugging Face.

GigaChat3-10B-A1.8B — наиболее популярная и универсальная модель

GigaChat3-10B-A1.8B — самый сбалансированный вариант, ориентированный на ИИ-энтузиастов и ML-разработчиков, работающих на системах с производительной видеокартой. MoE-модель с общим числом параметров в 10 млрд и 1,8 млрд активных параметров оптимально работает на GPU уровня RTX 3090, 4080 или 4090. Индекс “A1.8B” в названии обозначает новую архитектурную ревизию, которая принесла улучшенные механизмы внимания, увеличенный контекст и технологию Multi-Token Prediction (MTP). Для сообщества доступны разные форматы развертывания этой нейронки: Base-версия для обучения и тонкой настройки (например, LoRA), а также вариации BF16/ FP16 для инференса на серверах и рабочих станциях. Модель можно запускать через движки:

vLLM: для высокопроизводительного инференса на GPU Nvidia.
SGLang: для минимальной задержки при локальном запуске.

Также вы можете самостоятельно квантизировать эту передовую отечественную LLM через GPTQ или AWQ.

GigaChat3-10B-A1.8B доступна в открытой ИИ-библиотеке Hugging Face. Источник: Hugging Face.

GigaChat3-702B-A36B (preview / bf16) — флагманская модель

GigaChat 3 Ultra — это демонстрация технологического превосходства Сбера. instruct-модель обучалась с нуля и имеет 702 миллиарда параметров, из которых на каждом шаге активируется около 36 миллиардов (A36B) благодаря MoE. Такая архитектура обеспечивает непревзойденные способности в задачах рассуждения, работе с огромными контекстами вплоть до 131 тысяч токенов и глубокому пониманию спецификации задач. Она предназначена для профессионального продакшена и требует соответствующего кластерного железа: серверов с GPU уровня NVIDIA A100/H100 или AMD MI300. В open-source доступны версии preview и BF16, а для удобства развертывания топовой отечественной ИИ-модели доступны движки:

vLLM.
SGLang.
LMDeploy.
TensorRT-LLM.

Как и в случае с более легкой моделью, предполагается возможность квантизации GPTQ или AWQ. Например, при 4-битной квантизации Q4_K_M, сжатие достигает 430 ГБ при оригинальном весе в 1,43 ТБ. Также доступна вариация в формате FP8 для последующего тюнинга модели.

GigaChat 3 Ultra доступна в открытой ИИ-библиотеке Hugging Face. Источник: Hugging Face.

Мультимодальность GigaChat3 — Vision, изображения и видео

Одно из главных преимуществ семейства ИИ-моделей GigaChat3 — поддержка мультимодальности, которая выражается в возможности распознавания изображений. Архитектурно это реализовано через интеграцию vision-encoder (модели, переводящей изображение в последовательность токенов) с языковой моделью. Пользователь может загрузить фотографию, схему или скриншот, а GigaChat3 опишет содержимое, ответит на вопросы по нему или использует визуальный контекст в диалоге. Эта функция поддерживается всеми моделями семейства GigaChat3. Инструменты для генерации изображений и видео во встроенных архитектурных модулях нейросетей GigaChat3 не реализована — за это отвечает отдельный релиз моделей Kandinsky 5.0. Вы можете подключить GigaChat3 и Kandinsky 5.0 к единому рабочему процессу, после чего текстовым запросом в GigaChat инициировать процесс создания изображения генеративной модели Kandinsky 5.0. Если вы решили реализовать подобный сценарий, компания ServerFlow может настроить такой гибридный рабочий процесс за вас, параллельно организовав всю необходимую аппаратную поддержку. Напишите нашему IT-специалисту для получения профессиональной консультации по софту и интеграции.

GigaAM v3 — аудиомодуль Сбера

Мультимодальность GigaChat3 обеспечивается не только vision-компонентами. GigaAM v3 — это end-to-end speech recognition модель, разработанная для преобразования речи в текст. Она основана на современных подходах CTC (Connectionist Temporal Classification) и RNN-T (Recurrent Neural Network Transducer), что позволяет напрямую интегрировать аудиоввод в диалог с LLM. Фактически, это создает единый контур: голос -> текст (GigaAM) -> понимание и генерация ответа (GigaChat LLM). GigaAM v3 также доступна в открытом доступе и имеет всего 220-240 миллионов параметров, что позволяет развертывать ее даже на самом слабом железе. Поддерживается базовая модель и ONNX-версия. Это первый полноценный отечественный конкурент Whisper от OpenAI!

Пайплайн ИИ-модели GigaAM v3. Источник: Habr.

Локальный запуск GigaChat3 — как установить, скачать и запустить

Запустить gigachat локально можно несколькими способами в зависимости от ваших целей и оборудования.

Запуск GigaChat3 через GGUF (Llama.cpp)

Запустить GigaChat 3 локально проще всего через веса в формате GGUF, которые поддерживаются llama.cpp и экосистемой вокруг него. Достаточно скачать соответствующий GGUF-файл модели (например, GigaChat3-10B-Q4_K_M.gguf) с официального репозитория на Hugging Face. После этого модель можно запустить напрямую через llama.cpp, указав путь к файлу, размер контекста и параметры генерации, например: ./main -m /path/to/model.gguf -c 4096 -n 256 -ngl 40 -p "Ваш промпт".

Скорость генерации токенов ИИ-модели GigaChat3-10B-A1.8B-GGUF.

Запуск FP16/BF16 версий на GPU-станции

Для полноценной работы с моделями 10B-A1.8B в формате хранения весов SafeTensors понадобится ПК или рабочая станция с видеокартой, имеющей не менее 16-24 ГБ VRAM (подходят RTX 4090, RTX 3090, RTX 4080). После загрузки весов с Hugging Face модель можно запустить через популярные движки инференса вроде vLLM или SGLang (с ускорением FlashAttention и API-интеграцией) или интегрировать в собственное приложение, используя Hugging Face Transformers. Этот вариант обеспечивает максимальную производительность GigaChat3 и низкую задержку.

MCP-запуск GigaChat3 (для разработчиков)

Model Context Protocol (MCP) — это открытый протокол для безопасного подключения моделей и данных к приложениям. Настройка mcp gigachat позволяет интегрировать локально запущенную модель, например, в IDE (VS Code, JetBrains) или в инструменты анализа кода, что открывает возможности для создания умных ассистентов, работающих непосредственно в среде разработки.

Примеры использования GigaChat3

Рассмотрим несколько сценариев использования передовых отечественных моделей GigaChat3:

Генерация кода и ревью: Модель эффективно пишет функции, исправляет ошибки и комментирует код на Python, JavaScript, C++ и других языках.
Решение сложных задач (reasoning): Благодаря архитектурным улучшениям и функции размышления, модели справляются с многошаговыми логическими, математическими и аналитическими запросами.
Анализ изображений: Можно загрузить график, диаграмму или фотографию оборудования и получить детальное описание или инструкцию.
Суммаризация и перевод: Быстрое и качественное сокращение длинных документов или перевод текстов с учетом нюансов русского языка.
Голосовой интерфейс: В связке с GigaAM v3 модель может стать основой для голосового ассистента, работающего полностью оффлайн.

Выводы

GigaChat3 — это огромный скачок не только для технологического стека Сбера, но и для всего российского ИИ-сообщества. Выпуск полноценных, современных моделей с открытыми весами, включая удобные версии GigaChat в формате GGUF, стирает последние барьеры для повсеместного использования мощных LLM . Технологии Vision, Audio, Multi-Token Prediction и Mixture of Experts выводят платформу на уровень мировых лидеров, и каждый пользователь, разработчик или компания может выбрать подходящий вариант под свои ресурсы и цели. Для комфортной и эффективной работы с моделями GigaChat3, особенно в продакшене, критически важно правильно подобранное железо, и с этим вам может помочь компания ServerFlow. Наша компания предлагает готовые решения: от мощных GPU-рабочих станций для обработки 10B-моделей, до полноценных GPU-серверов на базе карт A100/H100, полностью готовых для развертывания и инференса даже флагманской GigaChat3 Ultra. Это позволит вам сосредоточиться на ключевых бизнес-задачах, а не на сложностях подготовки вашей инфраструктуры и поиск компромиссов.

Автор:

Serverflow