Инструкция по установке и запуску текстовой нейросети от Сбербанка – Gigachat 3

25.02.2026

~ 18 мин

132

Простой

Гайды

Что такое GigaChat

GigaChat – российская мультимодальная нейронная сеть, созданная командой разработчиков из Сбербанка. Она способна генерировать тексты, изображения и другие типы контента, используя естественный язык и машинное обучение. Главная особенность чат-бота в том, что он изначально заточен под работу с русским языком и адаптирован к российским реалиям – от понимания культурного контекста до знания законодательства.

С момента запуска в апреле 2023 года GigaChat прошёл путь от тестового чат-бота до полноценной экосистемы ИИ-моделей, которая используется миллионами людей и внедряется в бизнес-процессы крупных компаний. К марту 2024 года совокупная аудитория GigaChat и Kandinsky достигла 18 млн пользователей.

Если вы желаете в деталях ознакомиться со всем семейством нейросетей от Сбербанка – у нас есть отдельная статья. В этом же материале мы не будем разбирать всевозможные итерации моделей а сосредоточимся на основных вариациях.

Актуальный модельный ряд GigaChat 3

У GigaChat 3 сейчас две основные линейки моделей, плюс разные форматы/квантизации вокруг них. Сбер официально открыл веса двух MoE‑моделей: GigaChat 3 Ultra Preview (702B‑A36B) и GigaChat 3 Lightning (10B‑A1.8B).

Характеристики моделей GigaChat 3

Характеристика	GigaChat 3 Lightning 10B‑A1.8B	GigaChat 3 Ultra 702B‑A36B
Тип модели	MoE‑модель, оптимизированная под локальный и высоконагруженный инференс	Крупная MoE‑модель «фронтир»-класса для кластеров и облака
Общие параметры	Около 10 млрд параметров	Около 702 млрд параметров
Активные параметры на токен	Примерно 1.8 млрд активных параметров (A1.8B)	Примерно 36 млрд активных параметров (A36B)
Максимальный контекст	До 256k токенов	До 128k токенов
Архитектурные особенности	Mixture of Experts + Multi‑Head Latent Attention (MLA) для длинного контекста и экономии KV‑кэша	Mixture of Experts, ориентирована на максимум качества и масштабируемость на кластере
Лицензия и открытость	Открытые веса под MIT‑лицензией, есть bf16 и GGUF‑версии	Открытые веса (Ultra Preview) для bf16/fp8, в основном под vLLM/SGLang и подобные фреймворки
Типичное железо	Одна мощная GPU (20–24 GB VRAM и выше) или несколько средних, подходит для локального запуска и небольших серверов	Многоголовый GPU‑кластер (несколько больших карт с десятками GB VRAM каждая), рассчитана на дата‑центры
Основные сценарии	Локальный чат, RAG, сервисы с длинным контекстом и высокой нагрузкой на одной/нескольких картах	Облако, крупные B2B‑сервисы, сложные reasoning‑задачи с максимальным качеством
Поддержка в экосистеме	Есть готовые GGUF‑порты и сборка для Ollama (forzer/GigaChat3-10B-A1.8B)	Ориентирована на фреймворки типа vLLM, SGLang, TensorRT‑LLM; GGUF‑портов почти нет

В нашем случае будет продемонстрирована установка версии GigaChat 3 Lightning, как наиболее доступная большинству обывателей.

Инструкция по установке и запуску GigaChat 3

Инструкция разделена на два варианта: для видеокарт NVIDIA (зелёная), и для видеокарт AMD (красная). В обеих инструкциях подразумевается использование как минимум двух видеокарт. Если же вы используете встроенную графику для вывода изображения, или видеокарта используемая для вывода изображения является продуктом другого производителя (например NVIDIA RTX 3060 для вывода, AMD Instinct MI100 для генерации). То можете смело пропускать этот шаг.

Инструкция для NVIDIA GPU (CUDA)

Установка драйверов NVIDIA, Ollama и запуск GigaChat на картах NVIDIA

NVIDIA GeForce RTX 20/30/40/50 NVIDIA Tesla V100 / A100 / H100 Quadro / RTX A‑серия

Установка драйверов NVIDIA

▼

1.1 Обновить систему

sudo apt update

1.2 Установить драйвер (пример для свежего драйвера)

sudo apt install -y nvidia-driver-550

Для более новых карт можно использовать:

sudo apt install -y nvidia-driver-560

1.3 Перезагрузка

sudo reboot

1.4 Проверка после ребута

nvidia-smi

Должна появиться таблица с вашей картой, драйвером и версией CUDA.

Установка Ollama

▼

Скачивание и установка

curl -fsSL https://ollama.com/install.sh | sh

Проверка сервиса

ollama --version
systemctl status ollama

Если сервис не запущен: de style=" background: rgba(15, 23, 42, 0.06); padding: 2px 6px; border-radius: 4px; font-family: var(--nv-mono); font-size: 12px; " >sudo systemctl start ollama

Настройка Ollama для работы с NVIDIA GPU

▼

Если в системе несколько видеокарт, выберите нужную по индексу с помощью CUDA_VISIBLE_DEVICES.

3.1 Узнать индексы карт

nvidia-smi

В таблице будут строки вида: de>GPU 0 Tesla V100, de>GPU 1 RTX 4090 и т.п. Используйте нужный индекс.

3.2 Настроить сервис Ollama (пример для GPU 0)

sudo systemctl edit ollama.service

Вставьте в открывшийся редактор (замените 0 на нужный индекс):

[Service]
Environment="CUDA_VISIBLE_DEVICES=0"

3.3 Применить изменения

sudo systemctl daemon-reload
sudo systemctl restart ollama

# Проверка привязки
sudo systemctl show ollama | grep CUDA_VISIBLE_DEVICES

Проверка прав доступа

▼

sudo mkdir -p /usr/share/ollama/.ollama
sudo chown -R ollama:ollama /usr/share/ollama
sudo systemctl restart ollama

Установка моделей GigaChat

▼

Вариант A: GigaChat 3 Lightning (рекомендуется)

ollama pull forzer/GigaChat3-10B-A1.8B

Вариант B: классический GigaChat‑20B

ollama pull infidelis/GigaChat-20B-A3B-instruct-v1.5:q4_0

Проверить список моделей

ollama list

Запуск моделей

▼

GigaChat 3 Lightning

ollama run forzer/GigaChat3-10B-A1.8B

Классический GigaChat‑20B

ollama run infidelis/GigaChat-20B-A3B-instruct-v1.5:q4_0

Проверка GPU‑загрузки

▼

Во время генерации ответа (в другом терминале):

watch -n 1 nvidia-smi

Карта, чей индекс прописан в CUDA_VISIBLE_DEVICES, должна показывать рост GPU‑Util и занятой памяти при работе модели.

Автозапуск

▼

Ollama уже настроен на автозапуск как systemd‑сервис. После перезагрузки можно сразу запускать модель командой:

ollama run forzer/GigaChat3-10B-A1.8B

Инструкция для AMD GPU (ROCm)

Установка ROCm, Ollama и запуск GigaChat на видеокартах AMD

AMD Radeon RX 6000/7000/9000 AMD Instinct MI100, MI200, MI300 APU с поддержкой ROCm

Установка драйверов ROCm

▼

1.1 Установка зависимостей

sudo apt update
sudo apt install -y wget gnupg2

1.2 Добавление репозитория AMDGPU

wget https://repo.radeon.com/amdgpu-install/6.4/ubuntu/noble/amdgpu-install_6.4.60400-1_all.deb
sudo apt install ./amdgpu-install_6.4.60400-1_all.deb
sudo apt update

1.3 Установка ROCm

sudo amdgpu-install --usecase=rocm --no-dkms
sudo usermod -aG render,video $USER

1.4 Настройка переменных окружения

echo 'export PATH=$PATH:/opt/rocm/bin' | sudo tee /etc/profile.d/rocm-path.sh
echo 'export HIP_PATH=/opt/rocm' | sudo tee -a /etc/profile.d/rocm-path.sh
source /etc/profile.d/rocm-path.sh

1.5 Перезагрузка

sudo reboot

1.6 Проверка установки

rocminfo
rocm-smi

rocminfo покажет GPU, rocm-smi покажет состояние карты

Установка Ollama

▼

Скачивание и установка

curl -fsSL https://ollama.com/install.sh | sh

Проверка

ollama --version
systemctl status ollama

Если сервис не запущен: sudo systemctl start ollama

Настройка Ollama для AMD GPU

▼

3.1 Узнать UUID видеокарты

rocminfo | grep -E "Marketing Name|Uuid"

Пример вывода: Marketing Name: AMD Instinct MI100 / Uuid: GPU-XXXX...

3.2 Привязать Ollama к GPU

sudo systemctl edit ollama.service

Вставьте в открывшийся редактор (замените GPU-XXXX... на ваш UUID):

[Service]
Environment=ROCR_VISIBLE_DEVICES=GPU-XXXX...

3.3 Перезапуск сервиса

sudo systemctl daemon-reload
sudo systemctl restart ollama

# Проверка привязки
sudo systemctl show ollama | grep ROCR_VISIBLE_DEVICES

Проверка прав доступа

▼

sudo mkdir -p /usr/share/ollama/.ollama
sudo chown -R ollama:ollama /usr/share/ollama
sudo systemctl restart ollama

Установка моделей GigaChat

▼

Вариант A: GigaChat 3 Lightning (рекомендуется)

ollama pull forzer/GigaChat3-10B-A1.8B

Вариант B: GigaChat 20B

ollama pull infidelis/GigaChat-20B-A3B-instruct-v1.5:q4_0

Проверка загруженных моделей

ollama list

Запуск

▼

GigaChat 3 Lightning

ollama run forzer/GigaChat3-10B-A1.8B

GigaChat 20B

ollama run infidelis/GigaChat-20B-A3B-instruct-v1.5:q4_0

Проверка GPU-загрузки

▼

watch -n 1 rocm-smi

GPU-XXXX... должен показывать загрузку GPU и VRAM при работе модели

Автозапуск

▼

Ollama автоматически запускается как systemd-сервис. Для быстрого запуска модели:

ollama run forzer/GigaChat3-10B-A1.8B

Примечание для CPU-only

Если у вас нет GPU, просто пропустите шаги с драйверами и настройкой ROCR_VISIBLE_DEVICES/CUDA_VISIBLE_DEVICES. Ollama автоматически запустит модели на CPU, но скорость будет значительно ниже.

Заключение

Подводя итог, можно заключить, что GigaChat 3 – воистину прорывное семейство нейросетевых моделей. Этот тот редкий случай когда продукт отечественного IT может на равных тягаться с зарубежными мастодонтами, а в некоторых аспектах и превосходить их. Мы настоятельно рекомендуем обратить внимание на эту разработку и попробовать её на собственном железе. Учитывая невысокие требования младшей модели – возможность познакомиться с нейросетью отечественного производства доступна практически каждому.

Автор:

Serverflow

Инструкция по установке и запуску текстовой нейросети от Сбербанка – Gigachat 3

Что такое GigaChat

Актуальный модельный ряд GigaChat 3

Характеристики моделей GigaChat 3

Инструкция по установке и запуску GigaChat 3

Инструкция для NVIDIA GPU (CUDA)

Инструкция для NVIDIA GPU (CUDA)

Инструкция для AMD GPU (ROCm)

Инструкция для AMD GPU (ROCm)

Примечание для CPU-only

Заключение

Комментарии 0