Инструкция по установке и запуску текстовой нейросети от Сбербанка – Gigachat 3 | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Бонус за
обратную связь
Интернет-магазин
Серверного оборудования
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

Инструкция по установке и запуску текстовой нейросети от Сбербанка – Gigachat 3

~ 18 мин
132
Простой
Гайды
Инструкция по установке и запуску текстовой нейросети от Сбербанка – Gigachat 3

Что такое GigaChat

GigaChat – российская мультимодальная нейронная сеть, созданная командой разработчиков из Сбербанка. Она способна генерировать тексты, изображения и другие типы контента, используя естественный язык и машинное обучение. Главная особенность чат-бота в том, что он изначально заточен под работу с русским языком и адаптирован к российским реалиям – от понимания культурного контекста до знания законодательства.

С момента запуска в апреле 2023 года GigaChat прошёл путь от тестового чат-бота до полноценной экосистемы ИИ-моделей, которая используется миллионами людей и внедряется в бизнес-процессы крупных компаний. К марту 2024 года совокупная аудитория GigaChat и Kandinsky достигла 18 млн пользователей.

Если вы желаете в деталях ознакомиться со всем семейством нейросетей от Сбербанка – у нас есть отдельная статья. В этом же материале мы не будем разбирать всевозможные итерации моделей а сосредоточимся на основных вариациях.

Актуальный модельный ряд GigaChat 3

У GigaChat 3 сейчас две основные линейки моделей, плюс разные форматы/квантизации вокруг них. Сбер официально открыл веса двух MoE‑моделей: GigaChat 3 Ultra Preview (702B‑A36B) и GigaChat 3 Lightning (10B‑A1.8B).

Характеристики моделей GigaChat 3

Характеристика GigaChat 3 Lightning 10B‑A1.8B GigaChat 3 Ultra 702B‑A36B
Тип модели MoE‑модель, оптимизированная под локальный и высоконагруженный инференс Крупная MoE‑модель «фронтир»-класса для кластеров и облака
Общие параметры Около 10 млрд параметров Около 702 млрд параметров
Активные параметры на токен Примерно 1.8 млрд активных параметров (A1.8B) Примерно 36 млрд активных параметров (A36B)
Максимальный контекст До 256k токенов До 128k токенов
Архитектурные особенности Mixture of Experts + Multi‑Head Latent Attention (MLA) для длинного контекста и экономии KV‑кэша Mixture of Experts, ориентирована на максимум качества и масштабируемость на кластере
Лицензия и открытость Открытые веса под MIT‑лицензией, есть bf16 и GGUF‑версии Открытые веса (Ultra Preview) для bf16/fp8, в основном под vLLM/SGLang и подобные фреймворки
Типичное железо Одна мощная GPU (20–24 GB VRAM и выше) или несколько средних, подходит для локального запуска и небольших серверов Многоголовый GPU‑кластер (несколько больших карт с десятками GB VRAM каждая), рассчитана на дата‑центры
Основные сценарии Локальный чат, RAG, сервисы с длинным контекстом и высокой нагрузкой на одной/нескольких картах Облако, крупные B2B‑сервисы, сложные reasoning‑задачи с максимальным качеством
Поддержка в экосистеме Есть готовые GGUF‑порты и сборка для Ollama (forzer/GigaChat3-10B-A1.8B) Ориентирована на фреймворки типа vLLM, SGLang, TensorRT‑LLM; GGUF‑портов почти нет

В нашем случае будет продемонстрирована установка версии GigaChat 3 Lightning, как наиболее доступная большинству обывателей.

Инструкция по установке и запуску GigaChat 3

Инструкция разделена на два варианта: для видеокарт NVIDIA (зелёная), и для видеокарт AMD (красная). В обеих инструкциях подразумевается использование как минимум двух видеокарт. Если же вы используете встроенную графику для вывода изображения, или видеокарта используемая для вывода изображения является продуктом другого производителя (например NVIDIA RTX 3060 для вывода, AMD Instinct MI100 для генерации). То можете смело пропускать этот шаг.

Инструкция для NVIDIA GPU (CUDA)

Инструкция для NVIDIA GPU (CUDA)

Установка драйверов NVIDIA, Ollama и запуск GigaChat на картах NVIDIA

NVIDIA GeForce RTX 20/30/40/50 NVIDIA Tesla V100 / A100 / H100 Quadro / RTX A‑серия
1
Установка драйверов NVIDIA
1.1 Обновить систему
sudo apt update
1.2 Установить драйвер (пример для свежего драйвера)
sudo apt install -y nvidia-driver-550
Для более новых карт можно использовать:
sudo apt install -y nvidia-driver-560
1.3 Перезагрузка
sudo reboot
1.4 Проверка после ребута
nvidia-smi
Должна появиться таблица с вашей картой, драйвером и версией CUDA.
2
Установка Ollama
Скачивание и установка
curl -fsSL https://ollama.com/install.sh | sh
Проверка сервиса
ollama --version
systemctl status ollama
Если сервис не запущен: de style=" background: rgba(15, 23, 42, 0.06); padding: 2px 6px; border-radius: 4px; font-family: var(--nv-mono); font-size: 12px; " >sudo systemctl start ollama
3
Настройка Ollama для работы с NVIDIA GPU

Если в системе несколько видеокарт, выберите нужную по индексу с помощью CUDA_VISIBLE_DEVICES.

3.1 Узнать индексы карт
nvidia-smi
В таблице будут строки вида: de>GPU 0 Tesla V100, de>GPU 1 RTX 4090 и т.п. Используйте нужный индекс.
3.2 Настроить сервис Ollama (пример для GPU 0)
sudo systemctl edit ollama.service

Вставьте в открывшийся редактор (замените 0 на нужный индекс):

[Service]
Environment="CUDA_VISIBLE_DEVICES=0"
3.3 Применить изменения
sudo systemctl daemon-reload
sudo systemctl restart ollama
# Проверка привязки
sudo systemctl show ollama | grep CUDA_VISIBLE_DEVICES
4
Проверка прав доступа
sudo mkdir -p /usr/share/ollama/.ollama
sudo chown -R ollama:ollama /usr/share/ollama
sudo systemctl restart ollama
5
Установка моделей GigaChat
Вариант A: GigaChat 3 Lightning (рекомендуется)
ollama pull forzer/GigaChat3-10B-A1.8B
Вариант B: классический GigaChat‑20B
ollama pull infidelis/GigaChat-20B-A3B-instruct-v1.5:q4_0
Проверить список моделей
ollama list
6
Запуск моделей
GigaChat 3 Lightning
ollama run forzer/GigaChat3-10B-A1.8B
Классический GigaChat‑20B
ollama run infidelis/GigaChat-20B-A3B-instruct-v1.5:q4_0
7
Проверка GPU‑загрузки

Во время генерации ответа (в другом терминале):

watch -n 1 nvidia-smi
Карта, чей индекс прописан в CUDA_VISIBLE_DEVICES, должна показывать рост GPU‑Util и занятой памяти при работе модели.
8
Автозапуск

Ollama уже настроен на автозапуск как systemd‑сервис. После перезагрузки можно сразу запускать модель командой:

ollama run forzer/GigaChat3-10B-A1.8B

Инструкция для AMD GPU (ROCm)

Инструкция для AMD GPU (ROCm)

Установка ROCm, Ollama и запуск GigaChat на видеокартах AMD

AMD Radeon RX 6000/7000/9000 AMD Instinct MI100, MI200, MI300 APU с поддержкой ROCm
1
Установка драйверов ROCm
1.1 Установка зависимостей
sudo apt update
sudo apt install -y wget gnupg2
1.2 Добавление репозитория AMDGPU
wget https://repo.radeon.com/amdgpu-install/6.4/ubuntu/noble/amdgpu-install_6.4.60400-1_all.deb
sudo apt install ./amdgpu-install_6.4.60400-1_all.deb
sudo apt update
1.3 Установка ROCm
sudo amdgpu-install --usecase=rocm --no-dkms
sudo usermod -aG render,video $USER
1.4 Настройка переменных окружения
echo 'export PATH=$PATH:/opt/rocm/bin' | sudo tee /etc/profile.d/rocm-path.sh
echo 'export HIP_PATH=/opt/rocm' | sudo tee -a /etc/profile.d/rocm-path.sh
source /etc/profile.d/rocm-path.sh
1.5 Перезагрузка
sudo reboot
1.6 Проверка установки
rocminfo
rocm-smi
rocminfo покажет GPU, rocm-smi покажет состояние карты
2
Установка Ollama
Скачивание и установка
curl -fsSL https://ollama.com/install.sh | sh
Проверка
ollama --version
systemctl status ollama
Если сервис не запущен: sudo systemctl start ollama
3
Настройка Ollama для AMD GPU
3.1 Узнать UUID видеокарты
rocminfo | grep -E "Marketing Name|Uuid"
Пример вывода: Marketing Name: AMD Instinct MI100 / Uuid: GPU-XXXX...
3.2 Привязать Ollama к GPU
sudo systemctl edit ollama.service

Вставьте в открывшийся редактор (замените GPU-XXXX... на ваш UUID):

[Service]
Environment=ROCR_VISIBLE_DEVICES=GPU-XXXX...
3.3 Перезапуск сервиса
sudo systemctl daemon-reload
sudo systemctl restart ollama
# Проверка привязки
sudo systemctl show ollama | grep ROCR_VISIBLE_DEVICES
4
Проверка прав доступа
sudo mkdir -p /usr/share/ollama/.ollama
sudo chown -R ollama:ollama /usr/share/ollama
sudo systemctl restart ollama
5
Установка моделей GigaChat
Вариант A: GigaChat 3 Lightning (рекомендуется)
ollama pull forzer/GigaChat3-10B-A1.8B
Вариант B: GigaChat 20B
ollama pull infidelis/GigaChat-20B-A3B-instruct-v1.5:q4_0
Проверка загруженных моделей
ollama list
6
Запуск
GigaChat 3 Lightning
ollama run forzer/GigaChat3-10B-A1.8B
GigaChat 20B
ollama run infidelis/GigaChat-20B-A3B-instruct-v1.5:q4_0
7
Проверка GPU-загрузки
watch -n 1 rocm-smi
GPU-XXXX... должен показывать загрузку GPU и VRAM при работе модели
8
Автозапуск

Ollama автоматически запускается как systemd-сервис. Для быстрого запуска модели:

ollama run forzer/GigaChat3-10B-A1.8B

Примечание для CPU-only

Если у вас нет GPU, просто пропустите шаги с драйверами и настройкой ROCR_VISIBLE_DEVICES/CUDA_VISIBLE_DEVICES. Ollama автоматически запустит модели на CPU, но скорость будет значительно ниже.

Заключение

Подводя итог, можно заключить, что GigaChat 3 – воистину прорывное семейство нейросетевых моделей. Этот тот редкий случай когда продукт отечественного IT может на равных тягаться с зарубежными мастодонтами, а в некоторых аспектах и превосходить их. Мы настоятельно рекомендуем обратить внимание на эту разработку и попробовать её на собственном железе. Учитывая невысокие требования младшей модели – возможность познакомиться с нейросетью отечественного производства доступна практически каждому.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-18:30 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-18:30 (по МСК)