С того момента, как мы писали первую версию этой статьи, в мире искусственного интеллекта многое изменилось. ИИ-инференс перестал быть чем-то экспериментальным, и теперь практически каждый IT-энтузиаст мечтает заполучить ИИ-ПК, рабочую станцию или целый сервер, чтобы запускать новые, топовые нейронки, которые многократно превосходят те серые тени, которые мы описывали в 2024 году. Так что, встречайте рефреш статьи от специалистов компании ServerFlow о лучших локальных ИИ-моделях для развертывания на своем личном железе!
Зачем запускать нейросети на ПК или сервере?
Понимаем, вопрос скорее риторический, но вдруг кто-то из читателей совмещает ИИ-ремесло со службой на подлодке? Так вот, зачем же запускать нейросети локально… Ну, начнем с того, что это позволяет вам использовать все возможности передовых ИИ-моделей, не подключаясь к облаку — все ваши данные, все ваши чаты, все ваши странные разговоры с нейронкой в три часа ночи будут известны только вам и никому более. Все взаимодействие с ИИ будет абсолютно конфиденциальным, что особенно актуально в современных реалиях, где злые корпорации собирают досье на каждого человека в мире, чтобы затем использовать его для таргетированной рекламы.
Так как подключаться к облаку не нужно, отпадает и необходимость в интернет-подключении. Провайдер внезапно решил отключить вас от Всемирной Паутины в самый разгар вайбкодинг-сессии перед рабочим дедлайном? Не беда — нейронка преспокойно отдаст вам готовый код с кучей дыр, как вы и (не)хотели. Само собой, с локальным ИИ вам не придется ежемесячно платить барщину Сэму Альтману или Дарио Амодею, чтобы получить еще немножко токенов и продолжать по полной эксплуатировать искусственный интеллект, пока не наступит новый лимит. Локальный ИИ полностью независим и принадлежит вам, поэтому единственной мздой за его использование станут счета за электричество.
И, напоследок, с локальным ИИ вы можете устроить “тачку на прокачку” — различные кастомизации, тонкие настройки, квантизации, форматы вычислений. Вы можете взять огромную универсальную языковую модель и превратить ее в узкоспециализированного специалиста для написания карточек товаров, генерации кода под корпоративные приложения или ведения бухгалтерской документации. Дообучение и тонкая настройка ИИ — это очень обширная тема, которая заслуживает отдельного материала, поэтому сегодня мы поговорим именно о тонкостях искусства локального инференса.
В общем, локальный ИИ — это автономно, это гибко, это конфиденциально, да и вообще это выбор настоящих, трушных ИИ-энтузиастов, а не соевых вайбкодеров с реддита.
Требования к системе
Уже предвкушаете, как вы сейчас спокойненько зайдете на GitHub, окинете броским взглядом ассортимент нейронок, выберите понравившийся вариант, нажмете кнопочки Download и Instal и в ту же секунду начнете наслаждаться собственным, локальным ИИ, то вы сильно ошибаетесь.
Во первых, вам придется повозиться с развертыванием ПО-среды под нейронку, выбрать движок, понять что, где и как правильно устанавливать, но это не самая главная проблема. Основной барьер — железо. Искусственный интеллект представляет из себя сложнейший алгоритм, состоящий из тысяч слоев, между которыми передаются монструозные объемы данных, которые нужно как-то обрабатывать, как-то хранить и как-то подавать. И отделаться бюджетными, потребительскими компонентами не получится, если вы хотите запускать локально хотя бы мало-мальски эффективные нейросети — тут нужна тяжелая артиллерия:
Графический ускоритель — двигатель вашей локальной ИИ-системы, который будет выполнять обработку данных нейросетей на тысячах потоков одновременно. Чем больший объем видеопамяти имеет карточка, тем она круче, особенно при использовании быстрых чипов VRAM, таких как HBM. Не менее важна и производительность GPU в разных режимах вычислений и в целом поддержка форматов вычислений. Если вы загрузили веса нейронки в формате FP4, а ваш GPU поддерживает только FP8, то пиши пропало, придется искать модель с нужным форматом. Соответственно, чем больше эффективность в необходимых режимах вычислений, тем быстрее видеокарта будет генерировать токены нейронки.
NVMe-накопители — топливный бак, который будет подавать огромные массивы данных из весов нейронок на высокой скорости, сокращая задержку от подачи запроса в хранилище до попадания данных в GPU. В агентных инфраструктурах NVMe-накопители стали жизненно важным компонентом, так как без них ИИ-агентные рои просто задыхались бы без информации. Чем выше скорость последовательного чтения и чем вместительнее NVMe-накопители, тем лучше.
Центральный процессор — руль управления системой ИИ-инфернеса. CPU будет отвечать за распределение ресурсов системы, подготавливает данные к отправке в GPU и управляет очередями. Для инференса одной легкой нейронки хватит и потребительского чипа на PCIe 4.0/5.0 с 8/16 ядрами, но если вы хотите тестировать агентные ИИ-нагрузки, без мощного серверного CPU уже не обойтись. Для тех, кто помнит славные деньки инференса на CPU через llama.cpp, то можете забыть о них — не сыщете денег на оперативку, да и скорость сильно подкачает.
Оперативная память — блок управления, который будет хранить данные модели перед их подачей в видеопамять GPU. Для относительно легких нейронок с 30 миллиардов параметров необходимо 64 ГБ, так что приготовьтесь раскошелиться. А про инференс на CPU лучше вообще не упоминать рядом с бедствующими энтузиастами, ведь там нужно уже 96 ГБ минимум.
Материнская плата — рама локальной ИИ-системы, которая должна поддерживать все вышеперечисленное и иметь большое количество слотов для подключения всего вышеперечисленного.
Сколько именно всего этого добра вам понадобится говорить не будем — тут все сугубо индивидуально от модели к модели, мы лишь слегка упомянем, сколько нужно будет VRAM для запуска той или иной нейронки в подходящем режиме вычислений.
Лучшие локальные языковые ИИ-модели
Большие языковые модели (LLM) фактически полностью захватили рынок локального ИИ, и это вполне оправдано — 90% юзеров используют нейросети именно для генерации тех или иных текстов, будь-то работа с документами, доклады, эссе или даже код. Кроме того, универсальность LLM и великолепная эффективность архитектуры Transformer, на которой они базируются, позволяет масштабировать сценарии использования языковых моделей, благодаря чему даже появился их отдельный подтип под названием VLM (Visual Language Model), которые не только отлично справляются с генерацией текста, но и прекрасно распознают текст на изображениях. В общем, LLM — это универсальные солдаты, а вот самые лучшие из этих солдат:
Qwen3.6-27b
Qwen3.6-27b — это новейшая плотная мультимодальная модель от Alibaba, вышедшая 22 апреля 2026 года и ставшая сенсацией в мире опенсорсного ИИ. Ее ключевая особенность в том, что, имея 27 миллиардов параметров и классическую 64-слойную плотную ИИ-архитектуру, она уверенно обходит предыдущего MoE-флагмана компании, 397-миллиардную Qwen3.5-397B-A17B, по всем ключевым бенчмаркам, включая такие сложные задачи, как на агентное программирование. Более того, модель вплотную приближается к ведущей проприетарной модели Claude 4.5 Opus в сложных сценариях, таких как управление компьютером или распараллеливание агентного роя на несколько задач. Модель оснащена мощным 27-слойным визуальным энкодером для анализа изображений и контекстным окном в 262 тысячи токенов, а ее режим размышления позволяет решать сложные аналитические операции, вроде написания кода и математики. Распространяется под лицензией Apache 2.0, что разрешает коммерческое использование и модификацию без ограничений.
Gemma 4-31b — это флагманская плотная модель от Google DeepMind, выпущенная 2 апреля 2026 года. Модель стала значительным шагом вперед, так как ее 31 миллиард параметров (архитектура из 60 слоев с 32 головами внимания) позволили ей встать в один ряд с такими гигантами, как GLM-4.7, MiniMax-M2.5 и DeepSeek V3.2. Она поддерживает ввод текста и изображений, а также обработку видео в виде последовательности кадров, и обладает контекстным окном в 256 тысяч токенов. Важным архитектурным нововведение является повторное использование KV-кэша на последних слоях, что экономит до 14% видеопамяти при работе с длинным контекстом. Модель распространяется под лицензией Apache 2.0, что дает полную свободу для коммерческого использования и модификации.
DeepSeek V4-Flash-284b — высокоскоростная версия флагманской MoE-модели от DeepSeek, представленная 24 апреля 2026 года. При 284 миллиардах общих параметров она активирует лишь 13 миллиардов на каждый токен благодаря 256 экспертам, что делает ее чрезвычайно эффективной для инференса. Ключевая инновация — гибридное внимание CSA+HCA, которое радикально сокращает сложность вычислений (на 73%) и памяти KV-кэша (на 90%), открывая дорогу для практического использования моделей с контекстным окном в 1 миллион токенов. Модель с открытым исходным кодом (лицензия MIT) обеспечивает скорость и качество, достаточные для того, чтобы использовать ее в качестве замены для проприетарных решений вроде Claude Sonnet 4.5 в сложных агентных задачах.
BF16 — ~866 ГБ VRAM — 8× H200 (141 ГБ)
FP8 — ~500 ГБ VRAM — 4× H200 (141 ГБ)
INT8 — ~282 ГБ VRAM — 4× H100 (80 ГБ)
NVFP4 — ~168 ГБ VRAM — 2× H100 (80 ГБ)
MiniMax 2.7-229b
MiniMax 2.7-229b — новая модель от MiniMax, представленная в марте 2026 года и выпущенная в open-source 12 апреля. Ее главная инновация — "самообучение": модель активно участвовала в цикле собственной дообучения с подкреплением (RL), что сделало ее одним из лидеров в области агентного кодинга. При 229 миллиардах общих параметров она активирует около 10 миллиардов на токен (8 из 256 экспертов), находясь на одном уровне с GPT-5.3-Codex и уступая в задачах MLE Bench Lite лишь Claude Opus 4.6. Модель распространяется под модифицированной лицензией MIT, разрешающей исследовательское и некоммерческое использование.
BF16/F32 — ~460 ГБ VRAM — 6× H100 (80 ГБ)
FP8 — ~230 ГБ VRAM — 3× H100 (80 ГБ)
INT4 — ~140 ГБ VRAM — 2× H100 (80 ГБ)
Mistral Medium 3.5-128b
Mistral Medium 3.5-128b — первая универсальная плотная модель от Mistral AI, выпущенная 29 апреля 2026 года. Модель заменила собой сразу три предыдущие (Mistral Medium 3.1, Magistral и Devstral 2), объединив в одной плотной архитектуре из 128 миллиардов параметров способности к генерации текста, рассуждению и программированию. Ее ключевая особенность — настраиваемый уровень размышления, позволяющий выбирать между мгновенным ответом и глубоким анализом. Это делает ее одной из самых эффективных моделей в своем классе, способной конкурировать с Qwen3.6 и GLM-5.1. Модель доступна под модифицированной лицензией MIT.
GPT-OSS-120b — крепкий старичек от OpenAI, выпущенный еще в 2025 году и ставший первой за долгие годы полноценной открытой разработкой компании. В ее основе лежит архитектура Mixture-of-Experts на 117 миллиардов параметров, где на каждый токен активируется лишь 5.1 миллиард параметров, что стало возможным благодаря нативной 4-битной квантизации MXFP4. Это позволило модели, сопоставимой по качеству с o4-mini, работать на одной карте H100. Она поддерживает три уровня "размышления", вызов функций и выполнение кода. Распространяется под лицензией Apache 2.0, что открывает широкие возможности для коммерческого использования.
FP16 — ~234 ГБ VRAM — 3× H100 (80 ГБ) или 3× RTX PRO 6000 Blackwell (96 ГБ)
FP8 — ~120 ГБ VRAM — 2× H100 (80 ГБ)
INT8 — ~120 ГБ VRAM — 2× H100 (80 ГБ)
MXFP4 — ~80 ГБ VRAM — H100 (80 ГБ)
GLM-5.1-754b
GLM-5.1-754b — самая современная открытая модель от компании Z.ai (ранее Zhipu AI), вышедшая 7 апреля 2026 года. Нейронка представляет собой вершину в области открытого кодинга: ее архитектура Mixture-of-Experts (754B общих, 40B активных параметров) позволила ей занять первое место на арене Chatbot Arena среди всех open-source моделей с показателем Elo 1467, а также обойти такие проприетарные системы, как Claude Opus 4.6 и GPT-5.4, в бенчмарке SWE-Bench Pro. Ее главная особенность — способность к длительным автономным сессиям программирования (до 8 часов), в ходе которых она может выполнять сотни итераций планирования, написания, тестирования и отладки кода. Лицензия MIT делает ее доступной для любых коммерческих проектов.
FP16/BF16 — ~1,508 ГБ VRAM — 10× H100 (80 ГБ)
FP8 — ~755 ГБ VRAM — 10× H100 (80 ГБ)
INT8 — ~755 ГБ VRAM — 10× H100 (80 ГБ)
NVFP4 — ~206 ГБ VRAM — 3× H100 (80 ГБ)
Лучшие локальные генеративные ИИ-модели
Генеративные модели в секторе локального ИИ распространены не так широко, как LLM, потому что хитрые разработчики просекли, что юзерам чаще всего нет нужды ставить генеративный ИИ на свое железо — намного удобнее зайти в веб-интерфейс, нагенерировать ИИ-слопа или шаблонных рекламных баннеров и со спокойной душой идти восвояси, превращая теорию “Мертвого интернета” в реальность. Но в этой нище все же есть лучики света, которые с радостью станут частью вашей вычислительной инфраструктуры без привязки к облаку:
FLUX.2 Klein-9b
FLUX.2 Klein-9b — компактная модель для генерации изображений от Black Forest Labs, выпущенная в январе 2026 года. Ее 9 миллиардов параметров на архитектуре Diffusion Transformer позволяют генерировать высокореалистичные изображения, по качеству сопоставимые с работой моделей в 5 раз крупнее, включая таких гигантов, как SDXL или GPT-Image. Модель дистиллирована до 4 шагов, что обеспечивает беспрецедентную скорость генерации, и поддерживает множество режимов работы, включая редактирование контента и смену композиции. Она распространяется под лицензией Apache 2.0, что делает ее полностью доступной как для энтузиастов, так и для коммерческих организаций.
FP16/BF16 — ~20 ГБ VRAM — RTX 5090 (32 ГБ)
FP8 — ~15 ГБ VRAM — RTX 5090 (32 ГБ)
INT8 — ~15 ГБ VRAM — RTX 5090 (32 ГБ)
LTX-2.3-22b
LTX-2.3-22b — передовая нейронка для генерации видео от ИИ-стартапа Lightricks, вышедшая в марте 2026 года. Ее главное достижение — способность создавать синхронизированное аудио и видео в рамках единого ИИ-пайплайна, что выгодно отличает ее от многих конкурентов, где используются многослойные архитектуры, урезающие скорость за счет передачи данных из VAE в трансформер и обратно. Модель, построенная на базе 22-миллиардного Diffusion Transformer, умеет генерировать ролики в разрешении вплоть до 4K с частотой 50 кадров в секунду. Она доступна как в полной версии, так и в дистиллированной для более быстрой работы, а ее открытая лицензия Apache 2.0 делает ее привлекательным инструментом для разработчиков и энтузиастов.
Z-Image Turbo-6b — сверхбыстрая модель для генерации изображений от Alibaba (Tongyi Lab), представленная в ноябре 2025 года. Она использует инновационную архитектуру S3-DiT (Scalable Single-Stream Diffusion Transformer) с 6 миллиардами параметров, которая является более эффективной, чем традиционные двухпоточные трансформерные подходы. Ее ключевое преимущество — генерация фотореалистичного изображения с текстом на различных языках (русский, английский, китайский) менее чем за секунду, что делает ее идеальным инструментом для приложений реального времени. Скорость работы до 12 раз выше, чем у предыдущего поколения (Qwen-Image). Модель распространяется под свободной лицензией Apache 2.0.
FP16/BF16 — ~16 ГБ VRAM — RTX 5090 (32 ГБ)
INT8 — ~10 ГБ VRAM — RTX 5090 (32 ГБ)
Kandinsky 5.0 Pro-19b
Kandinsky 5.0 Video Pro — флагманская модель для генерации видео высокого качества от Kandinsky Lab (разработка Сбера), Выпущенная 20 ноября 2025 года. Эта нейронка — настоящий феномен, ведь ранее ни одна российская ИИ-модель даже не равнялась с иностранными конкурентами, Kandinsky 5.0 Video Pro смогла превзойти многие флагманские нейронки КНР и некоторые модели западных разработчиков, во многом благодаря особым оптимизациями для генерации текста на русском языке и глубокому пониманию культуры СНГ. Модель имеет 19 миллиардов параметров и построена на архитектуре Flow Matching. Генерирует видео в разрешении до 1080p длительностью до 10 секунд при 24fps. Доступна под лицензией MIT.
Развертывание локального ИИ на своем ПК или сервере — это та задача, которая обязательно должна быть в послужном списке любого уважающего себя IT-энтузиаста, ведь парадигма постепенно сменяется, и с каждым новым поколением open-source моделей они все ближе и ближе приближаются к флагманским облачным моделям с триллионами параметров. Но помните, что взять любой ИИ из GitHub и Hugging Face и поставить его на свое железо — путь в никуда. Чтобы не разочароваться в результатах, обязательно используйте только самые лучшие нейросети, доступные на рынке, и никогда не забывайте о том, что поколения ИИ сменяются буквально каждый месяц, и те модели, которые мы сегодня называем “лучшими локальными ИИ”, уже завтра могут безвозвратно устареть. А если вы не хотите морочить себе голову с развертыванием аппаратного и программного обеспечения для использования локального ИИ, просто обратитесь в компанию ServerFlow — наши ИИ-специалисты не только подберут для вас наиболее оптимальную сборку, но и помогут с развертыванием вашей первой локальной нейросети, проведя вас за руку от покупки оборудования до его выпуска в продакшен.
Хотелось бы знать, какой требуется процессор и нужен ли GPU. И как обучить ИИ чтобы он нарисовал первую картинку?
Serverflow
Для ответа на этот вопрос рекомендуем Вам другую нашу статью: https://serverflow.ru/blog/stati/kak-vybrat-server-dlya-iskusstvennogo-intellekta-osnovnye-kriterii-i-rekomendatsii/
Там все подробно расписано, а в случае если у Вас будут дополнительные вопросы, Вы всегда можете связаться с нами любым из способов на сайте:)
А насчет обучения ИИ, у нас также есть материал, например этот: https://serverflow.ru/blog/stati/mashinnoe-obuchenie-chto-eto-takoe-i-kak-ono-rabotaet/
Скидка 1 500 ₽ или бесплатная доставка - уже сейчас 🔥
Мы ценим обратную связь от клиентов. При оформлении заказа вы можете сообщить о своём намерении поделиться впечатлением о работе ServerFlow после получения товара.
* - скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка до ПВЗ СДЭК.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.
При оформлении заказа в ServerFlow вы можете сообщить о намерении оставить отзыв о нашей работе после получения товара.
Нам важно ваше честное мнение. Оно помогает развивать сервис и даёт другим клиентам представление о нашей работе.
Вы можете оставить отзыв на удобной для вас платформе:
Google Maps
2GIS
Яндекс Карты
Как работает акция
Применяя промокод, вы подтверждаете намерение поделиться впечатлением о работе ServerFlow после получения заказа. Мы применяем бонус уже к текущему заказу в знак благодарности за обратную связь.
Условия акции:
скидка 1 500 ₽ при заказе от 30 000 ₽
или бесплатная доставка* при заказе до 30 000 ₽
* Бесплатная доставка заказа осуществляется до ПВЗ СДЭК.