Китайские LLM буквально ворвались на рынок ИИ в начале 2025 года и стремительно завоевали популярность по всему миру. Ввиду этого, многие пользователи начали интересоваться возможностью развернуть популярные языковые модели из КНР локально на своих устройствах. Как оказалось, некоторые китайские нейросети действительно есть в открытом доступе и любой желающий при наличии подходящего железа может установить их локально на свое устройство. Это открывает огромные возможности для проведения экспериментов и использования ИИ без подключения к интернету. Сегодня мы расскажем вам о китайский LLM, которые можно запустить на потребительском ПК или мощном сервере, а также подробно распишем их характеристики и требования для развертывания.
На момент начала 2025 года DeepSeek R1 стала самой популярной нейросетью в мире.
Чем китайские ИИ лучше западных аналогов?
Мы уже рассказывали о западных ИИ, которые можно развернуть локально. Но зачем тогда нужны китайские языковые модели, если есть проверенные и производительные западные LLM? На самом деле, есть несколько причин, почему нейросети из Поднебесной превосходят аналоги от OpenAI, Google, Meta* и других компаний из США. Во-первых, китайские нейросети более производительны и дают более релевантные ответы, чем тот же ChatGPT или Llama*. Тестирования показали, что DeepSeek R1 и Qwen 2.5 Max обходят конкурентов в решении математических задач, создании программного кода, анализе информации и во многих других операциях. Во-вторых, китайские ИИ, в отличие от моделей конкурентов, требуют для обучения значительно меньше ресурсов за счет оптимизированной архитектуры. К тому же, развернув DeepSeek локально, вы сможете избежать серьезных проблем этой LLM, о которых мы писали в этой статье.
Несмотря на то, что китайские LLM быстро завоевали популярность и опередили по производительности своих конкурентов, западные ИИ-компании активно отвоевывают свои позиции на рынке с помощью выпуска новейших версий своих нейросетей.
Требования к системе
Системные требования для локального развертывания китайских ИИ практически идентичны требованиям западных моделей. В первую очередь, необходимы современные CPU с высокими показателями тактовой частоты, количеством ядер от 8 штук, а также поддержкой набора инструкций AVX2 для ускорения работы с большими объемами данных. Также необходимы SSD-диски с интерфейсом NVMe для ускоренной загрузки больших массивов информации при обучении. Но самыми важными компонентами, на которые будет ложиться вся нагрузка, являются высокопроизводительные графические ускорители с большим объемом видеопамяти, особенно при развертывании моделей с внушительным количеством параметров — от 13 миллиардов и более.
Несмотря на то, что видеокарты являются важным компонентом системы для развертывания ИИ, не стоит забывать и о других элементах, так как они тоже играют свою роль при обучении и инференсе передовых нейросетей, нередко увеличивая эффективность их развертывания.
DeepSeek R1 — китайская языковая модель-трансформер на архитектуре MoE, разработанная и выпущенная одноименной компанией в 2025 году, вызвавшая огромный ажиотаж на мировом рынке ИИ. DeepSeek R1 удалось превзойти все популярные западные ИИ в момент своего выхода, что стало возможно благодаря использованию метода дистилляции при обучении этой передовой модели, а также различным техникам оптимизации архитектуры. DeepSeek R1 подходит для генерации текста, решения математических задач, машинного перевода, создании креативного контента и других операций. DeepSeek R1 удалось стать настоящим хитом сектора искусственного интеллекта, так как китайские разработчики заявили, что на ее разработку ушло около 5-6 миллионов долларов — кратно меньше бюджета, потраченного на создание первых версий ChatGPT.
DeepSeek R1 8B
DeepSeek R1 8B — это компактная и производительная модель ИИ семейства DeepSeek R1, разработанная с помощью метода дистилляции через нейросеть Llama 3.2* и предназначенная для локального развертывания на устройствах со средними вычислительными мощностями. Модель содержит 8 миллиардов параметров и демонстрирует высокую эффективность в задачах текстовой генерации, обработки естественного языка, создания программного кода и анализа данных. Благодаря умеренному количеству параметров, она идеально подходит для использования на менее мощных системах, таких как ПК или рабочие станции среднего уровня.
Однако, даже будучи одной из самых легких моделей в линейке, DeepSeek R1 8B имеет определенный требования к системным ресурсам для стабильной и эффективной. Чтобы упростить вам задачу по обучению и инференсу DeepSeek R1 8B, предоставляем объемы потребляемой видеопамяти этой модели в различных режимах квантизации.
Требования для инференса:
Инференс с полной точностью (FP32): 16 ГБ VRAM
Инференс с половинной точностью (FP16): 8 ГБ VRAM
Инференс с низкой и целочисленной точностью (FP8 / INT8): 4 ГБ VRAM
Требования для обучения:
Обучение с полной точностью (FP32): 32 ГБ VRAM
Обучение с половинной точностью (FP16): 16 ГБ VRAM
Обучение с низкой и целочисленной точностью (FP8 / INT8): 8 ГБ VRAM
DeepSeek R1 14B
DeepSeek R1 14B — это более мощная версия семейства DeepSeek R1, содержащая 14 миллиардов параметров и дистиллированная при помощи китайской модели Qwen 2.5. DeepSeek R1 14B разработана для решения сложных задач, требующих высокой точности и производительности, таких как создание качественных текстовых материалов, анализ больших объемов данных, написание кода уровня Senior и других операций высокой сложности.
Так как у этой модели вдвое больше параметров, чем у ее предшественника, DeepSeek R1 14B обеспечивает высокую релевантность и точность ответов, но за счет этого требует значительно больше вычислительных ресурсов для развертывания и использования. Ниже приведены объемы потребляемой видеопамяти этого ИИ различных уровней квантизации:
Требования для инференса:
Инференс с полной точностью (FP32): 28 ГБ VRAM
Инференс с половинной точностью (FP16): 14 ГБ VRAM
Инференс с низкой и целочисленной точностью (FP8 / INT8): 7 ГБ VRAM
Требования для обучения:
Обучение с полной точностью (FP32): 56 ГБ VRAM
Обучение с половинной точностью (FP16): 28 ГБ VRAM
Обучение с низкой и целочисленной точностью (FP8 / INT8): 14 ГБ VRAM
DeepSeek Janus-Pro 7B
DeepSeek Janus-Pro 7B — это мультимодальная модель из семейства DeepSeek, которая предназначена для генерации высококачественных изображений и выполнения операций с текстом. Данная версия DeepSeek Janus-Pro имеет 7 миллиардов параметров и предлагает различные инструменты для создания визуальных материалов, анализа медиафайлов, доработке существующих изображений и генерации текста. Модель хорошо адаптирована для развертывания на устройствах с умеренными вычислительными возможностями и будет полезна при выполнении мультимедийных задач любой сложности. Предоставляем данные о различных уровнях квантизации модели DeepSeek Janus-Pro:
Требования для инференса:
Инференс с полной точностью (FP32): 14 ГБ VRAM
Инференс с половинной точностью (FP16): 7 ГБ VRAM
Инференс с низкой и целочисленной точностью (FP8 / INT8): 3.5 ГБ VRAM
Требования для обучения:
Обучение с полной точностью (FP32): 28 ГБ VRAM
Обучение с половинной точностью (FP16): 14 ГБ VRAM
Обучение с низкой и целочисленной точностью (FP8 / INT8): 7 ГБ VRAM
Qwen 2.5 — это передовые LLM, разработанные компанией Alibaba Cloud в 2024 году для выполнения широкого спектра задач в различных сферах деятельности. До недавнего времени языковые модели Qwen не пользовались большой популярностью и ими интересовались лишь китайские ИИ-энтузиасты. Однако, с выходом нейросети Qwen 2.5 Max все изменилось, так как эта версия ИИ смогла превзойти производительность не только моделей ChatGPT от OpenAI, но даже обошла другую китайскую модель DeepSeek R1, которая до этого считалась самым передовым ИИ на рынке. Особенность Qwen 2.5 заключается в ее универсальности — модель может выполнять широкий спектр задач от генерации текста и создании программного кода до генерации фото/видео или материалов углубленного поиска информации. Также Qwen 2.5 отлично справляется с восприятием контекста, изучает промпты пользователей и историю запросов, а на основе полученных данных генерирует более релевантные ответы. При этом, важно учитывать, что Qwen 2.5 достигла таких результатов с тем условием, что на ее обучение было потрачено крайне меньше средств и ресурсов, чем для обучения западных языковых моделей от OpenAI и Meta*.
Qwen 2.5 7B
Qwen 2.5 7B — это одна из многочисленных версий нейросети в семействе Qwen, которую можно развернуть локально на собственных вычислительных устройствах. Данная модель имеет 7 миллиардов параметров и способна выполнять широкий спектр задач, вроде генерации текстов, обработки естественного языка, создания программного кода и анализа данных. Благодаря меньшему количеству параметров по сравнению с более крупными моделями, для ее развертывания на локальных серверах и ПК требуется меньше памяти, что делает ее отличным вариантом для ИИ-энтузиастов и рядовых пользователей.
Тем не менее, сразу стоит отметить, что даже эта модель требует определенных ресурсов для эффективной работы. Мы предоставляем характеристики с учетом уровня квантизации, чтобы помочь вам оптимизировать производительность Qwen 2.5 7B в зависимости от ваших задач и ресурсов.
Требования для инференса:
Инференс с полной точностью (FP32): 14 ГБ VRAM
Инференс с половинной точностью (FP16): 7 ГБ VRAM
Инференс с низкой и целочисленной точностью (FP8 / INT8): 3.5 ГБ VRAM
Требования для обучения:
Обучение с полной точностью (FP32): 28 ГБ VRAM
Обучение с половинной точностью (FP16): 14 ГБ VRAM
Обучение с низкой и целочисленной точностью (FP8 / INT8): 7 ГБ VRAM
Qwen 2.5 14B
Qwen 2.5 14B — это более продвинутая версия нейросети в семействе Qwen, которую также можно развернуть локально на собственных вычислительных устройствах. Эта модель, имеющая 14 миллиардов параметров, предлагает значительно более высокую точность и быстродействие при решении сложных задач, таких как создание длинных текстов высокого качества, анализ больших объемов данных, решение математических задач и генерация технического контента.
Однако, из-за большего числа параметров, для развертывания этой модели на локальных серверах и ПК потребуется значительно больше памяти, чем для версии Qwen 2.5 7B. За счет этого данная модель лучше подходит для производительных серверных систем, нежели пользовательских устройств
Мы также предоставляем характеристики с учетом уровня квантизации, чтобы помочь вам выбрать наиболее подходящий режим работы для вашей задачи.
Требования для инференса:
Инференс с полной точностью (FP32): 28 ГБ VRAM
Инференс с половинной точностью (FP16): 14 ГБ VRAM
Инференс с низкой и целочисленной точностью (FP8 / INT8): 7 ГБ VRAM
Требования для обучения:
Обучение с полной точностью (FP32): 56 ГБ VRAM
Обучение с половинной точностью (FP16): 28 ГБ VRAM
Обучение с низкой и целочисленной точностью (FP8 / INT8): 14 ГБ VRAM
Такая система на основе 2 графических ускорителей подойдет для развертывания китайских моделей ИИ со средним количеством параметров.
ChatGLM2-6B — это компактная и высокоэффективная языковая модель, разработанная компанией Zhipu AI в 2022 году. Основной фукус модели ChatGLM2-6B — пониженные требования для развертывания при сохранении высокой точности результатов, что достигается за счет оптимизированной архитектуры и квантизации. ChatGLM2-6B поддерживает только китайский и английский язык, однако, разработчики обещают добавить поддержку и других популярных языков, включая русский. Спектр выполняемых задач модели ChatGLM2-6B весьма велик — она универсальна и отлично подходит для генерации текста, анализе больших объемов данных, решении математических задач и написании программного кода разного уровня сложности. Изначально нейросеть ChatGLM 130B была доступна только при облачном использовании, однако, в 2023 году была выпущена облегченная версию ChatGLM2-6B, доступная для локальной интеграции в пользовательские системы.
Однако, несмотря на свою компактность, модель все же требует определенного уровня вычислительных ресурсов для стабильной работы. Предоставляем характеристики для различных режимов квантизации модели ChatGLM2-6B.
Требования для обучения:
Инференс с половинной точностью (FP16): 16 ГБ VRAM
Инференс с целочисленной точностью (INT8): 13 ГБ VRAM
Требования для обучения:
Обучение с половинной точностью (FP16): 13 ГБ VRAM
Обучение с целочисленной точностью (INT8): 10 ГБ VRAM
Платформы и библиотеки
Есть несколько популярных сервисов и библиотек, с помощью которых вы можете легко установить и завернуть локально представленные выше китайские языковые модели. Вот три наиболее популярные платформы для развертывания этих передовых ИИ:
Ollama — это популярный фреймворк для локального развертывания различных больших языковых моделей различных версий, включая как китайские, так и западные LLM, вроде DeepSeek, Qwen, ChatGLM, Llama* и ChatGPT. Ollama отличается от других платформ максимально упрощенным интерфейсом и стремлением к обеспечению наилучшего пользовательского опыта. Для этого Ollama предлагает удобный API, массу предобученных и настроенных моделей, а также возможность подключения широкого спектра дополнительных инструментов и библиотек для более тонкой настройки LLM. По сути, Ollama работает как независимый сервер, который можно запустить на любом устройстве с поддержкой Linux, Windows или macOS. Также платформа предоставляет удобный CLI-интерфейс и HTTP API, что позволяет использовать ее для интеграции в различные приложения.
Hugging Face
Логотип платформы Hugging Face. Источник: Hugging Face.
Hugging Face — одна из самых крупных и популярных платформ с открытым исходным кодом, предназначенная для локального развертывания многих моделей ИИ. Hugging Face предоставляет доступ к тысячам предобученных LLM с разным количеством параметров для выполнения широкого спектра задач, включая такие популярные ИИ от китайских разработчиков, как DeepSeek и Qwen. Платформа Hugging Face предлагает более комплексные инструменты и библиотеки для работы с LLM, включая возможность разработать собственный искусственный интеллект с нуля, тестировать загруженные модели и модифицировать ИИ других пользователей. Также Hugging Face располагает различным функционалом для квантизации ИИ. Для локального развертывания нейросетей Hugging Face имеет различные наборы данных и API, что позволяет быстро интегрировать необходимые языковые модели в вашу систему.
LM Studio — специализированная платформу для управления полным циклом работы с большими языковыми моделями, от их тренировки и инференса до локального развертывания. LM Studio предоставляет удобный графический интерфейс и набор инструментов для подготовки данных, обучения моделей и их последующего использования для выполнения различных задач. Платформа поддерживает такие китайские LLM, как DeepSeek и Qwen, а также позволяет проводить сложные операции по оптимизации моделей без необходимости в глубоких знаниях программирования. Ключевые особенности LM Studio включают автоматизацию процессов, детальную аналитику производительности ИИ и безопасное хранение данных. Подходит для корпоративного использования благодаря продвинутым возможностям управления проектами и командной работы.
Вывод
Китайские LLM только начали свой путь завоевания рынка ИИ, поэтому не исключено, что в будущем появятся еще более совершенные языковые модели, которые также можно будет установить локально на пользовательские ПК и сервера. Но пока этого не произошло, все вышеперечисленные модели ИИ находятся в открытом доступе и имеют открытый исходный код, поэтому вы свободно можете оптимизировать работу и выполнять тонкую настройку выбранных китайских нейросетей, делая их гораздо более эффективными.
*LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена
**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещен
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Получите скидку 3 000 рублей или бесплатную доставку за подписку на новости*!
* — скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка.
Мы получили ваш отзыв!
Он появится на сайте после модерации.
Мы получили ваш отзыв!
Он появится на сайте после модерации.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.