Лучшие модели ИИ для развертывания на своем ПК или сервере. Подробно о требованиях для развертывания.

29.10.2024

~ 15 мин

39334

Простой

Статьи

Содержание:

Введение
Зачем запускать нейросети на ПК или сервере?
Общие требования к системе
LLAMA 3.2*

LLAMA 3.2 3B*
LLAMA 3.2 11B*

Stable Diffusion 3.5 Large
Pixtral 12B
T5
CLIP
Falcon LLM
GPT-4ALL 3.0.0
Платформы и библиотеки

Hugging Face
TensorFlow Hub

Заключение

Введение

Искусственный интеллект — это одна из самых передовых технологий современности, которая уже прочно вошла во все сферы жизни, при этом пользоваться ей могут абсолютно все желающие, так как множество разработчиков уже выпустили в общей доступ собственные языковые модели для выполнения различных задач. Однако, если ранее пользователям были доступны только облачные модели ИИ, то теперь любой желающий может развернуть собственную нейросеть на базе мощностей собственного железа. В этой статье мы расскажем о 9-ти моделях нейросетей, которые можно запустить на потребительском ПК или мощном сервере, а также подробно распишем их характеристики и требования для развертывания.

Зачем запускать нейросети на ПК или сервере?

У запуска локальных нейросетей на собственных вычислительных устройствах есть множество плюсов: контроль над данными и их безопасность, снижение затрат на облачные вычисления и возможность использования мощных локальных ресурсов для ускорения обучения и инференса. Локальный запуск обеспечивает гибкость и возможность кастомизации моделей, позволяя исследователям настраивать архитектуры и экспериментировать с параметрами без ограничений облачных платформ. Кроме того, локальная среда удобна для разработки и тестирования, позволяет быстро вносить изменения и проводить эксперименты, а также исключает зависимость от интернет-соединения, что особенно полезно в условиях ограниченного доступа к сети.

Общие требования к системе

Для локального запуска большинства представленных ниже нейросетей важно учесть несколько общих системных требований. К таким требованиям относится наличие быстрого диска с интерфейсом NVMe, а также современные процессоры с высокой тактовой частотой и количеством ядер от 8-ми и более. Диски NVMe потребуются для ускорения загрузки больших массивов данных, а CPU будут выполнять host-функцию, проводя операции инференса и обучения моделей. В остальном вся нагрузка для развертывания ИИ будет ложиться на графические процессоры, поэтому большинство представленных нейросетей требуют мощных GPU с большим объемом видеопамяти.

Оптимальным выбором для развертывания нейронных сетей будет производительная система на процессорах Intel Xeon или AMD EPYC, где ввиду обилия PCI-E линий можно установить сразу несколько графических адаптеров.

LLAMA 3.2*

Источник: llama.com*.

LLAMA 3.2* — это последняя версия семейства языковых моделей от Meta** AI, разработанная для выполнения сложных задач обработки естественного языка (NLP) и обработки визуального контента. Модели LLAMA 3.2* имеют улучшенную архитектуру ИИ-трансформеров по сравнению с предыдущими версиями, что позволяет ей работать с большими объемами данных и выполнять такие задачи, как генерация текста, анализ контекста, и машинный перевод, при этом проводя такие операции с высокой точностью. Модель LLAMA* предназначена для коммерческих и исследовательских проектов, однако, доступны четыре версии, которые можно запустить на локальных серверах и ПК:

LLAMA 3.2 3B*

LLAMA 3.2 3B* — одна из базовых версий семейства LLAMA*, оптимальная для небольших задач обработки естественного языка, таких как генерация текста и изображений. LLAMA 3.2 3B* поддерживает французский, испанский, итальянский, русский, китайский, румынский и японский языки. Модель можно установить локально на ПК или сервере с минимальными требованиями к аппаратному обеспечению, сохраняя при этом хорошую производительность и точность для такого небольшого количества параметров.

LLaMA 3.2 3B* является легковесной моделью, поэтому в требованиях указаны только предельные значения видеопамяти, достигнутые при работе в режиме полной точности.

Требования для инференса и обучения:

Потребление памяти в инференсе (FP32) — 6 ГБ VRAM;
Потребление памяти в обучении (FP32) — 12 ГБ VRAM.

LLAMA 3.2 11B*

LLAMA 3.2 11B* — более продвинутая версия нейросети в семействе LLAMA*, которую можно развернуть локально на собственных вычислительных устройствах. Как и предыдущие версии LLAMA 3.2*, эта версия, имеющая 11 миллиардов параметров, способна выполнять такие задачи, как генерация текстов и их обработка, создание изображений, анализ данных, графиков и диаграмм. За счет большего числа параметров, для развертывания этой нейросети на локальных серверах и ПК понадобится значительно больше памяти, чем версия LLAMA 3.2 1B*, однако ее результаты гораздо более точны, а запросы выполняются в разы быстрее.

Сразу хотим отметить, что LLAMA 3.2 11B* является достаточно "тяжелой" моделью. Поэтому мы будем предоставлять характеристики с указанием уровня квантизации, чтобы вы могли лучше понять, в каком режиме вычислений целесообразно запускать эту модель. Это поможет вам оптимизировать её производительность в зависимости от ваших задач и доступных ресурсов.

Требования для инференса:

Инференс c “полной” точностью (FP32) — 22 ГБ VRAM;
Инференс с половинной точностью (FP16) — 11 ГБ VRAM;
Инференс с низкой точностью (FP8) — 5.5 ГБ VRAM;
Инференс с целочисленной точностью (INT8) — 2.75 ГБ VRAM.

Требования для обучения:

Обучение c “полной” точностью (FP32) — 44 ГБ VRAM;
Обучение с половинной точностью (FP16) — 22 ГБ VRAM;
Обучение с низкой точностью (FP8) — 11 ГБ VRAM;
Обучение с целочисленной точностью (INT8) — 5.5 ГБ VRAM.

Stable Diffusion 3.5 Large

Изображение сгенерированное Stable Diffusion 3.5

Источник: stability.ai.

Stable Diffusion 3.5 Large — это актуальная генеративная модель ИИ от разработчика Stability.ai, которая использует текстовые описания для создания высококачественных изображений. Особенностью Stable Diffusion 3.5 Large является поэтапная генерация изображений, благодаря которой нейросеть с каждым этапом удаляет лишние детали из контента, в конечном результате предоставляя наиболее качественное и точное изображение. Stable Diffusion является одной из самых популярных моделей генерации изображений и может эффективно работать на потребительском оборудовании с меньшими требованиями, чем другие модели, такие как DALL-E.

Для понимания требований мы будем использовать топовую версию Stable Diffusion 3.5 Large 8B, способную генерировать наиболее детализированные и фотореалистичные изображения. Эта версия позволяет достигать высочайшего качества генерируемых изображений и демонстрирует лучшие результаты в своей категории.

Требования для инференса:

Инференс c “полной” точностью (FP32) — 16 ГБ VRAM;
Инференс с половинной точностью (FP16) — 8 ГБ VRAM;
Инференс с низкой точностью (FP8) — 4 ГБ VRAM;
Инференс с целочисленной точностью (INT8) — 2 ГБ VRAM.

Требования для обучения:

Обучение c “полной” точностью (FP32) — 32 ГБ VRAM;
Обучение с половинной точностью (FP16) — 16 ГБ VRAM;
Обучение с низкой точностью (FP8) — 8 ГБ VRAM;
Обучение с целочисленной точностью (INT8) — 4 ГБ VRAM.

Pixtral 12B

Источник: mistral.ai.

Pixtral 12B — последняя версия популярной языковой модели, основанной на архитектуре Mistral и предназначенной для таких задач, как обработка и генерация текста, создание изображений и прочих операций. Pixtral 12B оптимизирована для эффективного выполнения пользовательских запросов и предлагает баланс точности и ресурсозатратности, поэтому Pixtral является отличным примером нейросетей, которые можно без проблем развернуть на собственных вычислительных системах в локальном формате.

Требования для инференса:

Инференс c “полной” точностью (FP32) — 24 ГБ VRAM;
Инференс с половинной точностью (FP16) — 12 ГБ VRAM;
Инференс с низкой точностью (FP8) — 6 ГБ VRAM;
Инференс с целочисленной точностью (INT8) — 3 ГБ VRAM.

Требования для обучения:

Обучение c “полной” точностью (FP32) — 48 ГБ VRAM;
Обучение с половинной точностью (FP16) — 24 ГБ VRAM;
Обучение с низкой точностью (FP8) — 12 ГБ VRAM;
Обучение с целочисленной точностью (INT8) — 6 ГБ VRAM.

T5

Источник: Github.

T5 (Text-to-Text Transfer Transformer) — это языковая модель, разработанная Google Research, которая представляет собой универсальное решение для обработки естественного языка (NLP). T5 основана на архитектуре ИИ-трансформера и использует подход «Text-to-Text», что позволяет формулировать все задачи NLP, такие как перевод, классификация и генерация текста, при этом выполняя все это в едином формате с высокой точностью. Модель была обучена на обширном наборе данных C4, что делает ее способной выполнять широкий спектр задач с высокой точностью и качеством. T5 отличается гибкостью и эффективностью, обеспечивая отличные результаты в различных приложениях.

Ниже мы рассмотрим требования для топовой версии T5 с 11 миллиардами параметров, способной генерировать тексты высочайшего качества.

Требования для инференса:

Инференс c “полной” точностью (FP32) — 22 ГБ VRAM;
Инференс с половинной точностью (FP16) — 11 ГБ VRAM;
Инференс с низкой точностью (FP8) — 5.5 ГБ VRAM;
Инференс с целочисленной точностью (INT8) — 2.75 ГБ VRAM.

Требования для обучения:

Обучение c “полной” точностью (FP32) — 44 ГБ VRAM;
Обучение с половинной точностью (FP16) — 22 ГБ VRAM;
Обучение с низкой точностью (FP8) — 11 ГБ VRAM;
Обучение с целочисленной точностью (INT8) — 5.5 ГБ VRAM.

CLIP

Источник: OpenAI.

CLIP (Contrastive Language-Image Pretraining) — это нейросеть, разработанная OpenAI, предназначенная для связывания текстовых описаний с изображениями. CLIP может понимать и анализировать изображения на основе текстовых запросов и наоборот, что делает ее полезной для широкого спектра приложений, таких как классификация изображений, поиск по изображениям и генерация визуального контента на основе текстовых инструкций. CLIP объединяет текстовые и визуальные данные в единое пространство признаков, что позволяет ему эффективно решать задачи, связанные с многоязычным и мультимодальным искусственным интеллектом.

В качестве примера возьмем модель ViT-L/14, которая способна классифицировать изображения с разрешением 14x14 мегапикселей, генерировать тексты на основе этих изображений, а также осуществлять поиск изображений по текстовым запросам. Эта модель содержит около 307 миллионов параметров и требует следующие ресурсы для запуска:

Требования для инференса:

Инференс c “полной” точностью (FP32) — 12 ГБ VRAM;
Инференс с половинной точностью (FP16) — 6 ГБ VRAM;
Инференс с низкой точностью (FP8) — 3 ГБ VRAM;
Инференс с целочисленной точностью (INT8) — 1.5 ГБ VRAM.

Требования для обучения:

Обучение c “полной” точностью (FP32) — 24 ГБ VRAM;
Обучение с половинной точностью (FP16) — 12 ГБ VRAM;
Обучение с низкой точностью (FP8) — 6 ГБ VRAM;
Обучение с целочисленной точностью (INT8) — 3 ГБ VRAM.

Falcon LLM

Источник: Falcon LLM.

Falcon LLM — высокопроизводительная языковая модель, созданная технологическим институтом инноваций Абу-Даби и предназначенная для обработки и генерации текстов, а также написания кода на различных популярных языках программирования. Falcon LLM отличается высокой скорость обработки пользовательских запросов и высокой точностью выдаваемых результатов, что делает модель подходящей для широкого круга задач в сфере NLP, от создания чат-ботов различной сложности до генерации контента и его анализа. Falcon LLM доступна по лицензии Apache License Version 2.0.

Сегодня мы рассмотрим одну из самых передовых моделей Falcon Mamba 7B. Она основана на базе State Space Language Models (SSLM). В отличие от традиционных трансформеров, которые используют механизм внимания, Mamba использует состояния пространства для обработки последовательностей, что значительно ускоряет инференс, снижает потребление памяти улучшает масштабируемость модели.

Требования для инференса:

Инференс c “полной” точностью (FP32) — 14 ГБ VRAM;
Инференс с половинной точностью (FP16) — 7 ГБ VRAM;
Инференс с низкой точностью (FP8) — 3.5 ГБ VRAM;
Инференс с целочисленной точностью (INT8) — 1.75 ГБ VRAM.

Требования для обучения:

Обучение c “полной” точностью (FP32) — 28 ГБ VRAM;
Обучение с половинной точностью (FP16) — 14 ГБ VRAM;
Обучение с низкой точностью (FP8) — 7 ГБ VRAM;
Обучение с целочисленной точностью (INT8) — 3.5 ГБ VRAM.

GPT-4ALL 3.0.0

Источник: nomic.ai.

GPT-4ALL 3.0.0 — одна из мощнейших языковых моделей, разработанная компанией OpenAI для генерации и обработки текста и представляющую собой нейросеть GPT-4, оптимизированную под локальное развертывание на ПК или сервере. GPT-4ALL 3.0.0 может использоваться для широкого спектра мультимодальных задач, например, для написания текстов, выполнения задач NLP, перевода и создания визуального контента. Возможность локального запуска позволяет гибко настраивать модель и хранить данные на собственных серверах.

Модель GPT-4ALL 3.0.0 включает в себя 13 миллиардов параметров, что делает её ещё более ресурсоемкой по сравнению с LLaMA*. В связи с этим, по аналогии, мы укажем потребление памяти в различных режимах вычислений, чтобы вам было легче определить оптимальные настройки для использования этой модели.

Требования для инференса:

Инференс c “полной” точностью (FP32) — 20 ГБ VRAM;
Инференс с половинной точностью (FP16) — 10 ГБ VRAM;
Инференс с низкой точностью (FP8) — 5 ГБ VRAM;
Инференс с целочисленной точностью (INT8) — 2.5 ГБ VRAM.

Требования для обучения:

Обучение c “полной” точностью (FP32) — 40 ГБ VRAM;

Обучение с половинной точностью (FP16) — 20 ГБ VRAM;

Обучение с низкой точностью (FP8) — 10 ГБ VRAM;

Обучение с целочисленной точностью (INT8) — 5 ГБ VRAM.

Платформы и библиотеки

Существует несколько популярных библиотек, которые предоставляют доступ к разнообразным нейронным сетям и упрощают их установку и развертывание на локальном ПК. Вот две наиболее популярные платформы для установки нейросетей:

Hugging Face

Источник: Hugging Face.

Hugging Face — крупнейшая платформа с открытым доступом к тысячам предобученных моделей для выполнения задач, связанных с обработкой естественного языка и генеративного ИИ, а также другими, более узконаправленными моделями, вроде ИИ для машинного зрения. Платформа поддерживает популярные NLP-модели, такие как BERT, GPT, LLaMA*, и специализированные генеративные модели, такие как Stable Diffusion и другие нейросети для работы с визуальным контентом. Hugging Face объединяет сообщество разработчиков и пользователей ИИ, за счет чего комьюнити может удобно обмениваться, настраивать и обучать модели искусственного интеллекта, делясь друг с другом различными наблюдениями и наработками. В Hugging Face также доступны наборы данных и API для быстрой интеграции нейросети в ваши локальные системы.

TensorFlow Hub

Источник: TensorFlow.

TensorFlow Hub — платформа от компании Google, предоставляющая доступ к предобученным моделям ИИ на базе TensorFlow, которая позволяет быстро интегрировать ИИ-решения в различные приложения и сервисы — как коммерческие, так и пользовательские. TensorFlow Hub поддерживает передовые модели нейросетей для выполнения большого спектра задач, включая обработку изображений и звука, NLP и других задач. В библиотеке TensorFlow Hub представлены такие модели, как BERT для обработки текста, Stable Diffusion для распознавания изображений, а также множество других популярный моделей искусственного интеллекта от ведущих компаний-разработчиков нейросетей.

Заключение

На самом деле, существует множество нейросетей с открытым исходным кодом, которые также можно развернуть на своем вычислительным устройстве и пользоваться всеми возможностями искусственного интеллекта без доступа в интернет. Кроме того, за счет открытого кода, вы сможете оптимизировать свою нейросеть под выполнение конкретных операций под ваши требования. Однако, нейросети от известных разработчиков, о которых мы рассказали выше, считаются одними из самых лучших, поэтому лучше всего запускать именной эти модели в своей локальной сети. В зависимости от того, какую модель и версию нейросети вы выбрали, будут зависеть требования к запуску, а также функционал ИИ, поэтому заранее определитесь с вашими требованиями и при необходимости оптимизируйте вашу инфраструктуру новым, более производительным оборудованием, чтобы пользоваться всеми возможностями искусственного интеллекта.

*LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена

**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена

Автор:

Serverflow

Комментарии 1

Павел

15.04.2025

Хотелось бы знать, какой требуется процессор и нужен ли GPU. И как обучить ИИ чтобы он нарисовал первую картинку?

Для ответа на этот вопрос рекомендуем Вам другую нашу статью: https://serverflow.ru/blog/stati/kak-vybrat-server-dlya-iskusstvennogo-intellekta-osnovnye-kriterii-i-rekomendatsii/ Там все подробно расписано, а в случае если у Вас будут дополнительные вопросы, Вы всегда можете связаться с нами любым из способов на сайте:) А насчет обучения ИИ, у нас также есть материал, например этот: https://serverflow.ru/blog/stati/mashinnoe-obuchenie-chto-eto-takoe-i-kak-ono-rabotaet/