Что такое MLX — новый формат моделей от Apple для искусственного интеллекта

20.10.2025

~ 2 мин

4002

Простой

Статьи

Введение

Осенью 2025 года в популярной открытой библиотеке искусственного интеллекта Hugging Face начал активно набирать популярность такой тег, как MLX: им помечаются множество ИИ-моделей с открытыми весами, вроде GPT-OSS, DeepSeek, Qwen, Llama* или Mistral. Несмотря на это, мало кто задумывается, что же стоит за этим необычным тегом. На самом деле, MLX — это не просто еще один формат для хранения весов, а полноценный ИИ-фреймворк с целой программной экосистемой от компании Apple, предназначенный для инференса и обучения больших языковых моделей на устройствах с процессорами Apple Silicon. Эта система объединяет в себе все: от среды runtime и формата хранения весов до специализированных, уникальных инструментов, вроде mlx-lm. Хотя первый релиз MLX состоялся еще в декабре 2023 года, настоящий взрывной рост интереса к платформе произошел лишь во второй половине 2025 года, когда поддержку фреймворка массово внедрили такие приложения, как LM Studio и Hugging Face. В этой статье специалисты компании ServerFlow расскажут вам, что из себя представляет MLX, какие компоненты входят в него, чем эта платформа отличается от аналогов, а также объяснят, почему MLX обрел такую большую популярность,

Почему появился MLX и зачем Apple создает собственный ИИ-формат?

По мере своего развития, компания Apple всегда стремилась к обособленности от крупнейших IT-конгломератов — сначала это выражалось в создании собственной ОС и ПО, затем в разработке собственных CPU, а теперь, когда в мире во всю гремит бум ИИ, дело дошло до выпуска собственного открытого ИИ-фреймворка. Но создание MLX было начато не просто ради поддержания традиции — этот шаг имел стратегическое значение. Дело в том, что популярные ИИ-фреймворки, такие как PyTorch с форматом Safetensors, были не в полной мере оптимизированы под уникальную архитектуру чипов Apple Silicon. Это приводило к серьезной проблеме: потери производительности при инференсе современных больших языковых моделей на Mac. У Apple буквально не было другого выбора, кроме как разработать собственную платформу для работы с LLM, которая обладала трем ключевым особенностям:

Возможность использования унифицированной памяти, которая позволяет CPU и GPU обращаться к данным без задержек из-за копирования в буфер.
Глубокая оптимизация под низкоуровневого графического API Metal, благодаря чему максимально раскрывается весь потенциал чипов Apple Silicon.
Поддержка динамических построений графов, что исключает необходимость в медленной компиляции данных, при этом повышая их структурность и взаимосвязь.

Это лишь малая часть всех уникальных функций MLX, но даже они формируют костяк, который превращает Apple Mac на базе процессоров Silicon в полноценную ИИ-станцию, способную выполнять локальный инференс и тонкую настройку моделей с высокой производительностью и минимальными затратами системных ресурсов.

Процессоры Apple Silicon M1 Max и M3 Pro. Источник: X.

Из чего состоит MLX: формат, библиотека и инструменты

MLX — это открытая модульная ИИ-экосистема, спроектированная в первую очередь для удобства разработчиков и энтузиастов. MLX, подобно конструктору, состоит из нескольких основополагающих частей, каждая из которых предлагает отдельный набор возможностей для эффективной работы с передовыми моделями искусственного интеллекта:

Формат хранения весов: в отличие от использования совершенно нового проприетарного формата, MLX часто использует уже знакомые сообществу контейнеры, такие как .safetensors или .npz, но с особой структурой и упаковкой, оптимизированной для загрузки в среде MLX. Это поддерживает совместимость с другими платформами и упрощает процесс конвертации кода ИИ-моделей.
Библиотека mlx-core: это сердце фреймворка, предлагающее NumPy-подобный API для работы с массивами данных ИИ. Ключевая задача mlx-core — управление памятью и вычислениями с использованием архитектуры Unified Memory и бэкенда Metal.
Инструменты mlx-lm: этот пакет предоставляет высокоуровневые утилиты для работы с большими языковыми моделями. Он включает в себя команды для генерации текста, квантизации моделей и их тонкой настройки. Все это позволяет разработчику одной командой, например, mlx_lm.generate --model mlx-community/Qwen3-4B, запустить мощную модель на своем MacBook.

Движки инференса ИИ-моделей в формате MLX.

Где уже используется MLX: LM Studio, Ollama и Hugging Face?

С учетом того, что MLX является open-source проектом, платформа быстро была интегрирована в самые популярные ИИ-инструменты и библиотеки для разработчиков, ввиду чего поддержку MLX можно встретить в таких платформах, как:

Hugging Face — тысячи моделей с тегом mlx в модельном хабе.
LM Studio — встроенная поддержка MLX как отдельного бэкенда.
Ollama — экспериментальный MLX-бэкенд для ускорения генерации.

Фактически, MLX стремительно становится основным стандартом для запуска локальных моделей искусственного интеллекта на Mac, заняв ту же нишу, что и формат GGUF в экосистемах Windows и Linux.

ИИ-модель Qwen3-4b-thinking в формате MLX, доступная на платформе LM Studio.

Как работает квантизация в MLX: 4-битные и 8-битные модели?

Напомним, что квантизация — это техника сжатия весов моделей искусственного интеллекта, что приводит к снижению точности ответов, но позволяет сократить количество потребляемых LLM системных ресурсов. Квантизация открыла возможность запускать большие языковые модели даже на слабых пользовательских устройствах, что внесло огромный вклад в популяризацию ИИ-индустрии как таковой. Ввиду этого, компания Apple не могла не внедрить в MLX передовые методы квантизации, такие как FP8, NF4 или MXFP4, что позволило запускать мощные LLM на пользовательских устройствах Mac. Специализированные алгоритмы MLX "упаковывают" веса, изначально представленные в формате с плавающей точкой, в более компактные 4-битные или 8-битные представления, значительно уменьшая требования к объему памяти. Благодаря этому, модель Llama* 3 с 70 миллиардами параметров занимает около 40 ГБ памяти, что позволяет ей работать на Mac Studio, а модель Qwen 3 с 4 миллиардами параметров после 4-битного сжатия занимает всего около 2,2 ГБ. Фреймворк также поддерживает технику тонкой настройки ИИ с помощью LoRA-адаптеров, включая ее квантизированную версию QLoRA, что позволяет разработчикам адаптировать большие модели под свои специфические задачи, используя все преимущества ИИ-фреймворка MLX.

Компактные ИИ-модели Qwen3-4b-thinking в формате MLX с разными режимами квантизации.

Сравнение MLX, GGUF и Safetensors: кто быстрее и удобнее

Чтобы понять место MLX в экосистеме, необходимо сравнить его с двумя другими широко известными форматами работы с моделями искусственного интеллекта:

MLX: целостная среда выполнения, оптимизированная исключительно для работы с процессорами Apple Silicon. Главное преимущество MLX — максимальная производительность на этом оборудовании компании Apple, подобно работе CUDA на оборудовании Nvidia.
GGUF: специализированный формат хранения весов ИИ-моделей, оптимизированный для экономичной и эффективной работы с LLM как на GPU, так и на CPU. Основное достоинство GGUF — его высочайшая кроссплатформенность.
Safetensors: безопасный контейнер для хранения весов LLM, который не включает в себя среду выполнения ИИ. Фокусируется на скорости и безопасности.

Почему MLX набирает популярность именно сейчас?

Всплеск популярности вокруг MLX в 2025 году обусловлен совокупностью разных факторов в ИИ-сообществе. Изначальная открытость проекта на GitHub позволила независимым разработчикам самостоятельно оценить весь потенциал MLX, который предоставил полноценный доступ пользователям устройств Mac к ИИ-индустрии. Затем активность сообщества в лице блогеров и разработчиков в X привела к массовой публикации отчётов и инструкций по конвертации популярных ИИ-моделей через фреймворк MLX. Наконец, живые дебаты на форумах вроде Reddit на тему "MLX vs GGUF", где пользователи на реальных примерах демонстрируют впечатляющий прирост производительности, завершили формирование интереса вокруг платформы Apple.

Перспективы MLX: локальный ИИ на Mac и мобильных устройствах

Apple продолжает развивать ИИ-возможности своих передовых пользовательских решений, поэтому фреймворк MLX имеет огромные перспективы дальнейшего развития. Вполне закономерным этапом развития выглядит будущее сближение MLX с такими технологиями Apple, как Core ML для интеграции моделей в приложения и Neural Engine для выполнения распределенных ИИ-нагрузок. Это закладывает фундамент для того, чтобы сложные языковые и диффузионные модели стали стандартной офлайн-функцией в устройствах macOS и iOS, гарантируя полную конфиденциальность пользовательских данных и доступность LLM в любом месте и в любое время. Другими словами, со временем устройства Apple, а в особенности решения Mac, станут полноценными, автономными ИИ-станциями, которые можно использовать для прототипирования, локального запуска и тонкой настройки больших языковых моделей — и все это благодаря инновационным возможностям ИИ-фреймворка MLX.

Выводы

MLX — это не экспериментальный проект, а зрелый, открытый ИИ-фреймворк от Apple, который делает искусственный интеллект доступным для миллионов пользователей устройств на базе Apple Silicon. Для разработчиков MLX предлагает удобный, похожий на Python API, а также обширный набор инструментов, которые значительно упрощают запуск, проектирование и тонкую настройку самых современных ИИ-моделей локально на вашем Mac. Для бизнеса использование MLX позволяет создавать автономные ИИ-решения, которые не зависят от облачных сервисов и интернет-соединения, что критически важно для задач, связанных с обработкой конфиденциальных данных. И поскольку тема MLX и локального ИИ на Mac пока еще не получила широкого освещения в русскоязычном ИИ-сегменте, это открывает большие возможности для энтузиастов и компаний стать первооткрывателями в этой области, заняв лидерские позиции на рынке ИИ-приложений для пользователей оборудования компании Apple.

*LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена

**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена

Автор:

Serverflow