Zyphra обучила MoE-модель ZAYA1 на AMD MI300X

26.11.2025

~ 2 мин

254

Простой

Новости

Введение

AMD объявила о важном достижении: компания Zyphra успешно обучила свою первую крупномасштабную MoE-модель под названием ZAYA1, полностью опираясь на программно-аппаратный стек AMD с ИИ-ускорителями Instinct MI300X, сетевыми картами Pensando и программным пакетом ROCm. Этот результат стал одним из наиболее значимых примеров обучения искусственного интеллекта корпоративного уровня, выполненного целиком с использованием решений AMD, что подтверждает — экосистема AMD готова конкурировать с системами Nvidia. Также в инфраструктуре для обучения использовались передовые хранилища IBM Cloud.

Подробнее о обучении ZAYA1 на AMD Instinct MI300X

Ключевым техническим преимуществом, которое послужило основой для успешного обучения ZAYA1, стала конфигурация Instinct MI300X с 192 ГБ высокопроизводительной памяти. Такой внушительный объем VRAM позволила Zyphra полностью избежать сложного и дорогостоящего разделения экспертов или тензоров — типичной проблемы при обучении крупных MoE-архитектур. Благодаря этому удалось повысить пропускную способность и упростить конвейер обучения. Zyphra также сообщает о 10-кратном ускорении операций сохранения модели, которое обеспечили оптимизированные инструменты распределенного ввода-вывода AMD, что напрямую повысило стабильность и общую эффективность тренировочного процесса.

Сама модель ZAYA1-Base содержит 8,3 млрд параметров, из которых активны всего 760 млн. При этом модель обеспечивает производительность на уровне или даже выше уровня конкурентов того же размера. Zyphra подчеркивает, что подобная эффективность — прямой результат совместной оптимизации архитектуры модели под конкретные особенности аппаратной платформы AMD. Zyphra подчеркивает, что ZAYA1 демонстрирует производительность, сопоставимую или превосходящую ряд ведущих открытых моделей, таких как Qwen3-4B, Llama-3-8B и Gemma3-12B, особенно в задачах математики, логического рассуждения и программирования.

Показатели производительности MoE-модели ZAYA1, обученной на ИИ-ускорителях AMD Instinct MI300X. Источник: AMD.

Стратегическое сотрудничество между Zyphra, AMD, а также IBM, позволило создать полностью интегрированный обучающий кластер, включающий MI300X, сеть AMD Pensando и вместительные хранилища IBM. Объединение высокопроизводительных GPU, межсоединения с низкой задержкой и оптимизированной системы хранения данных стало основой для устойчивого крупномасштабного предварительного обучения ZAYA1.

Выводы

Успех обучения ZAYA1 стал значимым сигналом для индустрии: AMD Instinct MI300X и ROCm формируют реальную альтернативу традиционным решениям Nvidia в крупномасштабном ИИ, подтверждая способность оборудования AMD выдерживать обучение моделей класс MoE и обеспечивать эффективное масштабирование. Для AMD этот проект становится важным подтверждением лидерства в ИИ-вычислениях, а для рынка — демонстрацией того, что экосистема поставщиков ИИ-решений\ продолжает стремительно расширяться.

Автор:

Serverflow