AMD объявила о важном достижении: компания Zyphra успешно обучила свою первую крупномасштабную MoE-модель под названием ZAYA1, полностью опираясь на программно-аппаратный стек AMD с ИИ-ускорителями Instinct MI300X, сетевыми картами Pensando и программным пакетом ROCm. Этот результат стал одним из наиболее значимых примеров обучения искусственного интеллекта корпоративного уровня, выполненного целиком с использованием решений AMD, что подтверждает — экосистема AMD готова конкурировать с системами Nvidia. Также в инфраструктуре для обучения использовались передовые хранилища IBM Cloud.
Подробнее о обучении ZAYA1 на AMD Instinct MI300X
Ключевым техническим преимуществом, которое послужило основой для успешного обучения ZAYA1, стала конфигурация Instinct MI300X с 192 ГБ высокопроизводительной памяти. Такой внушительный объем VRAM позволила Zyphra полностью избежать сложного и дорогостоящего разделения экспертов или тензоров — типичной проблемы при обучении крупных MoE-архитектур. Благодаря этому удалось повысить пропускную способность и упростить конвейер обучения. Zyphra также сообщает о 10-кратном ускорении операций сохранения модели, которое обеспечили оптимизированные инструменты распределенного ввода-вывода AMD, что напрямую повысило стабильность и общую эффективность тренировочного процесса.
Сама модель ZAYA1-Base содержит 8,3 млрд параметров, из которых активны всего 760 млн. При этом модель обеспечивает производительность на уровне или даже выше уровня конкурентов того же размера. Zyphra подчеркивает, что подобная эффективность — прямой результат совместной оптимизации архитектуры модели под конкретные особенности аппаратной платформы AMD. Zyphra подчеркивает, что ZAYA1 демонстрирует производительность, сопоставимую или превосходящую ряд ведущих открытых моделей, таких как Qwen3-4B, Llama-3-8B и Gemma3-12B, особенно в задачах математики, логического рассуждения и программирования.
Стратегическое сотрудничество между Zyphra, AMD, а также IBM, позволило создать полностью интегрированный обучающий кластер, включающий MI300X, сеть AMD Pensando и вместительные хранилища IBM. Объединение высокопроизводительных GPU, межсоединения с низкой задержкой и оптимизированной системы хранения данных стало основой для устойчивого крупномасштабного предварительного обучения ZAYA1.
Выводы
Успех обучения ZAYA1 стал значимым сигналом для индустрии: AMD Instinct MI300X и ROCm формируют реальную альтернативу традиционным решениям Nvidia в крупномасштабном ИИ, подтверждая способность оборудования AMD выдерживать обучение моделей класс MoE и обеспечивать эффективное масштабирование. Для AMD этот проект становится важным подтверждением лидерства в ИИ-вычислениях, а для рынка — демонстрацией того, что экосистема поставщиков ИИ-решений\ продолжает стремительно расширяться.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.