AMD Mix-of-Experts — передовой ИИ-агент для игры Minecraft

05.04.2025

~ 15 мин

1241

Сложный

Статьи

Введение

Компания AMD всегда была тесно связана с гейминг-индустрией — ее десктопные процессоры Ryzen и видеокарты Radeon повсеместно внедряются в мощные ПК и даже игровые консоли PlayStation/Xbox для достижения максимальной производительности в различных игровых тайтлах. Поэтому вовсе неудивительно, что AMD выпустила интересное решение для такой популярной игры, как Minecraft. Однако, эти решением стало не какое-либо передовое устройство, а ИИ-агент Mix-of-Experts, который может стать вашим верным компаньоном для игры Minecraft. Сегодня мы разберем особенности игрового MoEA, какие возможности предлагает этот ИИ-агент, а также рассмотрим его производительность в сравнении с другими игровыми LLM.

Как работает Mix-of-Experts?

Mix-of-Experts (MoEA) — это игровой ИИ-агент с открытым исходным кодом, архитектура которого состоит из 4 основных компонентов. Первый и основной компонент системы — планировщик высокого уровня, который отвечает за выбор действий, которые будет выполнять ИИ-агент. Второй компонент — контроллер низкого уровня, отвечающий за взаимодействие LLM с окружающим миром. Третий компонент — так называемый “судья ”, оценивающий причины сбоев при выполнении действий ИИ-агента. Четвертый элемент искусственного интеллекта — мультимодальная память, которая хранит и извлекает данные для оптимизации производительности модели. Эта система работает следующим образом:

Вы даете ИИ-агенту какую-либо инструкцию через командную строку игры, например, построить забор.
Затем планировщик высокого уровня генерирует основной план выполнения задачи.
После этого контроллер низкого уровня последовательно выполняет подзадачи, ведущие к выполнению основной цели.
Перед выполнением каждого действия ИИ-помощника из мультимодальной памяти извлекаются подходящие данные.

Помимо инференса, ИИ-агента Mix-of-Experts также можно обучать в реальном времени. Это происходит так:

В процессе обучения контроллер будет выполнять текущую подзадачу от планировщика высокого уровня.
При успешном выполнении подзадачи начинается последовательный переход к следующей подзадаче.
Если контроллер не может выполнить задачу (например, сделал слишком большое количество шагов свыше планируемых), система вызывает компонент judge для анализа сбоев.
Модуль ”судья” выполняет анализ из нескольких источников, отслеживающих перемены в окружающей среде, количество ресурсов и уже выполненные задачи. С помощью контекстуальных рассуждений ”судья” структурирует неудачи при выполнении задачи на ошибки планирования и ограничения в данных.
Если сбой вызван ошибками в планировании, планировщик создает оптимизированный план задачи. В противном случае будет запущено обучение RL для создания нового контроллера, ориентированного на выполнение конкретной задачи и определенной среды.
Затем оптимизированные данные будут сохранены в мультимодальной памяти Mix-of-Experts.

Структура игрового агента Mix-of-Experts

Архитектура ИИ-агента Mix-of-Experts. Источник: AMD.

Подробнее о мультимодальной памяти

В отличие от памяти других ИИ-агентов, которая чаще всего хранит только данные об удачных и неудачных траекториях движения, мультимодальная память Mix-of-Experts работает по структуре “ключ-значение”, где “ключ” хранит описание задачи, информацию о пакетах данных и данные об окружающей среды. В свою очередь, “значение” работает как база знаний модели, используя эти данные для выполнения конкретных задач. Наиболее подходящие “экспертные” данные определяются с помощью сети Gate, которая работает как связывающее звено всех компонентов с помощью двухэтапного процесса сопоставления. На первом этапе Mix-of-Experts создает задачу и опознает окружающую среду с помощью программы MineClip и находит определенное количество лучших данных, которые соответствуют задаче. На втором этапе Mix-of-Experts сравниваем наличие пакетов и находим наиболее подходящего эксперта.

Обучение RL

Контроллер модели Mix-of-Experts базируется на генеративной модели STEVE-1, которая отвечает за управление персонажем Minecraft с помощью текстовых команд. Команда AMD доработала STEVE-1 для оптимизации выполнения текстовых команд с помощью с помощью базовой системы VTP (полуконтролируемое имитационное обучение). В основе контроллера низкого уровня также лежит архитектура Transformer-XL, в которую входит как блок действий, так и блок значений. Входные данные также имеют свою структуру, в которую входят текущие подзадачи и данные об окружающей среде, применяемые для прогнозирования последующего действия ИИ-агента. Для оптимизации обучения используется PPO (оптимизация проксимальной политики), и метод “вознаграждения после завершения задачи”, что обеспечивает максимальную обратную связь с ИИ-агентом. Благодаря этой системе, агент может эффективно обучаться и улучшать свою базу знаний, получая мотивацию вознаграждениями, впоследствии верно выполняя поставленные задачи.

Структура контроллера ИИ-агента Mix-of-Experts. Источник: AMD.

Тестирование Mix-of-Experts

Чтобы протестировать эффективность работы Mix-of-Experts, AMD запустили ИИ-агента на базе программной среды другого мультимодального агента под названием JARVIS-1, который обеспечивает протоколы взаимодействия с человеком посредством структурированного доступа к API и эффективного определения задач. Затем AMD провела сравнение MoEA с другими современными игровыми агентами на базе больших языковых моделей, таких как:

InstructGPT — базовая языковая модель, работающая благодаря подсказкам в виде цепочки рассуждений.
ReAct — фреймворк для рассуждающих игровых LLM, поддерживающий выполнение действий окружающей средой.
DEPS 5 — динамическая модель с поддержкой декомпозиции задач и самокоррекции.
JARVIS 2 — лучший игровой ИИ-помощник бенчмарках агентов Minecraft.

Важно отметить, что все агенты сравниваются в условиях стандартного режима “выживания” в игре Minecraft. У всех агентов пустой инвентарь и все они стартуют в одинаковых условиях окружающей среды. За успешное выполнение задания будет считаться получение определенного предмета в течение установленного времени. Чтобы оценить адаптивность ИИ, к задачам будут добавляться дополнительные испытания в виде смены окружающей среды. Производительность измеряется с помощью коэффициента успешности, который рассчитывается как отношение успешно выполненных испытаний к общему количеству испытаний. Предоставляем результаты тестирования Mix-of-Experts в сравнении с другими игровыми LLM:

Материалы	Целевой предмет	GPT	ReAct	DESP	JARVIS-1	MoEA	Коэффициент эффективности
Дерево	Сундук	26.67	45.00	75.00	91.55	100.0	9.23%↑
	Дубовый забор	19.94	51.00	78.30	80.00	96.67	20.84%↑
	Лодка	6.67	36.67	36.67	60.47	92.59	53.12%↑
Камень	Печка	20.00	20.00	75.00	94.20	95.65	1.54%↑
Камень	Коптильня	20.21	38.15	70.00	78.67	80.00	1.69%↑
Железо	Железная кирка	0.00	0.00	20.00	33.82	36.76	8.69%↑
Железо	Ведро	3.33	6.67	20.00	38.10	42.86	12.49%↑
Еда	Приготовленная курица	0.00	0.00	16.67	35.62	54.48	52.95%↑

Как видно из таблицы, можно сделать вывод, что AMD MoEA превосходит передовых игровых агентов, обеспечивая успешное выполнение задач с вероятностью от 36,76% до 100%. Такие результаты достигаются благодаря тому, что MoEA способна устранять критические ошибки в процессе выполнения задач. Например, в задачах, связанных с приготовлением еды в Minecraft, MoEA обеспечивает 54,48% успешного приготовления курицы, что на 52,95% больше, чем у модели Jarvis-1. Это говорит о том, что MoEA отлично справляется с выполнением задач, требующих использования определенных инструментов и предметов, что становится возможным благодаря динамическому обучению на основе мультимодальной памяти.

Даже при выполнении более сложных задач, вроде сбора топлива для приготовления еды, MoEA сохраняет высокую эффективность на уровне 95,65%. В то же время, модели конкурентов, такие как GPT и ReAct, не справляются с более сложными задачами, связанными с приготовлением еды и добычей железа, достигая уровня эффективности лишь в 0–6,67%. Такая конкурентоспособность MoEA в области масштабирования эффективности обеспечивается возможностью динамического обучения с возможностью адаптации в реальном времени и обширной базы знаний. Также AMD MoEA является наиболее эффективной моделью в области задач, связанных с добычей железа (+12,49%) и изготовления железных инструментов, обеспечивая (+8,69%). Другими словами, AMD MoEA показала себя значительно лучше, чем другие популярные игровые LLM.

Помимо вышеперечисленных тестов, AMD также провели дополнительные испытания модели MoEA, призванные продемонстрировать эффективность работы мультимодальной памяти игрового агента. В рамках тестирования, от AMD MoEA требовалось собрать определенные ресурсы до и после обращения к мультимодальной памяти. Вот каких результатов удалось достичь AMD MoEA:

Задача	До обращения к памяти	После обращения к памяти	Коэффициент эффективности
Семена	4.30(7)	7.83(11)	82.09%↑
Грязь	12.20(15)	15.40(17)	26.23%↑
Цветок	0.40(1)	1.8(3)	350.0%↑

Тесты показали, что значительные улучшения наблюдаются в трех задачах: сбор семян (+82,09%), грязевых блоков (+26,23%) и цветков (+350,0%), что говорит об увеличении эффективности после обращения к мультимодальной памяти. Также AMD отметили, что за счет обращения к памяти, также увеличивалось количество собранных предметов, например, количество семян увеличивается с 7 до 11 за одну попытку.

Совместимость AMD MoEA с LLM

Игровой ИИ-агент MoEA может работать с разными большими языковыми моделями в зависимости от выполняемых задач. Совсем недавно AMD интегрировали в агента Mix-of-Experts языковую модель Deepseek-R1, причем, сразу в двух системах — на базе ИИ-ускорителя AMD Instinct MI250 и на ПК с локально установленным ИИ на базе AMD Ryzen AI Max. AMD протестировали производительность MoEA с интегрированной моделью Deepseek-R1, в результате чего ИИ-агенту удалось создать такой сложный блок, как кузнечный верстак, требующий железных слитков и досок, которые было необходимо предварительно добыть.

Потребление видеопамяти в игре Minecraft

В стандартной версии Minecraft 1.21.5 в 2К-режиме потребление VRAM составляет 1,4 ГБ.

В данный момент AMD не раскрывает требования к системе для развертывания агента, поэтому стоит учесть, что высокая эффективность модели Mix-of-Experts может обуславливаться колоссальным потреблением VRAM, за что аналогичный продукт от Nvidia G-Assist уже подвергся серьезной критике из-за низкой производительности и потребления 12 ГБ видеопамяти. Ввиду этого, при высоких требованиях к объему VRAM в совокупности с потреблением VRAM самой игры Minecraft, пользователи могут столкнуться нехваткой системных ресурсов при развертывании Mix-of-Experts.

Выводы

AMD удалось выпустить действительно передовую игровую платформу, которая еще больше приблизила то время, когда искусственный интеллект сможет заменить партнеров по играм. Высокая производительность Mix-of-Experts обусловливается сложной архитектурой, которая включает глубокую мультимодальную память, отзывчивые контроллеры для управления и систему коррекции ошибок. Причем, Mix-of-Experts имеет открытый исходный код и полностью бесплатна, поэтому любой желающий игрок может попробовать ее на практике при наличии достаточного количества системных ресурсов.

Автор:

Serverflow