Agent0: прорыв в автономном самообучении ИИ

03.12.2025

~ 2 мин

179

Простой

Новости

Введение

Стэнфордский университет представил подрывную статью, способную перевернуть ИИ-индустрию с ног на голову. Исследователи университета создали фреймворк под названием Agent0, который позволяет искусственному интеллекту на базе больших языковых моделей самостоятельно обучаться, используя “нулевые” данные.

Подробнее о Agent0

В отличие от других ИИ-систем, Agent0 не требует для обучения никаких данных: ни размеченных человеком примеров, ни тщательно подобранных учебных задач, ни демонстраций. Фреймворк преодолевает ключевой барьер, с которым сталкиваются все современные системы “самообучающихся ИИ”: они быстро достигают предела своих возможностей, так как способны генерировать лишь те задачи, которые незначительно превосходят предыдущие задачи.

Секрет Agent0 заключается в создании двух конкурирующих агентов на основе одной и той же базовой языковой модели. Эти агенты вступают в непрерывный диалог, формируя замкнутую, самоусиливающуюся спираль развития. Первый агент — учебный. Он отвечает за генерацию задач. Его цель — постоянно создавать все более сложные и разнообразные проблемы. Второй агент — исполнительный. Он пытается решить эти задачи. Для этого он использует цепочки рассуждений и, что критически важно, внешние инструменты, главным из которых является полноценный интерпретатор Python, встроенный прямо в петлю обучения. Эта интеграция позволяет агенту писать и выполнять код для поиска решений.

Механизм работает по принципу взаимного вынуждения. Каждый успех исполнительного агента заставляет учебного агента поднимать планку сложности. В свою очередь, каждая новая, более сложная задача вынуждает исполнительного агента осваивать новые стратегии и более эффективно использовать инструменты. Этот цикл и обеспечивает непрерывный прогресс без вмешательства человека.

Эксперименты, проведенные на базовой модели Qwen3-8B, продемонстрировали исключительную эффективность подхода. Произошло не просто статистическое улучшение, а качественный скачок в способностях модели. Система показала рост результатов на 18% в задачах, требующих математических рассуждений, и на 24% — в задачах на общее логическое мышление.

Более того, Agent0 не просто улучшил исходную модель, но и превзошел все существующие передовые методы самообучения, включая R-Zero, SPIRAL, Absolute Zero и даже те фреймворки, которые уже используют внешние проприетарные API для доступа к более мощным моделям. Эволюция сложности задач тоже была впечатляющей: от простых вопросов по геометрии система самостоятельно перешла к генерации комплексных проблем из областей комбинаторики, логических головоломок и многоэтапных задач, требующих программирования для их решения.

Выводы

Agent0 представляет собой не просто очередное инженерное улучшение в области обучения с подкреплением. Это концептуальный прорыв, который открывает путь к созданию истинно автономных и саморазвивающихся ИИ-агентов. Фреймворк предлагает решение фундаментальной проблемы зависимости современного ИИ от дорогостоящих и ограниченных человеческих данных.

Автор:

Serverflow