Стэнфордский университет представил подрывную статью, способную перевернуть ИИ-индустрию с ног на голову. Исследователи университета создали фреймворк под названием Agent0, который позволяет искусственному интеллекту на базе больших языковых моделей самостоятельно обучаться, используя “нулевые” данные.
Подробнее о Agent0
В отличие от других ИИ-систем, Agent0 не требует для обучения никаких данных: ни размеченных человеком примеров, ни тщательно подобранных учебных задач, ни демонстраций. Фреймворк преодолевает ключевой барьер, с которым сталкиваются все современные системы “самообучающихся ИИ”: они быстро достигают предела своих возможностей, так как способны генерировать лишь те задачи, которые незначительно превосходят предыдущие задачи.
Секрет Agent0 заключается в создании двух конкурирующих агентов на основе одной и той же базовой языковой модели. Эти агенты вступают в непрерывный диалог, формируя замкнутую, самоусиливающуюся спираль развития. Первый агент — учебный. Он отвечает за генерацию задач. Его цель — постоянно создавать все более сложные и разнообразные проблемы. Второй агент — исполнительный. Он пытается решить эти задачи. Для этого он использует цепочки рассуждений и, что критически важно, внешние инструменты, главным из которых является полноценный интерпретатор Python, встроенный прямо в петлю обучения. Эта интеграция позволяет агенту писать и выполнять код для поиска решений.
Механизм работает по принципу взаимного вынуждения. Каждый успех исполнительного агента заставляет учебного агента поднимать планку сложности. В свою очередь, каждая новая, более сложная задача вынуждает исполнительного агента осваивать новые стратегии и более эффективно использовать инструменты. Этот цикл и обеспечивает непрерывный прогресс без вмешательства человека.
Эксперименты, проведенные на базовой модели Qwen3-8B, продемонстрировали исключительную эффективность подхода. Произошло не просто статистическое улучшение, а качественный скачок в способностях модели. Система показала рост результатов на 18% в задачах, требующих математических рассуждений, и на 24% — в задачах на общее логическое мышление.
Более того, Agent0 не просто улучшил исходную модель, но и превзошел все существующие передовые методы самообучения, включая R-Zero, SPIRAL, Absolute Zero и даже те фреймворки, которые уже используют внешние проприетарные API для доступа к более мощным моделям. Эволюция сложности задач тоже была впечатляющей: от простых вопросов по геометрии система самостоятельно перешла к генерации комплексных проблем из областей комбинаторики, логических головоломок и многоэтапных задач, требующих программирования для их решения.
Выводы
Agent0 представляет собой не просто очередное инженерное улучшение в области обучения с подкреплением. Это концептуальный прорыв, который открывает путь к созданию истинно автономных и саморазвивающихся ИИ-агентов. Фреймворк предлагает решение фундаментальной проблемы зависимости современного ИИ от дорогостоящих и ограниченных человеческих данных.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.