Ученые Руньпэн Дай, Линьфэн Сун и Хаолин Лю предложили систему Curiosity-Driven Exploration, которая использует систему “любопытства” ИИ-моделей для улучшения процесса принятия решений и предотвращения энтропийного коллапса. Новое исследование в области обучения с подкреплением при использовании Curiosity-Driven Exploration демонстрирует революционный подход к развитию мыслительных способностей больших языковых моделей.
Подробнее о Curiosity-Driven Exploration
Традиционные методы обучения часто сталкиваются с проблемой неэффективного исследования данных, что приводит к ограничениям в развитии интеллекта ИИ и предсказуемым ответам. Однако новый подход реализует принцип “любопытства” через сигналы, получаемые как от генерации ответов, так и от оценки результатов, создавая исследовательский бонус, который поощряет разнообразные и точные ответы LLM. В основе методологии лежит использование линейных марковских процессов принятия решений (MDP) и multi-head критиков. Этот подход сочетает бутстрэппинг с множественными оценщиками стоимости генерации токена, что позволяет более точно определять исследовательский бонус и направлять ИИ-агента к эффективным стратегиям исследования данных.
Экспериментальные результаты показывают значительное улучшение производительности — примерно на три балла в сложных тестах на математическое мышление в бенчмарке AIME. Детальный анализ выявил, что бонус для агента снижает чрезмерную самоуверенность при генерации ответов и способствует разнообразию правильных результатов, в то время как бонус для критика соответствует передовым методам исследования.
Исследование также выявило критическую проблему калибровки ИИ-моделей в стандартном обучении с подкреплением, что проливает свет на распространенные причины галлюцинаций в больших языковых моделях. Ученые демонстрируют, что использование альтернативных систем вознаграждения, таких как бонус на основе перплексии, может значительно повысить эффективность обучения ИИ.
Выводы
Подход Curiosity-Driven Exploration не только улучшает математические способности языковых моделей, но и открывает новые пути для создания более надежного и отказоустойчивого искусственного интеллекта, способного к сложным рассуждениям и принятию решений в условиях неопределенности.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.