Top.Mail.Ru
Curiosity-driven Exploration: новый подход к обучению с подкреплением для “любопытных” LLM | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

Curiosity-driven Exploration: новый подход к обучению с подкреплением для “любопытных” LLM

~ 2 мин
20
Простой
Новости
Curiosity-driven Exploration: новый подход к обучению с подкреплением для “любопытных” LLM

Введение

Ученые Руньпэн Дай, Линьфэн Сун и Хаолин Лю предложили систему Curiosity-Driven Exploration, которая использует систему “любопытства” ИИ-моделей для улучшения процесса принятия решений и предотвращения энтропийного коллапса. Новое исследование в области обучения с подкреплением при использовании Curiosity-Driven Exploration демонстрирует революционный подход к развитию мыслительных способностей больших языковых моделей. 

Подробнее о Curiosity-Driven Exploration

Традиционные методы обучения часто сталкиваются с проблемой неэффективного исследования данных, что приводит к ограничениям в развитии интеллекта ИИ и предсказуемым ответам. Однако новый подход реализует принцип “любопытства” через сигналы, получаемые как от генерации ответов, так и от оценки результатов, создавая исследовательский бонус, который поощряет разнообразные и точные ответы LLM. В основе методологии лежит использование линейных марковских процессов принятия решений (MDP) и multi-head критиков. Этот подход сочетает бутстрэппинг с множественными оценщиками стоимости генерации токена, что позволяет более точно определять исследовательский бонус и направлять ИИ-агента к эффективным стратегиям исследования данных. 

Экспериментальные результаты показывают значительное улучшение производительности — примерно на три балла в сложных тестах на математическое мышление в бенчмарке AIME. Детальный анализ выявил, что бонус для агента снижает чрезмерную самоуверенность при генерации ответов и способствует разнообразию правильных результатов, в то время как бонус для критика соответствует передовым методам исследования.

Исследование также выявило критическую проблему калибровки ИИ-моделей в стандартном обучении с подкреплением, что проливает свет на распространенные причины галлюцинаций в больших языковых моделях. Ученые демонстрируют, что использование альтернативных систем вознаграждения, таких как бонус на основе перплексии, может значительно повысить эффективность обучения ИИ.

Выводы

Подход Curiosity-Driven Exploration не только улучшает математические способности языковых моделей, но и открывает новые пути для создания более надежного и отказоустойчивого искусственного интеллекта, способного к сложным рассуждениям и принятию решений в условиях неопределенности. 
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-19:00 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-19:00 (по МСК)