Ученые Руньпэн Дай, Линьфэн Сун и Хаолин Лю предложили систему Curiosity-Driven Exploration, которая использует систему “любопытства” ИИ-моделей для улучшения процесса принятия решений и предотвращения энтропийного коллапса. Новое исследование в области обучения с подкреплением при использовании Curiosity-Driven Exploration демонстрирует революционный подход к развитию мыслительных способностей больших языковых моделей.
Подробнее о Curiosity-Driven Exploration
Традиционные методы обучения часто сталкиваются с проблемой неэффективного исследования данных, что приводит к ограничениям в развитии интеллекта ИИ и предсказуемым ответам. Однако новый подход реализует принцип “любопытства” через сигналы, получаемые как от генерации ответов, так и от оценки результатов, создавая исследовательский бонус, который поощряет разнообразные и точные ответы LLM. В основе методологии лежит использование линейных марковских процессов принятия решений (MDP) и multi-head критиков. Этот подход сочетает бутстрэппинг с множественными оценщиками стоимости генерации токена, что позволяет более точно определять исследовательский бонус и направлять ИИ-агента к эффективным стратегиям исследования данных.
Экспериментальные результаты показывают значительное улучшение производительности — примерно на три балла в сложных тестах на математическое мышление в бенчмарке AIME. Детальный анализ выявил, что бонус для агента снижает чрезмерную самоуверенность при генерации ответов и способствует разнообразию правильных результатов, в то время как бонус для критика соответствует передовым методам исследования.
Исследование также выявило критическую проблему калибровки ИИ-моделей в стандартном обучении с подкреплением, что проливает свет на распространенные причины галлюцинаций в больших языковых моделях. Ученые демонстрируют, что использование альтернативных систем вознаграждения, таких как бонус на основе перплексии, может значительно повысить эффективность обучения ИИ.
Выводы
Подход Curiosity-Driven Exploration не только улучшает математические способности языковых моделей, но и открывает новые пути для создания более надежного и отказоустойчивого искусственного интеллекта, способного к сложным рассуждениям и принятию решений в условиях неопределенности.
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Получите скидку 3 000 рублей или бесплатную доставку за подписку на новости*!
* — скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка.
Мы получили ваш отзыв!
Он появится на сайте после модерации.
Мы получили ваш отзыв!
Он появится на сайте после модерации.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.