Wikipedia и Kaggle создают открытую базу данных для обучения языковых моделей

21.04.2025

~ 2 мин

504

Простой

Новости

Введение

17 апреля 2025 года общественный фонд Wikipedia объявил, что предоставляет данные своей веб-энциклопедии компании Kaggle, которая принадлежит корпорации Google. В дальнейшем Kaggle будет использовать эти данные для создания открытой, оптимизированной базы данных, предназначенной для обучения моделей искусственного интеллекта. Так Wikipedia старается отговорить разработчиков ИИ от использования неструктурированного контента на платформе, который может оказаться ложным.

Подробнее о базе данных

Многие компании, занимающиеся разработкой передовых моделей искусственного интеллекта, интегрируют в свои базы данных информацию с платформы Wikipedia, пользуясь доступностью и отсутствием авторских прав. Поскольку Wikipedia является крупнейшей цифровой энциклопедией, многие ошибочно считают, что все статьи на Wikipedia являются правдивыми. Однако, статьи на Wikipedia могут редактировать любые желающие пользователи, а из-за обилия материалов на сайте, модераторы не могут корректировать все ошибки и удалять дезинформирующие материалы. Вследствие этого, нейросети, обученные на подобном контенте, допускают ошибки при генерации текста и галлюцинируют. Кроме того, разработчики ИИ нередко используют инструменты для парсинга информации на платформе, которые увеличивают нагрузку на серверы Wikipedia. Чтобы устранить эти проблемы, Wikipedia оптимизировала информацию со своего сайта и предоставила ее компании Kaggle, которая впоследствии создала бета-наборы данных для обучения ИИ, выпустив их по открытой лицензии на английском и французском языке. Как заявляет фонд Wikipedia, набор данных Kaggle разработан с учетом рабочих процессов машинного обучения и включает в себя краткие обзоры исследований, короткие описания, ссылки на изображения, данные инфобоксов и разделы статей, не считая веб-ссылки и нетекстовые элементы, такие как аудиофайлы.

Выводы

Сообщество разработчиков передовых моделей искусственного интеллекта активно растет, а оптимизированные базы данных для обучения становятся все более и более востребованные. Одновременно с этим, многие ИИ-компании сталкиваются с проблемой увеличения количества ошибок, генерируемых LLM из-за использования некачественного контента при обучении. Для минимизации ошибок, крупные ИИ-компании вынуждены создавать собственные обучающие библиотеки, на что уходит огромное количество времени. Дальнейшее сотрудничество Wikipedia с Kaggle позволит разработчикам выделять меньше ресурсов и времени на создание собственных баз данных, чтобы впоследствии направить их на другие ключевые направления создания передовых языковых моделей.

Автор:

Serverflow

Комментарии 1

Стена в Мексике

Так и каким образом это улучшит ИИ? Приниципиальных отличий в обучении на википедии от обучения на плохих данных нет. Просто теперь гемини вместо широкого спектра информации будет жестко ориентирован на использовании на точку зрения ноулайферов модераторов, имба!

Вряд ли речь идет об исключительном использовании данных с википедии, скорее всего лишь оптимизация выгрузки данных в базу данных. Википедия может и большой источник информации, но куда меньше в сравнении со всем Интернетом :)