Top.Mail.Ru
Wikipedia и Kaggle создают открытую базу данных для обучения языковых моделей | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение
Wikipedia и Kaggle создают открытую базу данных для обучения языковых моделей

Автор:

Wikipedia и Kaggle создают открытую базу данных для обучения языковых моделей

Общественный фонд Wikipedia предоставляет Kaggle оптимизированные пулы данных в целях создания библиотек для обучения ИИ.

Введение 17 апреля 2025 года общественный фонд Wikipedia объявил, что предоставляет данные своей веб-энциклопедии компании Kaggle, которая принадлежит корпорации Google. В дальнейшем Kaggle будет использовать эти данные для создания открытой, оптимизированной базы данных, предназначенной для обучения моделей искусственного интеллекта. Так Wikipedia старается отговорить разработчиков ИИ от использования неструктурированного контента на платформе, который может оказаться ложным.  Подробнее о базе данных Многие компании, занимающиеся разработкой передовых моделей искусственного интеллекта, интегрируют в свои базы данных информацию с платформы Wikipedia, пользуясь доступностью и отсутствием авторских прав. Поскольку Wikipedia является крупнейшей цифровой энциклопедией, многие ошибочно считают, что все статьи на Wikipedia являются правдивыми. Однако, статьи на Wikipedia могут редактировать любые желающие пользователи, а из-за обилия материалов на сайте, модераторы не могут корректировать все ошибки и удалять дезинформирующие материалы. Вследствие этого, нейросети, обученные на подобном контенте, допускают ошибки при генерации текста и галлюцинируют. Кроме того, разработчики ИИ нередко используют инструменты для парсинга информации на платформе, которые увеличивают нагрузку на серверы Wikipedia. Чтобы устранить эти проблемы, Wikipedia оптимизировала информацию со своего сайта и предоставила ее компании Kaggle, которая впоследствии создала бета-наборы данных для обучения ИИ, выпустив их по открытой лицензии на английском и французском языке. Как заявляет фонд Wikipedia, набор данных Kaggle разработан с учетом рабочих процессов машинного обучения и включает в себя краткие обзоры исследований, короткие описания, ссылки на изображения, данные инфобоксов и разделы статей, не считая веб-ссылки и нетекстовые элементы, такие как аудиофайлы.  Выводы Сообщество разработчиков передовых моделей искусственного интеллекта активно растет, а оптимизированные базы данных для обучения становятся все более и более востребованные. Одновременно с этим, многие ИИ-компании сталкиваются с проблемой увеличения количества ошибок, генерируемых LLM из-за использования некачественного контента при обучении. Для минимизации ошибок, крупные ИИ-компании вынуждены создавать собственные обучающие библиотеки, на что уходит огромное количество времени. Дальнейшее сотрудничество Wikipedia с Kaggle позволит разработчикам выделять меньше ресурсов и времени на создание собственных баз данных, чтобы впоследствии направить их на другие ключевые направления создания передовых языковых моделей.

Wikipedia и Kaggle создают открытую базу данных для обучения языковых моделей

~ 2 мин
90
Простой
Новости
Wikipedia и Kaggle создают открытую базу данных для обучения языковых моделей

Введение

17 апреля 2025 года общественный фонд Wikipedia объявил, что предоставляет данные своей веб-энциклопедии компании Kaggle, которая принадлежит корпорации Google. В дальнейшем Kaggle будет использовать эти данные для создания открытой, оптимизированной базы данных, предназначенной для обучения моделей искусственного интеллекта. Так Wikipedia старается отговорить разработчиков ИИ от использования неструктурированного контента на платформе, который может оказаться ложным. 

Подробнее о базе данных

Многие компании, занимающиеся разработкой передовых моделей искусственного интеллекта, интегрируют в свои базы данных информацию с платформы Wikipedia, пользуясь доступностью и отсутствием авторских прав. Поскольку Wikipedia является крупнейшей цифровой энциклопедией, многие ошибочно считают, что все статьи на Wikipedia являются правдивыми. Однако, статьи на Wikipedia могут редактировать любые желающие пользователи, а из-за обилия материалов на сайте, модераторы не могут корректировать все ошибки и удалять дезинформирующие материалы. Вследствие этого, нейросети, обученные на подобном контенте, допускают ошибки при генерации текста и галлюцинируют. Кроме того, разработчики ИИ нередко используют инструменты для парсинга информации на платформе, которые увеличивают нагрузку на серверы Wikipedia. Чтобы устранить эти проблемы, Wikipedia оптимизировала информацию со своего сайта и предоставила ее компании Kaggle, которая впоследствии создала бета-наборы данных для обучения ИИ, выпустив их по открытой лицензии на английском и французском языке. Как заявляет фонд Wikipedia, набор данных Kaggle разработан с учетом рабочих процессов машинного обучения и включает в себя краткие обзоры исследований, короткие описания, ссылки на изображения, данные инфобоксов и разделы статей, не считая веб-ссылки и нетекстовые элементы, такие как аудиофайлы. 

Выводы

Сообщество разработчиков передовых моделей искусственного интеллекта активно растет, а оптимизированные базы данных для обучения становятся все более и более востребованные. Одновременно с этим, многие ИИ-компании сталкиваются с проблемой увеличения количества ошибок, генерируемых LLM из-за использования некачественного контента при обучении. Для минимизации ошибок, крупные ИИ-компании вынуждены создавать собственные обучающие библиотеки, на что уходит огромное количество времени. Дальнейшее сотрудничество Wikipedia с Kaggle позволит разработчикам выделять меньше ресурсов и времени на создание собственных баз данных, чтобы впоследствии направить их на другие ключевые направления создания передовых языковых моделей.

Автор: Serverflow Serverflow
Поделиться

Комментарии 1

Написать комментарий
Стена в Мексике
Так и каким образом это улучшит ИИ? Приниципиальных отличий в обучении на википедии от обучения на плохих данных нет. Просто теперь гемини вместо широкого спектра информации будет жестко ориентирован на использовании на точку зрения ноулайферов модераторов, имба!
Serverflow
Вряд ли речь идет об исключительном использовании данных с википедии, скорее всего лишь оптимизация выгрузки данных в базу данных. Википедия может и большой источник информации, но куда меньше в сравнении со всем Интернетом :)

Написать отзыв

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-19:00 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-19:00 (по МСК)