page contents

打不过只能认输:维基百科向AI公司推出免费数据集 只求不要再无止境抓取

此前维基百科关联站点维基媒体发布消息称由于被 AI 爬虫轰炸,导致大量昂贵的服务器资源被 AI 爬虫消耗,一方面维基媒体工程师疲于使用技术手段应对这些爬虫,另一方面也给维基媒体造成运营成本上的损失。

attachments-2025-05-DhcHV8kW683121d7c513e.jpg此前维基百科关联站点维基媒体发布消息称由于被 AI 爬虫轰炸,导致大量昂贵的服务器资源被 AI 爬虫消耗,一方面维基媒体工程师疲于使用技术手段应对这些爬虫,另一方面也给维基媒体造成运营成本上的损失。

维基媒体是个托管图片、视频和其他文件的免费站点,目前该网站托管的文件数量高达 1.44 亿个,因此大量 AI 爬虫疯狂抓取维基媒体的内容用来整理为数据集训练人工智能模型。

除了维基媒体外,维基百科内容也被各种爬虫疯狂抓取,有鉴于技术手段已经无法应对这些 AI 爬虫,现在维基百科主动制作并发布针对训练 AI 模型且经过优化的数据集,这些数据集托管在谷歌旗下的数据科学社区平台 Kaggle 上,希望这些 AI 公司直接去谷歌下载数据集不要再对维基百科进行抓取。

本次发布的数据集在设计时就充分考虑机器学习的工作流程,让 AI 开发者能够轻松访问机器可读的文章数据,以进行建模、微调、基准测试、对齐和分析,其中的数据内容为已公开授权。

数据集时间截止至 2025 年 4 月 15 日,内容包括研究摘要、简短描述、图像连接、信息框数据和文章章节,但不包含参考文件或音频文件等非书面元素,首次发布的数据集包含英语和法语版本。

维基百科认为结构良好的 JSON 格式维基百科内容应该比直接抓取或解析维基百科原始内容更有吸引力,不过最终这能否解决维基百科面临的 AI 爬虫轰炸还有待观察。

更多相关技术内容咨询欢迎前往并持续关注好学星城论坛了解详情。

想高效系统的学习Python编程语言,推荐大家关注一个微信公众号:Python编程学习圈。每天分享行业资讯、技术干货供大家阅读,关注即可免费领取整套Python入门到进阶的学习资料以及教程,感兴趣的小伙伴赶紧行动起来吧。

attachments-2022-05-rLS4AIF8628ee5f3b7e12.jpg

  • 发表于 2025-05-24 09:33
  • 阅读 ( 65 )
  • 分类:行业资讯

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
小柒
小柒

2172 篇文章

作家榜 »

  1. 轩辕小不懂 2403 文章
  2. 小柒 2172 文章
  3. Pack 1335 文章
  4. Nen 576 文章
  5. 王昭君 209 文章
  6. 文双 71 文章
  7. 小威 64 文章
  8. Cara 36 文章