维基百科附属的维基媒体被AI爬虫轰炸超过65%的昂贵网络流量由AI爬虫消耗

维基百科附属的媒体资源共享项目维基媒体目前正在被 AI 爬虫轰炸，维基媒体项目托管着 1.44 亿张图片、视频和其他文件，这些宝贵的媒体文件被人工智能公司盯上用于训练 AI 模型。

这些 AI 爬虫数量非常多且抓取方式与正常人类访问不同，这消耗了维基媒体大量昂贵的服务器带宽，为了解决这些问题维基媒体正在采取行动，避免被 AI 爬虫持续性的消耗资源。

非人类访问导致带宽增加 50%：

维基媒体在博客中表示，自 2024 年 1 月以来用于下载多媒体内容的带宽增长 50%，这些增长并非来自人类读者，而是由自动化程序造成的，这些自动化程序也就是爬虫会抓取 Wikimedia Commons 图像目录中公开许可的图像，用来训练 AI 模型。

维基媒体的基础设施旨在承受高关注事件期间人类流量的突然激增，但抓取机器人产生的流量是前所未有的，并且带来了越来越大的风险和成本。

自 2024 年年初以来维基媒体的基本带宽需求稳步增长并且没有放缓的迹象，基线使用量的增加意味着当流量激增时，维基媒体将没有足够的空间来应对可能发生的异常事件：大量时间和资源用于应对非人类流量。

最昂贵的带宽中有 65% 被爬虫消耗：

维基媒体通过全球数据中心网络为用户提供加速访问，当某个内容被多次访问时维基百科会将其缓存到离用户最近的数据中心，如果某个内容是冷门内容访问次数不高则不会被缓存，当被人类访问时需要从核心数据中心拉取数据，同时将数据缓存在区域数据中心供该区域的其他用户访问。

通常情况下人类读者倾向于关注特定的主题，这些主题通常还是相似的，而 AI 爬虫则倾向于批量读取大量页面并且包含大量不是那么受欢迎的页面，这意味着机器人发出的请求更有可能被转发到核心数据中心并从核心数据中心里拉取数据。

核心数据中心的带宽是非常昂贵的，在进行系统迁移时维基媒体团队注意到消耗核心数据中心带宽的请求中有 65% 来自机器人，也就是人类用户的访问比例被挤占到只有 35%，爬虫带来的高流量甚至会影响人类用户的真实访问。

维基媒体在年度计划草案中提到 WE5 负责任的使用基础设施，维基媒体认为他们的内容是免费的但基础设施不是，现在必须采取行动重新建立健康的平衡，避免 AI 爬虫消耗维基媒体项目、贡献者和读者所需的时间和资源。

更多相关技术内容咨询欢迎前往并持续关注好学星城论坛了解详情。

想高效系统的学习Python编程语言，推荐大家关注一个微信公众号：Python编程学习圈。每天分享行业资讯、技术干货供大家阅读，关注即可免费领取整套Python入门到进阶的学习资料以及教程，感兴趣的小伙伴赶紧行动起来吧。

0 条评论