page contents

开源/自有软件基础设施正在被人工智能破坏 大约97%的请求/流量都是爬虫而非真人

开源 / 自由软件的官方网站或源代码托管通常都是可以公开访问的,但提供公开访问是需要服务器和带宽支撑的,正常情况下真实用户访问不会给服务器带来多少压力。

attachments-2025-04-L5kFl5Kn68005aaa17d28.jpg开源 / 自由软件的官方网站或源代码托管通常都是可以公开访问的,但提供公开访问是需要服务器和带宽支撑的,正常情况下真实用户访问不会给服务器带来多少压力。

知名桌面环境 GNOME 管理员分享了关于服务器流量的分析数据,数据表明在 2.5 小时内 GNOME 收到 81,000 个请求,其中只有 3% 通过 Anubi 的工作量证明,这意味着剩余 97% 都是爬虫而非真人访问。

这些爬虫通常不会遵守 robots.txt 协议,并且人工智能公司的爬虫拥有大量 IP 地址,这些公司通过这些 IP 地址并发向开源项目网站发出请求赚取网站或项目数据。

为了应对这些爬虫消耗服务器硬件资源和网络带宽,GNOME 不得不使用名为 Anubi 的工作流证明系统用来拦截 AI 爬虫程序,有时候这可能还会误伤真实访问的用户。

GNOME 并不是唯一遭受 AI 爬虫类似 DDoS 攻击般疯狂抓取的项目,KDE、Fedora、LWN、Frame Software 等也都在面临同样的问题:其网站和基础设施绝大部分流量都来自 AI 爬虫。

应对这种攻击并没有太好的办法,管理员正在浪费大量时间、金钱和资源来抵御这些饥饿的 AI 大军 — 人工智能公司都在疯狂抓取数据用来训练模型。

此前包括 OpenAI ChatGPT 和字节跳动的 Bytespider 都被发现高频抓取网站导致网站近乎瘫痪,这些爬虫有时候不遵守 robots.txt 协议,有时候则是并发海量请求导致服务器瘫痪。

对这些 AI 公司来说这不会有任何损失,但被高频抓取的网站就遭殃了,浪费服务器资源的同时还必须想法设法识别和拦截这些爬虫,最后只有网站损失惨重。

另外大多数已知的爬虫例如 GPTBot 还比较容易通过 UA 进行拦截,还有大量的爬虫不会公布自己的名称,而是模拟智能手机用户进行访问,这种情况下靠 UA 识别和拦截非常麻烦。

更多相关技术内容咨询欢迎前往并持续关注好学星城论坛了解详情。

想高效系统的学习Python编程语言,推荐大家关注一个微信公众号:Python编程学习圈。每天分享行业资讯、技术干货供大家阅读,关注即可免费领取整套Python入门到进阶的学习资料以及教程,感兴趣的小伙伴赶紧行动起来吧。

attachments-2022-05-rLS4AIF8628ee5f3b7e12.jpg

  • 发表于 2025-04-17 09:34
  • 阅读 ( 27 )
  • 分类:行业资讯

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
小柒
小柒

1956 篇文章

作家榜 »

  1. 轩辕小不懂 2403 文章
  2. 小柒 1956 文章
  3. Pack 1147 文章
  4. Nen 576 文章
  5. 王昭君 209 文章
  6. 文双 71 文章
  7. 小威 64 文章
  8. Cara 36 文章