page contents

美国CDN提供商Fastly发布25Q2威胁报告 报告显示80%的流量都来自AI爬虫而不是真人

美国知名 CDN 提供商 Fastly 日前发布 2025Q2 威胁防御报告,在报告中该公司称人工智能机器人正在改变网站的流量结构,而且对网站造成威胁的主要是模型推理阶段的即时查询。

attachments-2025-09-zDSK3uRH68b4f67900f17.png美国知名 CDN 提供商 Fastly 日前发布 2025Q2 威胁防御报告,在报告中该公司称人工智能机器人正在改变网站的流量结构,而且对网站造成威胁的主要是模型推理阶段的即时查询。

报告显示在所有人工智能流量中来自抓取训练数据的 AI 爬虫流量占比高达 80%,看起来流量很大但给网站造成真正威胁的乃是推理阶段的抓取流量,即 AI 平台在处理用户查询时实时通过互联网搜索网页信息。

这类即时查询在高峰期时甚至在每分钟会对同一个网站发出高达 39,000 次请求,这个请求数量远远高于抓取训练数据的 AI 爬虫,后者平均每分钟会产生 1,000 次抓取请求。

当完成即时查询后 AI 机器人可能会将网站链接添加到回答报告中供用户点击进行核实,当然 AI 机器人可能会抓取几百个网站查询信息,但真正放到回答里的源链接可能只有几十个甚至几个。

如果网站没有采取技术手段限制并发或者使用防护策略,则这些即时查询可能会给网站形成类似 DDoS 分布式拒绝服务攻击的效果,即导致网站服务器不堪重负而出现访问堵塞甚至彻底无法访问。

爬虫来源方面目前大多数人工智能爬虫产生的流量来自 Meta、Google 和 OpenAI,这三家公司的 AI 爬虫流量占总流量的 95%,其中 Meta 占比 52%、Google 占比 23%,OpenAI 占比 20%。

而在即时抓取方面则是 OpenAI 占据绝对主导地位,OpenAI 的 ChatGPT-User 爬虫和 OAI-SearchBot 爬虫合计占据即时抓取流量的 98%,这两个爬虫都不是用于抓取数据进行训练的,属于代理用户抓取网页进行查询。

以区域来看北美网站接收的 AI 爬虫流量 90% 都是抓取数据的爬虫,欧洲、中东和非洲地区情况相反,59% 的流量来自即时查询,亚太和拉丁美洲同样以抓取训练数据的爬虫为主。

内容来源方面,OpenAI 的 GPTBot (用于抓取数据训练) 覆盖范围最广,以抓爬的独立网站数计算,其覆盖率高达 95%,OpenAI 的策略是尽可能抓取更多网站,Meta 的策略则是深度索引,抓取的网站不多但尽可能将网站所有数据都抓取。

注:Fastly 主要为企业客户提供服务,虽然也提供免费套餐但流量很少,所以涉及的统计数据可能更大的倾向性都是企业网站而非个人网站和博客等。

更多相关技术内容咨询欢迎前往并持续关注好学星城论坛了解详情。

想高效系统的学习Python编程语言,推荐大家关注一个微信公众号:Python编程学习圈。每天分享行业资讯、技术干货供大家阅读,关注即可免费领取整套Python入门到进阶的学习资料以及教程,感兴趣的小伙伴赶紧行动起来吧。

attachments-2022-05-rLS4AIF8628ee5f3b7e12.jpg

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
小柒
小柒

2172 篇文章

作家榜 »

  1. 轩辕小不懂 2403 文章
  2. 小柒 2172 文章
  3. Pack 1335 文章
  4. Nen 576 文章
  5. 王昭君 209 文章
  6. 文双 71 文章
  7. 小威 64 文章
  8. Cara 36 文章