page contents

CloudFlare为免费用户推出AI爬虫防护功能 可自动识别和阻止抓取内容的爬虫

被网友戏称为赛博菩萨的 CloudFlare 日前为所有免费用户推出了 AI 爬虫防护设置,该功能其实以前就有但需要按照规则进行设置,而规则功能则需要开通 CloudFlare Pro 等订阅计划才能使用。

attachments-2024-07-wyHkJEsx66824aa3f0e53.jpg被网友戏称为赛博菩萨的 CloudFlare 日前为所有免费用户推出了 AI 爬虫防护设置,该功能其实以前就有但需要按照规则进行设置,而规则功能则需要开通 CloudFlare Pro 等订阅计划才能使用。

新推出的 AI 爬虫防护 (AI Scrapers and Crawlers) 则是面向所有用户推出的一键设置,无论是免费还是订阅用户,只需要一键开启该选项后即可。

CloudFlare 称开启此选项后将会阻止机器人和爬虫抓取网站内容用于训练人工智能模型,这可以避免某些人工智能公司未经授权直接抓取网站内容。

背后的运作原理暂时还不清楚,不过大概率是 CloudFlare 已经整理并识别常见的 AI 爬虫例如 OpenAI 的 GPTBot,只要根据这些爬虫的名称进行拦截即可。

CloudFlare 为数以百万计的网站提供安全防护和分发服务,因此这项功能也确实有实际意义,毕竟有不少网站尤其是新闻媒体类的网站都是版权保护的。

只不过问题在于爬虫识别本身也是防君子不防小人,像 OpenAI 这样公布自己的爬虫名称并表示会遵守 robots.txt 协议还好处理,问题是很多公司压根不遵守协议也不公布自己的爬虫名称,疯狂抓爬网站获取内容。

这种情况下想要拦截就需要想一些对策了,比如对于高频抓爬的 UA 直接封禁,开启 CloudFlare 的真人验证等功能,防止各种爬虫绕过 CloudFlare 的 AI 爬虫防护。

如何开启此功能:CloudFlare、控制台、转到对应网站、安全性、自动程序,开启 AI Scrapers and Crawlers 即可。

更多相关技术内容咨询欢迎前往并持续关注好学星城论坛了解详情。

想高效系统的学习Python编程语言,推荐大家关注一个微信公众号:Python编程学习圈。每天分享行业资讯、技术干货供大家阅读,关注即可免费领取整套Python入门到进阶的学习资料以及教程,感兴趣的小伙伴赶紧行动起来吧。

attachments-2022-05-rLS4AIF8628ee5f3b7e12.jpg

  • 发表于 2024-07-01 14:20
  • 阅读 ( 84 )
  • 分类:行业资讯

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
小柒
小柒

1478 篇文章

作家榜 »

  1. 轩辕小不懂 2403 文章
  2. 小柒 1478 文章
  3. Pack 1135 文章
  4. Nen 576 文章
  5. 王昭君 209 文章
  6. 文双 71 文章
  7. 小威 64 文章
  8. Cara 36 文章