page contents

ChatGPT网络搜索功能使用微软必应搜索技术 爬虫名称为OAI-SearchBot

早前 OpenAI 推出 ChatGPT Search 网络搜索功能,该功能本质上也属于搜索引擎因此与谷歌搜索有着直接竞争关系。

attachments-2024-11-a7JTCvHM673a9bd2d92e2.png早前 OpenAI 推出 ChatGPT Search 网络搜索功能,该功能本质上也属于搜索引擎因此与谷歌搜索有着直接竞争关系。

关于数据收集方面 OpenAI 采用的是两方面措施,一方面搜索技术使用微软必应,另一方面 OpenAI 也在自己抓取内容,所有数据被抓取后将按照特定算法进行排序以便在 ChatGPT 中向用户返回结果。

OpenAI 并未在博客中透露搜索技术使用的是微软必应,不过其工程师在 Reddit 论坛中确认确实使用了必应搜索,因此对站长来说如果想要通过 ChatGPT 获得搜索流量,也要针对必应搜索进行 SEO 优化。

爬虫方面目前 OpenAI 共有 3 种不同的爬虫:

GPTBot:用于从互联网上抓取数据训练 OpenAI 的人工智能模型,该爬虫可以屏蔽不会影响到网站的搜索流量;

ChatGPT-User:用于在用户提问时从网络上检索数据以标注来源链接,该爬虫本身不会抓取网页信息;

OAI-Search:这是 OpenAI 用于 ChatGPT Search 搜索功能的爬虫,专门用于抓取网络数据但不会将数据用于 AI 模型训练。

对网站来说如果不想自己的内容被抓取用于训练 AI 但又不想损失来自 ChatGPT Search (尽管目前可能极少),那就可以屏蔽 GPTBot 而允许 OAI-Search 爬虫。

关于 OAI-Search 爬虫的更多信息:

完整 UA:Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot

IP 地址:20.42.10.176/28、172.203.190.128/28、51.8.102.0/24

为防止有恶意爬虫冒充 OAI-Search 抓取数据,你可以对爬虫 IP 地址进行校验,如果爬虫 IP 地址不再上述 IP 段内均为假冒爬虫,可以直接将其 IP 屏蔽。

更多相关技术内容咨询欢迎前往并持续关注好学星城论坛了解详情。

想高效系统的学习Python编程语言,推荐大家关注一个微信公众号:Python编程学习圈。每天分享行业资讯、技术干货供大家阅读,关注即可免费领取整套Python入门到进阶的学习资料以及教程,感兴趣的小伙伴赶紧行动起来吧。

attachments-2022-05-rLS4AIF8628ee5f3b7e12.jpg

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
小柒
小柒

1470 篇文章

作家榜 »

  1. 轩辕小不懂 2403 文章
  2. 小柒 1470 文章
  3. Pack 1135 文章
  4. Nen 576 文章
  5. 王昭君 209 文章
  6. 文双 71 文章
  7. 小威 64 文章
  8. Cara 36 文章