page contents

谷歌/必应搜索的知乎专栏内容出现乱码 不知道是不是知乎故意这么做的

谷歌和必应搜索的知乎专栏内容全部出现乱码,不知道这是不是知乎故意这么做避免内容被抓取。此前知乎已经封禁除百度和搜狗之外的所有搜索引擎爬虫,但知乎专栏并没有任何限制,好巧不巧现在知乎专栏的抓取也出现问题了,这就让人有些疑惑了。

attachments-2024-07-1qGl6oua6684ecdce6a25.jpg网友反馈,使用微软必应搜索 (也包括谷歌搜索) 检索某些关键词时,搜索结果里出现的知乎专栏内容存在标题乱码,乱码后的标题实际看不出原始内容只能靠配图来猜测。

显然对用户来说不太可能会在搜索结果里点击这些乱码的内容,因此对知乎来说这实际上是会导致网站流量损失一部分的。

说到这还得提起前段时间知乎修改 robots.txt 文件的事情,目前知乎已经完全封禁谷歌和必应等搜索引擎的爬虫,仅允许百度和搜狗抓取其内容,这也是为什么现在在必应里搜索内容时只能看到知乎专栏的内容而不包含知乎的各种提问。

知乎为什么要封禁谷歌和必应乃至 360 搜索的爬虫这个不清楚原因,但既然已经封锁说明知乎不在乎这些搜索提供的流量,看起来倒是有点像知乎不愿意被抓取内容拿去训练 AI 模型?

说回知乎专栏的乱码问题,检测知乎专栏的子域名是没有 robots.txt 文件的,也就是任意搜索引擎都可以继续抓取其内容,结果好巧不巧现在还全部出现乱码。

出现这种情况的原因暂时不好说,如果是知乎故意屏蔽那完全可以通过 robots.txt 来禁止抓取知乎专栏的内容,没有必要通过某种技术方式让这些搜索引擎抓取的内容变成乱码。

但微软必应和谷歌又同时出现这种情况,当然也不太可能是必应和谷歌搜索也同时出现了某种 BUG,所以这种情况有很大概率还是知乎方面的问题。

至于是知乎故意的还是不慎修改某些内容导致出现 BUG 进而引起乱码就不得而知了,现在这种情况无论是对用户、在知乎专栏上的创作者、知乎、谷歌和必应搜索来说都是不好的,不知道知乎后续是否会解决这个问题。

更多相关技术内容咨询欢迎前往并持续关注好学星城论坛了解详情。

想高效系统的学习Python编程语言,推荐大家关注一个微信公众号:Python编程学习圈。每天分享行业资讯、技术干货供大家阅读,关注即可免费领取整套Python入门到进阶的学习资料以及教程,感兴趣的小伙伴赶紧行动起来吧。

attachments-2022-05-rLS4AIF8628ee5f3b7e12.jpg

  • 发表于 2024-07-03 14:17
  • 阅读 ( 120 )
  • 分类:行业资讯

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
小柒
小柒

1478 篇文章

作家榜 »

  1. 轩辕小不懂 2403 文章
  2. 小柒 1478 文章
  3. Pack 1135 文章
  4. Nen 576 文章
  5. 王昭君 209 文章
  6. 文双 71 文章
  7. 小威 64 文章
  8. Cara 36 文章