page contents

用Python爬取了瓜文评论区,发现更精彩

今天就利用我们的python技术,抓取王力宏和李女士微博下的评论数据

attachments-2021-12-PSaMmPQk61c673a8cfd55.png

这两天打开微博一看,都是关王力宏的热搜,大家在微博上吃瓜真的是吃的很精彩,六星小编虽然平时不追星,但也是吃瓜群众一枚,但是我比较喜欢看吃瓜群众的评论,有时候真的感觉要被笑死在评论里面,看了李女士的发文,很多人都觉得是欠力宏一座奥斯卡 。所以我今天就利用我们的python技术,抓取王力宏和李女士微博下的评论数据。但像这么大的瓜,评论量肯定不小,所以在访问的过程中肯定有遇到封ip的,所以这里必须加上代理ip。代理和数据抓取的主要代码如下: #! -- encoding:utf-8 --

import requests

import random

 

# 要访问的目标页面

targetUrl = "https://weibo.com/1793285524?refer_flag=1001030103_"

 

# 要访问的目标HTTPS页面

# targetUrl = "https://weibo.com/1793285524?refer_flag=1001030103_"

 

# 代理服务器(产品官网 www.16yun.cn)

proxyHost = "t.16yun.cn"

proxyPort = "31111"

 

# 代理验证信息

proxyUser = "16GVJPUJ"

proxyPass = "446433"

 

proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {

    "host" : proxyHost,

    "port" : proxyPort,

    "user" : proxyUser,

    "pass" : proxyPass,

}

 

# 设置 httphttps访问都是用HTTP代理

proxies = {

    "http"  : proxyMeta,

    "https" : proxyMeta,

}

#  设置IP切换头

tunnel = random.randint(1,10000)

headers = {"Proxy-Tunnel": str(tunnel)}

resp = requests.get(targetUrl, proxies=proxies, headers=headers)

print resp.status_code

print resp.text爬取分析过程这里就不说了,数据有了,现在我们再用 Python 来看一下提到比较多的 词汇有哪些,具体的实现示例我们就不展示了。

更多相关技术内容咨询欢迎前往并持续关注六星社区了解详情。
想高效系统的学习Python编程语言,推荐大家关注一个微信公众号:Python编程学习圈。每天分享行业资讯、技术干货供大家阅读,关注即可免费领取整套Python入门到进阶的学习资料以及教程,感兴趣的小伙伴赶紧行动起来吧。
attachments-2022-05-5bitGOqo629330ee3c391.jpeg
  • 发表于 2021-12-25 09:28
  • 阅读 ( 432 )
  • 分类:Python开发

0 条评论

请先 登录 后评论
轩辕小不懂
轩辕小不懂

2403 篇文章

作家榜 »

  1. 轩辕小不懂 2403 文章
  2. 小柒 1312 文章
  3. Pack 1135 文章
  4. Nen 576 文章
  5. 王昭君 209 文章
  6. 文双 71 文章
  7. 小威 64 文章
  8. Cara 36 文章