用Python爬取了瓜文评论区，发现更精彩

今天就利用我们的python技术，抓取王力宏和李女士微博下的评论数据

这两天打开微博一看，都是关王力宏的热搜，大家在微博上吃瓜真的是吃的很精彩，六星小编虽然平时不追星，但也是吃瓜群众一枚，但是我比较喜欢看吃瓜群众的评论，有时候真的感觉要被笑死在评论里面，看了李女士的发文，很多人都觉得是欠力宏一座奥斯卡。所以我今天就利用我们的python技术，抓取王力宏和李女士微博下的评论数据。但像这么大的瓜，评论量肯定不小，所以在访问的过程中肯定有遇到封ip的，所以这里必须加上代理ip。代理和数据抓取的主要代码如下： #! -- encoding:utf-8 --

import requests

import random

# 要访问的目标页面

targetUrl = "https://weibo.com/1793285524?refer_flag=1001030103_"

# 要访问的目标HTTPS页面

# targetUrl = "https://weibo.com/1793285524?refer_flag=1001030103_"

# 代理服务器(产品官网 www.16yun.cn)

proxyHost = "t.16yun.cn"

proxyPort = "31111"

# 代理验证信息

proxyUser = "16GVJPUJ"

proxyPass = "446433"

proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {

"host" : proxyHost,

"port" : proxyPort,

"user" : proxyUser,

"pass" : proxyPass,

}

# 设置 http和https访问都是用HTTP代理

proxies = {

"http" : proxyMeta,

"https" : proxyMeta,

}

# 设置IP切换头

tunnel = random.randint(1,10000)

headers = {"Proxy-Tunnel": str(tunnel)}

resp = requests.get(targetUrl, proxies=proxies, headers=headers)

print resp.status_code

print resp.text爬取分析过程这里就不说了，数据有了，现在我们再用 Python 来看一下提到比较多的词汇有哪些，具体的实现示例我们就不展示了。

更多相关技术内容咨询欢迎前往并持续关注六星社区了解详情。

想高效系统的学习Python编程语言，推荐大家关注一个微信公众号：Python编程学习圈。每天分享行业资讯、技术干货供大家阅读，关注即可免费领取整套Python入门到进阶的学习资料以及教程，感兴趣的小伙伴赶紧行动起来吧。

发表于 2021-12-25 09:28
阅读 ( 614 )
分类：Python开发

用Python爬取了瓜文评论区，发现更精彩

你可能感兴趣的文章

相关问题

0 条评论

作家榜 »