常见的Python爬虫框架
1、Scrapy框架
Scrapy框架是一套比较成熟的Python爬虫框架,是使用Python开发的快速、高层次的信息爬取框架,可以高效的爬取web页面并提取出结构化数据。
Scrapy应用范围很广,爬虫开发、数据挖掘、数据监测、自动化测试等。
2、PySpider
pyspider 是一个用python实现的功能强大的网络爬虫系统,能在浏览器界面上进行脚本的编写,功能的调度和爬取结果的实时查看,后端使用常用的数据库进行爬取结果的存储,还能定时设置任务与任务优先级等。
3、Portia框架
Portia框架是一款允许没有任何编程基础的用户可视化地爬取网页的爬虫框架,GitHub: scrapinghub/portia
可以直接使用网页版的Portia框架,地址 Login • Scrapinghub
相关信息填写好后,单击“Create Project”,就可以爬取网站了
通过可视化界面,很方便配置爬虫
4、newspaper框架
newspaper框架是一个用来提取新闻、文章以及内容分析的Python爬虫框架,使用多线程,支持10多种语言等。
5、Python-goose框架
Python-goose框架可提取的信息包括:
• 文章主体内容
• 文章主要图片
• 文章中嵌入的任何Youtube/Vimeo视频
• 元描述
• 元标签
6、Crawley
高速爬取对应网站的内容,支持关系和非关系数据库,数据可以导出为JSON、XML等。
以上就是整理的一些有关Python爬虫框架的知识,如果想学习的小伙伴,可关注六星社区网站,学习更多知识。
想高效系统的学习Python编程语言,推荐大家关注一个微信公众号:Python编程学习圈。每天分享行业资讯、技术干货供大家阅读,关注即可免费领取整套Python入门到进阶的学习资料以及教程,感兴趣的小伙伴赶紧行动起来吧。
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!