Python爬虫原理

假如互联网比作一张大的蜘蛛网，数据便是存放于蜘蛛网的各个节点，那么爬虫就相当于蜘蛛网上的小蜘蛛，沿着网络来获取资源并分析和提取有用的数据程序.........

原理

简单的来说就是互联网是由一个站点或网络设备组成的大网，我们通过浏览器访问站点，站点把HTML、JS、CSS代码返回给浏览器，这些代码经过浏览器解析、渲染，将丰富多彩的网页呈现我们眼前。

如果我们把互联网比作一张大的蜘蛛网，数据便是存放于蜘蛛网的各个节点，那么爬虫就相当于蜘蛛网上的小蜘蛛，沿着网络来获取资源并分析和提取有用的数据程序。

一、Python爬虫是什么

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

二、爬虫的基本流程

方式1：浏览器提交请求--->下载网页代码--->解析成页面

方式2：发送请求--->获取响应内容--->解析内容--->保存数据

三、http协议请求与响应

Request：用户将自己的信息通过浏览器（socket client）发送给服务器（socket server）。

Response：服务器接收请求，分析用户发来的请求信息，然后返回数据（返回的数据中可能包含其他链接。（ps：浏览器在接收Response后，会解析其内容来显示给用户，而爬虫程序在模拟浏览器发送请求然后接收Response后，是要提取其中的有用数据）

四、 request

1、请求方式：

常见的请求方式：GET / POST

2、请求的URL

url全球统一资源定位符，用来定义互联网上一个唯一的资源例如：一张图片、一个文、一段视频都可以用url唯一确定的url编码

https://www.baidu.com/s?wd=图片

图片会被编码

网页的加载过程是：加载一个网页，通常都是先加载document文档，在解析document文档的时候，遇到链接，则针对超链接发起下载图片的请求

3、请求头

User-agent：请求头中如果没有user-agent客户端配置，服务端可能将你当做一个非法用户host；

cookies：cookie用来保存登录信息（注意：一般做爬虫都会加上请求头）

五、响应Response

1、响应状态码

200：代表成功；301：代表跳转；404：文件不存在；403：无权限访问；502：服务器错误

2、respone header

响应头需要注意的参数：

（1）Set-Cookie:BDSVRTM=0; path=/：可能有多个，是来告诉浏览器，把cookie保存下来

（2）Content-Location：服务端响应头中包含Location返回浏览器之后，浏览器就会重新访问另一个页面

3、preview就是网页源代码

JSO数据

如网页html、二进制数据等

六、总结

总结爬虫流程

爬取--->解析--->存储

爬虫所需工具

请求库：requests,selenium（可以驱动浏览器解析渲染CSS和JS，但有性能劣势（有用没用的网页都会加载）；）

解析库：正则，beautifulsoup，pyquery

存储库：文件，MySQL，Mongodb，Redis

以上就是有关Python爬虫原理的相关内容了，想要了解更多有关python的其它知识也可关注六星社区网站。

想高效系统的学习Python编程语言，推荐大家关注一个微信公众号：Python编程学习圈。每天分享行业资讯、技术干货供大家阅读，关注即可免费领取整套Python入门到进阶的学习资料以及教程，感兴趣的小伙伴赶紧行动起来吧。

0 条评论