page contents

python爬虫的处理流程及网页解析方法

爬虫处理流程 1. 将互联网上的网页获取到本地 2. 对网页进行解析 3. 网页解析是从网页中分离出我们所需要的、有价值的信息,以及新的待爬取的URL。 网页的解析的方法 1. 正则表达式(采...

爬虫处理流程

1. 将互联网上的网页获取到本地

2. 对网页进行解析

3. 网页解析是从网页中分离出我们所需要的、有价值的信息,以及新的待爬取的URL。


网页的解析的方法

1. 正则表达式(采用模糊匹配的方式,找出我们所需要内容)

2. BeautifulSoup(是一个可以从HTML或XML文件中提取数据的第三方Python库), BeautifulSoup可以采用Python自带的html.parse作为它的解析器,也可以采用lxml作为解析器。

lxml 是Python语言解析处得XML和HTML的库

3. XPath(XPath 是一门在 XML 文档中查找信息的语言,XPath 可用来在 XML 文档中对元素和属性进行遍历。)


使用BeautifulSoup

安装:



pip install beautifulsoup4

安装lxml:



pip install lxml

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1attachments-2019-12-qlQpU5Qu5e01d0f11e1f8.png


1. 首先必须要导入 bs4 库,创建BeautifulSoup对象



from bs4 import BeautifulSoupsoup = BeautifulSoup(html,'lxml') #html为下载的网页,lxml为解析器


2. 详细使用可以看Beautiful Soup 4.2.0 文档

掌握以下三个方法基本够用:

  • find_all("tag") 搜索当前所有的tag标签的集合。

  • find("tag") 返回的是一个tag标签。(这个方法用得少)

  • select("") 可以按标签名查找,用得多的是按标签逐层查找筛选元素。


  • 发表于 2019-12-24 16:49
  • 阅读 ( 770 )
  • 分类:Python开发

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
Pack
Pack

1135 篇文章

作家榜 »

  1. 轩辕小不懂 2403 文章
  2. 小柒 1658 文章
  3. Pack 1135 文章
  4. Nen 576 文章
  5. 王昭君 209 文章
  6. 文双 71 文章
  7. 小威 64 文章
  8. Cara 36 文章