爬虫——css选择器

1、CSS选择器概述，BeautifulSoup支持大部分的CSS选择器。

1、CSS选择器概述：BeautifulSoup支持大部分的CSS选择器。语法为：向tag对象或BeautifulSoup对象的.select()方法中传入字符串参数，选择的结果以列表形式返回，即返回类型为list。

tag.select("string")

BeautifulSoup.select("string")

注：在取得含有特定CSS属性的元素时，标签名不加任何修饰，类名前加点，id名前加#。

2、CSS基本语法

元素选择器：

直接选择文档元素

比如head，p

类选择器：

元素的class属性，比如<h1 class="important">

类名就是important

.important选择所有有这个类属性的元素

可以结合元素选择器，比如p.important

ID选择器：

元素的id属性，比如<h1 id="intro">

id就是intro

#intro用于选择id=intro的元素

可以结合元素选择器，比如p#intro

属性选择器：

选择有某个属性的元素，而不论值是什么。

*[title]选择所有包含title属性的元素

a[href]选择所有带有href属性的锚元素

还可以选择多个属性，比如：a[href][title]，注意这里是要同时满足。

限定值：a[href="www.so.com"]

后代（包含）选择器：

选择某元素后代的元素（层级不受限制）

选择h1元素的em元素：h1 em

子元素选择器：

范围限制在子元素

选择h1元素的子元素strong：h1 > strong

3、CSS测试用例

<html><head><title>The Dormouse's story</title></head>

<body>

The Dormouse's story

Once upon a time there were three little sisters; and their names were

<a href="http://example.com/elsie" title="12" class="sister" id="link1"></a>,

<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and

<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;

and they lived at the bottom of a well.

...

4、使用BeautifulSoup

from bs4 import BeautifulSoup

soup = BeautifulSoup(open('test.html'), "html.parser")

5、通过元素标签查找

例1：打印元素的类型和名称

print(type(soup.title))

print(soup.title.name)

title

例2：选择所有的title标签

print(soup.title)

print(soup.title.string) # 只打印文本

print(soup.select('title'))

<title>The Dormouse's story</title>

The Dormouse's story

[<title>The Dormouse's story</title>]

例3：选择所有的p标签中的第3个

print(soup.select('p')[1])

Once upon a time there were three little sisters; and their names were

<a class="sister" href="http://example.com/elsie" id="link1" title="12"></a>,

<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;

and they lived at the bottom of a well.

例4：选择body标签下的所有a标签

items = soup.select('body a')

for item in items:

print(item)

<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

例5：选择body标签下的直接子元素标签a

print(soup.select('body > a'))

print(soup.select('p > a'))

[]

[<a class="sister" href="http://example.com/elsie" id="link1" title="12"></a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

例6：选择id=link1后的所有兄弟节点标签。类名前加点，id名前加#

items = soup.select('#link1 ~ .sister')

for item in items:

print(item)

<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

例7：选择id=link1后的下一个兄弟节点标签

print(soup.select('#link1 + .sister'))

[<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

6、通过CSS类名查找

例1：查找class类名为sister的标签。

items = soup.select('.sister')

for item in items:

print(item)

<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

例2：查找P标签下class类名为title的标签。

items = soup.select('p.title')

for item in items:

print(item)

The Dormouse's story

7、通过标签的id属性查找

例1：选择id属性为link2的所有标签。

print(soup.select('#link2'))

[<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

例2：选择a标签，其id属性为link2的标签。

print(soup.select('a#link2'))

[<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

8、同时用多种CSS选择器查询元素

例1：选择id属性为link2和id属性为link3的所有标签。

items = soup.select('#link2, #link3')

for item in items:

print(item)

<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

例2：选择class属性为title，id属性为link2和id属性为link3的所有标签。

items = soup.select('.title, #link2, #link3')

for item in items:

print(item)

The Dormouse's story

<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

9、通过是否存在某个属性来查找

例：查找a标签下存在herf属性的标签。

items = soup.select('a[href]')

for item in items:

print(item)

<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

10、通过属性的值来查找

例1：选择a标签，其属性href=http://example.com/elsie的所有标签。

items = soup.select('a[href="http://example.com/elsie"]')

for item in items:

print(item)

例2：选择a标签，其href属性以http开头的所有标签。

items = soup.select('a[href^="http"]')

for item in items:

print(item)

<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

例3：选择a标签，其href属性以lie结尾的所有标签。

items = soup.select('a[href$="lie"]')

for item in items:

print(item)

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

例4：选择a标签，其href属性包含.com的标签。

items = soup.select('a[href*=".com"]')

for item in items:

print(item)

<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

11、通过标签逐层查找

例1：首先选中所有的p标签中的第2个标签，然后在该标签中查title的属性值为12的标签。

mytag = soup.select('p')[1]

NA_name = mytag.select('[title="12"]')

print(NA_name)

[<a class="sister" href="http://example.com/elsie" id="link1" title="12"></a>]

例2：首先选中所有的p标签中的第2个标签，然后在该标签列表中查找a标签，并将该列表中的第2个标签的文本取出。

mytag = soup.select('p')[1]

href_text = mytag.select('a')[1].get_text()

print(href_text)

Lacie

12、返回查找到的元素的第一个标签

例：选择class类名为sister的所有标签中的第一个。

print(soup.select_one('.sister'))

更多相关技术内容咨询欢迎前往并持续关注六星社区了解详情。

程序员编程交流QQ群：805358732

如果你想用Python开辟副业赚钱，但不熟悉爬虫与反爬虫技术，没有接单途径，也缺乏兼职经验
关注下方微信公众号：Python编程学习圈，获取价值999元全套Python入门到进阶的学习资料以及教程，还有Python技术交流群一起交流学习哦。

发表于 2021-08-24 11:12
阅读 ( 547 )
分类：WEB前端开发

爬虫——css选择器

你可能感兴趣的文章

相关问题

0 条评论

作家榜 »