这6个必备的Python爬虫库，厉害了！

Python中有非常多用于网络数据采集的库，功能非常强大，有的用于抓取网页，有的用于解析网页，这里介绍6个最常用的库。

1. BeautifulSoup

BeautifulSoup是最常用的Python网页解析库之一，可将 HTML 和 XML 文档解析为树形结构，能更方便地识别和提取数据。

BeautifulSoup可以自动将输入文档转换为 Unicode，将输出文档转换为 UTF-8。此外，你还可以设置 BeautifulSoup 扫描整个解析页面，识别所有重复的数据（例如，查找文档中的所有链接），只需几行代码就能自动检测特殊字符等编码。

from bs4 import BeautifulSoup

# 假设这是我们从某个网页获取的HTML内容（这里直接以字符串形式给出）

html_content = """

<html>

<head>

</head>

<body>

<h1>欢迎来到BeautifulSoup示例</h1>

<p class="introduction">这是一个关于BeautifulSoup的简单示例。</p>

</body>

</html>

"""

# 使用BeautifulSoup解析HTML内容，这里默认使用Python的html.parser作为解析器

# 你也可以指定其他解析器，如'lxml'或'html5lib'，但需要先安装它们

soup = BeautifulSoup(html_content, 'html.parser')

# 提取并打印<title>标签的文本内容

print("网页标题:", soup.title.string) # 网页标题: 示例网页

# 提取并打印<p>标签的文本内容，这里使用class属性来定位

print("介绍内容:", soup.find('p', class_='introduction').string) # 介绍内容: 这是一个关于BeautifulSoup的简单示例。

# 提取并打印<a>标签的href属性和文本内容

link = soup.find('a', class_='link')

print("链接地址:", link['href']) # 链接地址: https://www.example.com/about

print("链接文本:", link.string) # 链接文本: 关于我们

# 注意：如果HTML内容中包含多个相同条件的标签，你可以使用find_all()来获取它们的一个列表

# 例如，要获取所有<a>标签的href属性，可以这样做：

all_links = [a['href'] for a in soup.find_all('a')]

print("所有链接地址:", all_links) # 假设HTML中有多个<a>标签，这里将列出它们的href属性

# 注意：上面的all_links列表在当前的HTML内容中只有一个元素，因为只有一个<a>标签

2. Scrapy

Scrapy是一个流行的高级爬虫框架，可快速高效地抓取网站并从其页面中提取结构化数据。

由于 Scrapy 主要用于构建复杂的爬虫项目，并且它通常与项目文件结构一起使用

Scrapy 不仅仅是一个库，还可以用于各种任务，包括监控、自动测试和数据挖掘。这个 Python 库包含一个内置的选择器（Selectors）功能，可以快速异步处理请求并从网站中提取数据。

# 假设这个文件名为 my_spider.py，但它实际上应该放在 Scrapy 项目的 spiders 文件夹中

import scrapy

class MySpider(scrapy.Spider):

# Spider 的名称，必须是唯一的

name = 'example_spider'

# 允许爬取的域名列表（可选）

# allowed_domains = ['example.com']

# 起始 URL 列表

start_urls = [

'http://example.com/',

]

def parse(self, response):

# 这个方法用于处理每个响应

# 例如，我们可以提取网页的标题

title = response.css('title::text').get()

if title:

# 打印标题（在控制台输出）

print(f'Title: {title}')

# 你还可以继续爬取页面中的其他链接，这里只是简单示例

# 例如，提取所有链接并请求它们

# for href in response.css('a::attr(href)').getall():

# yield scrapy.Request(url=response.urljoin(href), callback=self.parse)

# 注意：上面的代码只是一个 Spider 类的定义。

# 要运行这个 Spider，你需要将它放在一个 Scrapy 项目中，并使用 scrapy crawl 命令来启动爬虫。

# 例如，如果你的 Scrapy 项目名为 myproject，并且你的 Spider 文件名为 my_spider.py，

# 那么你应该在项目根目录下运行以下命令：

# scrapy crawl example_spider

3. Selenium

Selenium 是一款基于浏览器地自动化程序库，可以抓取网页数据。它能在 JavaScript 渲染的网页上高效运行，这在其他 Python 库中并不多见。

在开始使用 Python 处理 Selenium 之前，需要先使用 Selenium Web 驱动程序创建功能测试用例。

Selenium 库能很好地与任何浏览器（如 Firefox、Chrome、IE 等）配合进行测试，比如表单提交、自动登录、数据添加/删除和警报处理等。

from selenium import webdriver

from selenium.webdriver.common.keys import Keys

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

# 设置WebDriver的路径（根据你的系统路径和WebDriver版本修改）

driver_path = '/path/to/your/chromedriver'

# 初始化WebDriver

driver = webdriver.Chrome(executable_path=driver_path)

try:

# 打开网页

driver.get('https://www.example.com')

# 等待页面加载完成（这里使用隐式等待，针对所有元素）

# 注意：隐式等待可能会影响性能，通常在脚本开始时设置一次

driver.implicitly_wait(10) # 秒

# 查找并输入文本到搜索框（假设搜索框有一个特定的ID或类名等）

# 这里以ID为'search'的输入框为例

search_box = driver.find_element(By.ID, 'search')

search_box.send_keys('Selenium WebDriver')

# 提交搜索（假设搜索按钮是一个类型为submit的按钮或是一个可以点击的输入框）

# 如果搜索是通过按Enter键触发的，可以直接在search_box上使用send_keys(Keys.ENTER)

# 这里假设有一个ID为'submit'的按钮

submit_button = driver.find_element(By.ID, 'submit')

submit_button.click()

# 等待搜索结果加载完成（这里使用显式等待作为示例）

# 假设搜索结果页面有一个特定的元素，我们等待它出现

wait = WebDriverWait(driver, 10) # 等待最多10秒

element = wait.until(EC.presence_of_element_located((By.ID, 'results')))

# 执行其他操作...

finally:

# 关闭浏览器

driver.quit()

4. requests

不用多说，requests 是 Python 中一个非常流行的第三方库，用于发送各种 HTTP 请求。它简化了 HTTP 请求的发送过程，使得从网页获取数据变得非常简单和直观。

requests 库提供了丰富的功能和灵活性，支持多种请求类型（如 GET、POST、PUT、DELETE 等），可以发送带有参数、头信息、文件等的请求，并且能够处理复杂的响应内容（如 JSON、XML 等）。

import requests

# 目标URL

url = 'https://httpbin.org/get'

# 发送GET请求

response = requests.get(url)

# 检查请求是否成功

if response.status_code == 200:

# 打印响应内容

print(response.text)

else:

# 打印错误信息

print(f'请求失败，状态码：{response.status_code}')

5. urllib3

urllib3 是 Python内置网页请求库，类似于 Python 中的requests库，主要用于发送HTTP请求和处理HTTP响应。它建立在Python标准库的urllib模块之上，但提供了更高级别、更健壮的API。

urllib3可以用于处理简单身份验证、cookie 和代理等复杂任务。

import urllib3

# 创建一个HTTP连接池

http = urllib3.PoolManager()

# 目标URL

url = 'https://httpbin.org/get'

# 使用连接池发送GET请求

response = http.request('GET', url)

# 检查响应状态码

if response.status == 200:

# 打印响应内容（注意：urllib3默认返回的是bytes类型，这里我们将其解码为str）

print(response.data.decode('utf-8'))

else:

# 如果响应状态码不是200，则打印错误信息

print(f'请求失败，状态码：{response.status}')

# 注意：urllib3没有直接的方法来处理JSON响应，但你可以使用json模块来解析

# 如果响应内容是JSON，你可以这样做：

# import json

# json_response = json.loads(response.data.decode('utf-8'))

# print(json_response)

6. lxml

lxml是一个功能强大且高效的Python库，主要用于处理XML和HTML文档。它提供了丰富的API，使得开发者可以轻松地读取、解析、创建和修改XML和HTML文档。

from lxml import etree

# 假设我们有一段HTML或XML内容，这里以HTML为例

html_content = """

<html>

<head>

</head>

<body>

<h1>欢迎来到我的网站</h1>

<p class="description">这是一个使用lxml解析的示例页面。</p>

<ul>

</ul>

</body>

</html>

"""

# 使用lxml的etree模块来解析HTML或XML字符串

# 注意：对于HTML内容，我们使用HTMLParser解析器

parser = etree.HTMLParser()

tree = etree.fromstring(html_content, parser=parser)

# 查找并打印<title>标签的文本

title = tree.find('.//title').text

print("页面标题:", title)

# 查找并打印class为"description"的<p>标签的文本

description = tree.find('.//p[@class="description"]').text

print("页面描述:", description)

# 查找所有的<li>标签，并打印它们的文本

for li in tree.findall('.//li'):

print("列表项:", li.text)

# 注意：lxml也支持XPath表达式来查找元素，这里只是简单展示了find和findall的用法

# XPath提供了更强大的查询能力

更多相关技术内容咨询欢迎前往并持续关注好学星城论坛了解详情。

想高效系统的学习Python编程语言，推荐大家关注一个微信公众号：Python编程学习圈。每天分享行业资讯、技术干货供大家阅读，关注即可免费领取整套Python入门到进阶的学习资料以及教程，感兴趣的小伙伴赶紧行动起来吧。

发表于 2024-07-20 14:20
阅读 ( 146 )
分类：Python开发

这6个必备的Python爬虫库，厉害了！

你可能感兴趣的文章

相关问题

0 条评论

作家榜 »