page contents

这6个必备的Python爬虫库,厉害了!

Python中有非常多用于网络数据采集的库,功能非常强大,有的用于抓取网页,有的用于解析网页,这里介绍6个最常用的库。

attachments-2024-07-wDvuF5TA669b573be4c43.jpgPython中有非常多用于网络数据采集的库,功能非常强大,有的用于抓取网页,有的用于解析网页,这里介绍6个最常用的库。

1. BeautifulSoup

BeautifulSoup是最常用的Python网页解析库之一,可将 HTML 和 XML 文档解析为树形结构,能更方便地识别和提取数据。

BeautifulSoup可以自动将输入文档转换为 Unicode,将输出文档转换为 UTF-8。此外,你还可以设置 BeautifulSoup 扫描整个解析页面,识别所有重复的数据(例如,查找文档中的所有链接),只需几行代码就能自动检测特殊字符等编码。

from bs4 import BeautifulSoup    

# 假设这是我们从某个网页获取的HTML内容(这里直接以字符串形式给出)  

html_content = """  

<html>  

<head>  

    <title>示例网页</title>  

</head>  

<body>  

    <h1>欢迎来到BeautifulSoup示例</h1>  

    <p class="introduction">这是一个关于BeautifulSoup的简单示例。</p>  

    <a href="https://www.example.com/about" class="link">关于我们</a>  

</body>  

</html>  

"""  

# 使用BeautifulSoup解析HTML内容,这里默认使用Python的html.parser作为解析器  

# 你也可以指定其他解析器,如'lxml'或'html5lib',但需要先安装它们  

soup = BeautifulSoup(html_content, 'html.parser')   

# 提取并打印<title>标签的文本内容  

print("网页标题:", soup.title.string)  # 网页标题: 示例网页   

# 提取并打印<p>标签的文本内容,这里使用class属性来定位  

print("介绍内容:", soup.find('p', class_='introduction').string)  # 介绍内容: 这是一个关于BeautifulSoup的简单示例。    

# 提取并打印<a>标签的href属性和文本内容  

link = soup.find('a', class_='link')  

print("链接地址:", link['href'])  # 链接地址: https://www.example.com/about  

print("链接文本:", link.string)  # 链接文本: 关于我们   

# 注意:如果HTML内容中包含多个相同条件的标签,你可以使用find_all()来获取它们的一个列表  

# 例如,要获取所有<a>标签的href属性,可以这样做:  

all_links = [a['href'] for a in soup.find_all('a')]  

print("所有链接地址:", all_links)  # 假设HTML中有多个<a>标签,这里将列出它们的href属性  

# 注意:上面的all_links列表在当前的HTML内容中只有一个元素,因为只有一个<a>标签

2. Scrapy

Scrapy是一个流行的高级爬虫框架,可快速高效地抓取网站并从其页面中提取结构化数据。

由于 Scrapy 主要用于构建复杂的爬虫项目,并且它通常与项目文件结构一起使用

Scrapy 不仅仅是一个库,还可以用于各种任务,包括监控、自动测试和数据挖掘。这个 Python 库包含一个内置的选择器(Selectors)功能,可以快速异步处理请求并从网站中提取数据。

# 假设这个文件名为 my_spider.py,但它实际上应该放在 Scrapy 项目的 spiders 文件夹中    

import scrapy    

class MySpider(scrapy.Spider):  

    # Spider 的名称,必须是唯一的  

    name = 'example_spider'    

    # 允许爬取的域名列表(可选)  

    # allowed_domains = ['example.com']    

    # 起始 URL 列表  

    start_urls = [  

        'http://example.com/',  

    ]    

    def parse(self, response):  

        # 这个方法用于处理每个响应  

        # 例如,我们可以提取网页的标题  

        title = response.css('title::text').get()  

        if title:  

            # 打印标题(在控制台输出)  

            print(f'Title: {title}')   

        # 你还可以继续爬取页面中的其他链接,这里只是简单示例  

        # 例如,提取所有链接并请求它们  

        # for href in response.css('a::attr(href)').getall():  

        #     yield scrapy.Request(url=response.urljoin(href), callback=self.parse)   

# 注意:上面的代码只是一个 Spider 类的定义。  

# 要运行这个 Spider,你需要将它放在一个 Scrapy 项目中,并使用 scrapy crawl 命令来启动爬虫。  

# 例如,如果你的 Scrapy 项目名为 myproject,并且你的 Spider 文件名为 my_spider.py,  

# 那么你应该在项目根目录下运行以下命令:  

# scrapy crawl example_spider

3. Selenium

Selenium 是一款基于浏览器地自动化程序库,可以抓取网页数据。它能在 JavaScript 渲染的网页上高效运行,这在其他 Python 库中并不多见。

在开始使用 Python 处理 Selenium 之前,需要先使用 Selenium Web 驱动程序创建功能测试用例。

Selenium 库能很好地与任何浏览器(如 Firefox、Chrome、IE 等)配合进行测试,比如表单提交、自动登录、数据添加/删除和警报处理等。

from selenium import webdriver  

from selenium.webdriver.common.keys import Keys  

from selenium.webdriver.common.by import By  

from selenium.webdriver.support.ui import WebDriverWait  

from selenium.webdriver.support import expected_conditions as EC    

# 设置WebDriver的路径(根据你的系统路径和WebDriver版本修改)  

driver_path = '/path/to/your/chromedriver'    

# 初始化WebDriver  

driver = webdriver.Chrome(executable_path=driver_path)   

try:  

    # 打开网页  

    driver.get('https://www.example.com')    

    # 等待页面加载完成(这里使用隐式等待,针对所有元素)  

    # 注意:隐式等待可能会影响性能,通常在脚本开始时设置一次  

    driver.implicitly_wait(10)  # 秒    

    # 查找并输入文本到搜索框(假设搜索框有一个特定的ID或类名等)  

    # 这里以ID为'search'的输入框为例  

    search_box = driver.find_element(By.ID, 'search')  

    search_box.send_keys('Selenium WebDriver')    

    # 提交搜索(假设搜索按钮是一个类型为submit的按钮或是一个可以点击的输入框)  

    # 如果搜索是通过按Enter键触发的,可以直接在search_box上使用send_keys(Keys.ENTER)  

    # 这里假设有一个ID为'submit'的按钮  

    submit_button = driver.find_element(By.ID, 'submit')  

    submit_button.click()    

    # 等待搜索结果加载完成(这里使用显式等待作为示例)  

    # 假设搜索结果页面有一个特定的元素,我们等待它出现  

    wait = WebDriverWait(driver, 10)  # 等待最多10秒  

    element = wait.until(EC.presence_of_element_located((By.ID, 'results')))    

    # 执行其他操作...   

finally:  

    # 关闭浏览器  

    driver.quit()

4. requests

不用多说,requests 是 Python 中一个非常流行的第三方库,用于发送各种 HTTP 请求。它简化了 HTTP 请求的发送过程,使得从网页获取数据变得非常简单和直观。

requests 库提供了丰富的功能和灵活性,支持多种请求类型(如 GET、POST、PUT、DELETE 等),可以发送带有参数、头信息、文件等的请求,并且能够处理复杂的响应内容(如 JSON、XML 等)。

import requests    

# 目标URL  

url = 'https://httpbin.org/get'    

# 发送GET请求  

response = requests.get(url)  

# 检查请求是否成功  

if response.status_code == 200:  

    # 打印响应内容  

    print(response.text)  

else:  

    # 打印错误信息  

    print(f'请求失败,状态码:{response.status_code}')

5. urllib3

urllib3 是 Python内置网页请求库,类似于 Python 中的requests库,主要用于发送HTTP请求和处理HTTP响应。它建立在Python标准库的urllib模块之上,但提供了更高级别、更健壮的API。

urllib3可以用于处理简单身份验证、cookie 和代理等复杂任务。

import urllib3    

# 创建一个HTTP连接池  

http = urllib3.PoolManager()    

# 目标URL  

url = 'https://httpbin.org/get'    

# 使用连接池发送GET请求  

response = http.request('GET', url)    

# 检查响应状态码  

if response.status == 200:  

    # 打印响应内容(注意:urllib3默认返回的是bytes类型,这里我们将其解码为str)  

    print(response.data.decode('utf-8'))  

else:  

    # 如果响应状态码不是200,则打印错误信息  

    print(f'请求失败,状态码:{response.status}')    

# 注意:urllib3没有直接的方法来处理JSON响应,但你可以使用json模块来解析  

# 如果响应内容是JSON,你可以这样做:  

# import json  

# json_response = json.loads(response.data.decode('utf-8'))  

# print(json_response)

6. lxml

lxml是一个功能强大且高效的Python库,主要用于处理XML和HTML文档。它提供了丰富的API,使得开发者可以轻松地读取、解析、创建和修改XML和HTML文档。

from lxml import etree    

# 假设我们有一段HTML或XML内容,这里以HTML为例  

html_content = """  

<html>  

  <head>  

    <title>示例页面</title>  

  </head>  

  <body>  

    <h1>欢迎来到我的网站</h1>  

    <p class="description">这是一个使用lxml解析的示例页面。</p>  

    <ul>  

      <li>项目1</li>  

      <li>项目2</li>  

    </ul>  

  </body>  

</html>  

"""    

# 使用lxml的etree模块来解析HTML或XML字符串  

# 注意:对于HTML内容,我们使用HTMLParser解析器  

parser = etree.HTMLParser()  

tree = etree.fromstring(html_content, parser=parser)   

# 查找并打印<title>标签的文本  

title = tree.find('.//title').text  

print("页面标题:", title)   

# 查找并打印class为"description"的<p>标签的文本  

description = tree.find('.//p[@class="description"]').text  

print("页面描述:", description)    

# 查找所有的<li>标签,并打印它们的文本  

for li in tree.findall('.//li'):  

    print("列表项:", li.text)    

# 注意:lxml也支持XPath表达式来查找元素,这里只是简单展示了find和findall的用法  

# XPath提供了更强大的查询能力

更多相关技术内容咨询欢迎前往并持续关注好学星城论坛了解详情。

想高效系统的学习Python编程语言,推荐大家关注一个微信公众号:Python编程学习圈。每天分享行业资讯、技术干货供大家阅读,关注即可免费领取整套Python入门到进阶的学习资料以及教程,感兴趣的小伙伴赶紧行动起来吧。

attachments-2022-05-rLS4AIF8628ee5f3b7e12.jpg

  • 发表于 2024-07-20 14:20
  • 阅读 ( 50 )
  • 分类:Python开发

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
小柒
小柒

1312 篇文章

作家榜 »

  1. 轩辕小不懂 2403 文章
  2. 小柒 1312 文章
  3. Pack 1135 文章
  4. Nen 576 文章
  5. 王昭君 209 文章
  6. 文双 71 文章
  7. 小威 64 文章
  8. Cara 36 文章