page contents

非常实用的 Python 库清单(官方文档)!

这是一个非常实用的 Python 库清单。为了方便查阅,我将其分为数据分析/科学计算、网络爬虫、人工智能/机器学习、Web 开发、自动化/实用工具五大类。

attachments-2025-12-pV9pOtfO6930ecf300c2e.png这是一个非常实用的 Python 库清单。为了方便查阅,我将其分为数据分析/科学计算网络爬虫人工智能/机器学习Web 开发、自动化/实用工具五大类。

1. 数据分析与科学计算 (Data Analysis & Science)

NumPy

    • 简介:Python 科学计算的基础包。提供高性能的多维数组对象和用于处理这些数组的工具。

    • 官网文档https://numpy.org/doc/

  • Pandas

    • 简介:基于 NumPy 构建,提供了易于使用的数据结构(如 DataFrame)和数据分析工具,处理表格数据神器。

    • 官网文档https://pandas.pydata.org/docs/

  • Polars

    • 简介被誉为“Pandas 的继任者”或“Pandas on Steroids”。基于 Rust 编写,支持多线程并行计算和惰性执行(Lazy evaluation)。速度极快,内存占用更低。如果你觉得 Pandas 处理大数据太慢,首选 Polars。

    • 官网文档https://docs.pola.rs/

  • DuckDB

    • 简介号称“分析型数据库中的 SQLite”。它是一个进程内 SQL OLAP 数据库。你可以直接用 SQL 语句极速查询 CSV、Parquet 或 Pandas 数据,无需搭建数据库服务器。非常适合做本地数据清洗和 ETL。

    • 官网文档https://duckdb.org/docs/api/python/overview

  • Matplotlib

    • 简介:Python 最基础的 2D 绘图库,可以生成各种出版质量级别的图表。

    • 官网文档https://matplotlib.org/stable/contents.html

  • Seaborn

    • 简介:基于 Matplotlib 的高级绘图库,画出的图表更美观,代码更简洁,适合统计图形。

    • 官网文档https://seaborn.pydata.org/

  • SciPy

    • 简介:用于数学、科学和工程的开源软件,包含优化、线性代数、积分等模块。

    • 官网文档https://docs.scipy.org/doc/scipy/

2. 网络爬虫 (Web Scraping)

用于从网页获取数据,从简单的接口请求到复杂的动态网页渲染。

  • Requests

    • 简介:号称 "HTTP for Humans"。Python 最好用的 HTTP 库,用于发送网络请求,简洁优雅。

    • 官网文档https://requests.readthedocs.io/en/latest/

  • Beautiful Soup 4 (bs4)

    • 简介:用于从 HTML 或 XML 文件中提取数据的库,解析网页结构非常方便。

    • 官网文档https://requests.readthedocs.io/en/latest/


  • Scrapy

    • 简介:功能强大的爬虫框架,用于构建大规模、高并发的数据抓取项目。

    • 官网文档https://docs.scrapy.org/en/latest/

  • Selenium

    • 简介:自动化测试工具,常用于爬取需要 JavaScript 渲染的动态网页(模拟浏览器操作)。

    • 官网文档https://www.selenium.dev/documentation/

  • Playwright (Python版)

    • 简介:微软开源的新一代自动化工具,比 Selenium 更快、更稳定,支持无头浏览器。

    • 官网文档https://playwright.dev/python/docs/intro

3. 人工智能与机器学习 (AI & Machine Learning)

从传统机器学习到最新的大模型开发。

  • Scikit-learn (sklearn)

    • 简介:最流行的传统机器学习库,包含分类、回归、聚类、降维等算法。

    • 官网文档https://scikit-learn.org/stable/

  • PyTorch

    • 简介:Facebook(Meta)开源的深度学习框架,语法类 Python 风味,在学术界和工业界都极受欢迎。

    • 官网文档https://pytorch.org/docs/stable/index.html

  • TensorFlow

    • 简介:Google 开源的端到端开源机器学习平台,工业部署能力强。

    • 官网文档https://www.tensorflow.org/api_docs

  • Hugging Face Transformers

    • 简介:自然语言处理(NLP)领域的霸主,提供了大量预训练模型(如 BERT, GPT 等)的调用接口。

    • 官网文档https://huggingface.co/docs/transformers/index

  • LangChain

    • 简介:当前最火的大语言模型(LLM)应用开发框架,用于构建基于 LLM 的应用程序(如聊天机器人、RAG)。

    • 官网文档https://python.langchain.com/docs/get_started/introduction

  • Stable Diffusion

    • 简介:一个能让你用文字生成图片(文生图),甚至用图生成图的免费开源 AI 模型,目前是全球最流行、最强大、生态最完整的 AI 画图工具。


    • 官网文档https://stablediffusionweb.com


4. Web 后端开发 (Web Development)

用于构建网站后端 API 或全栈应用。

  • FastAPI

    • 简介:现代、高性能的 Web 框架,基于 Python 类型提示,自动生成 Swagger 文档,目前非常流行。

    • 官网文档https://fastapi.tiangolo.com/zh/ (中文文档很完善)

  • Flask

    • 简介:轻量级微框架,灵活简单,适合小型项目或微服务。

    • 官网文档https://flask.palletsprojects.com/

  • Django

    • 简介:大而全的重量级框架,自带 ORM、后台管理系统,适合快速开发大型复杂网站。

    • 官网文档https://docs.djangoproject.com/en/stable/

5. 办公自动化与图像处理

  • OpenPyXL

    • 简介:用于读取和写入 Excel 2010 xlsx/xlsm/xltx/xltm 文件。

    • 官网文档https://openpyxl.readthedocs.io/en/stable/

  • Pillow (PIL)

    • 简介:Python 图像处理标准库,用于打开、操作和保存各种不同格式的图像文件。

    • 官网文档https://pillow.readthedocs.io/en/stable/

  • Python-docx

    • 简介:用于创建和修改 Microsoft Word (.docx) 文件。

    • 官网文档https://python-docx.readthedocs.io/en/latest/

  • PyInstaller

    • 简介:将 Python 程序打包成独立的

    • 执行文件(.exe 或 mac app),让没有安装 Python 的电脑也能运行。

    • 官网文档https://pyinstaller.org/en/stable/

5.2. PDF 文档处理 (PDF Processing)

  • pdfplumber (推荐用于提取表格/文本)

    • 简介基于 pdfminer.six 构建,但更好用。最强项是提取 PDF 中的表格以及保留文本的布局信息。如果你需要从发票或报表中抓取数据,这是首选。

    • 官网文档https://github.com/jsvine/pdfplumber

  • PyMuPDF (fitz) (推荐用于高性能/图像)

    • 简介底层是 C 语言的 MuPDF 引擎,速度非常快。除了提取文本,它非常擅长将 PDF 页面渲染成图片,或者提取 PDF 里的图片资源。

    • 官网文档https://pymupdf.readthedocs.io/en/latest/

  • pypdf (原 PyPDF2)

    • 简介纯 Python 库,不需要依赖非 Python 的组件。主要用于合并、分割、旋转、加密/解密 PDF 页面,而不是提取内容。

    • 官网文档https://pypdf.readthedocs.io/en/latest/

更多相关技术内容咨询欢迎前往并持续关注好学星城论坛了解详情。

想高效系统的学习Python编程语言,推荐大家关注一个微信公众号:Python编程学习圈。每天分享行业资讯、技术干货供大家阅读,关注即可免费领取整套Python入门到进阶的学习资料以及教程,感兴趣的小伙伴赶紧行动起来吧。

attachments-2022-05-rLS4AIF8628ee5f3b7e12.jpg


  • 发表于 2025-12-04 10:07
  • 阅读 ( 23 )
  • 分类:Python开发

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
Pack
Pack

1607 篇文章

作家榜 »

  1. 轩辕小不懂 2403 文章
  2. 小柒 2228 文章
  3. Pack 1607 文章
  4. Nen 576 文章
  5. 王昭君 209 文章
  6. 文双 71 文章
  7. 小威 64 文章
  8. Cara 36 文章