page contents

收藏!使用Python读写Excel大数据文件的3种有效方式

有人问Python怎么处理大数据的Excel文件?Python处理Excel大数据有很多方式,不过Excel撑死才104万行,能有多大的数据,一般用pandas读取就可以,pandas有专门的分块读取模式,比如说每次只读取1万行用于处理,这样就不会太占用内存。

attachments-2025-11-9TW9xVKY6913e5875acbb.png有人问Python怎么处理大数据的Excel文件?Python处理Excel大数据有很多方式,不过Excel撑死才104万行,能有多大的数据,一般用pandas读取就可以,pandas有专门的分块读取模式,比如说每次只读取1万行用于处理,这样就不会太占用内存。

pandas read_excel方法有专门的参数chunksize用于设置分块读取,代码示例如下:

import pandas as pd

# 读取'test_data.xlsx'大文件

# 分块读取以减少内存占用

chunk_size = 10000

chunks = pd.read_excel('test_data.xlsx', chunksize=chunk_size)

# 对每个数据块进行处理

processed_data = []

for i, chunk in enumerate(chunks):

    这里代码是对每个数据块进行处理......

读取Excel能用pandas尽量用pandas,但如果Excel文件非常大,已经远大于内存容量了,或者你相对Excel有更多其他处理,比如修改格式等,则可以用OpenPyXL。

它有专门的流式读取方式(只读模式read-only mode)来处理Excel,底层原理是OpenPyXL不会加载整个Excel文件到内存,而是保存为一个逻辑对象,在用的时候才流式去读取它。

from openpyxl import load_workbook

# 使用只读模式读取大型Excel文件

read_wb = load_workbook('large_data.xlsx', read_only=True)

read_ws = read_wb.active

# 以流式方式逐行读取、处理和写入

row_count = 0

for row in read_ws.iter_rows(min_row=2): 

    这里代码是对每一行进行处理......

OpenPyXL也可以流式写入Excel,原理同读取一样,采用write_only模式。

另外一个可以大规模写入数据,不占用内存的是库是XlsxWriter,它有个“常量内存”模式,支持每写入一行,就在内存中清除上一行占用的空间,意味着内存只存有一行数据,永远是够用的。

import xlsxwriter

# 创建一个文件名,用于写入数据

file_name = 'large_data_constant_memory.xlsx'

# 创建一个工作簿对象,并启用常量内存模式

workbook = xlsxwriter.Workbook(file_name, {'constant_memory': True})

worksheet = workbook.add_worksheet()

这里可以写入大量数据,不会占用内存......

除了以上几个库,还有像Dask、Polars、Modin、Rapids等库可以处理Excel大数据集,都是类似pandas的操作模式,但速度会快很多,可以试试。

更多相关技术内容咨询欢迎前往并持续关注好学星城论坛了解详情。

想高效系统的学习Python编程语言,推荐大家关注一个微信公众号:Python编程学习圈。每天分享行业资讯、技术干货供大家阅读,关注即可免费领取整套Python入门到进阶的学习资料以及教程,感兴趣的小伙伴赶紧行动起来吧。

attachments-2022-05-rLS4AIF8628ee5f3b7e12.jpg

  • 发表于 2025-11-12 09:40
  • 阅读 ( 19 )
  • 分类:Python开发

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
Pack
Pack

1543 篇文章

作家榜 »

  1. 轩辕小不懂 2403 文章
  2. 小柒 2228 文章
  3. Pack 1543 文章
  4. Nen 576 文章
  5. 王昭君 209 文章
  6. 文双 71 文章
  7. 小威 64 文章
  8. Cara 36 文章