page contents

Python fileinput模块:逐行读取多个文件

和 open() 函数不同,input() 函数不能指定打开文件的编码格式,这意味着使用该函数读取的所有文件,除非以二进制方式进行读取,否则该文件编码格式都必须和当前操作系统默认的编码格式相同,不然 Python 解释器可能会提示 UnicodeDecodeError 错误。

我们学会了使用 open() 和 read()(或者 readline()、readlines() )组合,来读取单个文件中的数据。但在某些场景中,可能需要读取多个文件的数据,这种情况下,再使用这个组合,显然就不合适了。

庆幸的是,Python 提供了 fileinput 模块,通过该模块中的 input()  函数,我们能同时打开指定的多个文件,还可以逐个读取这些文件中的内容。

fileinput 模块中 input() 该函数的语法格式如下:

fileinput.input(files="filename1, filename2, ...", inplace=False, backup='', bufsize=0, mode='r', openhook=None)

此函数会返回一个 FileInput 对象,它可以理解为是将多个指定文件合并之后的文件对象。其中,各个参数的含义如下:

  • files:多个文件的路径列表;

  • inplace:用于指定是否将标准输出的结果写回到文件,此参数默认值为 False;

  • backup:用于指定备份文件的扩展名;

  • bufsize:指定缓冲区的大小,默认为 0;

  • mode:打开文件的格式,默认为 r(只读格式);

  • openhook:控制文件的打开方式,例如编码格式等。

注意,和 open() 函数不同,input() 函数不能指定打开文件的编码格式,这意味着使用该函数读取的所有文件,除非以二进制方式进行读取,否则该文件编码格式都必须和当前操作系统默认的编码格式相同,不然 Python 解释器可能会提示 UnicodeDecodeError 错误。

和 open() 函数返回单个的文件对象不同,fileinput 对象无需调用类似 read()、readline()、readlines() 这样的函数,直接通过 for 循环即可按次序读取多个文件中的数据。

值得一提的是,fileinput 模块还提供了很多使用的函数(如表 1 所示),通过调用这些函数,可以帮我们更快地实现想要的功能。

表 1 fileinput 模块常用函数函数名功能描述fileinput.filename()返回当前正在读取的文件名称。fileinput.fileno()返回当前正在读取文件的文件描述符。fileinput.lineno()返回当前读取了多少行。fileinput.filelineno()返回当前正在读取的内容位于当前文件中的行号。fileinput.isfirstline()判断当前读取的内容在当前文件中是否位于第 1 行。fileinput.nextfile()关闭当前正在读取的文件,并开始读取下一个文件。fileinput.close()关闭 FileInput 对象。

文件描述符是一个文件的代号,其值为一个整数。


讲了这么多,接下来举个例子。假设使用 input() 读取 2 个文件,分别为 my_file.txt 和 file.txt,它们位于同一目录,且各自包含的内容。

在使用 fileinput 模块中的 input() 函数之前,一定要先引入 fileinput 模块。

读取文件内容的次序,取决于 input() 函数中文件名的先后次序。

attachments-2021-05-9JUMf4FO60a649dd8c1c8.jpg

  • 发表于 2021-05-20 19:37
  • 阅读 ( 585 )
  • 分类:Python开发

0 条评论

请先 登录 后评论
小柒
小柒

1320 篇文章

作家榜 »

  1. 轩辕小不懂 2403 文章
  2. 小柒 1320 文章
  3. Pack 1135 文章
  4. Nen 576 文章
  5. 王昭君 209 文章
  6. 文双 71 文章
  7. 小威 64 文章
  8. Cara 36 文章