程序笔记

使用 Python 拆分文本文件的最快方法是什么？

2024-08-25 61

在 Python 中拆分文本文件可以通过多种方式完成，具体取决于文件的大小和所需的输出格式。在本文中，我们将讨论使用 Python 拆分文本文件的最快方法，同时考虑代码的性能和可读性。

拆分（）方法

拆分文本文件最直接的方法之一是使用 Python 中内置的 split（）函数。基于指定的分隔符，此函数将字符串拆分为子字符串列表。

例如，以下代码按换行符拆分文本文件，并返回行列表 -

with open('file.txt', 'r') as f:    lines = f.read().split('\n')

这里

内置的 split（）函数通过换行符拆分文本文件并返回行列表。

代码首先使用 open（）函数打开文件，以“r”作为模式，代表读取。这将返回一个文件对象，该对象存储在变量 f 中。

接下来，在文件对象上使用 read（）方法将文件的全部内容作为单个字符串读入内存。

然后在此字符串上调用 split（）函数，换行符 \n 作为分隔符传递。这会将字符串拆分为子字符串列表，其中每个子字符串对应于原始文件中的一行。最后，结果存储在变量行中。

readline（）方法

以前的方法简单易读，但对于大文件来说可能会很慢，因为它在拆分之前将整个文件读入内存。如果您正在处理一个大文件，您可能需要考虑改用 readline（）方法，该方法一次读取一行。

with open('file.txt', 'r') as f:    lines = []    for line in f:       lines.append(line)

从示例中，

代码首先以与上一个示例相同的方式打开文件。

然后我们创建一个名为行的空列表。接下来，我们使用 for 循环遍历文件对象。

readline（）方法在 for 循环中的文件对象上调用，该对象一次从文件中读取一行并将其分配给变量行。然后将此变量追加到行列表中。

这样，将逐行读取整个文件，并将行存储在列表中。

此方法比前一种方法更快，因为它一次读取一行，并且不需要将整个文件加载到内存中。但是，它仍然读取整个文件，对于非常大的文件可能会很慢。

mmap 模块

另一种选择是使用 Python 中的 mmap 模块，它允许您对文件进行内存映射，从而为您提供一种有效的方法来访问文件，就好像它在内存中一样。下面是如何使用 mmap 拆分文本文件的示例 -

import mmap with open('file.txt', 'r') as f:    # memory-map the file    mmapped_file = mmap.mmap(f.fileno(), 0, access=mmap.ACCESS_READ)    # split the file by newline characters    lines = mmapped_file.read().split('\n')

此方法对于大文件最有效，因为它允许您像在内存中一样访问文件，而无需实际将整个文件加载到内存中。

代码首先导入 mmap 模块。

接下来，以与以前相同的方式打开文件，并在文件对象上调用 fileno（）方法来获取文件的文件描述符。

它作为第一个参数传递给 mmap（）函数，以及 0 和 mmap。ACCESS_READ分别作为第二个和第三个参数。此内存映射文件，结果存储在变量mmapped_file中。

然后对内存映射文件调用 read（）方法，该文件像以前一样将文件的全部内容读取到单个字符串中。

然后在此字符串上调用 split（）函数，再次使用换行符 \n 作为分隔符传递。这会将字符串拆分为子字符串列表，其中每个子字符串对应于原始文件中的一行。最后，结果存储在变量行中。

结论

总之，使用 Python 拆分文本文件的最快方法取决于文件的大小。如果文件很小，可以使用 split（）函数或 readline（）方法。但是，对于大文件，应使用 mmap 模块对文件进行内存映射，从而提供一种快速有效的方法来访问文件。

更新于：3个月前

赞一波！3

文章评论

评论问答

雷达智富

雷达智富

程序笔记

使用 Python 拆分文本文件的最快方法是什么？

拆分（）方法

readline（）方法

mmap 模块

结论

相关文章

文章评论

程序笔记

使用 Python 拆分文本文件的最快方法是什么？

拆分（） 方法

readline（） 方法

mmap 模块

结论

相关文章

文章评论

拆分（）方法

readline（）方法