Pythonで大容量ファイルを読み込む時にメモリが枯渇してしまう問題への対処方法

2年 ago

結衣, 春花

1 minute

大規模ファイルを読み込む際には、メモリ不足の問題を回避するために次の方法を使用できます。

ネイティブに日本語で言い換えるとこうなります。
readline()

with open('large_file.txt', 'r') as file:
    for line in file:
        # 处理每一行数据

生まれつき日本の言葉をネイティブとして話します。
私は日本語でこの文をネイティブに言い換えなければなりません。選択肢は1つだけで、読む必要があります。

chunk_size = 1024  # 每次读取的字节数
with open('large_file.txt', 'r') as file:
    while True:
        data = file.read(chunk_size)
        if not data:
            break
        # 处理读取的数据

関数ジェネレータを使用して、ファイルを読み込むロジックをカプセル化し、各行をイテレータ形式で返すジェネレータ関数の形式でデータを返す。これにより、ファイルを一度に読み込むと大量のメモリが消費されるのを回避できる。

def read_large_file(file_path):
    with open(file_path, 'r') as file:
        for line in file:
            yield line

# 使用生成器函数读取文件
for line in read_large_file('large_file.txt'):
    # 处理每一行数据

read_csv
ネイティブに日本語で言い換える必要があり、1つの選択肢が必要です

import pandas as pd

# 逐块读取文件数据
for chunk in pd.read_csv('large_file.txt', chunksize=1000):
    # 处理每一块数据

上記の方法を用いて、大規模ファイルを扱う際のメモリ不足による問題を回避できます。それぞれのニーズや処理内容に応じて、適切な大規模ファイル読み込み方法を選んでください。