PyTorchのdataloaderの使い方はどうですか？

2年 ago

海斗, 葵

1 minute

PyTorchでは、DataLoaderはデータをロードするためのクラスであり、データをモデルに簡単にロードしてトレーニングすることができます。以下はDataLoaderを使用する基本的な手順です：

データセットオブジェクトを作成する：最初に、データセットオブジェクトを作成する必要があります。これにより、トレーニングデータが提供されます。PyTorchにはtorch.utils.data.Datasetクラスが用意されており、このクラスを継承し、__len__および__getitem__メソッドを実装して独自のデータセットを定義することができます。また、torchvision.datasetsなどのPyTorchが提供する組込みデータセットを使用することもできます。
データローダーオブジェクトを作成します。次に、データセットオブジェクトを使用してデータをロードするデータローダーオブジェクトを作成する必要があります。データローダーには、データセットオブジェクト、batch_size（トレーニングステップごとにロードされるサンプル数）、shuffle（各エポックでデータをシャッフルするかどうか）などのいくつかのパラメータを設定する必要があります。データローダーオブジェクトを作成するには、torch.utils.data.DataLoaderクラスを使用できます。
データローダーの反復：データローダーオブジェクトを作成すると、トレーニングデータを反復処理することができます。forループを使用してデータローダーオブジェクトを反復処理し、各反復でバッチのデータが返されます。

以下は、カスタムデータセットをDataLoaderで読み込む方法を示す簡単な例です。

import torch
from torch.utils.data import Dataset, DataLoader

# 创建自定义的数据集类
class MyDataset(Dataset):
    def __init__(self, data):
        self.data = data
        
    def __len__(self):
        return len(self.data)
    
    def __getitem__(self, index):
        return self.data[index]
        
# 创建数据集对象
data = [1, 2, 3, 4, 5]
dataset = MyDataset(data)

# 创建数据加载器对象
batch_size = 2
shuffle = True
dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=shuffle)

# 迭代数据加载器
for batch in dataloader:
    print(batch)

この例では、まず自作のデータセットクラスMyDatasetを作成し、データをリストとして受け取ります。次に、データセットオブジェクトを作成し、データを渡します。その後、バッチサイズを2に設定し、シャッフルをTrueにしたデータローダーオブジェクトdataloaderを作成します。最後に、forループを使用してデータローダーオブジェクトを反復処理し、各反復でバッチのデータが返されます。この例では、出力結果は [1, 2] と [3, 4] の2つのバッチデータになります。