PyTorchのtorch.utils.data.dataloaderをどのように使用するか？

2年 ago

結衣, 春花

1 minute

PyTorchのtorch.utils.data.DataLoaderは、データを読み込み処理するためのツールです。データセットをバッチに分割し、並列読み込みを行い、データのシャッフルやマルチスレッド読み込み機能を提供します。torch.utils.data.DataLoaderの使用法は以下の通りです：

必要なライブラリやモジュールをインポートしてください。

import torch
from torch.utils.data import DataLoader
from torch.utils.data.dataset import Dataset

カスタムデータセットクラス（Dataset）を作成してください。

class CustomDataset(Dataset):
    def __init__(self, data):
        self.data = data
    
    def __getitem__(self, index):
        # 返回数据和标签
        x = self.data[index]
        y = 0  # 标签可以根据实际情况进行修改
        return x, y
    
    def __len__(self):
        return len(self.data)

データセットインスタンスを作成する：

data = [...]  # 数据集
dataset = CustomDataset(data)

データローダー（DataLoader）を作成する:

batch_size = 32  # 每个批次的样本数量
shuffle = True  # 是否打乱数据集
num_workers = 4  # 加载数据的线程数量

dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=shuffle, num_workers=num_workers)

データローダーを反復処理してデータにアクセスします。

for batch_data, batch_labels in dataloader:
    # 对批次数据进行处理
    print(batch_data.shape)
    print(batch_labels.shape)

上記のコードでは、まず、カスタムデータセットクラス（CustomDataset）を定義し、次にデータセットインスタンス（dataset）を作成して、そのデータセットインスタンスを使用してデータローダー（dataloader）を作成しました。データローダーをイテレートすると、各バッチのデータとラベルを取得して処理することができます。