PyTorchを使用して独自のデータセットを作成する方法

2年 ago

夏樹, 風

1 minute

以下の手順に沿って独自のデータセットを作成することができます。

データの準備：データを必要な形式にフォーマットします。タスクとデータの種類によっては、データを画像、テキスト、CSV などの形式に変換する必要があります。
PyTorchではtorch.utils.data.Datasetを継承したクラスを作成することで独自なデータセットを定義できます。このクラスでは__len__と__getitem__の2つのメソッドを実装する必要があります。__len__メソッドはデータセットのサイズを返します。__getitem__メソッドは指定したインデックスのデータサンプルを返します。

以下は一例です。

import torch
from torch.utils.data import Dataset
class CustomDataset(Dataset):
def __init__(self, data):
self.data = data
def __len__(self):
return len(self.data)
def __getitem__(self, index):
# 根据索引获取数据样本
sample = self.data[index]
# 在此处进行必要的预处理
return sample

データセットを読み込む：データローダーを作ってデータセットを読み込みます。データローダーは`torch.utils.data.DataLoader`クラスを使用して作成でき、このクラスはデータをバッチごとに読み込み、マルチスレッド処理でデータを処理できます。

以下に例を挙げます。

from torch.utils.data import DataLoader
# 创建数据集实例
dataset = CustomDataset(data)
# 创建数据加载器
dataloader = DataLoader(dataset, batch_size=32, shuffle=True)

上のサンプルでは、batch_sizeは各バッチのサンプル数を指定し、shuffle=Trueはデータが各エポックの開始時にシャッフルされることを意味します。

データセットを使用する際は、モデルの学習にデータセットとデータローダーを使用できます。たとえば、forループを使用してデータローダーを反復処理し、一括りにデータサンプルを順番に取得できます。

トレーニングモデルの例を次に示します。

for batch in dataloader:
# 获取批次的数据样本
inputs, labels = batch
# 在此处进行模型训练

これにより、独自のデータセットを使用してモデルのトレーニングを実行できるようになります。具体的なタスクに応じて、データの前処理やラベルの変換などの追加機能をカスタムデータセットクラスに追加する必要がある場合があります。