自分のデータセットをPyTorchにどうやってインポートするのですか?
PyTorchで独自のデータセットをインポートするには、通常、次の手順が必要です。
- 必要なモジュールやライブラリをインポートしてください。
import torch
from torch.utils.data import Dataset, DataLoader
- torch.utils.data.Datasetを日本語で言うと、「torchのデータセット」です。
- __len__メソッド
- アンダースコア、ゲットアイテム。
class CustomDataset(Dataset):
def __init__(self, ...):
# 初始化数据集
pass
def __len__(self):
# 返回数据集的大小
pass
def __getitem__(self, idx):
# 返回指定索引的数据和标签
pass
- __init__メソッドでは、必要に応じてデータセットを読み込み、適切なデータ構造(リスト、配列など)に保存します。
- __len__(長さ)メソッドでは、データセットのサイズを返します。
- __getitem__メソッドでは、インデックスidxに基づいて対応するデータとラベルを取得して返します。
- データセットをロードするためにtorch.utils.data.DataLoaderオブジェクトを作成してください。
dataset = CustomDataset(...)
dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=True)
batch_size は、各バッチのサンプル数を表し、shuffle はデータセットをシャッフルするかどうかを示しています。
- 私たちは映画鑑賞に行く予定です。
- データローダー
for inputs, labels in dataloader:
# 在这里执行训练或推理操作
pass
入力データinputsと対応するラベルlabelsは、モデルの入力として使用されます。
自作のデータセットクラスを実装する際には、データセットの特定の形式と要件に合わせた処理と変換が必要です。