パイソンのPyTorchでは、データをどのようにロードするのですか？

2年 ago

陽, 向宇

1 minute

PyTorchのデータローディング方法はいくつかありますが、一般的に使用されるものには以下のようなものがあります。

torch.utils.data.Datasetは、PyTorchの抽象クラスであり、データセットを表すために使用されます。ユーザは自分のデータ特性に基づいてこのクラスを継承し、自身のデータセットクラスを実装することができます。実装する必要のあるメソッドは__getitem__と__len__であり、それぞれデータの取得とデータセットのサイズの返却に使用されます。
torch.utils.data.DataLoaderは、データセットをモデルにロードするためのクラスです。DataLoaderは、バッチサイズ、スレッド数、データのシャッフルの有無、GPUの使用の有無などのパラメータを設定できます。DataLoaderを使用してロードされたデータは自動的にミニバッチに分割され、複数のスレッドによる非同期データの読み込み機能が提供されます。
torchvision.datasetsは、PyTorchが提供するMNISTやCIFAR-10などの一般的なデータセットが含まれています。これらのデータセットは、torchvision.datasetsモジュールを使用して直接読み込むことができ、事前に処理されており、モデルのトレーニングに直接使用することができます。
torchvision.transformsモジュールは、データの前処理を行うための一連の操作を提供し、入力データに一般的な変換を行うことができます。切り取り、スケーリング、反転、標準化などが可能です。異なるtransformを組み合わせてデータを前処理することができます。

要总结，PyTorch的数据加载方式有两种：一种是通过自定义数据集类和DataLoader加载用户定义的数据，另一种是使用torchvision.datasets加载常见数据集，同时可以使用torchvision.transforms进行数据预处理。