PyTorchでCSVデータセットを読み込む方法は何ですか？

2年 ago

結衣, 春花

1 minute

PyTorchでは、torchtextライブラリを使用してCSVデータセットを読み込み、処理することができます。以下はtorchtextを使用してCSVデータセットを読み込む例です。

最初に、torchtextライブラリをインストールしてください。

pip install torchtext

その後、必要なモジュールをインポートします。

import torch
from torchtext.data import Field, TabularDataset, BucketIterator

データセットのフィールド（属性）の定義：

text_field = Field(sequential=True, tokenize='spacy', lower=True)
label_field = Field(sequential=False, use_vocab=False)
fields = [('text', text_field), ('label', label_field)]

CSVデータセットを読み込んで、トレーニングセットとテストセットに分割する。

train_data, test_data = TabularDataset.splits(
    path='path/to/dataset', train='train.csv', test='test.csv', format='csv',
    fields=fields, skip_header=True)

語彙リストを構築する（テキストを数字のインデックスに変換する）:

text_field.build_vocab(train_data, min_freq=1)

データを一括でロードするための反復子を作成します。

batch_size = 32
train_iterator, test_iterator = BucketIterator.splits(
    (train_data, test_data), batch_size=batch_size, sort_key=lambda x: len(x.text),
    sort_within_batch=True)

今、train_iteratorとtest_iteratorを使用して、トレーニングセットとテストセットのデータを反復処理することができます。

注意：上記のコードでは、’path/to/dataset’を実際のデータセットのパスに置き換える必要があります。また、実際のニーズに応じて、フィールドの定義やイテレータのパラメータを変更することも可能です。

#プログラミング #技術記事