Pythonでデータセットをランダムに分割する方法は何ですか？

2年 ago

陽, 向宇

1 minute

Pythonでは、scikit-learnライブラリのtrain_test_split関数を使用して、データセットをランダムに分割することができます。train_test_split関数は、データセットをトレーニングセットとテストセットにランダムに分割します。

train_test_split関数を使用してデータセットをランダムに分割する例示コードは次の通りです：

from sklearn.model_selection import train_test_split

# 假设X是特征矩阵，y是目标向量
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

上記のコードでは、Xは特徴行列、yは目標ベクトルであり、test_sizeパラメータはテストセットが全データセットの何割を占めるかを指定します（例えば0.2はテストセットが全体の20%を占めることを示します）。random_stateパラメータはランダムシードを設定するために使用され、コードを実行するたびに同じランダム分割結果を得ることを確実にします。

train_test_split関数の戻り値は、分割されたトレーニングセットとテストセットの特徴行列と目標ベクトルです。上記の例では、X_trainとy_trainはトレーニングセットの特徴行列と目標ベクトルであり、X_testとy_testはテストセットの特徴行列と目標ベクトルです。

訓練と評価のために事前に分割されたトレーニングセットとテストセットを使用して機械学習モデルを育成します。