pythonの回帰アルゴリズムでデータを予測の方法

2年 ago

綾乃, 一希

1 minute

Pythonの回帰アルゴリズムを利用してデータを予測するための方法がいくつかあり、以下はその一般的な手順の1つです。

パンダ
サイキット・ラーン

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

data = pd.read_csv('data.csv')  # 假设数据集保存在data.csv文件中

データを準備します。データセットを、特徴量行列とターゲットベクトルに分割します。通常、特徴量行列は予測に使用する独立変数を含み、ターゲットベクトルは予測したい従属変数を含みます。

X = data[['feature1', 'feature2', ...]]  # 选择用于预测的特征列
y = data['target']  # 选择要预测的目标列

データセットを分割する。トレーニングセットとテストセットにデータセットを分割し、モデルのトレーニングと評価に使用します。通常、大部分のデータはトレーニングに使用され、少量のデータはテストに使用されます。

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)  # 将数据集按照8:2的比例划分为训练集和测试集

教師あり学習のトレーニングモデルを選び、トレーニングデータセットを使用してそのモデルをトレーニングします。

model = LinearRegression()  # 使用线性回归作为模型
model.fit(X_train, y_train)  # 使用训练集对模型进行训练

学習させたモデルを使用してテストセットを予測し、予測結果の精度を評価する。

y_pred = model.predict(X_test)  # 使用模型对测试集进行预测

適切な評価指標（例えば、平均二乗誤差、決定係数など）を用いて、モデルの予測性能を評価します。

from sklearn.metrics import mean_squared_error, r2_score

mse = mean_squared_error(y_test, y_pred)  # 计算均方误差
r2 = r2_score(y_test, y_pred)  # 计算决定系数

線形回帰アルゴリズムを使用してデータ予測を行う一般的な手順を以上で説明しました。意思決定木回帰、ランダムフォレスト回帰などの他の回帰アルゴリズムでは、使用するアルゴリズムと評価メトリクスを変更するだけで、手順はほとんど同じです。

#プログラミング #技術記事