Pythonでデータクリーニングを行うコードの書き方は？

2年 ago

優斗, 朝陽

1 minute

データクリーニングとは、データの前処理を行うことを指します。重複値の削除、欠損値の処理、異常値の処理などが含まれます。以下に、一般的なデータクリーニング操作の例示コードを示します。

重複値を取り除く。

df = df.drop_duplicates()

欠損値の処理：

欠損値を含む行を削除する：

df = df.dropna()

指定値で欠損値を埋める:

df = df.fillna(value)

欠損値の補完を行う：

df = df.interpolate()

外れ値処理:

標準偏差を使用して異常値を取り除く:

df = df[np.abs(df['column'] - df['column'].mean()) <= (3 * df['column'].std())]

箱ひげ図に基づいて外れ値を削除する。

q1 = df['column'].quantile(0.25)
q3 = df['column'].quantile(0.75)
iqr = q3 - q1
df = df[(df['column'] >= q1 - 1.5 * iqr) & (df['column'] <= q3 + 1.5 * iqr)]

このコードは単なる例です。具体的なデータクリーニング操作は、データの状況に応じて調整や拡張が必要です。

#Python #プログラミング