Pythonでデータクリーニングを行うコードの書き方は?
データクリーニングとは、データの前処理を行うことを指します。重複値の削除、欠損値の処理、異常値の処理などが含まれます。以下に、一般的なデータクリーニング操作の例示コードを示します。
- 重複値を取り除く。
df = df.drop_duplicates()
- 欠損値の処理:
- 欠損値を含む行を削除する:
df = df.dropna()
- 指定値で欠損値を埋める:
df = df.fillna(value)
- 欠損値の補完を行う:
df = df.interpolate()
- 外れ値処理:
- 標準偏差を使用して異常値を取り除く:
df = df[np.abs(df['column'] - df['column'].mean()) <= (3 * df['column'].std())]
- 箱ひげ図に基づいて外れ値を削除する。
q1 = df['column'].quantile(0.25)
q3 = df['column'].quantile(0.75)
iqr = q3 - q1
df = df[(df['column'] >= q1 - 1.5 * iqr) & (df['column'] <= q3 + 1.5 * iqr)]
このコードは単なる例です。具体的なデータクリーニング操作は、データの状況に応じて調整や拡張が必要です。