Pythonを使用してデータクリーニングを行う方法は何ですか？

2年 ago

芽依, 雨夜

1 minute

データの清掃はデータの前処理の重要なステップであり、Pythonのpandasライブラリを使用してデータの清掃を行うことができます。以下は簡単なデータの清掃の例です。

import pandas as pd

data = pd.read_csv('data.csv')

print(data.head())

print(data.isnull().sum())

欠損値を削除する。

data.dropna(inplace=True)

欠損値を埋める：

data.fillna(data.mean(), inplace=True)

data.drop_duplicates(inplace=True)

data['column'] = data['column'].astype(int)

data = data[(data['column'] >= min_value) & (data['column'] <= max_value)]

data.to_csv('cleaned_data.csv', index=False)

上記の手順に従ってPythonを使用することで、データクリーニングを行い、データをより正確で信頼性の高いものにすることができます。