R言語 欠損値・重複データの処理方法【初心者向け】
欠損値の処理:
- is.na()関数を使用して欠損値を検出し、subset()関数を使用して欠損値を含まないデータを選択することができます。
- 欠損値を含む行を削除するために、na.omit()関数を使用してください。
- complete.cases() 関数を使用して、欠損値を含む行を削除します。
- 欠損値を埋めるためにmean()関数やmedian()関数を使用してください。
- na.approx()関数やna.spline()関数を使用して欠損値を補間する。
データの重複を処理する:
- 重複したデータを検出するためにduplicated()関数を使用してください。
- unique()関数を使用して重複データを削除します。
- subset()関数を使用して、重複データを含まないデータを選択します。
- distinct()関数を使用して重複データを削除します。
- 重複データを処理するために、aggregate()関数やdplyrパッケージのdistinct()関数を使用してください。