異常値を除外するR言語
R言語では次の手法で異常値を除去します。
- 3σ の法則の利用:データを正規分布に従うと仮定し、平均値と標準偏差を計算し、3 倍の標準偏差を超える数値を除去する。
data <- c(1, 2, 3, 4, 100) # 假设data为数据向量
mean_value <- mean(data)
sd_value <- sd(data)
threshold <- mean_value + 3 * sd_value
filtered_data <- data[data <= threshold]
- 箱ひげ図を用いる:データの箱ひげ図に基づき、四分位範囲×1.5の範囲を超える数値を除外する。
data <- c(1, 2, 3, 4, 100) # 假设data为数据向量
q1 <- quantile(data, 0.25)
q3 <- quantile(data, 0.75)
iqr <- q3 - q1
lower_threshold <- q1 - 1.5 * iqr
upper_threshold <- q3 + 1.5 * iqr
filtered_data <- data[data >= lower_threshold & data <= upper_threshold]
- タキイのフェンスを利用して、タキイのフェンス法に基づき、四分位範囲の中央値の3倍以上となるデータを削除します。
data <- c(1, 2, 3, 4, 100) # 假设data为数据向量
q1 <- quantile(data, 0.25)
q3 <- quantile(data, 0.75)
iqr <- q3 - q1
lower_threshold <- q1 - 3 * iqr
upper_threshold <- q3 + 3 * iqr
filtered_data <- data[data >= lower_threshold & data <= upper_threshold]
具体的なデータの特徴と分析要件に合わせて適切な方法を選択して外れ値を除去する必要があります。