R言語でデータフィルタリングを行うためには、dplyrパッケージをどのように使いますか？

2年 ago

桜, 春樹

1 minute

dplyrパッケージを使用してデータをフィルタリングする基本的な手順は次のとおりです：

install.packages("dplyr")
library(dplyr)

filter()関数を使用してデータを選択します：filter()関数は指定された条件に基づいてデータを選択するために使用されます。次は、irisデータセットからSepal.Lengthが5より大きいデータを選択する簡単な例です。

filtered_data <- filter(iris, Sepal.Length > 5)

選択したい列を選択する際に、select()関数を使用します。この関数は、データフレーム内の特定の列を選択するために使用されます。以下は、irisデータセットからSepal.LengthとSepal.Widthの2列を選択する例です。

selected_data <- select(iris, Sepal.Length, Sepal.Width)

データをソートするために、arrange()関数を使用します。arrange()関数はデータフレームをソートするために使用されます。以下は、irisデータセットのSepal.Length列を昇順に並べ替える例です。

arranged_data <- arrange(iris, Sepal.Length)

使用mutate()函数添加新列：mutate()函数用于添加新列或修改数据框中的列。以下是一个示例，添加一列表示Sepal.Length和Sepal.Width的总和。

new_data <- mutate(iris, Total_Sepal = Sepal.Length + Sepal.Width)

group_by()とsummarise()関数を使用してデータをグループ化およびサマリーズする：group_by()関数はデータをグループ化するために使用され、summarise()関数は各グループのデータを集計します。以下は、irisデータセットをSpeciesでグループ化し、Sepal.Lengthの平均値を計算する例です。

summary_data <- iris %>%
                group_by(Species) %>%
                summarise(mean_sepal_length = mean(Sepal.Length))

以上はdplyrパッケージを使用してデータのフィルタリングを行う基本的な手順ですが、これらの関数を組み合わせることでより複雑なデータ処理操作が可能となります。