R言語でのデータのランダム抽出方法は何ですか?
R言語では、データのランダムサンプリングを実現するために、sample()関数を使用することができます。sample()関数の使い方は以下の通りです:
sample(x, size, replace = FALSE, prob = NULL)
xは抽出するデータセットであり、sizeはサンプルのサイズであり、replaceは抽出時に重複を許可するかどうかを表す論理値であり(デフォルトはFALSEであり、つまり重複は許可されません)、probは各要素が抽出される確率を表すベクトルである(デフォルトはNULLであり、つまり等しい確率で抽出されます)。
以下にはいくつかの例があります。
- ベクトルからランダムにいくつかの要素を抽出します。
x <- c(1, 2, 3, 4, 5)
sample(x, size = 3)
出力結果は、3 2 1 の場合があります。
- データフレームからランダムにいくつかの行を抽出します。
df <- data.frame(x = c(1, 2, 3, 4, 5), y = c("a", "b", "c", "d", "e"))
sample_n(df, size = 3)
結果はおそらく次のようになるでしょう。
x y
1 3 a
5 5 e
2 2 b
- データフレームからランダムに複数行を選んで重複して選択することができます。
sample_n(df, size = 3, replace = TRUE)
出力結果は:
x y
1 3 a
5 5 e
2 2 b
sample()関数の基本的な使い方は以上です。具体的な要求に応じて、パラメータを調整して異なるランダムサンプリング操作を実現することができます。