Spark sortByKey関数の使い方
sortByKeyは、キーバリューペアのRDDにおいてキーをソートするためのSpark内のアクションです。
sortByKey関数の構文は次のとおりです。
val sortedRDD = pairRDD.sortByKey([ascending: Boolean], [numPartitions: Int])
パラメーターの説明:
- 昇順:昇順ソートを行うかどうかを表すオプションパラメータ。既定値はTrue。
- numPartitions: オプションパラメータ、出力のRDDのパーティションの数を表します。デフォルトは、入力のRDDのパーティションの数です.
例:これは日本語でどのように表現しますか?
val rdd = sc.parallelize(List((3, "apple"), (2, "banana"), (1, "orange")))
val sortedRDD = rdd.sortByKey()
sortedRDD.foreach(println)
結果を出力する:
(1,orange)
(2,banana)
(3,apple)
上記のサンプルでは、キーと値からなるRDDを作成し、sortByKey関数を使用してキーをソートしています。デフォルトでは昇順にソートします。最後に、foreachを使用してソートされた結果を表示します。