sparkがkafkaからデータを読み取り、Hiveに書き込む方法は何ですか？

2年 ago

芽依, 雨夜

1 minute

Sparkは、Spark Streamingを使用してKafkaからデータを読み取り、Hiveにデータを書き込むことができます。

Spark StreamingでKafkaからデータを読み取り、それをHiveに書き込む方法について説明します。

必要なライブラリと依存関係をインポートしてください。

import org.apache.spark.streaming._
import org.apache.spark.streaming.kafka._

Spark StreamingのコンテキストとKafkaのパラメータを設定する。

val sparkConf = new SparkConf().setMaster("local[2]").setAppName("KafkaToHive")
val ssc = new StreamingContext(sparkConf, Seconds(5))

val kafkaParams = Map("metadata.broker.list" -> "localhost:9092",
                      "zookeeper.connect" -> "localhost:2181",
                      "group.id" -> "spark-streaming")

Kafkaからデータを読み込むためのDStreamを作成します。

val topics = Set("topic1")
val kafkaStream = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topics)

Kafkaのデータを処理してHiveに書き込む。

kafkaStream.foreachRDD { rdd =>
  if (!rdd.isEmpty()) {
    val hiveContext = new HiveContext(rdd.sparkContext)
    import hiveContext.implicits._
    
    val dataFrame = rdd.map(_._2).toDF("value")
    
    dataFrame.write.mode(SaveMode.Append).saveAsTable("hive_table")
  }
}

上記のコードでは、まずHiveに接続するためにHiveContextを作成しました。次に、RDDのデータをDataFrameに変換し、DataFrameのwriteメソッドを使用してデータをHiveテーブルに保存しました。

Spark Streamingを起動し、それが完了するのを待つ。

ssc.start()
ssc.awaitTermination()

このコードはSpark Streamingを起動し、Kafkaからデータを読み取りHiveに書き込むのを待機します。

注意してください、SparkアプリケーションでHiveとKafkaの接続パラメーターを正しく設定し、Spark起動コマンドに関連するライブラリと依存関係を追加する必要があります。

これは基本的な例です。自分のニーズに合わせて修正や拡張を行うことができます。