Sparkにおける共有変数とは何ですか?

Sparkにおいて、共有変数とはクラスター内のすべてのタスクで共有される可変変数を指します。Sparkは、ブロードキャスト変数とアキュムレータの2種類の共有変数をサポートしています。

  1. ブロードキャスト変数は、プログラマーがクラスター内のすべてのノードに読み取り専用変数をキャッシュすることを可能にし、各タスクで使用できます。これにより、各タスクが変数を取得するコストを減らし、実行効率を向上させることができます。
# 在Python中创建广播变量
broadcast_var = sc.broadcast([1, 2, 3])

# 在任务中使用广播变量
def my_func(value):
    for num in broadcast_var.value:
        print(num * value)

rdd.map(my_func).collect()
  1. アキュムレータ:アキュムレータを使用すると、クラスタ内の複数のタスクが共有可能な書き込み変数を使用してカウントやその他の集計操作を行うことができます。一般的に、アキュムレータはタスクの実行中に統計情報を記録するために使用されます。
# 在Python中创建累加器
accum = sc.accumulator(0)

# 在任务中使用累加器
def my_func(value):
    accum.add(value)
    return value

rdd.map(my_func).collect()
print(accum.value)

共有変数の使用には注意が必要です。複数のタスクが同時に共有変数を変更する場合、競合アクセスや状態の不整合が発生する可能性があります。そのため、共有変数の使用シナリオを慎重に検討し、スレッドセーフや信頼性を確保することをお勧めします。

bannerAds