RDD(Resilient Distributed Dataset)は、Sparkにおける最も基本的なデータ抽象であり、変更不可能で、パーティション可能な要素の集合を表します。RDDは並行計算が可能であり、クラスタ内の複数のノードに分散されています。RDDは、Hadoopファイルシステム、HBase、Cassandraなどのデータソースから生成することもでき、また他のRDDからの変換操作を介して生成することもできます。RDDは、ノードの障害が発生しても自動的に復元できる、Sparkが提供する高い耐障害性のデータ構造です。

bannerAds