実践Apache Spark: 大規模データセットの分析
オープンソースのApache Sparkは性能、使いやすさ、拡張性に優れた大規模データ処理フレームワークです。本ガイドでは実際のプロジェクトで大規模データを処理する方法をApache Sparkを使って段階的に説明します。
第1部では、Sparkの基本概念と中核コンポーネント、具体的にはSparkのアーキテクチャ、RDD(レジリエント分散データセット)、Sparkのプログラミングモデルについて解説します。また、ローカル環境にSparkをインストールし設定する方法も説明します。
第二の部分では、Spark でよく使われる演算子と操作に焦点を当てます。これらには、データのロードと保存、データの変換とフィルタリング、データの集計とソートなどが含まれます。また、Spark を使用して機械学習とグラフ計算を行う方法も紹介します。
第3部では、Sparkによるリアルタイムデータ処理、ストリーミング処理について解説します。Spark Streamingによるリアルタイムデータのストリーミング処理、Spark SQLによるリアルタイムデータのクエリ、分析の方法を具体的に説明します。
第4部では、Sparkによるバッチ処理とETL(抽出-変換-読み込み)処理の方法について説明します。Sparkを使用した大量のデータの処理と変換、Sparkを使用したデータクレンジングとデータ統合の方法が含まれます。
最後の項ではグラフ計算とグラフ解析をおこなう Spark の利用方法について説明します。グラフ計算とグラフ解析をおこなう Spark GraphX の利用方法と、グラフ解析とソーシャルネットワーク解析をおこなう Spark GraphFrames の利用方法について記載します。
本ガイドを習得することで、Sparkの基本概念と中核コンポーネントを理解し、Sparkによるビッグデータ処理・分析を自在に行えるようになります。それにより、ビッグデータ処理の効率とパフォーマンスが向上します。