关于GCP的Bigdata及其与Apache系列的相关性的总结

首先

不久前,我参加了一个名为”Data Engineering Google Cloud Platform”的研讨会,在那里听到了许多与Apache相关的产品名称,但是由于我无法完全理解它们之间的关系和作用,因此我总结了一下。

所有相关关系图

Apachシリーズ

各个相关情况

云订阅 / 发布 ↔︎ 阿帕奇卡夫卡

Apachシリーズ①.jpg
Cloud Pub/Sub送信者と受信者を切り離す多対多の非同期メッセージングで、メッセージ指向ミドルウェアの柔軟性と信頼性をを提供。ストリーム分析パイプラインの基盤ともなる。Apache Kafkaオープンソースの分散メッセージングシステムで、スケーラビリティに優れた分散メッセージキュー。

云数据处理 ↔︎ Apache Hadoop, Spark, Hive, Pig

Apacheシリーズ②.jpg
Cloud Dataprocオープンソースのデータツール(Spark / Hadoop)を利用してバッチ処理、クエリ実行、ストリーミング、機械学習を大規模分散処理で実行するマネージドサービス。ComputeEngine インスタンス上で実行する仕組み(プリエンプティブVM可)オンプレのサービスをGCPにマイグレート色強い(インスタンスをマスター/ワーカーの台数を自身でインスタンスに設定)Apache Hadoop大規模データの分散処理を支えるオープンソースのソフトウェアフレームワーク。アプリケーションが数千ノードおよびペタバイト級のデータを処理することを可能としている。Apache Sparkオープンソースのクラスタコンピューティングフレームワーク。暗黙のデータ並列性と耐故障性を備えたクラスタ全体をプログラミングできる。データをメモリに乗せて処理するから処理が高速(TB級までのデータに有効)。Apache HiveHadoop 上で動作するソフトウェアで、SQLに似たデータ操作言語を用いてデータの集約・問い合わせ・分析を行う。パフォーマンスに優れる。Apache PigHadoop 上で動作するソフトウェアで、SQLに似た組み込み関数とユーザー定義関数を用いる。柔軟性があり複雑な処理も手軽に行える。

云数据流、数据预处理 ↔︎ Apache Beam

Apachシリーズ③.jpg
Cloud DataflowApache Beam の実行環境。ストリーム(リアルタイム)モード/バッチ(履歴)モードでデータを変換(ETL)する、フルマネージドなデータ処理パイプラインサービス。Cloud Dataprepプログラミング知識が無くてもほとんどクリック操作のみでデータ加工を行ったり、データの品質チェックができる。ジョブ実行に Dataflow が使われる。Apache BeamETL、バッチ、ストリーム処理などのデータ処理パイプラインを定義および実行するためのオープンソースの統合プログラミングモデル。

云作曲家 ↔︎ Apache Airflow

Apacheシリーズ④ (1).jpg
Cloud Composerフルマネージド ワークフロー オーケストレーション サービス。Apache Airflow オープンソース プロジェクトを基に構築され、Python プログラミング言語を使用して運用される。Apache Airflowワークフローエンジン ツールの一種で、複数のタスクの実行順序を定義するワークフローの作成、実行のスケジューリング、監視などを行う。

BigQuery和Apache Avro

Apachシリーズ⑤.jpg
BigQueryサーバーレスでスケーラビリティに優れた企業向けのフルマネージドなデータウェアハウス。カラム型のマネージドストレージ。バッチやストリーミングのデータ収集機能、データ保存するストレージ機能、クエリーエンジンとしてのデータ分析機能をもつ。Apache Avroシステム間でデータ交換を行うためのオープンソースなデータフォーマット。データがバイナリエンコードされ、軽量で柔軟。

云数据实验室 ↔ Jupyter笔记本

虽然不是Apache家族,但… (Sui1ran2 bu4shi4 Apache jia1zu2, dan4…)

Apacheシリーズ.jpg
Cloud Datalabインタラクティブなデータ分析ツール。Datalab に Jupyter Notebook、TensorFlow などが含まれる。Jupyter NotebookWebブラウザ上でプログラムを作成・実行し、コード、メモ、実験結果をひとまとめに記録できるツール。TensorFlowTensorFlowとは、Googleが開発しオープンソースで公開している、機械学習に用いるためのソフトウェアライブラリ。

如有任何遺漏、錯誤或其他問題,請在評論中指出,謝謝。

广告
将在 10 秒后关闭
bannerAds