【亚马逊云服务】总结基于AWS的大数据分析基础设施【re:Invent2018】

首先

据称AWS最大规模的活动“re:Invent2018”目前正在拉斯维加斯举行。据悉,在大数据分析基础设施课程中,有人提供了使用AWS资源进行全面解释的会议。我在下面简单总结了内容。

大数据分析的架构模式和最佳实践

我知道他的名字,但是我对他的用途不太了解,这对我来说是一个令人开心的消息,所以我希望能帮助类似的人。

大規模データ基盤的全面技术候选

在考虑大数据架构时

    • 正しいツールを使えているか

 

    • データの構成,レイテンシ,スループット,データへのアクセス形式によって最適なものを選ぶ必要がある

 

    • マネージドやサーバーレスのサービスを効率よく使えているか

 

    • コストを最適化できいるか

 

    機械学習基盤が必要かどうか

处理大数据的流程

de

    • 収集,貯蓄,加工/分析,利用というシンプルな流れがある

 

    このビッグデータ処理においてレイテンシ,スループット,コストという点も考慮がする必要がある

收集、存储

    データに温度がある → Hot/Warm/Cold
スクリーンショット 2018-11-27 16.39.56.png
    • それぞれにはデータサイズ,純度,コストといった特徴がある

 

    • データは分類できる → 分類からデータストアが決まる

データ構成(data structure)/データベースのレコード
→ トランジションデータ
→ In-memory,NoSQL,SQL
メディアファイル/ログ
→ ファイル/オブジェクトデータ
→ File store,object store
データストリーム
→ イベントデータ
→ kafka,kinesis stream,kinesis firehose

流存储

スクリーンショット 2018-11-27 16.41.17.png

文件/对象存储

    • Amazon Simple Storage Service(S3)

 

    • 大量のデータを格納できる

 

    • ビッグデータフレームワークにサポートされてる

 

    • ストレージ機能と処理機能が分離されている

 

    • 99%のdurability

 

    • 同一リージョンではレプリケーションにコストがかからない

 

    https://aws.amazon.com/jp/s3/

缓存和数据库

    • Amazon ElastiCache

 

    • フルマネージドなRedisサービス

 

    • https://aws.amazon.com/jp/elasticache/

Amazon DynamoDB Accelerator
DynamoDBのIn-MemoryCache
https://aws.amazon.com/jp/dynamodb/dax/

Amazon Neptune
フルマネージドなグラフデータベース
https://aws.amazon.com/jp/blogs/news/amazon-neptune-a-fully-managed-graph-database-service/

Amazon DynamoDB
フルマネージドなキーバリュー/ドキュメント データベース
https://aws.amazon.com/jp/dynamodb/

Amazon RDS
フルマネージドなリレーショナルデータベース
https://aws.amazon.com/jp/rds/

应该使用哪个存储设备?

以下是一种可能的中文表达方式:
* 数据的组成是什么?
* 如何访问数据?
* 数据的质量如何?
* 实现解决方案所需的成本是多少?

进行分析

互动与批量分析

    • Amazon Elasticsearch Service

 

    • フルマネージドなElasticsearch

 

    • https://aws.amazon.com/jp/elasticsearch-service/

Amazon Redshift & Amazon Redshift Spectrum
フルマネージドなデータウェアハウス
spectrumはS3に対してクエリを投げることもできる
https://aws.amazon.com/jp/redshift/

Amazon Athena
フルマネージドなインタラクティブクエリサービス
https://aws.amazon.com/jp/athena/

Amazon EMR
https://aws.amazon.com/jp/emr/

流媒体/信息分析

    • Amazon Kinesis Data Analytics

 

    • スリーミングデータに対してSQLを実行できるフルマネージドサービス

 

    • https://aws.amazon.com/jp/kinesis/data-analytics/

Amazon KCL
Amzon Kinesis Client Library
AWS Lambda
サーバーレスでの実行
S3のようなサービスがイベントをlambda向けにpublishできる
Kinesisからイベントをプールできる

使用哪个分析方法?

    • Batch

 

    • 分単位~時間単位の定期処理(Ex. Daily/Weekly/Monthly)

 

    • → Amazon EMR

 

    • Interactive

 

    • 秒単位での処理

 

    • → Amazon Redshift/Amazon Athena/Amazon EMR

 

    • Stream

 

    • ミリ秒単位~秒単位での即時処理

 

    → Amazon EMR(Spark Streaming)/Amazon Kinesis Data Analitics/Amazon KCL/AWS Lambda

加工 – 进行处理或改造,通常涉及原材料的转化或加工制造。

    • ETL/ELT:Raw dataを使いやすくするための準備

 

    • 例えば、標準化/分割/圧縮/ストレージの最適化

 

    AWS Glueが威力を発揮するよ
スクリーンショット 2018-11-27 16.41.52.png

使用

数据科学家/数据工程师

分析工具

    • AI Apps

 

    • Jupyter

 

    • Anaconda

 

    Rstudio

商务用户

可视化的BI工具组

    • Kibana

 

    • Amazon QuickSight

 

    • Tableau

 

    • looker

 

    Qlik

大数据基础设施中的技术清单

スクリーンショット 2018-11-27 16.42.49.png

进行流媒体分析

スクリーンショット 2018-11-27 16.44.21.png

交互式和批处理分析

スクリーンショット 2018-11-27 16.43.31.png

最后

我尝试将听到的内容简要总结如下。

我个人对于可以使用哪些AWS资源来对流式数据存储和处理进行了解感到非常高兴。平时在工作中没有接触到,很难获取这方面的知识。

广告
将在 10 秒后关闭
bannerAds