【亚马逊云服务】总结基于AWS的大数据分析基础设施【re:Invent2018】
首先
据称AWS最大规模的活动“re:Invent2018”目前正在拉斯维加斯举行。据悉,在大数据分析基础设施课程中,有人提供了使用AWS资源进行全面解释的会议。我在下面简单总结了内容。
大数据分析的架构模式和最佳实践
我知道他的名字,但是我对他的用途不太了解,这对我来说是一个令人开心的消息,所以我希望能帮助类似的人。
大規模データ基盤的全面技术候选
在考虑大数据架构时
-
- 正しいツールを使えているか
-
- データの構成,レイテンシ,スループット,データへのアクセス形式によって最適なものを選ぶ必要がある
-
- マネージドやサーバーレスのサービスを効率よく使えているか
-
- コストを最適化できいるか
- 機械学習基盤が必要かどうか
处理大数据的流程
de
-
- 収集,貯蓄,加工/分析,利用というシンプルな流れがある
- このビッグデータ処理においてレイテンシ,スループット,コストという点も考慮がする必要がある
收集、存储
- データに温度がある → Hot/Warm/Cold

-
- それぞれにはデータサイズ,純度,コストといった特徴がある
-
- データは分類できる → 分類からデータストアが決まる
データ構成(data structure)/データベースのレコード
→ トランジションデータ
→ In-memory,NoSQL,SQL
メディアファイル/ログ
→ ファイル/オブジェクトデータ
→ File store,object store
データストリーム
→ イベントデータ
→ kafka,kinesis stream,kinesis firehose
流存储

文件/对象存储
-
- Amazon Simple Storage Service(S3)
-
- 大量のデータを格納できる
-
- ビッグデータフレームワークにサポートされてる
-
- ストレージ機能と処理機能が分離されている
-
- 99%のdurability
-
- 同一リージョンではレプリケーションにコストがかからない
- https://aws.amazon.com/jp/s3/
缓存和数据库
-
- Amazon ElastiCache
-
- フルマネージドなRedisサービス
-
- https://aws.amazon.com/jp/elasticache/
Amazon DynamoDB Accelerator
DynamoDBのIn-MemoryCache
https://aws.amazon.com/jp/dynamodb/dax/
Amazon Neptune
フルマネージドなグラフデータベース
https://aws.amazon.com/jp/blogs/news/amazon-neptune-a-fully-managed-graph-database-service/
Amazon DynamoDB
フルマネージドなキーバリュー/ドキュメント データベース
https://aws.amazon.com/jp/dynamodb/
Amazon RDS
フルマネージドなリレーショナルデータベース
https://aws.amazon.com/jp/rds/
应该使用哪个存储设备?
以下是一种可能的中文表达方式:
* 数据的组成是什么?
* 如何访问数据?
* 数据的质量如何?
* 实现解决方案所需的成本是多少?
进行分析
互动与批量分析
-
- Amazon Elasticsearch Service
-
- フルマネージドなElasticsearch
-
- https://aws.amazon.com/jp/elasticsearch-service/
Amazon Redshift & Amazon Redshift Spectrum
フルマネージドなデータウェアハウス
spectrumはS3に対してクエリを投げることもできる
https://aws.amazon.com/jp/redshift/
Amazon Athena
フルマネージドなインタラクティブクエリサービス
https://aws.amazon.com/jp/athena/
Amazon EMR
https://aws.amazon.com/jp/emr/
流媒体/信息分析
-
- Amazon Kinesis Data Analytics
-
- スリーミングデータに対してSQLを実行できるフルマネージドサービス
-
- https://aws.amazon.com/jp/kinesis/data-analytics/
Amazon KCL
Amzon Kinesis Client Library
AWS Lambda
サーバーレスでの実行
S3のようなサービスがイベントをlambda向けにpublishできる
Kinesisからイベントをプールできる
使用哪个分析方法?
-
- Batch
-
- 分単位~時間単位の定期処理(Ex. Daily/Weekly/Monthly)
-
- → Amazon EMR
-
- Interactive
-
- 秒単位での処理
-
- → Amazon Redshift/Amazon Athena/Amazon EMR
-
- Stream
-
- ミリ秒単位~秒単位での即時処理
- → Amazon EMR(Spark Streaming)/Amazon Kinesis Data Analitics/Amazon KCL/AWS Lambda
加工 – 进行处理或改造,通常涉及原材料的转化或加工制造。
-
- ETL/ELT:Raw dataを使いやすくするための準備
-
- 例えば、標準化/分割/圧縮/ストレージの最適化
- AWS Glueが威力を発揮するよ

使用
数据科学家/数据工程师
分析工具
-
- AI Apps
-
- Jupyter
-
- Anaconda
- Rstudio
商务用户
可视化的BI工具组
-
- Kibana
-
- Amazon QuickSight
-
- Tableau
-
- looker
- Qlik
大数据基础设施中的技术清单

进行流媒体分析

交互式和批处理分析

最后
我尝试将听到的内容简要总结如下。
我个人对于可以使用哪些AWS资源来对流式数据存储和处理进行了解感到非常高兴。平时在工作中没有接触到,很难获取这方面的知识。