关于AWS Certified Data Analytics – Specialty的学习笔记
首先
这篇文章是为了记下参加DAS-C01考试时所需学习的内容而写的。
简单的个人简介
我现在在东京金融类IT公司工作的28岁男性。因为在工作中涉及到AWS,所以我正在努力学习并计划在今年内取得AWS的全部资格认证。
列举过的AWS证书
DBS-C01
SCS-C01
DOP-C01
DVA-C01
SOA-C02
SAP-C01
SAA-C02
AWS Database Specialty – DBS-C01
AWS Security Specialty – SCS-C01
AWS Developer – Associate – DOP-C01
AWS Developer – Associate – DVA-C01
AWS SysOps Administrator – Associate – SOA-C02
AWS Solutions Architect – Professional – SAP-C01
AWS Solutions Architect – Associate – SAA-C02
强迫的内容
- Tech Stock(旧:koiwa lab)
记事
在中文中,「データ分析基礎知識」可以用以下方式表达:「数据分析的基本概念」。
データカタログとメタデータの違い
データカタログ:データ辞書、構造化データから非構造データまでデータ形式は多岐にわたる
メタデータ:RDS等の構造化が約束されたデータ群、データカタログを効率的に使用するために使用するデータ
※ご参考
列指向データと行指向データについて
列指向データ:大量の行データに対して少数の列を抽出するような集計が得意
行指向データ:少数の行に対して大量の列を抽出するような集計が得意
※仅供参考
MapReduceとは
大量データを処理するための分散コンピューティング用プログラミングモデル
Hadoop関連用語整理
参考はこちら
关于AWS服务
AWS Glueについて
データカタログ作成に特化したサービス
データカタログ作成元データについて多岐にわたるサービス(S3, Redshift, RDS etc.)を選択できることが強み
処理済データを追跡する、ブックマーク機能あり
バッチ処理に向いており、リアルタイム分析には不向き
Amazon Redshiftについて
分散スタイル
KEY
一行ごとにと特定の列の値に従って分散される
All
変更が少ないデータの場合に選択
EVEN
AUTO
暗号化
既存のデータベースを暗号化するように変更は不可
暗号化したDBに既存DBのデータを移行する必要がある
KMSもしくはHSMによる暗号化が可能
バックグラウンドで自動的にバキューム処理が実行されている
ユーザー側の処理が連続して実行されているとバキューム処理が実行されず処理落ちの原因となる
Amazon Athenaについて
クロスリージョンアクセス非対応
S3 Glacierアクセス不可
複雑クエリ実行に不向き
実行タスクはワークグループで定義
ワークグループごとにデータ使用量の閾値を設定可能
Elastic Searchについて
文字列検索が可能
kinesis Data Streams について
過去にストリームしたデータの順番に沿って再生が可能
データボトルネック発生時の観点
シャードスが足りているか
パーティションキー(データをどのシャードに割り当てるかを決めるルール)の振り方は適当か
最大データは1MBまで
それ以上の場合はManeged Streaming for Kafkaを検討
kinesis Data Analytics
取り込んだデータに応じて追加のカラムを追加可能
追加カラムのデータライブラリをS3に格納
Lake Formation
Data Lakeへのアクセス制御管理を行うためのサービス
クロスアカウントのリソースを集約可能
Amazon Quicksight
データ単位でのアクセス制御
RLS(Row-Level Security)の設置(Enterprise Editionのみ )
Amazon EMR
パフォーマンス向上案
マッパーサイズの変更
JOB入力サイズの変更
JOB完了時間を早くさせる
S3バケットとの連携手法
Hadoop環境との直接統合する際にS3DistCpを使用する
コストは高い(らしい)
DynamoDB
ホットキーの要因になりうるのはLSI(GSIは無関係)