关于AWS Certified Data Analytics – Specialty的学习笔记

首先

这篇文章是为了记下参加DAS-C01考试时所需学习的内容而写的。

简单的个人简介

我现在在东京金融类IT公司工作的28岁男性。因为在工作中涉及到AWS,所以我正在努力学习并计划在今年内取得AWS的全部资格认证。

列举过的AWS证书

DBS-C01
SCS-C01
DOP-C01
DVA-C01
SOA-C02
SAP-C01
SAA-C02

AWS Database Specialty – DBS-C01
AWS Security Specialty – SCS-C01
AWS Developer – Associate – DOP-C01
AWS Developer – Associate – DVA-C01
AWS SysOps Administrator – Associate – SOA-C02
AWS Solutions Architect – Professional – SAP-C01
AWS Solutions Architect – Associate – SAA-C02

强迫的内容

    Tech Stock(旧:koiwa lab)

记事

在中文中,「データ分析基礎知識」可以用以下方式表达:「数据分析的基本概念」。

データカタログとメタデータの違い

データカタログ:データ辞書、構造化データから非構造データまでデータ形式は多岐にわたる
メタデータ:RDS等の構造化が約束されたデータ群、データカタログを効率的に使用するために使用するデータ
※ご参考

列指向データと行指向データについて

列指向データ:大量の行データに対して少数の列を抽出するような集計が得意
行指向データ:少数の行に対して大量の列を抽出するような集計が得意

※仅供参考

MapReduceとは

大量データを処理するための分散コンピューティング用プログラミングモデル

Hadoop関連用語整理

参考はこちら

关于AWS服务

AWS Glueについて

データカタログ作成に特化したサービス
データカタログ作成元データについて多岐にわたるサービス(S3, Redshift, RDS etc.)を選択できることが強み
処理済データを追跡する、ブックマーク機能あり
バッチ処理に向いており、リアルタイム分析には不向き

Amazon Redshiftについて

分散スタイル

KEY

一行ごとにと特定の列の値に従って分散される

All

変更が少ないデータの場合に選択

EVEN
AUTO

暗号化

既存のデータベースを暗号化するように変更は不可

暗号化したDBに既存DBのデータを移行する必要がある
KMSもしくはHSMによる暗号化が可能

バックグラウンドで自動的にバキューム処理が実行されている

ユーザー側の処理が連続して実行されているとバキューム処理が実行されず処理落ちの原因となる

Amazon Athenaについて

クロスリージョンアクセス非対応
S3 Glacierアクセス不可
複雑クエリ実行に不向き
実行タスクはワークグループで定義

ワークグループごとにデータ使用量の閾値を設定可能

Elastic Searchについて

文字列検索が可能

kinesis Data Streams について

過去にストリームしたデータの順番に沿って再生が可能
データボトルネック発生時の観点

シャードスが足りているか
パーティションキー(データをどのシャードに割り当てるかを決めるルール)の振り方は適当か

最大データは1MBまで

それ以上の場合はManeged Streaming for Kafkaを検討

kinesis Data Analytics

取り込んだデータに応じて追加のカラムを追加可能

追加カラムのデータライブラリをS3に格納

Lake Formation

Data Lakeへのアクセス制御管理を行うためのサービス
クロスアカウントのリソースを集約可能

Amazon Quicksight

データ単位でのアクセス制御

RLS(Row-Level Security)の設置(Enterprise Editionのみ )

Amazon EMR

パフォーマンス向上案

マッパーサイズの変更
JOB入力サイズの変更

JOB完了時間を早くさせる

S3バケットとの連携手法

Hadoop環境との直接統合する際にS3DistCpを使用する

コストは高い(らしい)

DynamoDB

ホットキーの要因になりうるのはLSI(GSIは無関係)

bannerAds