ビッグデータでよく用いられるファイル保存フォーマットとHadoopでサポートされている圧縮アルゴリズム

2年 ago

海斗, 葵

1 minute

ビッグデータの一般的文件保存形式は：

テキストファイル（Text File）：CSV形式やJSON形式など、プレーンテキスト形式でデータを保存するもの。
HadoopのMapReduce用で、キーバリューペアを格納するのに適した、バイナリ形式となるシーケンスファイル
Avroファイル: プログラミング言語に依存しないデータ構造をファイルに保持できるデータシリアライゼーションシステム
列形式でデータを格納するパーケットファイルは、高速にデータを読み書きすることができ、大規模データ分析に適しています。
データ圧縮と読み取り効率を最適化した列指向の格納形式であるORCファイルは、効率的な分析クエリに適しています。

Hadoopでサポートされる圧縮アルゴリズムは次のとおりです。

Gzip：広く使われている圧縮アルゴリズムで、ファイルサイズを大幅に削減できますが、読み取りと書き込みの速度は低くなります。
Snappy：高速データ処理に適した高速な圧縮/解凍アルゴリズム。
高い圧縮率のLZO圧縮アルゴリズムで、大量データの処理に適していますが、インストールと設定を追加で必要とします。
データの保存と転送に適した、高圧縮率の圧縮アルゴリズムだが、圧縮と展開の速度は遅い。
LZ4：高速で圧縮・解凍可能なアルゴリズムで、リアルタイムでのデータ処理に適し、高い圧縮率と高速な解凍速度が得られます。

bannerAds