ビッグデータでよく用いられるファイル保存フォーマットとHadoopでサポートされている圧縮アルゴリズム
ビッグデータの一般的文件保存形式は:
- テキストファイル(Text File):CSV形式やJSON形式など、プレーンテキスト形式でデータを保存するもの。
- HadoopのMapReduce用で、キーバリューペアを格納するのに適した、バイナリ形式となるシーケンスファイル
- Avroファイル: プログラミング言語に依存しないデータ構造をファイルに保持できるデータシリアライゼーションシステム
- 列形式でデータを格納するパーケットファイルは、高速にデータを読み書きすることができ、大規模データ分析に適しています。
- データ圧縮と読み取り効率を最適化した列指向の格納形式であるORCファイルは、効率的な分析クエリに適しています。
Hadoopでサポートされる圧縮アルゴリズムは次のとおりです。
- Gzip:広く使われている圧縮アルゴリズムで、ファイルサイズを大幅に削減できますが、読み取りと書き込みの速度は低くなります。
- Snappy:高速データ処理に適した高速な圧縮/解凍アルゴリズム。
- 高い圧縮率のLZO圧縮アルゴリズムで、大量データの処理に適していますが、インストールと設定を追加で必要とします。
- データの保存と転送に適した、高圧縮率の圧縮アルゴリズムだが、圧縮と展開の速度は遅い。
- LZ4:高速で圧縮・解凍可能なアルゴリズムで、リアルタイムでのデータ処理に適し、高い圧縮率と高速な解凍速度が得られます。