Hiveでデータ圧縮操作を実行する方法は?
Hiveでデータ圧縮を実行するには、テーブルのプロパティを設定することができます。Hiveでのデータ圧縮の一般的な手順は次のとおりです。
- 保存されています
- テーブルのプロパティ
CREATE TABLE my_table (
col1 INT,
col2 STRING
)
STORED AS ORC
TBLPROPERTIES ("orc.compress"="ZLIB");
上記の例では、表my_tableを作成し、データをORC形式で保存し、データを圧縮するためにZLIBアルゴリズムを使用するように指定しました。
- この言葉を日本語で言い換えると「セット」です。
- hive.exec.compress.outputをパラフレーズすると、hiveの出力圧縮を指定する設定です。
SET hive.exec.compress.output=true;
クエリを実行する際に、mapred.output.compressパラメータを設定して圧縮形式を指定することができます。例えば:
SET mapred.output.compress=true;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
Hiveでデータ圧縮操作を実行するには、上記の手順に従います。圧縮することで、特に大量のデータを処理する際に、ストレージ容量を減らしクエリのパフォーマンスを向上させることができます。