Hiveでデータ圧縮操作を実行する方法は？

2年 ago

陽, 向宇

1 minute

Hiveでデータ圧縮を実行するには、テーブルのプロパティを設定することができます。Hiveでのデータ圧縮の一般的な手順は次のとおりです。

CREATE TABLE my_table (
  col1 INT,
  col2 STRING
)
STORED AS ORC
TBLPROPERTIES ("orc.compress"="ZLIB");

上記の例では、表my_tableを作成し、データをORC形式で保存し、データを圧縮するためにZLIBアルゴリズムを使用するように指定しました。

SET hive.exec.compress.output=true;

クエリを実行する際に、mapred.output.compressパラメータを設定して圧縮形式を指定することができます。例えば：

SET mapred.output.compress=true;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;

Hiveでデータ圧縮操作を実行するには、上記の手順に従います。圧縮することで、特に大量のデータを処理する際に、ストレージ容量を減らしクエリのパフォーマンスを向上させることができます。