Hiveでデータ圧縮操作を実行する方法は?

Hiveでデータ圧縮を実行するには、テーブルのプロパティを設定することができます。Hiveでのデータ圧縮の一般的な手順は次のとおりです。

  1. 保存されています
  2. テーブルのプロパティ
CREATE TABLE my_table (
  col1 INT,
  col2 STRING
)
STORED AS ORC
TBLPROPERTIES ("orc.compress"="ZLIB");

上記の例では、表my_tableを作成し、データをORC形式で保存し、データを圧縮するためにZLIBアルゴリズムを使用するように指定しました。

  1. この言葉を日本語で言い換えると「セット」です。
  2. hive.exec.compress.outputをパラフレーズすると、hiveの出力圧縮を指定する設定です。
SET hive.exec.compress.output=true;

クエリを実行する際に、mapred.output.compressパラメータを設定して圧縮形式を指定することができます。例えば:

SET mapred.output.compress=true;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;

Hiveでデータ圧縮操作を実行するには、上記の手順に従います。圧縮することで、特に大量のデータを処理する際に、ストレージ容量を減らしクエリのパフォーマンスを向上させることができます。

コメントを残す 0

Your email address will not be published. Required fields are marked *