Pigでデータフィルタリングを行う方法は何ですか?
Pigでのデータフィルタリングは、通常FILTERキーワードを使用します。条件式を指定することで、条件に合致するデータをフィルタリングできます。
例えば、学生の情報を含むデータセットがあるとします。学生の名前と成績が含まれています。成績が60点以上の学生データをフィルタリングしたい場合、次のような文を使用することができます。
student_data = LOAD 'input/student_data' USING PigStorage(',') AS (name:chararray, score:int);
filtered_data = FILTER student_data BY score >= 60;
DUMP filtered_data;
最初のコードはまず、学生データをロードし、それをstudent_dataというリレーションに保存します。次に、FILTERキーワードを使用して60以上のスコアを持つ学生データをフィルタリングし、その結果をfiltered_dataというリレーションに保存します。最後に、DUMPステートメントを使用して、フィルタリングされたデータをコンソールに出力します。