HadoopでPythonプログラムを実行する方法は何ですか？ (How do you run Python programs on Hadoop?)

2年 ago

結衣, 春花

1 minute

PythonプログラムをHadoopで実行するには、Hadoop Streamingを使用することができます。Hadoop Streamingは非Java言語のMapReduceジョブを実行するためのツールであり、PythonプログラムをMapとReduceタスクとして実行することを可能にします。

Hadoop上でPythonプログラムを実行する一般的な手順は次の通りです：

Pythonプログラムを準備してください：マップとリデュースのPythonコードを書き、それを実行可能なファイル（例：mapper.pyとreducer.py）として保存してください。
Hadoopコマンドを使用して、入力データをHadoop分散ファイルシステム（HDFS）にアップロードして、MapReduceジョブで使用できるようにします。
Pythonプログラムを実行するためにHadoop Streamingを使用する：次のコマンドを使用してPythonプログラムを実行します：

hadoop jar <path_to_hadoop_streaming_jar> \
-input <input_path_in_hdfs> \
-output <output_path_in_hdfs> \
-mapper <path_to_mapper.py> \
-reducer <path_to_reducer.py> \
-file <path_to_mapper.py> \
-file <path_to_reducer.py>

上記のうち、はHadoop Streaming JAR ファイルのパス、はHDFS 上の入力データのパス、はHDFS 上の出力データのパス、およびは、Mapper および Reducer のPythonプログラムのパスです。

Hadoopコマンドを使用して、ジョブの出力結果を確認します。例えば、作業の出力結果をチェックします。

hadoop fs -cat <output_path_in_hdfs>/part-00000

このことで、課題の出力結果が表示されます。

上記の手順では、Hadoopが正しくインストールおよび構成され、クラスタでMapReduceジョブを実行できることが前提となっています。さらに、Pythonプログラムが適切な権限を持ち、Hadoopクラスタで実行できることを確認してください。