hadoop 行の数を数える
Hadoopでレコードの行数を調べるには、hadoop fs -catコマンドをパイプラインとwcコマンドを組み合わせるとよい。手順は以下のとおり。
- ターミナルもしくはコマンドプロンプトを開きます
- 以下のコマンドを実行してください: hadoop fs -cat <ファイルパス> | wc -l
- <ファイルパス> を確認する対象のログのファイルパスに置き換えてください。
- Hadoop fs -cat コマンドは、ファイルの内容を端末に出力します。
- wc -lコマンドは、出力された行数をカウントするために使用します。
- コマンド実行後、画面にはファイルのレコード行数が表示されます。
たとえば、Hadoop 分散ファイルシステム (HDFS) の /user/hadoop/input.txt ファイルのレコード数を取得するには、次のコマンドを実行します。
hadoop fs -cat /user/hadoop/input.txt | wc -l
このコマンドは /user/hadoop/input.txt ファイル内のレコード数を返します。