hadoop 行の数を数える

Hadoopでレコードの行数を調べるには、hadoop fs -catコマンドをパイプラインとwcコマンドを組み合わせるとよい。手順は以下のとおり。

  1. ターミナルもしくはコマンドプロンプトを開きます
  2. 以下のコマンドを実行してください: hadoop fs -cat <ファイルパス> | wc -l
  1. <ファイルパス> を確認する対象のログのファイルパスに置き換えてください。
  2. Hadoop fs -cat コマンドは、ファイルの内容を端末に出力します。
  3. wc -lコマンドは、出力された行数をカウントするために使用します。
  1. コマンド実行後、画面にはファイルのレコード行数が表示されます。

たとえば、Hadoop 分散ファイルシステム (HDFS) の /user/hadoop/input.txt ファイルのレコード数を取得するには、次のコマンドを実行します。

hadoop fs -cat /user/hadoop/input.txt | wc -l

このコマンドは /user/hadoop/input.txt ファイル内のレコード数を返します。

bannerAds