hadoop 行数をカウント

2年 ago

夏樹, 風

1 minute

Hadoop上でファイルの行数を調べるには、以下のコマンドラインツールを使用できます：

hdfs dfs -cat コマンドでファイルの内容を標準出力に出力し、パイプ記号（|）でその結果を wc -l コマンドに渡して行数をカウントする

hdfs dfs -cat <file> | wc -l

を、行数を表示するファイルのパスに置き換えてください。例えば、/user/myuser/example.txtの行数を表示したい場合、hdfs dfs -cat /user/myuser/example.txt | wc -lなどと実行します。

この方法は、ファイルをHDFSからローカルに読み込み、パイプを使用して行数を数えます。ただし、ファイルが非常に大きい場合、すべてのファイルをメモリにロードするため、この方法は適さない可能性があります。

ファイルの内容を出力せずに単にファイルの合計行数情報を知りたい場合は、hdfs dfs -count コマンドを使用してファイルの行数情報を取得できます：

hdfs dfs -count -q -h -v <file> | awk '{print $2}'

を行数を調べたいファイルパスに置き換えてください。例えば、/user/myuser/example.txt の行数情報を取得したい場合は hdfs dfs -count -q -h -v /user/myuser/example.txt | awk ‘{print $2}’ を実行すればよいです。

この方法は、ファイルの内容全体を読み込むことなく、HDFSメタデータから行数の情報を直接抽出します。

上記の操作を行うことで、Hadoopクラスタ上のファイル行数情報を取得できます。