Hadoopファイルのカウント

2年 ago

陽, 向宇

1 minute

Hadoopに格納されているファイル数をカウントするには、Hadoopのコマンドラインツールを使用できます。サンプルコマンドを以下に示します。

hadoop fs -ls -R /path/to/directory | grep '^-' | wc -l

対象となるディレクトリパスを指定する場合は、”/path/to/directory” を指定します。このコマンドを実行すると、対象ディレクトリ内の全てのファイルが再帰的に一覧表示され、grep コマンドによって通常ファイルのみが抽出されます。その後、wc -l コマンドによって、抽出された行数（つまりファイル数）がカウントされます。

注意、このコマンドは通常のファイルの数のみを数え、サブディレクトリを含みません。サブディレクトリ内のファイル数も含めるには、次のコマンドを使用してください。

hadoop fs -ls -R /path/to/directory | grep -v '^d' | wc -l

「-v」オプションは逆マッチングに利用されるもので、dから始まる行をフィルタリングすることで、実ファイルの行のみを残します。

また、Hadoop のJava API を使用して、ファイルの数をカウントするプログラムを書くこともできます。以下に示すのは、Java コードの例です。

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.FileStatus;
public class FileCount {
public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(conf);
Path directory = new Path("/path/to/directory");
FileStatus[] files = fs.listStatus(directory);
int count = 0;
for (FileStatus file : files) {
if (file.isFile()) {
count++;
}
}
System.out.println("Total number of files: " + count);
fs.close();
}
}

このコードでは、HadoopのFileSystemクラスを使用してディレクトリにあるファイルのリストを取得し、FileStatusクラスを使用してファイルのタイプを判断しています。次に、通常のファイルを数えてその結果を出力します。

コードにある/path/to/directoryの部分は、統計を取りたいディレクトリのパスに置き換えてください。