JavaのTokenStreamの使い方

2年 ago

陽, 向宇

1 minute

JavaのTokenStreamは、テキストを解析するためのツールです。入力テキストをトークンに分解します。各トークンは、テキスト内の単語または記号を表します。TokenStreamを使用するための手順は次のとおりです。

必要なクラスをインポートします。

import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;

標準的なアナライザオブジェクトを作成する：

StandardAnalyzer analyzer = new StandardAnalyzer();

トークナイザーオブジェクトを作成して、分析するテキストを入力します。

Tokenizer tokenizer = analyzer.tokenizer();
tokenizer.setReader(new StringReader("This is a sample text."));

TokenStreamオブジェクトを取得する：

TokenStream tokenStream = tokenizer;

TokenStream内のトークンを順番に辿って、そのテキスト表現を出力する

CharTermAttribute termAttribute = tokenStream.addAttribute(CharTermAttribute.class);
tokenStream.reset(); // 重置TokenStream
while (tokenStream.incrementToken()) {
System.out.println(termAttribute.toString());
}
tokenStream.end(); // 结束TokenStream
tokenStream.close(); // 关闭TokenStream

上記のコードでは、StandardAnalyzer がテキストをトークンに分けて、TokenStream オブジェクトを返します。tokenStream.incrementToken() メソッドを呼び出すことで、TokenStream 内のトークンを 1 つずつ取得できます。tokenStream.addAttribute() メソッドを使用すると、トークンのテキスト表現を取得できます。最後に、tokenStream.end() メソッドと tokenStream.close() メソッドを呼び出して、TokenStream を終了して閉じます。

上記のコードで標準的なLuceneのアナライザーを使用している点に注意してください。別のアナライザーを使用する必要がある場合は、必要に応じて置き換えてください。