JavaのTokenStreamの使い方

JavaのTokenStreamは、テキストを解析するためのツールです。入力テキストをトークンに分解します。各トークンは、テキスト内の単語または記号を表します。TokenStreamを使用するための手順は次のとおりです。

  1. 必要なクラスをインポートします。
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
  1. 標準的なアナライザオブジェクトを作成する:
StandardAnalyzer analyzer = new StandardAnalyzer();
  1. トークナイザーオブジェクトを作成して、分析するテキストを入力します。
Tokenizer tokenizer = analyzer.tokenizer();
tokenizer.setReader(new StringReader("This is a sample text."));
  1. TokenStreamオブジェクトを取得する:
TokenStream tokenStream = tokenizer;
  1. TokenStream内のトークンを順番に辿って、そのテキスト表現を出力する
CharTermAttribute termAttribute = tokenStream.addAttribute(CharTermAttribute.class);
tokenStream.reset(); // 重置TokenStream
while (tokenStream.incrementToken()) {
System.out.println(termAttribute.toString());
}
tokenStream.end(); // 结束TokenStream
tokenStream.close(); // 关闭TokenStream

上記のコードでは、StandardAnalyzer がテキストをトークンに分けて、TokenStream オブジェクトを返します。tokenStream.incrementToken() メソッドを呼び出すことで、TokenStream 内のトークンを 1 つずつ取得できます。tokenStream.addAttribute() メソッドを使用すると、トークンのテキスト表現を取得できます。最後に、tokenStream.end() メソッドと tokenStream.close() メソッドを呼び出して、TokenStream を終了して閉じます。

上記のコードで標準的なLuceneのアナライザーを使用している点に注意してください。別のアナライザーを使用する必要がある場合は、必要に応じて置き換えてください。

bannerAds