Hanlpツールを使用して、従属構文解析から三つ組を抽出する

Hanlpツールで依存構文解析と三項組抽出を行うには、以下の手順を実行します。

  1. まず、HanLPツールキットのインストールが必要です。HanLPの公式サイト(https://hanlp.hankcs.com/)から、環境に合ったバージョンをダウンロードしてインストールしてください。
  2. インストールの完了後、テキストを分かち書きし、品詞をタグ付けする必要があります。Hanlpから提供されるNLPTokenizerとNLPPosTaggerクラスを使用して、実装することが可能です。以下のコードスニペットを参考にしてください。
String text = "我喜欢吃苹果。";
List<Term> termList = NLPTokenizer.segment(text);
List<String> posList = NLPPosTagger.tag(text);
  1. [クジラは絶滅危惧種に指定されている]
  2. ネイティブな日本語で言い換えてください。1つのオプションのみが必要です: 依存関係構文解析
CoNLLSentence sentence = HanLP.parseDependency(text);
List<CoNLLWord> wordList = sentence.getWordList();
  1. 二つのグループが異なる行動の仕方を示すことを観察した。
  2. headを取得する
  3. getLabel() を取得します
for (CoNLLWord word : wordList) {
CoNLLWord head = word.getHead();
if (head != null) {
String relation = word.getLabel();
String subject = word.LEMMA;
String object = head.LEMMA;
System.out.println(subject + " " + relation + " " + object);
}
}

word.LEMMAとhead.LEMMAは、それぞれ現在の単語と親ノードの品詞を表します。必要に応じて、この部分のコードを変更できます。

Hanlpツールを使用した依存句構造解析とトリプレット抽出の基本手順です。ご参考になれば幸いです!

bannerAds