自然言語処理の対象
自然言語処理(NLP)の範囲には、以下のものが含まれる。
- 自然言語テキストを単語に分割(トークン化)し、それぞれの単語の語幹(スtemming)や基本形(レマタイゼーション)を取り出して、後続処理に利用する形態素解析(Lexical Analysis)
- 自然言語の文章を、品詞タグ付け、構文木の構築、依存関係解析などの手法で分析して統語構造を明らかにする文法分析
- 意味的解析(セマンティック・アナリシス):自然言語の文の語彙の意味を理解し、説明すること。例としては、セマンティック・ロール・ラベリング(意味役割ラベル付け)、命名エンティティ認識、ワードセンス・ディスアンビギュエーション(単語意味の区別)などがある。
- 文章から主語、述語、動詞、目的語などエンティティ間の関係を抽出する
- 大量のテキストから自動的に情報を構造化して抽出を行う情報抽出(Information Extraction)の一種で、エンティティ抽出、イベント抽出、関係抽出といったものがある。
- 文章分類(テキスト分類):文章を分類して異なるカテゴリーやラベルとしてグループ分けすること、例えば、感情分析やトピック分類など。
- 機械翻訳(機械翻訳):ある自然言語のテキストを別の自然言語のテキストに変換すること。
- 質問応答システム(Question Answering):ユーザーが出した質問に対して、文章中から一致する回答を見つけ、自然言語でユーザーに返す。
- ユーザーとの自然対話を通じて、人間とコンピュータの会話を実現する会話システム(Dialogue System)
- 大量のテキストから自動的に主要な情報を抽出し、簡潔な要約テキストを生成する自動要約
これら内容は自然言語処理主要分野であり、差異タスクおよび適用シーンは差異技術や方法に関与する可能性があります。