参考URL

    • pythonによる日本語前処理備忘録

 

    • Word2Vec, MeCab, ComeJisyo で病気の症状類似語を出してみた

 

    • UbuntuでmecabにComeJisyo(医療用語辞書)を追加する(コマンドのみ)

 

    今更ながらPythonとMeCabで形態素解析してみた

mecab

日本語形態素解析エンジンのデファクト。
先人の残したブログ記事が多数存在しているため、僕のような初心者はこれを使うことをお勧めします。

ただし、設定時に色々と手こずったので動かすまでの手順をまとめます。

環境

    • os

macOS 10.13.6

シェル

zsh

Python

3.6.4

環境分離ツール(詳しくない方はこの記事がおすすめ)

pyenv
pyenv+virtualenv

1.mecabをjupyterで動かす

Python環境が正しく構築できてないと、ここで1週間くらい溶かします。(→僕がそうでした)
特にAnacondaで環境を作ってる方。
(さらに、何もわからずにブラウザからAnacondaを落として適当にインストールした方→これも僕です)
当てはまる方はAnaconda環境を爆破して、
この記事を参考に、再度環境を作り直すことをお勧めします。
(→これも僕です。環境作るのは1日もかからないです)

mecabと辞書をインストール

#mecabをインストール
brew install mecab
#mecabの辞書をインストール
brew install mecab-ipadic

mecab-python3をインストール

#mecab操作用のpythonライブラリをインストール
pip install mecab-python3

試しに動かしてみる

import MeCab

tagger = MeCab.Tagger('')
print(tagger.parse('私は貝になりたい'))

#私    名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ
#は    助詞,係助詞,*,*,*,*,は,ハ,ワ
#貝    名詞,一般,*,*,*,*,貝,カイ,カイ
#に    助詞,格助詞,一般,*,*,*,に,ニ,ニ
#なり 動詞,自立,*,*,五段・ラ行,連用形,なる,ナリ,ナリ
#たい 助動詞,*,*,*,特殊・タイ,基本形,たい,タイ,タイ
#EOS

問題なく動いてそうです。
通常の用途であればこれで完成!

2.mecabに辞書を追加する

mecabでは、利用する辞書を変更することが可能。
今回は医療用の辞書、ComeJisyoを入れてみる。

ComeJisyoをダウンロード

ここからダウンロードしてください。

ComeJisyoのCSVを加工する

csvから辞書を生成する

所定のディレクトリに辞書を格納する

mecab設定ファイルに追加した辞書のパスを追加する

動かしてみる

bannerAds