抽出した文章から頻出単語を抜き出したい時に役に立つのが、MeCabという人が普段使用する自然言語を、コンピュータ処理してくれるオープンソースの形態素解析エンジンになります。本日はMeCabのインストールと使い方を紹介します。
コンテンツ
環境
環境は以下になります。ちなみにヒロヤンの場合はpipenvでの環境開発を行っています。
環境
・OS Mac
・python 3.8
インストール
Mecabのインストール
何はともあれ使うためにはインストールをする必要があります。
pipenvを使用している方は以下のコマンでインストールできます。
1 |
$pipenv install mecab-python3 |
pipenv何それ?って人はこちらのbrewにインストールします。
1 |
$brew intall mecab |
辞書のインストール
mecabをインストールしただけでは、MeCabライブラリ内部コピーが含まれていますが、辞書は含まれていません。
MeCabを使用するには辞書をインストールする必要があります。
pipenvの人はこちらのコマンドになります。
1 |
$pipenv install unidic-lite |
brewでインストールした人は続けてIPA辞書をインストールします。
1 |
$brew install mecab-ipadic |
実際に動かしてみる
それでは準びができたので実際にコードを動かしてみます。
sample.py
1 2 3 4 |
import MeCab t = MeCab.Tagger() sentence = "今日はpythonを3時間勉強しました。" print(t.parse(sentence)) |
そうすると出てくる結果はこんな感じになります。
1 2 3 4 5 6 7 8 9 10 11 |
今日 キョー キョウ 今日 名詞-普通名詞-副詞可能 1 は ワ ハ は 助詞-係助詞 python python python python 名詞-普通名詞-一般 0 を オ ヲ を 助詞-格助詞 3 3 3 3 名詞-数詞 0 時間 ジカン ジカン 時間 名詞-普通名詞-助数詞可能 0 勉強 ベンキョー ベンキョウ 勉強 名詞-普通名詞-サ変可能 0 し シ スル 為る 動詞-非自立可能 サ行変格 連用形-一般 0 まし マシ マス ます 助動詞 助動詞-マス 連用形-一般 た タ タ た 助動詞 助動詞-タ 終止形-一般 。 。 補助記号-句点 |
最後に
いかがでしたでしょうか。
以上が「Pythonでmecabをインストールして実際に使用してみる」でした。
次回以降でより実践的な使い方を紹介していきます。
コメントを残す