コンピュータサイエンス系勉強ノート

計算機科学に限らず日々学んだことを色々まとめていきます

janomeで形態素解析してみた(Python)

Pythonで使える主な日本語形態素解析ライブラリにはMecabがありますが,導入までには色々と手間がかかります.(私だけかもしれませんが・・)
実はpip install一発でインストールできる日本語形態素解析ライブラリがあります.それがjanomeです.janomeMecabと同じように形態素解析が可能で,出力結果もMecabと同じような感じです.手っ取り早く形態素解析をしたい方にはお勧めなライブラリです.インストール方法は開発者さんのサイトに載ってる通りです.

開発者さんサイト
moco(beta)'s backup: 辞書内包/Pure Python実装の形態素解析器 Janome を公開しました

使い方も非常に簡単で,

#encoding:utf-8
from janome.tokenizer import Tokenizer

t = Tokenizer()
for token in t.tokenize(u"すもももももももものうち"):
    print(token.surface + " " + token.part_of_speech)
すもも 名詞,一般,*,*
も 助詞,係助詞,*,*
もも 名詞,一般,*,*
も 助詞,係助詞,*,*
もも 名詞,一般,*,*
の 助詞,連体化,*,*
うち 名詞,非自立,副詞可能,*

で単語とその品詞が表示されます.品詞の方もsplitメソッドで分割できます.pip install一発でインストールできたので非常に重宝しているライブラリのひとつです.