小野田?
ここでは主にテキストマイニングの環境構築について述べる
言語はPythonを想定する OSはwindowsだと文字コードの問題が発生するのでOSXもしくはLinux推奨!
以上は下のサイトに詳細があるのでそちらを参照 https://qiita.com/elm200/items/2c2aa2093e670036bb30
mecab 安倍晋三首相
と入力して
安倍晋三首相 名詞,固有名詞,一般,*,*,*,安倍晋三,アベシンゾウシュショウ,アベシンゾウシュショー EOS
と出力されればmecabと拡張辞書がインストールされたことになる
import MeCab from yomogi.normalize_neologd import *
辞書を設定
self.tagger = MeCab.Tagger("mecabrc") #他には-Ochasen等あるがこれが一番
日本語を解析する場合, 以下の一文を入れないとノイズが入る
self.tagger.parse("")