テキストマイニング入門の履歴(No.2)

ここでは主にテキストマイニングの環境構築について述べる

言語はPythonを想定する OSはwindowsだと文字コードの問題が発生するのでOSXもしくはLinux推奨！

必要なツール,モジュールリスト

以上は下のサイトに詳細があるのでそちらを参照 https://qiita.com/elm200/items/2c2aa2093e670036bb30

mecab 
安倍晋三首相

と入力して

安倍晋三首相  名詞,固有名詞,一般,*,*,*,安倍晋三,アベシンゾウシュショウ,アベシンゾウシュショー
EOS

と出力されればmecabと拡張辞書がインストールされたことになる

import MeCab
from yomogi.normalize_neologd import *

辞書を設定

self.tagger = MeCab.Tagger("mecabrc") #他には-Ochasen等あるがこれが一番

日本語を解析する場合, 以下の一文を入れないとノイズが入る

self.tagger.parse("")