小野田?
ここでは主にテキストマイニングの環境構築について述べる
言語はPythonを想定する OSはwindowsだと文字コードの問題が発生するのでOSXもしくはLinux推奨!
以上は下のサイトに詳細があるのでそちらを参照 https://qiita.com/elm200/items/2c2aa2093e670036bb30
mecab 安倍晋三首相
と入力して
安倍晋三首相 名詞,固有名詞,一般,*,*,*,安倍晋三,アベシンゾウシュショウ,アベシンゾウシュショー EOS
と出力されればmecabと拡張辞書がインストールされたことになる
import MeCab from yomogi.normalize_neologd import *
辞書を設定
tagger = MeCab.Tagger("mecabrc") #他には-Ochasen等あるがこれが一番高精度
日本語を解析する場合, 以下の一文を入れないとノイズが入る
tagger.parse("")
実際に形態素解析を行う
tagger.parse ("今日もしないとね")
出力例
今日 キョウ 今日 名詞-副詞可能 も モ も 助詞-係助詞 し シ する 動詞-自立 サ変・スル 未然形 ない ナイ ない 助動詞 特殊・ナイ 基本形 と ト と 助詞-接続助詞 ね ネ ね 助詞-終助詞 EOS
こちらにmecabをより使いやすくした高レベルAPIがあるのでインストール
ソースファイルをgithub経由でダウンロード
git clone https://github.com/pomcho555/Yomogi.git
インストールしたディレクトリに移動
cd <installed directory>
Pythonのパッケージマネージャーpipにモジュールをインストール
pip install -e .
よもぎをimport
import yomogi
文章のリストを作成
text = ['よもぎの若葉を干しておいたのちに煎じて飲むと、健胃、腹痛、下痢、貧血、冷え性などに効果がありますよ。']
特定の品詞を抽出してそのリストをもらう(前処理付き)
word_list = yomogi.extract(text, '名詞')
遅くてもとりあえず分かち書きを含む言語処理を手軽にしたい場合はjanomeがオススメ http://mocobeta.github.io/janome/