テキストマイニング入門の履歴(No.4)

ここでは主にテキストマイニングの環境構築について述べる

言語はPythonを想定する OSはwindowsだと文字コードの問題が発生するのでOSXもしくはLinux推奨！

必要なツール,モジュールリスト

以上は下のサイトに詳細があるのでそちらを参照 https://qiita.com/elm200/items/2c2aa2093e670036bb30

mecab 
安倍晋三首相

と入力して

安倍晋三首相  名詞,固有名詞,一般,*,*,*,安倍晋三,アベシンゾウシュショウ,アベシンゾウシュショー
EOS

と出力されればmecabと拡張辞書がインストールされたことになる

import MeCab
from yomogi.normalize_neologd import *

辞書を設定

tagger = MeCab.Tagger("mecabrc") #他には-Ochasen等あるがこれが一番高精度

日本語を解析する場合, 以下の一文を入れないとノイズが入る

tagger.parse("")

実際に形態素解析を行う

tagger.parse ("今日もしないとね")

出力例

今日  キョウ   今日  名詞-副詞可能     
も モ も 助詞-係助詞        
し シ する  動詞-自立   サ変・スル 未然形
ない  ナイ  ない  助動詞   特殊・ナイ 基本形
と ト と 助詞-接続助詞     
ね ネ ね 助詞-終助詞        
EOS

こちらにmecabをより使いやすくした高レベルAPIがあるのでインストール

ソースファイルをgithub経由でダウンロード

git clone https://github.com/pomcho555/Yomogi.git

インストールしたディレクトリに移動

cd <installed directory>

Pythonのパッケージマネージャーpipにモジュールをインストール

pip install -e .

よもぎをimport

import yomogi

文章のリストを作成

text = ['よもぎの若葉を干しておいたのちに煎じて飲むと、健胃、腹痛、下痢、貧血、冷え性などに効果がありますよ。']

特定の品詞を抽出してそのリストをもらう(前処理付き）

word_list = yomogi.extract(text, '名詞')

遅くてもとりあえず分かち書きを含む言語処理を手軽にしたい場合はjanomeがオススメ http://mocobeta.github.io/janome/