テキストマイニング入門
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
]
開始行:
[[小野田]]
ここでは主にテキストマイニングの環境構築について述べる
言語はPythonを想定する
OSはwindowsだと文字コードの問題が発生するのでOSXもしくはL...
*必要なツール,モジュールリスト [#kdc9920c]
-形態素解析ツール
--MeCab
-MeCabをPythonで使用するためのラッパー
--mecab-python(python3.x系の場合はmecab-python3)
-拡張辞書(これを入れると最新の固有名詞に対応できる)
--mecab-ipadic-neologed
以上は下のサイトに詳細があるのでそちらを参照
https://qiita.com/elm200/items/2c2aa2093e670036bb30
mecab
安倍晋三首相
と入力して
安倍晋三首相 名詞,固有名詞,一般,*,*,*,安倍晋三,アベシン...
EOS
と出力されればmecabと拡張辞書がインストールされたことになる
*Pythonで使う場合 [#kcb29c3f]
import MeCab
from yomogi.normalize_neologd import *
辞書を設定
tagger = MeCab.Tagger("mecabrc") #他には-Ochasen等あるが...
日本語を解析する場合, 以下の一文を入れないとノイズが入る
tagger.parse("")
実際に形態素解析を行う
tagger.parse("今日もしないとね")
出力例
今日 キョウ 今日 名詞-副詞可能
も モ も 助詞-係助詞
し シ する 動詞-自立 サ変・スル 未然形
ない ナイ ない 助動詞 特殊・ナイ 基本形
と ト と 助詞-接続助詞
ね ネ ね 助詞-終助詞
EOS
*高度な形態素解析 [#kcad540b]
[[こちら>https://github.com/pomcho555/Yomogi]]にmecabをよ...
ソースファイルをgithub経由でダウンロード
git clone https://github.com/pomcho555/Yomogi.git
インストールしたディレクトリに移動
cd <installed directory>
Pythonのパッケージマネージャーpipにモジュールをインストール
pip install -e .
***使い方 [#i466b88d]
よもぎをimport
import yomogi
文章のリストを作成
text = ['よもぎの若葉を干しておいたのちに煎じて飲むと、...
特定の品詞を抽出してそのリストをもらう(前処理付き)
word_list = yomogi.extract(text, '名詞')
***山元君用テキスト可視化手法 [#he515de7]
前処理にすべてword2vecを用います
以下記事の使っているテキストデータは山元くんのものに置き...
- [[様々な可視化>https://qiita.com/naotaka1128/items/e617...
- [[ワードクラウド>https://medium.com/ml2vec/using-word2v...
**おまけ [#p4655f37]
遅くてもとりあえず分かち書きを含む言語処理を手軽にしたい...
http://mocobeta.github.io/janome/
** 分散表現モデルの作り方 [#tb1843ab]
ネットでダウンロードしたTXTファイルと保存先のディレクトリ...
# load word embedding
model_dir = './data/glove.840B.300d.txt'
gensim_model_dir = './gensim_vectors.txt'
import pandas as pd
import numpy as np
# 単語ラベルをインデックスにしてDataFrameで読み込む
vectors = pd.read_csv(model_dir, delimiter=' ', index_co...
from gensim.models import KeyedVectors
model = KeyedVectors.load_word2vec_format(gensim_model_...
model.save("./glove.840B.300d.model")
del model
model = KeyedVectors.load("./glove.840B.300d.model", mma...
#word2vec.Word2Vec.load("./wiki.model")
words = model.wv.vocab
word_to_ix = {}
ix_to_word = []
ix = 0
for word in words:
word_to_ix[word] = ix
ix+=1
終了行:
[[小野田]]
ここでは主にテキストマイニングの環境構築について述べる
言語はPythonを想定する
OSはwindowsだと文字コードの問題が発生するのでOSXもしくはL...
*必要なツール,モジュールリスト [#kdc9920c]
-形態素解析ツール
--MeCab
-MeCabをPythonで使用するためのラッパー
--mecab-python(python3.x系の場合はmecab-python3)
-拡張辞書(これを入れると最新の固有名詞に対応できる)
--mecab-ipadic-neologed
以上は下のサイトに詳細があるのでそちらを参照
https://qiita.com/elm200/items/2c2aa2093e670036bb30
mecab
安倍晋三首相
と入力して
安倍晋三首相 名詞,固有名詞,一般,*,*,*,安倍晋三,アベシン...
EOS
と出力されればmecabと拡張辞書がインストールされたことになる
*Pythonで使う場合 [#kcb29c3f]
import MeCab
from yomogi.normalize_neologd import *
辞書を設定
tagger = MeCab.Tagger("mecabrc") #他には-Ochasen等あるが...
日本語を解析する場合, 以下の一文を入れないとノイズが入る
tagger.parse("")
実際に形態素解析を行う
tagger.parse("今日もしないとね")
出力例
今日 キョウ 今日 名詞-副詞可能
も モ も 助詞-係助詞
し シ する 動詞-自立 サ変・スル 未然形
ない ナイ ない 助動詞 特殊・ナイ 基本形
と ト と 助詞-接続助詞
ね ネ ね 助詞-終助詞
EOS
*高度な形態素解析 [#kcad540b]
[[こちら>https://github.com/pomcho555/Yomogi]]にmecabをよ...
ソースファイルをgithub経由でダウンロード
git clone https://github.com/pomcho555/Yomogi.git
インストールしたディレクトリに移動
cd <installed directory>
Pythonのパッケージマネージャーpipにモジュールをインストール
pip install -e .
***使い方 [#i466b88d]
よもぎをimport
import yomogi
文章のリストを作成
text = ['よもぎの若葉を干しておいたのちに煎じて飲むと、...
特定の品詞を抽出してそのリストをもらう(前処理付き)
word_list = yomogi.extract(text, '名詞')
***山元君用テキスト可視化手法 [#he515de7]
前処理にすべてword2vecを用います
以下記事の使っているテキストデータは山元くんのものに置き...
- [[様々な可視化>https://qiita.com/naotaka1128/items/e617...
- [[ワードクラウド>https://medium.com/ml2vec/using-word2v...
**おまけ [#p4655f37]
遅くてもとりあえず分かち書きを含む言語処理を手軽にしたい...
http://mocobeta.github.io/janome/
** 分散表現モデルの作り方 [#tb1843ab]
ネットでダウンロードしたTXTファイルと保存先のディレクトリ...
# load word embedding
model_dir = './data/glove.840B.300d.txt'
gensim_model_dir = './gensim_vectors.txt'
import pandas as pd
import numpy as np
# 単語ラベルをインデックスにしてDataFrameで読み込む
vectors = pd.read_csv(model_dir, delimiter=' ', index_co...
from gensim.models import KeyedVectors
model = KeyedVectors.load_word2vec_format(gensim_model_...
model.save("./glove.840B.300d.model")
del model
model = KeyedVectors.load("./glove.840B.300d.model", mma...
#word2vec.Word2Vec.load("./wiki.model")
words = model.wv.vocab
word_to_ix = {}
ix_to_word = []
ix = 0
for word in words:
word_to_ix[word] = ix
ix+=1
ページ名: