武藤?

Python関連 

R言語関連 ←KEGG pathway(KGML)の解析用 

Jupyter Notebook関連 

TeX関連 

研究室関係 

Blockly関係 





Jupyterを使ったWEBテキストマイニング 

WEBサイトの検索結果に出てくるサイトから文章をスクレイピング+自然言語処理(形態素解析)し、3Dグラフを作る

以下の手順に従って進めていく 

(1)添付フォルダのダウンロード 

#ref(): File not found: "neologd.zip" at page "技術メモ"

フォルダ内のファイルについて

(2)pythonからjupyterインストール 

(anacondaを使ってる場合はanacondaから開く)

(3)Webスクレイピング 

1.jupyterの画面でディレクトリをたどって、web_tmining3dg.ipynbを開く 

3DGraph-pre.png

jupyterについて 

基本はプログラムを一つずつ実行していく感じだが 

実行前にやること、実行時のエラー対応+プログラムの補足説明を載せているので、その都度確認する 


2. 1番目のプログラム実行時 

何かのモジュールがないと出るたびにpipで入れていく

3. 3つ目のプログラムを実行する前 

配布フォルダ中のcsvを編集する

3DGraph0.png

4. 4つ目のプログラム(スクレイピング)実行時 


◎4行目について


3DGraph2.png


5. 5つ目のプログラム 

保存したリンク先のWebサイトに飛び,文章をスクレイピングする
→最終的に1つのテキストファイルに文章は保存される

この後もファイルの保存・呼び出しで、パスを指定する箇所がいくつかあるが 

1番下のファイル名は変えず、C:からWebsc3Dまでを自分のものに変更していく 


(4)形態素解析、共起頻度計算 

形態素解析:文章を意味のある最小単位の単語(形態素)に分解して分析する(自然言語処理の一種)

6. 8つ目のプログラム実行前1~ 

3DGraph3-1.png


新規でmecab.exeがあるパスを追加する

C:\Program Files\MeCab\bin\


3DGraph3.png


7. 8番目のプログラム実行前2→辞書の更新~ 

#8でやっていること:文章から不必要な文字列を除去し,Mecabの辞書に基づいて単語単位に分割する


インストールしたMecabには古い辞書しか入っていないので、NEologdという新しい辞書を追加する


8. mecabrcを上書き保存する際、アクセス許可がないという旨のエラーが出るとき 

右クリックでmecabrcのプロパティを開き、Usersの「書き込み」にチェックを入れる

3DGraph4-1.png

12番目のプログラムの補足~ 

隣接行列を生成(まだ要素は0のまま)

13番目の補足 

共起頻度を計算する

例えば、単語'あ'の次に'う'が来ているので隣接行列の'あ'行'う'列の要素に+1される
(文章中の単語'あ'から'う'が1回共起されたとみなす)

15番目の補足 

16番目の補足 

17番目の補足 

(5)Jupyterで3Dグラフを開く 

18番目の補足~ 

今pandasのデータフレーム型になっている隣接行列をpythonの辞書型に変換する
→この辞書を参考に3Dグラフが作られる

Internet Explorerで開かれる場合、#21_2と#21_3を使ってデフォルトで開くブラウザを変更する 

BackgroundBrowser()の中にはchrome.exeが保存されているパスを指定する
(windows画面左下でchrome.exeを検索する)

トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS