武藤?

Python関連 

R言語関連 ←KEGG pathway(KGML)の解析用 

Jupyter Notebook関連 

Beamer用TeXコマンド 

研究室関係 

Blockly関係 





Jupyterを使ったWEBテキストマイニング 

WEBサイトの検索結果に出てくるサイトから文章をスクレイピング+自然言語処理(形態素解析)し、3Dグラフを作る

以下の手順に従って進めていく 

1.添付フォルダのダウンロード 

#ref(): File not found: "neologd.zip" at page "技術メモ"

フォルダ内のファイルについて

2.pythonからjupyterインストール 

(anacondaを使ってる場合はanacondaから開く)

3.Webスクレイピング 

1.jupyterの画面でディレクトリをたどって、web_tmining3dg.ipynbを開く 

3DGraph-pre.png

jupyterについて 

基本はプログラムを一つずつ実行していく感じだが 

実行前にやること、実行時のエラー対応+プログラムの補足説明を載せているので、その都度確認する 


2. 1番目のプログラム実行時 

何かのモジュールがないと出るたびにpipで入れていく

3. 3つ目のプログラムを実行する前 

配布フォルダ中のcsvを編集する

3DGraph0.png

4. 4つ目のプログラム(スクレイピング)実行時 


◎4行目について


3DGraph2.png


5. 5つ目のプログラム 

保存したリンク先のWebサイトに飛び,文章をスクレイピングする
→最終的に1つのテキストファイルに文章は保存される

この後もファイルの保存・呼び出しで、パスを指定する箇所がいくつかあるが 

1番下のファイル名は変えず、C:からWebsc3Dまでを自分のものに変更していく 


4.形態素解析、共起頻度計算 

形態素解析:文章を意味のある最小単位の単語(形態素)に分解して分析する(自然言語処理の一種)

6. 8つ目のプログラム実行前1~ 

3DGraph3-1.png


新規でmecab.exeがあるパスを追加する

C:\Program Files\MeCab\bin\


3DGraph3.png



インストールしたMecabには古い辞書しか入っていないので、NEologdという新しい辞書を追加する


例えば、単語'あ'の次に'う'が来ているので隣接行列の'あ'行'う'列の要素に+1される
(文章中の単語'あ'から'う'が1回共起されたとみなす)

5.Jupyterで3Dグラフを開く 


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS