技術メモ

このサイトはスクレイピング・自然言語処理・3Dグラフをもとに作成しています。

行うこと 

キーワード 

前準備 

(1)添付フォルダのダウンロード 

#ref(): File not found: "Websc3D.zip" at page "Jupyter notebook による検索から3Dグラフ構築"

#ref(): File not found: "neologd.zip" at page "Jupyter notebook による検索から3Dグラフ構築"

フォルダ内のファイルについて

(2)pythonからjupyterインストール 

(anacondaを使ってる場合はanacondaから開く)

(3)プログラム編集ページの起動 

1.起動後のホーム画面からDLしたフォルダをたどって、web_tmining3dg.ipynbを開く 

3DGraph-pre.png

プログラム実行手順 

操作方法と注意事項 

!--入れるもの scipy requests_oauthlib スクレイピング用 selenium chromedriver_binary bs4 lxml 自然言語処理用 emoji nltk MeCab 3Dグラフ用 networkx Server.py起動用 flask flask_cors-->

#1 実行時 

3. 3つ目のプログラムを実行する前 

配布フォルダ中のcsvを編集する

3DGraph0.png

4. 4つ目のプログラム(スクレイピング)実行時 


◎4行目について


3DGraph2.png


5. 5つ目のプログラム 

保存したリンク先のWebサイトに飛び,文章をスクレイピングする
→最終的に1つのテキストファイルに文章は保存される

この後もファイルの保存・呼び出しで、パスを指定する箇所がいくつかあるが 

1番下のファイル名は変えず、C:からWebsc3Dまでを自分のものに変更していく 


(4)形態素解析、共起頻度計算 

形態素解析:文章を意味のある最小単位の単語(形態素)に分解して分析する(自然言語処理の一種)

6. 8つ目のプログラム実行前1~ 

3DGraph3-1.png


新規でmecab.exeがあるパスを追加する

C:\Program Files\MeCab\bin\


3DGraph3.png


7. 8番目のプログラム実行前2→辞書の更新~ 

#8でやっていること:文章から不必要な文字列を除去し,Mecabの辞書に基づいて単語単位に分割する


インストールしたMecabには古い辞書しか入っていないので、NEologdという新しい辞書を追加する


8. mecabrcを上書き保存する際、アクセス許可がないという旨のエラーが出るとき 

右クリックでmecabrcのプロパティを開き、Usersの「書き込み」にチェックを入れる

3DGraph4-1.png

12番目のプログラムの補足~ 

隣接行列を生成(まだ要素は0のまま)

13番目の補足 

共起頻度を計算する

例えば、単語'あ'の次に'う'が来ているので隣接行列の'あ'行'う'列の要素に+1される
(文章中の単語'あ'から'う'が1回共起されたとみなす)

15番目の補足 

16番目の補足 

17番目の補足 

(5)Jupyterで3Dグラフを開く 

18番目の補足~ 

今pandasのデータフレーム型になっている隣接行列をpythonの辞書型に変換する
→この辞書を参考に3Dグラフが作られる

Internet Explorerで開かれる場合、#21_2と#21_3を使ってデフォルトで開くブラウザを変更する 

BackgroundBrowser()の中にはchrome.exeが保存されているパスを指定する
(windows画面左下でchrome.exeを検索する)

トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS