このサイトはスクレイピング・自然言語処理・3Dグラフをもとに作成しています。
#ref(): File not found: "Websc3D.zip" at page "Jupyter notebook による検索から3Dグラフ構築"
#ref(): File not found: "neologd.zip" at page "Jupyter notebook による検索から3Dグラフ構築"
フォルダ内のファイルについて
(anacondaを使ってる場合はanacondaから開く)
python -V
pip install jupyter environment_kernels
jupyter notebook
!--入れるもの scipy requests_oauthlib スクレイピング用 selenium chromedriver_binary bs4 lxml 自然言語処理用 emoji nltk MeCab 3Dグラフ用 networkx Server.py起動用 flask flask_cors-->
pip install ~
配布フォルダ中のcsvを編集する
rd = pd.read_csv(C:/Users/iiela/Desktop/keywords.csv', encoding="shift-jis")
selenium.common.exceptions.SessionNotCreatedException: Message: session not created: This version of ChromeDriver only supports Chrome version 88 Current browser version is 92.0.4515.131 with binary path C:\Program Files (x86)\Google\Chrome\Application\chrome.exe言われているバージョンをpip install(ver.88→ver.92へ)
pip install chromedriver-binary==92.0.4515.131おそらく赤字でエラーが出る
ERROR: Could not find a version that satisfies the requirement chromedriver-binary==92.0.4515.131 (from versions: ~~~, 91.0.4472.101.0, 92.0.4515.43.0, 92.0.4515.107.0, 93.0.4577.15.0) ERROR: No matching distribution found for chromedriver-binary==92.0.4515.131バージョンが列記されると思うので一番近いバージョンをインストール
pip install chromedriver-binary==92.0.4515.107.0
pip install chromedriver-binary==92.0.4515.107.0
◎4行目について
保存したリンク先のWebサイトに飛び,文章をスクレイピングする
→最終的に1つのテキストファイルに文章は保存される
形態素解析:文章を意味のある最小単位の単語(形態素)に分解して分析する(自然言語処理の一種)
https://github.com/ikegami-yukino/mecab/releases/tag/v0.996
新規でmecab.exeがあるパスを追加する
C:\Program Files\MeCab\bin\
import sys
import MeCab
m = MeCab.Tagger ("-Ochasen")
print(m.parse ("東京特許許可局"))
#8でやっていること:文章から不必要な文字列を除去し,Mecabの辞書に基づいて単語単位に分割する
インストールしたMecabには古い辞書しか入っていないので、NEologdという新しい辞書を追加する
; userdic = /home/foo/bar/user.dic userdic = C:\Program Files\MeCab\dic\neologd\NEologd.20200820-u.dic
右クリックでmecabrcのプロパティを開き、Usersの「書き込み」にチェックを入れる
隣接行列を生成(まだ要素は0のまま)
共起頻度を計算する
例えば、単語'あ'の次に'う'が来ているので隣接行列の'あ'行'う'列の要素に+1される
(文章中の単語'あ'から'う'が1回共起されたとみなす)
今pandasのデータフレーム型になっている隣接行列をpythonの辞書型に変換する
→この辞書を参考に3Dグラフが作られる
BackgroundBrowser()の中にはchrome.exeが保存されているパスを指定する (windows画面左下でchrome.exeを検索する)