スクレイピング・自然言語処理・3Dグラフ
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
]
開始行:
[[技術資料]]
*目次 [#e890b3d5]
#CONTENTS
**【このページでできること】 [共通][#i495c384]
山元さんの卒論の再現と平松の卒論の一部
山元さんのは、キーワードを2つ入力してWebから共起ネットワ...
平松のは、キーワードを2つ入力してWebとTwitterから共起ネッ...
両者似たプログラムになっているので、事前準備など被る項目...
山元のものには[山本]、平松のものには[平松]と書いてある
**【参考資料】[共通][#n524e1f0]
[[山元]]~
Twitter APIの記事:https://www.itti.jp/web-direction/how-...
**【実行環境】[共通][#rde624e4]
・python 64bit版~
・python3.7.6~
python3.7の入れ方:https://www.kkaneko.jp/tools/win/pytho...
pythonバージョンの切り替え方:https://gammasoft.jp/python...
**【ダウンロードするもの】[共通] [#udebb2c6]
3D_Graph.zipが山元、3D_GraphEX.zipが平松
#ref(3D_Graph.zip)
#ref(3D_GraphEX_ver2.0.zip)
//#ref(requirement.txt)
//anconda入れてない人はこっち
//#ref(requirements.txt)
google driveの学生→09平松の場所にあるneologd.zip
**【使い方】[共通] [#q403d9b3]
***ファイルの説明 [共通][#yd049dee]
とりあえず、ダウンロードした3D_Graph.zipを解凍する。~
解凍した中身の3D_Graphを開く。※_MACOSXの方は使わない
#ref(1.PNG,,40%)
・Server.py~
サーバーを立てるメインのpythonプログラム
・matomeall.py~
Server.pyとセットのプログラム。単体では動かない
・system.html~
Server.pyを実行した後に開き、キーワード入力、3Dグラフを表...
・miserables.json~
スクレイピングして形態素分析した後のデータが記録されるフ...
・その他~
特に触る必要はない
***pythonのpip install[共通] [#u92c2494]
vscodeなどを使って3D_Graphのフォルダに入っているServer.py...
そうすると足りていないpipを要求されるのでその都度
pip install 〇〇
と入力しpipを入れる
同じことをmatomeall.pyも行う
//anaconda promptかcommand promptで以下のコマンドのディレ...
//pip install -r C:\Users\hiram\Desktop\requirement.txt
//anaconda入れてない人はこっち
// pip install -r C:\Users\hiram\Desktop\requirements.txt
//※ERROR Could not find a version that satisfies the re...
インストールするモジュールの中にはただpip install 〇〇と...
例えば、chromedriverがそうで~
https://qiita.com/hanzawak/items/2ab4d2a333d6be6ac760~
を参考にするとできる
また、MeCabもそうで、pipとは別に本体をダウンロード&インス...
https://qiita.com/menon/items/f041b7c46543f38f78f7~
を参考にしてインストールする~
※上記リンク先のanacondaのインストールはスキップ
※python3.8の場合、上記リンクのpip install mecab-python-wi...
[失敗備忘録]~
requirements.txtでpipを一括でインストールする際anaconda環...
**【MeCabの辞書】 [共通][#y7fc7a18]
MeCabは形態素分析を行うモジュールで、その形態素分析を行う...
デフォルトの辞書では例えば「進撃の巨人」という言葉を見て...
これはデフォルトの辞書には進撃の巨人という名詞が存在して...
そこで、NEologdという新しい辞書を追加する
***Neologdの追加 [共通] [#t9fb746d]
Neologdの追加の仕方は、~
https://qiita.com/zincjp/items/c61c441426b9482b5a48
を参考にする
~基本このwikiを見て進めれば大丈夫で詳しくは上記URL参照
googledriveからダウンロードしたneologd.zipの中身のmecab-i...
#ref(2.PNG,,40%)
neologd.zipの中身のmecab-ipadic-neologdをdicのフォルダに...
ipadicの中身を全部コピーしたフォルダipadic-UTF8と中身のな...
管理者権限でコマンドプロンプトを起動し,ipadic-UTF8のディ...
cd "c:\Program Files\MeCab\dic\ipadic-UTF8"
mecab-dict-index -f utf-8 -t utf-8
#ref(3.PNG,,40%)
Neologdの辞書をコンパイルする
cd "c:\Program Files\MeCab\dic\mecab-ipadic-neologd\seed"
mecab-dict-index -d "c:\Program Files\MeCab\dic\ipadic-U...
#ref(4.PNG,,40%)
mecab-ipadic-neologdのフォルダに作られたNEologd.20200820-...
コマンドプロンプトの作業は終わり
Program Files>MeCab>etcの中にあるmecabrcをメモ帳で開き,u...
userdic = C:\Program Files\MeCab\dic\neologd\NEologd.202...
#ref(5.PNG,,40%)
保存しようとすると権限がないといわれるので一旦どこか適当...
これで形態素分析ができるようになる
一応ちゃんとneologdが導入されているか確かめるテストプログ...
以下のプログラムで画像のような結果が出れば成功.~
進撃の巨人が名詞として認識されていなかったら導入できてい...
#ref(teest.py)
#ref(6.PNG,,40%)
**【コードの個人で書き換える箇所】 [共通] [#u6c63b64]
***ディレクトリの書き換え [山元] [#dbac3a9e]
matomeall.pyとserver.pyに書いてあるmiserables.jsonなどのp...
※普通にアドレスのコピーをするとバックスラッシュになるので...
#ref(7.PNG,,60%)
***TwitterAPIのKey [平松] [#dbac3a9e]
TwitterAPIのアクセスキーなどが現状のままだと平松のになっ...
#ref(チャ.PNG,,60%)
**【実行】 [共通][#t31e1da4]
*** 山元の実行の仕方と結果[山元][#l7872aa1]
server.pyを起動したあと,system.htmlを起動して好きなキー...
※Windowsでやる場合おそらくssl証明書関連のErrorが出ると思...
ノートパソコンなどで実行するとスクレイピングと形態素分析...
また、python 32bit版を使っているとスクレイピングしてきた...
富山県立大学と高齢者のキーワードで作った例
#ref(キャャ.PNG,,40%)
*** 平松の実行の仕方と結果[平松] [#p5653235]
Server.pyを実行するとhtmlが自動的に表示される※現在のver2....
開かれたhtmlに2つキーワードを入力することで共起ネットワー...
#ref(ャ.PNG,,40%)
#ref(キ.PNG,,25%)
**【エラーの対処】[共通][#rde624e4]
・MaxRetryError: HTTPSConnectionPool~
下記のページのopensslをインストールして環境変数を通すとこ...
https://www.atmarkit.co.jp/ait/articles/1601/29/news043.h...
・NetworkXError ~
matomeall.pyのranking関数の
class_group = driver.find_elements_by_class_name('rc')
のrcの部分がgoogleの気まぐれで変わることがあるのでchrome...
#ref(6.png,,40%)
終了行:
[[技術資料]]
*目次 [#e890b3d5]
#CONTENTS
**【このページでできること】 [共通][#i495c384]
山元さんの卒論の再現と平松の卒論の一部
山元さんのは、キーワードを2つ入力してWebから共起ネットワ...
平松のは、キーワードを2つ入力してWebとTwitterから共起ネッ...
両者似たプログラムになっているので、事前準備など被る項目...
山元のものには[山本]、平松のものには[平松]と書いてある
**【参考資料】[共通][#n524e1f0]
[[山元]]~
Twitter APIの記事:https://www.itti.jp/web-direction/how-...
**【実行環境】[共通][#rde624e4]
・python 64bit版~
・python3.7.6~
python3.7の入れ方:https://www.kkaneko.jp/tools/win/pytho...
pythonバージョンの切り替え方:https://gammasoft.jp/python...
**【ダウンロードするもの】[共通] [#udebb2c6]
3D_Graph.zipが山元、3D_GraphEX.zipが平松
#ref(3D_Graph.zip)
#ref(3D_GraphEX_ver2.0.zip)
//#ref(requirement.txt)
//anconda入れてない人はこっち
//#ref(requirements.txt)
google driveの学生→09平松の場所にあるneologd.zip
**【使い方】[共通] [#q403d9b3]
***ファイルの説明 [共通][#yd049dee]
とりあえず、ダウンロードした3D_Graph.zipを解凍する。~
解凍した中身の3D_Graphを開く。※_MACOSXの方は使わない
#ref(1.PNG,,40%)
・Server.py~
サーバーを立てるメインのpythonプログラム
・matomeall.py~
Server.pyとセットのプログラム。単体では動かない
・system.html~
Server.pyを実行した後に開き、キーワード入力、3Dグラフを表...
・miserables.json~
スクレイピングして形態素分析した後のデータが記録されるフ...
・その他~
特に触る必要はない
***pythonのpip install[共通] [#u92c2494]
vscodeなどを使って3D_Graphのフォルダに入っているServer.py...
そうすると足りていないpipを要求されるのでその都度
pip install 〇〇
と入力しpipを入れる
同じことをmatomeall.pyも行う
//anaconda promptかcommand promptで以下のコマンドのディレ...
//pip install -r C:\Users\hiram\Desktop\requirement.txt
//anaconda入れてない人はこっち
// pip install -r C:\Users\hiram\Desktop\requirements.txt
//※ERROR Could not find a version that satisfies the re...
インストールするモジュールの中にはただpip install 〇〇と...
例えば、chromedriverがそうで~
https://qiita.com/hanzawak/items/2ab4d2a333d6be6ac760~
を参考にするとできる
また、MeCabもそうで、pipとは別に本体をダウンロード&インス...
https://qiita.com/menon/items/f041b7c46543f38f78f7~
を参考にしてインストールする~
※上記リンク先のanacondaのインストールはスキップ
※python3.8の場合、上記リンクのpip install mecab-python-wi...
[失敗備忘録]~
requirements.txtでpipを一括でインストールする際anaconda環...
**【MeCabの辞書】 [共通][#y7fc7a18]
MeCabは形態素分析を行うモジュールで、その形態素分析を行う...
デフォルトの辞書では例えば「進撃の巨人」という言葉を見て...
これはデフォルトの辞書には進撃の巨人という名詞が存在して...
そこで、NEologdという新しい辞書を追加する
***Neologdの追加 [共通] [#t9fb746d]
Neologdの追加の仕方は、~
https://qiita.com/zincjp/items/c61c441426b9482b5a48
を参考にする
~基本このwikiを見て進めれば大丈夫で詳しくは上記URL参照
googledriveからダウンロードしたneologd.zipの中身のmecab-i...
#ref(2.PNG,,40%)
neologd.zipの中身のmecab-ipadic-neologdをdicのフォルダに...
ipadicの中身を全部コピーしたフォルダipadic-UTF8と中身のな...
管理者権限でコマンドプロンプトを起動し,ipadic-UTF8のディ...
cd "c:\Program Files\MeCab\dic\ipadic-UTF8"
mecab-dict-index -f utf-8 -t utf-8
#ref(3.PNG,,40%)
Neologdの辞書をコンパイルする
cd "c:\Program Files\MeCab\dic\mecab-ipadic-neologd\seed"
mecab-dict-index -d "c:\Program Files\MeCab\dic\ipadic-U...
#ref(4.PNG,,40%)
mecab-ipadic-neologdのフォルダに作られたNEologd.20200820-...
コマンドプロンプトの作業は終わり
Program Files>MeCab>etcの中にあるmecabrcをメモ帳で開き,u...
userdic = C:\Program Files\MeCab\dic\neologd\NEologd.202...
#ref(5.PNG,,40%)
保存しようとすると権限がないといわれるので一旦どこか適当...
これで形態素分析ができるようになる
一応ちゃんとneologdが導入されているか確かめるテストプログ...
以下のプログラムで画像のような結果が出れば成功.~
進撃の巨人が名詞として認識されていなかったら導入できてい...
#ref(teest.py)
#ref(6.PNG,,40%)
**【コードの個人で書き換える箇所】 [共通] [#u6c63b64]
***ディレクトリの書き換え [山元] [#dbac3a9e]
matomeall.pyとserver.pyに書いてあるmiserables.jsonなどのp...
※普通にアドレスのコピーをするとバックスラッシュになるので...
#ref(7.PNG,,60%)
***TwitterAPIのKey [平松] [#dbac3a9e]
TwitterAPIのアクセスキーなどが現状のままだと平松のになっ...
#ref(チャ.PNG,,60%)
**【実行】 [共通][#t31e1da4]
*** 山元の実行の仕方と結果[山元][#l7872aa1]
server.pyを起動したあと,system.htmlを起動して好きなキー...
※Windowsでやる場合おそらくssl証明書関連のErrorが出ると思...
ノートパソコンなどで実行するとスクレイピングと形態素分析...
また、python 32bit版を使っているとスクレイピングしてきた...
富山県立大学と高齢者のキーワードで作った例
#ref(キャャ.PNG,,40%)
*** 平松の実行の仕方と結果[平松] [#p5653235]
Server.pyを実行するとhtmlが自動的に表示される※現在のver2....
開かれたhtmlに2つキーワードを入力することで共起ネットワー...
#ref(ャ.PNG,,40%)
#ref(キ.PNG,,25%)
**【エラーの対処】[共通][#rde624e4]
・MaxRetryError: HTTPSConnectionPool~
下記のページのopensslをインストールして環境変数を通すとこ...
https://www.atmarkit.co.jp/ait/articles/1601/29/news043.h...
・NetworkXError ~
matomeall.pyのranking関数の
class_group = driver.find_elements_by_class_name('rc')
のrcの部分がgoogleの気まぐれで変わることがあるのでchrome...
#ref(6.png,,40%)
ページ名: