#author("2020-03-27T01:41:07+00:00","","") [[渡辺]] #author("2020-09-07T13:05:22+00:00","","") (2020/3/27 続きです:https://hackmd.io/@watanabe88/program_yamamoto ) 環境: win, py3 (基本的に山元さんの環境に合わせて進めていく。) ~ ~ ディレクトリを作成(今回は"sample"という名前)、~ drive 3つダウンロード、入れる #ref(get333.py); #ref(index_main.html); #ref(KeyWords.ipynb); ~ 今回は、windows powershellで進めた。 python get333.py ~ 使用するchromeのバージョンをそろえる必要があるので、以下インストール pip install selenium pip install chromedriver-binary==78.0.3904.105 (参考:[[ [selenium向け] ChromeDriverをpipでインストールする方法>https://qiita.com/hanzawak/items/2ab4d2a333d6be6ac760]] ) "link", "title"というファイルが作成される link: 検索結果のURLのリスト #ref(link.PNG); ~ title:検索ページのタイトルのリスト #ref(title.PNG); ~ Anacondaから、jupyer notebook を用いて作業を行う。 ([[Windowsに「Jupyter Notebook」をインストールして手軽にPythonを使い始める方法>https://qiita.com/hiro0217/items/b15799cd2760c7864636]]) ~ chromeで開くと、「メモリ不足で開けません」と表示される。今回はedgeで起動し作業を進める。 ~ KeyWords.ipynb を開く。 ~ #ref(jupyter.PNG,,70%); 上のセルから順に実行していく(選択し、Shift+Enter) ~ 途中でエラーが発生する毎に処理が必要(必要なプログラムがインストールされていない(mecab,janome等)、ファイルのパスが異なるなど) ~ ~ *** 実行結果 [#qd54fe0d] ~ ・形態素解析 #ref(keitaisokaiseki.PNG) ~ #ref(gazou1.png,,30%); ~ #ref(gazou2.png); ~ ~ ~ ~ ~ ~ *** 3Dネットワーク図を表示 [#q4e1fdb5] 以下をダウンロード、同ディレクトリに入れる #ref(KeyWords.ipynb); #ref(three.js); #ref(three-spritetext.js); #ref(get333.py); #ref(index_main.html); #ref(system-Copy5.ipynb); ~ jupyerで KeyWords.ipynb を開く、実行(>>)~ miserables.js(隣接行列のデータを3Dネットワーク図に使えるようにしたもの)が作成されていることを確認する~ 以下をダウンロード、解凍 #ref(3d-force-graph-master-20200115T023432Z-001.zip); ~ 3d-force-graph-master/example/text-nodes の中にある miserables.js を、先ほど作成されたものに置き換える。 ~ ~ 同ファイル内にある index.html をjupyerで開くと、次のような3Dネットワーク図が表示される。 (線の太さがワードの関連度weight、線上を流れる点が向き) #ref(gazou3.PNG,,50%); ~ ~ (最長距離を求める) ~ 参考 ~ ([[大自然言語時代のための、文章要約>https://qiita.com/icoxfog417/items/d06651db10e27220c819]]) ・「最短経路問題」がメジャー。 それを工夫して最長を求める方向。 ~ ~ ~ ~ ~ ~