渡辺?
(2020/3/27 続きです:https://hackmd.io/@watanabe88/program_yamamoto )
環境: win, py3
(基本的に山元さんの環境に合わせて進めていく。)
ディレクトリを作成(今回は"sample"という名前)、
drive 3つダウンロード、入れる
今回は、windows powershellで進めた。
python get333.py
使用するchromeのバージョンをそろえる必要があるので、以下インストール
pip install selenium
pip install chromedriver-binary==78.0.3904.105
(参考: [selenium向け] ChromeDriverをpipでインストールする方法 )
"link", "title"というファイルが作成される
link: 検索結果のURLのリスト
title:検索ページのタイトルのリスト
Anacondaから、jupyer notebook を用いて作業を行う。
(Windowsに「Jupyter Notebook」をインストールして手軽にPythonを使い始める方法)
chromeで開くと、「メモリ不足で開けません」と表示される。今回はedgeで起動し作業を進める。
KeyWords.ipynb を開く。
上のセルから順に実行していく(選択し、Shift+Enter)
途中でエラーが発生する毎に処理が必要(必要なプログラムがインストールされていない(mecab,janome等)、ファイルのパスが異なるなど)
・形態素解析
以下をダウンロード、同ディレクトリに入れる
jupyerで KeyWords.ipynb を開く、実行(>>)
miserables.js(隣接行列のデータを3Dネットワーク図に使えるようにしたもの)が作成されていることを確認する
以下をダウンロード、解凍
3d-force-graph-master/example/text-nodes の中にある miserables.js を、先ほど作成されたものに置き換える。
同ファイル内にある index.html をjupyerで開くと、次のような3Dネットワーク図が表示される。
(線の太さがワードの関連度weight、線上を流れる点が向き)
(最長距離を求める)
参考
(大自然言語時代のための、文章要約)
・「最短経路問題」がメジャー。
それを工夫して最長を求める方向。