#author("2020-03-27T01:41:07+00:00","","")
[[渡辺]]
#author("2020-09-07T13:05:22+00:00","","")


(2020/3/27 続きです:https://hackmd.io/@watanabe88/program_yamamoto )

環境: win, py3

(基本的に山元さんの環境に合わせて進めていく。)
~
~
ディレクトリを作成(今回は"sample"という名前)、~
drive 3つダウンロード、入れる
#ref(get333.py);
#ref(index_main.html);
#ref(KeyWords.ipynb);
~

今回は、windows powershellで進めた。

 python get333.py
~

使用するchromeのバージョンをそろえる必要があるので、以下インストール

 pip install selenium


 pip install chromedriver-binary==78.0.3904.105

(参考:[[ [selenium向け] ChromeDriverをpipでインストールする方法>https://qiita.com/hanzawak/items/2ab4d2a333d6be6ac760]] )


"link", "title"というファイルが作成される

link: 検索結果のURLのリスト
#ref(link.PNG);
~
title:検索ページのタイトルのリスト 
#ref(title.PNG);


~
Anacondaから、jupyer notebook を用いて作業を行う。

([[Windowsに「Jupyter Notebook」をインストールして手軽にPythonを使い始める方法>https://qiita.com/hiro0217/items/b15799cd2760c7864636]])

~

chromeで開くと、「メモリ不足で開けません」と表示される。今回はedgeで起動し作業を進める。 

~

KeyWords.ipynb を開く。
~
#ref(jupyter.PNG,,70%);

上のセルから順に実行していく(選択し、Shift+Enter)

~
途中でエラーが発生する毎に処理が必要(必要なプログラムがインストールされていない(mecab,janome等)、ファイルのパスが異なるなど) 
~
~
*** 実行結果 [#qd54fe0d]
~
・形態素解析
#ref(keitaisokaiseki.PNG)
~
#ref(gazou1.png,,30%);
~
#ref(gazou2.png);
~
~
~
~
~
~

*** 3Dネットワーク図を表示 [#q4e1fdb5]

以下をダウンロード、同ディレクトリに入れる
#ref(KeyWords.ipynb);
#ref(three.js);
#ref(three-spritetext.js);
#ref(get333.py);
#ref(index_main.html);
#ref(system-Copy5.ipynb);
~

jupyerで KeyWords.ipynb を開く、実行(>>)~

miserables.js(隣接行列のデータを3Dネットワーク図に使えるようにしたもの)が作成されていることを確認する~

以下をダウンロード、解凍
#ref(3d-force-graph-master-20200115T023432Z-001.zip);
~

3d-force-graph-master/example/text-nodes の中にある miserables.js を、先ほど作成されたものに置き換える。
~
~
同ファイル内にある index.html をjupyerで開くと、次のような3Dネットワーク図が表示される。
(線の太さがワードの関連度weight、線上を流れる点が向き)


#ref(gazou3.PNG,,50%);

~
~
(最長距離を求める)
~
参考
~
([[大自然言語時代のための、文章要約>https://qiita.com/icoxfog417/items/d06651db10e27220c819]])

・「最短経路問題」がメジャー。

それを工夫して最長を求める方向。

~
~
~
~
~
~


トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS