小野田?
ubuntuの環境で行う
※GTX1080tiより上のパソコンで小野田のプログラムを動かす場合はpytorchを0.4.1にしなければならない
また、平松のGdriveに保存しておく
以下の小野田の引き継ぎを行う場合は、cudaのバージョンを10.0にすること
また、それに対応するnvidiaドライバーとcudnnのバージョンを選択すること
各自のインストール方法はGPGPUを参考にすること
git hub cloneのインストールを行う
上記リンクに移動し、右の緑色のタブのclone or downloadを開きリンクをコピーする.
$ git clone https://github.com/pomcho555/Patent-VAE
terminalで上記のものを打ち込む※git clone [コピーしたリンク]
condaの環境を新しく作る
$ conda create -n vae python=3.6
※vaeが自分で決めた名前
activateでpythonの仮想環境に入る
$ conda activate vae
また、一度にインストールできないものを手動で入れる
$ pip install spacy
$ python -m spacy download en_core_web_sm
$ pip install git+https://github.com/tagucci/pythonrouge.git
$ pip install git+git://github.com/bdusell/rougescore.git
pipのインストールをまとめて行う
$ pip install -r requirements.txt
ターミナルの作業はディレクトリはPatent-VAEで行う
$ python train_patent.py -ls 2 -rnn rnn -ep 2
※-ls 2は次元数を指定するオプションで今回は2
※-rnn リカレントニューラルネットワークを指定するオプションで今回はrnn
※-ep 1はエポック数で何回繰り返し学習を行うかのオプションで今回は2
詳しくは小野田の論文参照
apiの起動に使うので覚えておく(bin/~~~のようなもの)
Gdriveの小野田さんのフォルダを開き、学習済みデータのactual.pytorchとdata.tar.xzをダウンロードし、Patent-VAEのフォルダに移動する。
※もし自分で学習したい場合はdump.tar.xzをrestoreすることでmongoDBにて特許3万件分のデータが利用できるので、それを使う
api(python server)の起動方法
$ cd Patent_VAE
$ cd api
$ python api.py -z [圧縮したい次元数(今回は2)] -c [保存したモデルのファイル名(今回はactual.pytorch)]
これでapiサーバーがたつ。
サーバーなのでhtmlのリクエスト内容などが表示される
http://[serverのipアドレス]:5000/でcurlでテストを行う
$curl 127.0.0.1:5000/create/2/2
※curlとはデータの転送を行うコマンド ※/2/2は任意のx座標とy座標のこと
また、index.htmの下記の画像のAPIの部分を自分のIPアドレスに変更する
Patent-VAE→app→index.htmからWebページを開き、ヒートマップの任意の座標をクリックすると、自動生成された文章を見ることができる