Web, Twitterからのテキストマイニングによる因果・知識の発見
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
]
開始行:
[[技術資料]]
*目次 [#e890b3d5]
1. 目標~
2. 必要なソフトウェアのインストール~
3. データベースの作成~
4.データベースからコーパスの作成~
5. 学習モデルの作成~
6. 学習モデルを用いた支援システムの作成~
関連:~
[[テキストマイニング入門(小野田さん)>https://www.pu-toyam...
[[スクレイピング・クローリング入門(小野田さん)>https://ww...
[[スクレイピング(沼田さん)>https://www.pu-toyama.ac.jp/...
環境: windows python3
**1. 目標 [#i67428c5]
特許データを収集して学習させることで, 新たな発明案を提案...
**2. 必要なソフトウェアのインストール [#kbde4fb5]
本実験ではGPUマシンが必要なため, Teratermを用いて研究室の...
Teratermは以下のページを参考にインストールする.
[[Teratermのインストール方法>https://eng-entrance.com/ter...
#ref(zu1.png)
画像のIPアドレスを入力.(※変更される場合があるので注意。)
#ref(zu2.png)
パスワードは渡辺に聞く.
以下を入力して、anacondaの環境の設定を進める
wget https://repo.anaconda.com/archive/Anaconda3-2019.10...
bash Anaconda3-2019.10-Linux-x86_64.sh
指示に従ってインストールしていく
ただし以下の質問はnoで答える
installation finished.
Do you wish the installer to initialize Anaconda3
by running conda init? [yes|no]
パスを反映させてanacondaを使えるようにする
source ~/.bashrc
*** 環境構築 [#jf430a92]
以下のコマンドでconda仮想環境の作成ができます。
conda create -n [仮想環境名] python=[pythonのバージョン]
平松は仮想環境y名=hikitugiemv バージョン=3.6
必要なパッケージをここからインストールする
#ref(requirements.txt);
srcディレクトリを作成、以下の3つを入れる
#ref(mongo_helper.py);
#ref(patent_crawler.py);
#ref(scp.py);
作った仮想環境を実行可能な状態にする
pip install -r requirements.txt
足りないものがあればpip install numpy cython memory-profi...
英語用形態素解析機punktをインストール(pythonコマンド上で...
分かち書き(word_tokenize)と 品詞の取得(pos_tag)~
import nltk
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
ctrl+dでpythonから抜ける
英語の言語処理用辞書をインストール
python -m spacy download en_core_web_sm
termextractをインストール(pipに対応していないため)
wget http://gensen.dl.itc.u-tokyo.ac.jp/soft/pytermextra...
zipファイルを解凍する
unzip pytermextract-0_01.zip
cd pytermextract-0_01
python setup.py install
**3. データベースの作成 [#g7469583]
今回は小野田の構築したMongoDBを利用する。接続情報は以下の...
IPアドレス:192.168.0.116~
ポート番号:27017~
自分でインストールする場合~
参考~
[[(Ubuntu 18.04 に MongoDB の最新版を apt インストールす...
まずいかの通りほしいキーワードのリストをtxtファイルで作成...
roboto
AI
IoT
time machine
MongoDBの環境ができたら、以下のコマンドを実行して、特許デ...
python patent_crawler.py ../data/wordlist.txt
実行結果は以下のとおり
#ref(output.png)
**4. データベースからコーパスの作成 [#u5fa890f]
**5. 学習モデルの作成 [#gc81f11e]
**6. 学習モデルを用いた支援システムの作成 [#z7d853e7]
~
~
~
~
~
~
~
~
~
~
~
~
(基本的に山元さんの環境に合わせて進めていく。)
~
~
ディレクトリを作成(今回は"sample"という名前)、~
drive 3つダウンロード、入れる
#ref(get333.py);
#ref(index_main.html);
#ref(KeyWords.ipynb);
~
今回は、windows powershellで進めた。
python get333.py
~
使用するchromeのバージョンをそろえる必要があるので、以下...
pip install selenium
pip install chromedriver-binary==78.0.3904.105
(参考:[[ [selenium向け] ChromeDriverをpipでインストール...
"link", "title"というファイルが作成される
link: 検索結果のURLのリスト
#ref(link.PNG);
~
title:検索ページのタイトルのリスト
#ref(title.PNG);
~
Anacondaから、jupyer notebook を用いて作業を行う。
([[Windowsに「Jupyter Notebook」をインストールして手軽に...
~
chromeで開くと、「メモリ不足で開けません」と表示される。...
~
KeyWords.ipynb を開く。
~
#ref(jupyter.PNG);
上のセルから順に実行していく(選択し、Shift+Enter)
~
途中でエラーが発生する毎に処理が必要(必要なプログラムがイ...
~
~
*** 実行結果 [#qd54fe0d]
~
・形態素解析
#ref(keitaisokaiseki.PNG)
~
#ref(gazou1.png);
~
#ref(gazou2.png);
~
~
~
~
~
~
*** 3Dネットワーク図を表示 [#q4e1fdb5]
以下をダウンロード、同ディレクトリに入れる
#ref(KeyWords.ipynb);
#ref(three.js);
#ref(three-spritetext.js);
#ref(get333.py);
#ref(index_main.html);
#ref(system-Copy5.ipynb);
~
jupyerで KeyWords.ipynb を開く、実行(>>)~
miserables.js(隣接行列のデータを3Dネットワーク図に使え...
以下をダウンロード、解凍
#ref(3d-force-graph-master-20200115T023432Z-001.zip);
~
3d-force-graph-master/example/text-nodes の中にある miser...
~
~
同ファイル内にある index.html をjupyerで開くと、次のよう...
(線の太さがワードの関連度weight、線上を流れる点が向き)
#ref(gazou3.PNG);
~
~
(最長距離を求める)
~
参考
~
([[大自然言語時代のための、文章要約>https://qiita.com/ic...
~
~
~
~
~
~
~
~
~
~
~
~
~
~
**5. 脳波の測定の準備(Windows, Unix) [#sc954391]
Macは以下を参考に
https://www.pu-toyama.ac.jp/IS/IIE/local_pages/lab_log/wi...
以下のサイトでインストール
http://openbci.com/index.php/downloads
#ref(Op_usb.png)
USB ドングルをコンピュータ側にでっぱりをスライドさせ、青...
#ref(Op_kiban.png)
Cyton ボードのスイッチは、上にスライドで PC 接続、下にス...
今回はPC接続なので上にスライドする
ここから先はWindowsとUbuntuでやり方が違う
***Windowsの場合 [#bd361783]
#ref(GUI設定.png,,50%)
OpenBCI_GUI.exeを開いて
(1) LIVE from (Cyton)
(2) Serial(from Dongle)
(3) COM3
(4) 8CHANNELS
(5) START SYSTEM
以上の流れで実行できる
・エラーが出たときはOpenBCIHub.exeを起動してからOpenBCI_G...
***UNIXの場合 [#x7f51f32]
シリアルポートにアクセスするのに十分な特権でOpenBCIアプリ...
OpenBCIソフトウェアをホームフォルダに展開したと仮定すると...
cd ~/application.linux64 && sudo bash OpenBCI_GUI
(1) LIVE from (Cyton)
(2) Serial(from Dongle)
(3) SERIAL / COM PORT は一番上のやつ
(4) 今回は8CHANNELS
(5) START SYSTEM
以上の流れで実行できる
** [#l42e4c2f]
・装着するときは電池がついている方を後ろ向きにする
・DATA LOG FILE でファイルを変更できる(デフォルトで日付)
・実行できる状態か確かめるときは、SERIAL / COM PORT の横...
・GET CHANNEL と STATUS が Success となっていれば実行可能
・脳波がとれない場合はそのチャンネルの頭のねじを回すこと...
START SYSTEM を実行すると以下のような画面になり、左上の S...
#ref(OpenBCI_start.png,,30%)
***システム(この項目は、直接USBでデータを渡したほうが早い...
作業する場所にフォルダを作り、以下のプログラムと画像を入...
#ref(slide.py)
#ref(test.py)
#ref(Black_image.png,,20%)
#ref(guu.png,,20%)
#ref(paa.png,,20%)
#ref(tyoki.png,,20%)
#ref(white_image.png,wrap,,20%)
そのフォルダの中にcountというフォルダを作り、以下の画像を...
#ref(one.png,,20%)
#ref(two.png,,20%)
#ref(three.png,,20%)
** [#wbc49ea6]
python3でやる
pipのインストールはこのサイトの「pipのインストール方法」...
モジュールのインストールは以下のコマンドで
pip3 install opencv-python
sudo pip3 install pyautogui
sudo pip3 install xlib
pip3 install matplotlib
sudo apt-get install python3-tk
sudo apt-get install python-scipy
pip3 install scipy
pip install scikit-learn
pip3 install pandas
pip3 install sklearn
プログラムslide1.2.pyについて~
#ref(test1++.png)
pyautogui.click(141,101)のところはとりあえずそのままで~
下線部のPATHは書き換える~
実行方法
slide.pyのプログラムでデータ収集
test.pyのプログラムで収集したデータから機械学習させるとい...
1.~
cd ~/application.linux64 && sudo bash OpenBCI_GUI
でOpenBCIを起動しハードのセットアップを行う
2.~
ターミナルの新しいタブを開いてslide.pyのあるところに移動...
python3 slide.py
で実行できる~
**10. ジャンケンの出す手の予測 [#u3c4a89d]
OpenBCIのスタートの位置にpyautogui.click(x,y)を合わせない...
#ref(click.png)~
このプログラムを実行したときのマウスカーソルの位置がPoint...
実行に成功すると3,2,手の順でスライドが流れるのでその手に...
ターミナル上に遅延時間が表示されているので記録しておく
終わったらOpenBCIを停止して、applicasion.linux64のSavedDa...
3.ここでもう一つのプログラムtest.pyを使う
各々で変更してほしい点は以下の点である(120行前後)
#ref(test2.png)
yamamoto_1.txtのところは2で名前を変えたテキストデータの名...
隣の数字は2で記録した遅延時間なのでその数字を入れる
赤丸の部分は2でターミナル上に表示された数列をコピー&ペー...
実行結果の例を示す
#ref(kekka.png)
これは取得した100個のデータから最初の40個のデータを訓練デ...
終了行:
[[技術資料]]
*目次 [#e890b3d5]
1. 目標~
2. 必要なソフトウェアのインストール~
3. データベースの作成~
4.データベースからコーパスの作成~
5. 学習モデルの作成~
6. 学習モデルを用いた支援システムの作成~
関連:~
[[テキストマイニング入門(小野田さん)>https://www.pu-toyam...
[[スクレイピング・クローリング入門(小野田さん)>https://ww...
[[スクレイピング(沼田さん)>https://www.pu-toyama.ac.jp/...
環境: windows python3
**1. 目標 [#i67428c5]
特許データを収集して学習させることで, 新たな発明案を提案...
**2. 必要なソフトウェアのインストール [#kbde4fb5]
本実験ではGPUマシンが必要なため, Teratermを用いて研究室の...
Teratermは以下のページを参考にインストールする.
[[Teratermのインストール方法>https://eng-entrance.com/ter...
#ref(zu1.png)
画像のIPアドレスを入力.(※変更される場合があるので注意。)
#ref(zu2.png)
パスワードは渡辺に聞く.
以下を入力して、anacondaの環境の設定を進める
wget https://repo.anaconda.com/archive/Anaconda3-2019.10...
bash Anaconda3-2019.10-Linux-x86_64.sh
指示に従ってインストールしていく
ただし以下の質問はnoで答える
installation finished.
Do you wish the installer to initialize Anaconda3
by running conda init? [yes|no]
パスを反映させてanacondaを使えるようにする
source ~/.bashrc
*** 環境構築 [#jf430a92]
以下のコマンドでconda仮想環境の作成ができます。
conda create -n [仮想環境名] python=[pythonのバージョン]
平松は仮想環境y名=hikitugiemv バージョン=3.6
必要なパッケージをここからインストールする
#ref(requirements.txt);
srcディレクトリを作成、以下の3つを入れる
#ref(mongo_helper.py);
#ref(patent_crawler.py);
#ref(scp.py);
作った仮想環境を実行可能な状態にする
pip install -r requirements.txt
足りないものがあればpip install numpy cython memory-profi...
英語用形態素解析機punktをインストール(pythonコマンド上で...
分かち書き(word_tokenize)と 品詞の取得(pos_tag)~
import nltk
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
ctrl+dでpythonから抜ける
英語の言語処理用辞書をインストール
python -m spacy download en_core_web_sm
termextractをインストール(pipに対応していないため)
wget http://gensen.dl.itc.u-tokyo.ac.jp/soft/pytermextra...
zipファイルを解凍する
unzip pytermextract-0_01.zip
cd pytermextract-0_01
python setup.py install
**3. データベースの作成 [#g7469583]
今回は小野田の構築したMongoDBを利用する。接続情報は以下の...
IPアドレス:192.168.0.116~
ポート番号:27017~
自分でインストールする場合~
参考~
[[(Ubuntu 18.04 に MongoDB の最新版を apt インストールす...
まずいかの通りほしいキーワードのリストをtxtファイルで作成...
roboto
AI
IoT
time machine
MongoDBの環境ができたら、以下のコマンドを実行して、特許デ...
python patent_crawler.py ../data/wordlist.txt
実行結果は以下のとおり
#ref(output.png)
**4. データベースからコーパスの作成 [#u5fa890f]
**5. 学習モデルの作成 [#gc81f11e]
**6. 学習モデルを用いた支援システムの作成 [#z7d853e7]
~
~
~
~
~
~
~
~
~
~
~
~
(基本的に山元さんの環境に合わせて進めていく。)
~
~
ディレクトリを作成(今回は"sample"という名前)、~
drive 3つダウンロード、入れる
#ref(get333.py);
#ref(index_main.html);
#ref(KeyWords.ipynb);
~
今回は、windows powershellで進めた。
python get333.py
~
使用するchromeのバージョンをそろえる必要があるので、以下...
pip install selenium
pip install chromedriver-binary==78.0.3904.105
(参考:[[ [selenium向け] ChromeDriverをpipでインストール...
"link", "title"というファイルが作成される
link: 検索結果のURLのリスト
#ref(link.PNG);
~
title:検索ページのタイトルのリスト
#ref(title.PNG);
~
Anacondaから、jupyer notebook を用いて作業を行う。
([[Windowsに「Jupyter Notebook」をインストールして手軽に...
~
chromeで開くと、「メモリ不足で開けません」と表示される。...
~
KeyWords.ipynb を開く。
~
#ref(jupyter.PNG);
上のセルから順に実行していく(選択し、Shift+Enter)
~
途中でエラーが発生する毎に処理が必要(必要なプログラムがイ...
~
~
*** 実行結果 [#qd54fe0d]
~
・形態素解析
#ref(keitaisokaiseki.PNG)
~
#ref(gazou1.png);
~
#ref(gazou2.png);
~
~
~
~
~
~
*** 3Dネットワーク図を表示 [#q4e1fdb5]
以下をダウンロード、同ディレクトリに入れる
#ref(KeyWords.ipynb);
#ref(three.js);
#ref(three-spritetext.js);
#ref(get333.py);
#ref(index_main.html);
#ref(system-Copy5.ipynb);
~
jupyerで KeyWords.ipynb を開く、実行(>>)~
miserables.js(隣接行列のデータを3Dネットワーク図に使え...
以下をダウンロード、解凍
#ref(3d-force-graph-master-20200115T023432Z-001.zip);
~
3d-force-graph-master/example/text-nodes の中にある miser...
~
~
同ファイル内にある index.html をjupyerで開くと、次のよう...
(線の太さがワードの関連度weight、線上を流れる点が向き)
#ref(gazou3.PNG);
~
~
(最長距離を求める)
~
参考
~
([[大自然言語時代のための、文章要約>https://qiita.com/ic...
~
~
~
~
~
~
~
~
~
~
~
~
~
~
**5. 脳波の測定の準備(Windows, Unix) [#sc954391]
Macは以下を参考に
https://www.pu-toyama.ac.jp/IS/IIE/local_pages/lab_log/wi...
以下のサイトでインストール
http://openbci.com/index.php/downloads
#ref(Op_usb.png)
USB ドングルをコンピュータ側にでっぱりをスライドさせ、青...
#ref(Op_kiban.png)
Cyton ボードのスイッチは、上にスライドで PC 接続、下にス...
今回はPC接続なので上にスライドする
ここから先はWindowsとUbuntuでやり方が違う
***Windowsの場合 [#bd361783]
#ref(GUI設定.png,,50%)
OpenBCI_GUI.exeを開いて
(1) LIVE from (Cyton)
(2) Serial(from Dongle)
(3) COM3
(4) 8CHANNELS
(5) START SYSTEM
以上の流れで実行できる
・エラーが出たときはOpenBCIHub.exeを起動してからOpenBCI_G...
***UNIXの場合 [#x7f51f32]
シリアルポートにアクセスするのに十分な特権でOpenBCIアプリ...
OpenBCIソフトウェアをホームフォルダに展開したと仮定すると...
cd ~/application.linux64 && sudo bash OpenBCI_GUI
(1) LIVE from (Cyton)
(2) Serial(from Dongle)
(3) SERIAL / COM PORT は一番上のやつ
(4) 今回は8CHANNELS
(5) START SYSTEM
以上の流れで実行できる
** [#l42e4c2f]
・装着するときは電池がついている方を後ろ向きにする
・DATA LOG FILE でファイルを変更できる(デフォルトで日付)
・実行できる状態か確かめるときは、SERIAL / COM PORT の横...
・GET CHANNEL と STATUS が Success となっていれば実行可能
・脳波がとれない場合はそのチャンネルの頭のねじを回すこと...
START SYSTEM を実行すると以下のような画面になり、左上の S...
#ref(OpenBCI_start.png,,30%)
***システム(この項目は、直接USBでデータを渡したほうが早い...
作業する場所にフォルダを作り、以下のプログラムと画像を入...
#ref(slide.py)
#ref(test.py)
#ref(Black_image.png,,20%)
#ref(guu.png,,20%)
#ref(paa.png,,20%)
#ref(tyoki.png,,20%)
#ref(white_image.png,wrap,,20%)
そのフォルダの中にcountというフォルダを作り、以下の画像を...
#ref(one.png,,20%)
#ref(two.png,,20%)
#ref(three.png,,20%)
** [#wbc49ea6]
python3でやる
pipのインストールはこのサイトの「pipのインストール方法」...
モジュールのインストールは以下のコマンドで
pip3 install opencv-python
sudo pip3 install pyautogui
sudo pip3 install xlib
pip3 install matplotlib
sudo apt-get install python3-tk
sudo apt-get install python-scipy
pip3 install scipy
pip install scikit-learn
pip3 install pandas
pip3 install sklearn
プログラムslide1.2.pyについて~
#ref(test1++.png)
pyautogui.click(141,101)のところはとりあえずそのままで~
下線部のPATHは書き換える~
実行方法
slide.pyのプログラムでデータ収集
test.pyのプログラムで収集したデータから機械学習させるとい...
1.~
cd ~/application.linux64 && sudo bash OpenBCI_GUI
でOpenBCIを起動しハードのセットアップを行う
2.~
ターミナルの新しいタブを開いてslide.pyのあるところに移動...
python3 slide.py
で実行できる~
**10. ジャンケンの出す手の予測 [#u3c4a89d]
OpenBCIのスタートの位置にpyautogui.click(x,y)を合わせない...
#ref(click.png)~
このプログラムを実行したときのマウスカーソルの位置がPoint...
実行に成功すると3,2,手の順でスライドが流れるのでその手に...
ターミナル上に遅延時間が表示されているので記録しておく
終わったらOpenBCIを停止して、applicasion.linux64のSavedDa...
3.ここでもう一つのプログラムtest.pyを使う
各々で変更してほしい点は以下の点である(120行前後)
#ref(test2.png)
yamamoto_1.txtのところは2で名前を変えたテキストデータの名...
隣の数字は2で記録した遅延時間なのでその数字を入れる
赤丸の部分は2でターミナル上に表示された数列をコピー&ペー...
実行結果の例を示す
#ref(kekka.png)
これは取得した100個のデータから最初の40個のデータを訓練デ...
ページ名: