技術資料

スクレイピングのBlockly化 

centOS7 サーバ(192.168.0.125)への接続 

コマンドプロンプトで以下を入力

"ssh root@192.168.0.125"

(初回ではその前に"yes"を入力)パスワードを入力してログイン
→[root@blockly ~]の表示になる

"# cd /var/www/html/cyber-space_analysis" で "cyber-space_analysis"ディレクトリへ移動

※ http://192.168.0.125/cyber-space_analysis/
→このリンクへ飛ぶとブロックリーの画面になる

"python ~~.py" でpythonも実行できる

スクレイピングファイルをサーバー内に送り込む 

scpコマンドを使う(ファイルが置いてあるディレクトリへ移動)
">scp [送るファイル名] root@192.168.0.125:[送るディレクトリ先] "

(例)"test.txt"を送りたいとき
→"test.txt"のディレクトリまで移動し scp test.txt root@192.168.0.125:/var/www/html/cyber-space_analysis

サーバー内でのスクレイピング検証テスト 

1)idea_graphディレクトリでTextmining.pyを実行し、エラーで足りないモジュールをpip install~で入れていく
※「No module named 'MeCab'」が出たときはmecab-python3を入れる(Mecabだと赤いエラーが大量発生する)

2)まだMecab本体が入っていないの入れていく 関連ライブラリのインストール
sudo yum install -y bzip2 bzip2-devel gcc gcc-c++ git make wget curl openssl-devel readline-devel zlib-devel patch file

作業フォルダを作成して移動
mkdir -p ~/source/mecab cd ~/source/mecab

ソースをダウンロードして解凍して移動
wget 'https://drive.google.com/ucexport=download&id=0B4y35FiV1wh7cENtOXlicTFaRUE' -O mecab-0.996.tar.gz
tar zxvf mecab-0.996.tar.gz
cd mecab-0.996

インストール先フォルダを作成
sudo mkdir -p /opt/mecab

configure(コンパイルのための設定)を実行し、コンパイルしてインストール
./configure --prefix=/opt/mecab --with-charset=utf8 --enable-utf8-only
make
sudo make install

インストールしたmecabの実行ファイル(のあるフォルダ)をパスに追加
bashの場合
echo "export PATH=/opt/mecab/bin:\$PATH" >> ~/.bashrc
source ~/.bashrc

※※↓この部分はたぶんやらなくてもOK※※
ipadic(標準辞書)のインストール

# 作業フォルダを作成して移動
mkdir ~/source/mecab-ipadic
cd ~/source/mecab-ipadic

辞書ファイルを取得して解凍して移動
wget 'https://drive.google.com/uc? export=download&id=0B4y35FiV1wh7MWVlSDBCSXZMTXM' -O mecab-ipadic-2.7.0-20070801.tar.gz
tar zxvf mecab-ipadic-2.7.0-20070801.tar.gz
cd mecab-ipadic-2.7.0-20070801

設定してmakeしてインストール
./configure --with-mecab-config=/opt/mecab/bin/mecab-config --with-charset=utf8
make
sudo make install

~~~
mecab-0.996でopt/~/mecab/ipadicまでのディレクトリが作られた+
neologd(拡張辞書)のインスト手順はやらない(あらかじめ用意してある)+
neologdのコンパイルはwindowsと勝手が違うのでパス~+ →dicをもう入れる?

~~~

※※↑この部分はたぶんやらなくてもOK※※

scpでC:\Program Files\MeCabにあるdicを/opt/mecab/lib/mecabに送り込む
/opt/mecab/lib/mecab内にipadicがあったら、あらかじめ削除しておく
[root@localhost mecab]# rm -rf ipadic
↓送る側のコマンドプロンプト
C:\Program Files\MeCab>scp -r dic root@192.168.0.130:/opt/mecab/lib/mecab

mecabrc内のdicdirを以下のように変更する
[root@localhost ipadic]# vim /opt/mecab/etc/mecabrc

dicdir = /opt/mecab/lib/mecab/dic/mecab-ipadic-neologd


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS