スクレイピング・クローリング入門の変更点

追加された行はこの色です。
削除された行はこの色です。
スクレイピング・クローリング入門へ行く。
スクレイピング・クローリング入門の差分を削除
#author("2018-11-29T14:50:41+09:00","","")
#author("2018-12-13T15:55:27+09:00","","")
[[小野田]]
bs4の便利なリンク
https://qiita.com/itkr/items/513318a9b5b92bd56185

**基本事項 [#v096f46e]
スクレイピング・クローリングをする前に
[[html,css>https://liginc.co.jp/web/html-css/html/122500]],[[HTTPリクエスト・レスポンス>https://itsakura.com/network-http-get-post]], [[正規表現>http://www.mnet.ne.jp/~nakama/]]の基礎知識が必要なので
ない人は事前に習得しておく必要がある（各用語のリンクレベルの知識で一応OK）

**Unix環境でのスクレイピング [#r384be49]
スクレイピングをやるときに必要なUnixの文字列・ファイル操作系コマンドを示す.

スクレイピングを兎に角やりたい人は後半の具体的な手順へ


***基本の基本 [#nb6e49a6]

unix cat,grep,cut,sed,awkと正規表現で出来る

・ページをダウンロードできる

 wget URL

・ページを出力（ダウンロードではない）

 curl URL

・コマンドをtxtに吐き出す


 (any command) > file.txt

・複数のコマンドをつなげるパイプ

 cat file.txt | grep apple

＊ちなみに上はcatでファイルを出力して,その結果からappleという単語をgrepで検索している

1.sed

 sed s/置換ルール/置換文字/
 sed s/dog/cat/
 dog ➡︎ cat

https://msdn.microsoft.com/ja-jp/library/Cc392020.aspx

・抽出要素の行数を出力

 wc -l 

・巨大なデータファイルを分割

head tillコマンドを使う
 head tailコマンドの後に>>filenameでfilenameに出力結果書き込み

・ファイルマージ
a,bに共通な行を抜きだす

 cat a b | sort | uniq -d > common

・textディレクトリ下のwikiと名のファイルをwiki.txtにマージ

 $ find text/ | grep wiki | awk '{system("cat "$0" >> wiki.txt")}'


・aにだけ含まれる行を抜き出す

 cat a b | sort | unit > all
 cat a all | sort | uniq -u > only_in_a

・バイナリ文字列を含むファイルをutf-8でそろえる
 
 nkf -w --overwrite wiki_wakati.txt

・２つのファイルを連結
 
 cat file_a file_b > merge.txt

http://masa-cbl.hatenadiary.jp/entry/20121202/1354456802

***大まかな手順 [#h7aa199a]

・fetch webページのデータ取得

・scrape　htmlから正規表現で書籍のデータを抜き取る

・save　sqlite等のデータベース保存

***Pythonでやる場合 [#j7e43002]

フレームワーク

・scrapy

htmlパーサー

・BeautifulSoup4

httpライブラリ

・requests	urlにアクセス可

・lxml		urlアクセスライブラリと併用？

・urllib系		今はrequestsが主流？

ヘッドレスブラウザ

プログラムを用いてブラウザ操りたいときに使おう！seleniumとセットで使おう

phantomjs		jsで記述 dom,node.js対応		js組み込みサイトのスクレイピングに有用

ghost		pythonで記述	詳細不明


*具体的な手順 [#gbb2e441]

***必要モジュールのインストール [#b5ab8091]
 pip install beautifulsoup4 (beautifulsoupだけだと旧バージョンになるので注意）
 pip install lxml
 pip install requests

javascriptが入ったページをスクレイピングしたい場合はPhantomJsとseleniumuの組み合わせが必要 
javascriptが入ったページをスクレイピングしたい場合はHeadlessChromeとseleniumuの組み合わせが必要 

基本的なことは[[こちら>http://gci.t.u-tokyo.ac.jp/tutorial/crawling/]]
を見ればわかる

ちなみに上サイトは非効率なやり方で行っているので本格運用する場合は
[[この本>http://gihyo.jp/book/2017/978-4-7741-8367-1]]
もしくは[[この本>https://www.shoeisha.co.jp/book/detail/9784798149127]]

を読むことをオススメする

ちなみにBeautifulSoup4を使う場合内部で使うParserをlxmlに設定すると高速に解析できる

**高速化したい場合 [#r77de9f8]

まずどこでオーバーヘッドが発生しているかで以下の対策が取れる

上のものほどソフトウェア的であり,　下に行くほどハードウェアの問題となる


やり方は各言語によって違うので各々調べるべし
例: JavaであるとThreadクラスを使う, Pythonならthreadingモジュールとmultiproccessingモジュールがある

***IOバウンド [#gfd26a8f]

データをwebから収集するレスポンスが遅い場合は非同期処理により待ち時間を有意義に使うことができる
詳しくは[[こちら>https://vaaaaaanquish.hatenablog.com/entry/2017/06/25/202924)]]

***書き方の問題 [#a854d24e]

Pythonだとfor文の代わりにリスト内包記法を使うなどプログラムの記述によって
処理速度が多少変わる

***言語の問題 [#tf837d5c]

#ref(julia_benchmark.jpeg,,50%);

プログラミング言語により速度が変わるので
-高速化重視ならC(難易度高)
-機能重視ならPython
-バランスならGo


***CPUバウンドの場合 [#y0f4d96c]

プログラム内部の処理を高速化したい場合はマルチスレッド・マルチプロセスに対応させる必要があるマルチスレッドは一つのコアで複数の処理を同時に行うことで
マルチプロセスは複数のコアで並列にプログラムを処理させることである
例えば8コアのCPUの場合で2マルチスレッド, 8マルチプロセスだと
2(プロセスあたりのスレッド数)× 8(コア数) = 16となり
16個並列にプログラムが動いてることになる

***スペックの問題 [#da9ff437]

単純にPCのスペックが低い可能性がある.
指導教員に相談しよう
スクレイピング・クローリング入門 の変更点

スクレイピング・クローリング入門の変更点