スクレイピング・クローリング入門の履歴(No.3)

履歴一覧
差分を表示
現在との差分を表示
ソースを表示
スクレイピング・クローリング入門へ行く。
- 1 (2018-07-05 (木) 14:26:48)
- 2 (2018-07-05 (木) 14:55:33)
- 3 (2018-07-06 (金) 09:12:09)
- 4 (2018-07-09 (月) 05:02:01)
- 5 (2018-07-09 (月) 09:57:47)
- 6 (2018-07-10 (火) 05:23:32)
- 7 (2018-07-10 (火) 09:10:14)
- 8 (2018-10-18 (木) 07:02:28)
- 9 (2018-11-29 (木) 06:50:41)

基本事項

スクレイピング・クローリングをする前に html,css,HTTPリクエスト・レスポンス, 正規表現の基礎知識が必要なのでない人は事前に習得しておく必要がある（各用語のリンクレベルの知識で一応OK）

必要モジュールのインストール

pip install beautifulsoup4 (beautifulsoupだけだと旧バージョンになるので注意）
pip install lxml
pip install requests

javascriptが入ったページをスクレイピングしたい場合はPhantomJsとseleniumuの組み合わせが必要

基本的なことはこちらを見ればわかる

ちなみに上サイトは非効率なやり方で行っているので本格運用する場合はこの本もしくはこの本を読むことをオススメする

ちなみにBeautifulSoup4を使う場合内部で使うParserをlxmlに設定すると高速に解析できる

高速化したい場合

まずどこでオーバーヘッドが発生しているかで以下の対策が取れる

上のものほどソフトウェア的であり,　下に行くほどハードウェアの問題となる

CPUバウンドの場合

プログラム内部の処理を高速化したい場合はマルチスレッド・マルチプロセスに対応させる必要があるマルチスレッドは一つのコアで複数の処理を同時に行うことでマルチプロセスは複数のコアで並列にプログラムを処理させることである例えば8コアのCPUの場合で2マルチスレッド, 8マルチプロセスだと 2(プロセスあたりのスレッド数)× 8(コア数) = 16となり 16個並列にプログラムが動いてることになる

やり方は各言語によって違うので各々調べるべし例: JavaであるとThreadクラスを使う, Pythonならthreadingモジュールとmultiproccessingモジュールがある

IOバウンド

データをwebから収集するレスポンスが遅い場合は非同期処理により待ち時間を有意義に使うことができる詳しくはこちら

書き方の問題

Pythonだとfor文の代わりにリスト内包記法を使うなどプログラムの記述によって処理速度が多少変わる

言語の問題

プログラミング言語により速度が変わるので

高速化重視ならC(難易度高)
機能重視ならPython
バランスならGo

スペックの問題

単純にPCのスペックが低い可能性がある. 指導教員に相談しよう

スクレイピング・クローリング入門 の履歴(No.3)