スクレイピング・クローリング入門の履歴(No.8)

履歴一覧
差分を表示
現在との差分を表示
ソースを表示
スクレイピング・クローリング入門へ行く。
- 1 (2018-07-05 (木) 14:26:48)
- 2 (2018-07-05 (木) 14:55:33)
- 3 (2018-07-06 (金) 09:12:09)
- 4 (2018-07-09 (月) 05:02:01)
- 5 (2018-07-09 (月) 09:57:47)
- 6 (2018-07-10 (火) 05:23:32)
- 7 (2018-07-10 (火) 09:10:14)
- 8 (2018-10-18 (木) 07:02:28)
- 9 (2018-11-29 (木) 06:50:41)

小野田? bs4の便利なリンク https://qiita.com/itkr/items/513318a9b5b92bd56185

基本事項

スクレイピング・クローリングをする前に html,css,HTTPリクエスト・レスポンス, 正規表現の基礎知識が必要なのでない人は事前に習得しておく必要がある（各用語のリンクレベルの知識で一応OK）

Unix環境でのスクレイピング

スクレイピングをやるときに必要なUnixの文字列・ファイル操作系コマンドを示す.

スクレイピングを兎に角やりたい人は後半の具体的な手順へ

基本の基本

unix cat,grep,cut,sed,awkと正規表現で出来る

・ページをダウンロードできる

wget URL

・ページを出力（ダウンロードではない）

curl URL

・コマンドをtxtに吐き出す

(any command) > file.txt

・複数のコマンドをつなげるパイプ

cat file.txt | grep apple

＊ちなみに上はcatでファイルを出力して,その結果からappleという単語をgrepで検索している

1.sed

sed s/置換ルール/置換文字/
sed s/dog/cat/
dog ➡︎ cat

https://msdn.microsoft.com/ja-jp/library/Cc392020.aspx

・抽出要素の行数を出力

wc -l

・巨大なデータファイルを分割

head tillコマンドを使う

head tailコマンドの後に>>filenameでfilenameに出力結果書き込み

・ファイルマージ a,bに共通な行を抜きだす

cat a b | sort | uniq -d > common

・textディレクトリ下のwikiと名のファイルをwiki.txtにマージ

$ find text/ | grep wiki | awk '{system("cat "$0" >> wiki.txt")}'

・aにだけ含まれる行を抜き出す

cat a b | sort | unit > all
cat a all | sort | uniq -u > only_in_a

・バイナリ文字列を含むファイルをutf-8でそろえる

nkf -w --overwrite wiki_wakati.txt

・２つのファイルを連結

cat file_a file_b > merge.txt

http://masa-cbl.hatenadiary.jp/entry/20121202/1354456802

大まかな手順

・fetch webページのデータ取得

・scrape　htmlから正規表現で書籍のデータを抜き取る

・save　sqlite等のデータベース保存

Pythonでやる場合

フレームワーク

・scrapy

htmlパーサー

・BeautifulSoup4

httpライブラリ

・requests urlにアクセス可

・lxml urlアクセスライブラリと併用？

・urllib系今はrequestsが主流？

ヘッドレスブラウザ

プログラムを用いてブラウザ操りたいときに使おう！seleniumとセットで使おう

phantomjs jsで記述 dom,node.js対応 js組み込みサイトのスクレイピングに有用

ghost pythonで記述詳細不明

具体的な手順

必要モジュールのインストール

pip install beautifulsoup4 (beautifulsoupだけだと旧バージョンになるので注意）
pip install lxml
pip install requests

javascriptが入ったページをスクレイピングしたい場合はPhantomJsとseleniumuの組み合わせが必要

基本的なことはこちらを見ればわかる

ちなみに上サイトは非効率なやり方で行っているので本格運用する場合はこの本もしくはこの本

を読むことをオススメする

ちなみにBeautifulSoup4を使う場合内部で使うParserをlxmlに設定すると高速に解析できる

高速化したい場合

まずどこでオーバーヘッドが発生しているかで以下の対策が取れる

上のものほどソフトウェア的であり,　下に行くほどハードウェアの問題となる

CPUバウンドの場合

プログラム内部の処理を高速化したい場合はマルチスレッド・マルチプロセスに対応させる必要があるマルチスレッドは一つのコアで複数の処理を同時に行うことでマルチプロセスは複数のコアで並列にプログラムを処理させることである例えば8コアのCPUの場合で2マルチスレッド, 8マルチプロセスだと 2(プロセスあたりのスレッド数)× 8(コア数) = 16となり 16個並列にプログラムが動いてることになる

やり方は各言語によって違うので各々調べるべし例: JavaであるとThreadクラスを使う, Pythonならthreadingモジュールとmultiproccessingモジュールがある

IOバウンド

データをwebから収集するレスポンスが遅い場合は非同期処理により待ち時間を有意義に使うことができる詳しくはこちら

書き方の問題

Pythonだとfor文の代わりにリスト内包記法を使うなどプログラムの記述によって処理速度が多少変わる

言語の問題

プログラミング言語により速度が変わるので

高速化重視ならC(難易度高)
機能重視ならPython
バランスならGo

スペックの問題

単純にPCのスペックが低い可能性がある. 指導教員に相談しよう

スクレイピング・クローリング入門 の履歴(No.8)