専門ゼミ(八十住)

【スクレイピングについて】 

スクレイピングとは、Webサイトを巡回して情報を取得し、その情報を加工して新たな情報を生成するためのプログラムのことである。

使用例としては、競合他社のWebサイトから商品のスペックや価格などを収集して自社製品との比較表を作成するなどがある。

メリットとしては、手動で情報収集するよりも早く正確に大量の情報収集が可能、APIでは取得できない情報も収集可能、新たなサービスの開発に利用できるなどが挙げられる。

デメリットとしては、急に情報収集ができなくなる場合があり、その際の対処に手間がかかる、収集先のWebサイトからスクレイピングを拒否される場合がある、法律に触れてしまう場合があるなどが挙げられる。

今回のゼミではBeautiful Soup4を用いて、適当なサイトのタイトルとURLを取得した。

【実行環境】 

・python 64bit版
・python3.10.8

【プログラムコード】 

プログラムコードは以下の通りである。
6行目のURLを変えると、そのサイトの情報を取得できる。

#ref(): File not found: "221020_2.csv" at page "1月10日 心拍センサによるデータ収集と,ストレス値測定"

#ref(): File not found: "2.jpg" at page "1月10日 心拍センサによるデータ収集と,ストレス値測定"

【実行結果】 

結果は以下の通りである。

#ref(): File not found: "221020.csv" at page "1月10日 心拍センサによるデータ収集と,ストレス値測定"

#ref(): File not found: "1.jpg" at page "1月10日 心拍センサによるデータ収集と,ストレス値測定"

【参考資料】 

スクレイピングとは何?概要やメリット・デメリットを分かりやすく解説!
https://cyberwave.jp/business-blog/library/%E3%82%B9%E3%82%AF%E3%83%AC%E3%82%A4%E3%83%94%E3%83%B3%E3%82%B0-%E6%A6%82%E8%A6%81-%E3%83%A1%E3%83%AA%E3%83%83%E3%83%88-%E3%83%87%E3%83%A1%E3%83%AA%E3%83%83%E3%83%88/

pythonでたべろぐをスクレイピングしCSVに出力
https://qiita.com/hmck/items/11076c669d6de9c0a59b


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS