スクレイピングとは、Webサイトを巡回して情報を取得し、その情報を加工して新たな情報を生成するためのプログラムのことである。
使用例としては、競合他社のWebサイトから商品のスペックや価格などを収集して自社製品との比較表を作成するなどがある。
メリットとしては、手動で情報収集するよりも早く正確に大量の情報収集が可能、APIでは取得できない情報も収集可能、新たなサービスの開発に利用できるなどが挙げられる。
デメリットとしては、急に情報収集ができなくなる場合があり、その際の対処に手間がかかる、収集先のWebサイトからスクレイピングを拒否される場合がある、法律に触れてしまう場合があるなどが挙げられる。
今回のゼミではBeautiful Soup4を用いて、適当なサイトのタイトルとURLを取得した。
・python 64bit版
・python3.10.8
プログラムコードは以下の通りである。
6行目のURLを変えると、そのサイトの情報を取得できる。
#ref(): File not found: "221020_2.csv" at page "第8回 12月15日 DEAとGIS"
#ref(): File not found: "2.jpg" at page "第8回 12月15日 DEAとGIS"
結果は以下の通りである。
#ref(): File not found: "221020.csv" at page "第8回 12月15日 DEAとGIS"
#ref(): File not found: "1.jpg" at page "第8回 12月15日 DEAとGIS"
スクレイピングとは何?概要やメリット・デメリットを分かりやすく解説!
https://cyberwave.jp/business-blog/library/%E3%82%B9%E3%82%AF%E3%83%AC%E3%82%A4%E3%83%94%E3%83%B3%E3%82%B0-%E6%A6%82%E8%A6%81-%E3%83%A1%E3%83%AA%E3%83%83%E3%83%88-%E3%83%87%E3%83%A1%E3%83%AA%E3%83%83%E3%83%88/
pythonでたべろぐをスクレイピングしCSVに出力
https://qiita.com/hmck/items/11076c669d6de9c0a59b