第8回 12月15日 DEAとGIS の履歴(No.1) | 奥原研究室・Rene研究室ログ

[ トップ ] [ 新規 | 一覧 | 検索 | 最終更新 | ヘルプ ]

履歴一覧
差分を表示
現在との差分を表示
ソースを表示
第8回 12月15日 DEAとGIS へ行く。
- 1 (2022-12-19 (月) 10:33:19)
- 2 (2022-12-19 (月) 13:35:15)

専門ゼミ(八十住)

目次

目次

【スクレイピングについて】

スクレイピングとは、Webサイトを巡回して情報を取得し、その情報を加工して新たな情報を生成するためのプログラムのことである。

使用例としては、競合他社のWebサイトから商品のスペックや価格などを収集して自社製品との比較表を作成するなどがある。

メリットとしては、手動で情報収集するよりも早く正確に大量の情報収集が可能、APIでは取得できない情報も収集可能、新たなサービスの開発に利用できるなどが挙げられる。

デメリットとしては、急に情報収集ができなくなる場合があり、その際の対処に手間がかかる、収集先のWebサイトからスクレイピングを拒否される場合がある、法律に触れてしまう場合があるなどが挙げられる。

今回のゼミではBeautiful Soup4を用いて、適当なサイトのタイトルとURLを取得した。

【実行環境】

・python 64bit版
・python3.10.8

【プログラムコード】

プログラムコードは以下の通りである。
6行目のURLを変えると、そのサイトの情報を取得できる。

#ref(): File not found: "221020_2.csv" at page "第8回 12月15日 DEAとGIS"

#ref(): File not found: "2.jpg" at page "第8回 12月15日 DEAとGIS"

【実行結果】

結果は以下の通りである。

#ref(): File not found: "221020.csv" at page "第8回 12月15日 DEAとGIS"

#ref(): File not found: "1.jpg" at page "第8回 12月15日 DEAとGIS"

【参考資料】

スクレイピングとは何？概要やメリット・デメリットを分かりやすく解説！
https://cyberwave.jp/business-blog/library/%E3%82%B9%E3%82%AF%E3%83%AC%E3%82%A4%E3%83%94%E3%83%B3%E3%82%B0-%E6%A6%82%E8%A6%81-%E3%83%A1%E3%83%AA%E3%83%83%E3%83%88-%E3%83%87%E3%83%A1%E3%83%AA%E3%83%83%E3%83%88/

pythonでたべろぐをスクレイピングしCSVに出力
https://qiita.com/hmck/items/11076c669d6de9c0a59b