#author("2022-12-22T09:15:49+00:00","","")
#author("2022-12-22T09:21:06+00:00","","")
[[専門ゼミ 榊原]]

*目次 [#e890b3d5]

#CONTENTS
**【スクレイピングについて】[#i495c384]
Webスクレイピングとは、Webサイト上の文字や画像、URLなどWebサイト上に存在するデータをHTML、CSS、JavaScriptとして解析したものを「かき集め」、自動で取得し、抽出する技術のことを言う。

活用方法として、リスク管理や商品企画のための口コミを収集・分析、営業リストの作成、AI開発のための機械学習用データ、競合調査、新規事業開発などがある。

メリットとして、業務を効率化できること、ビッグデータを活用できること、システムへの応用が可能なことなどがある。

デメリットとして、Webサイトの構造変化への対応が必要になる場合があること、収集できないサイトもあること、法律抵触への危険性があることなどがある。

今回のゼミではBeautiful Soup4を用いて、適当なサイトのタイトルとURLを取得した。

**【実行環境】[#rde624e4]
・python 64bit版~
・python3.10.8

**【プログラムコード】 [#udebb2c6]
プログラムコードは以下の通りである。~
6行目のURLを変えると、そのサイトの情報を取得できる。
#ref(beautifulsoup.py)
#ref(1.png,,70%)
#ref(2.png,,70%)

**【実行結果】[#q403d9b3]
結果は以下の通りである。~
#ref(url_title.csv)
#ref(4.png,,60%)

**【参考資料】[#n524e1f0]
【入門編】Webスクレイピングとは?活用方法も手法も一挙解説~
https://pig-data.jp/blog_news/blog/scraping-crawling/whatisscraping/

Google検索の1ページ目にヒットしたページのタイトルとURLをCSVに書き出す~
https://udemyfun.com/scraping-google-save-csv/

Googleの検索結果のURLとタイトルを抜き出す(エラー対応版)~
https://udemyfun.com/scraping-url-title/

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS