#author("2022-12-22T09:15:49+00:00","","") #author("2022-12-22T09:21:06+00:00","","") [[専門ゼミ 榊原]] *目次 [#e890b3d5] #CONTENTS **【スクレイピングについて】[#i495c384] Webスクレイピングとは、Webサイト上の文字や画像、URLなどWebサイト上に存在するデータをHTML、CSS、JavaScriptとして解析したものを「かき集め」、自動で取得し、抽出する技術のことを言う。 活用方法として、リスク管理や商品企画のための口コミを収集・分析、営業リストの作成、AI開発のための機械学習用データ、競合調査、新規事業開発などがある。 メリットとして、業務を効率化できること、ビッグデータを活用できること、システムへの応用が可能なことなどがある。 デメリットとして、Webサイトの構造変化への対応が必要になる場合があること、収集できないサイトもあること、法律抵触への危険性があることなどがある。 今回のゼミではBeautiful Soup4を用いて、適当なサイトのタイトルとURLを取得した。 **【実行環境】[#rde624e4] ・python 64bit版~ ・python3.10.8 **【プログラムコード】 [#udebb2c6] プログラムコードは以下の通りである。~ 6行目のURLを変えると、そのサイトの情報を取得できる。 #ref(beautifulsoup.py) #ref(1.png,,70%) #ref(2.png,,70%) **【実行結果】[#q403d9b3] 結果は以下の通りである。~ #ref(url_title.csv) #ref(4.png,,60%) **【参考資料】[#n524e1f0] 【入門編】Webスクレイピングとは?活用方法も手法も一挙解説~ https://pig-data.jp/blog_news/blog/scraping-crawling/whatisscraping/ Google検索の1ページ目にヒットしたページのタイトルとURLをCSVに書き出す~ https://udemyfun.com/scraping-google-save-csv/ Googleの検索結果のURLとタイトルを抜き出す(エラー対応版)~ https://udemyfun.com/scraping-url-title/