10月20日 教学データとシラバスからの情報推薦と教材自動作成
の編集
Top
/
10月20日 教学データとシラバスからの情報推薦と教材自動作成
[
トップ
] [
編集
|
差分
|
履歴
|
添付
|
リロード
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
]
-- 雛形とするページ --
島部/menu/template
[[専門ゼミ 榊原]] *目次 [#e890b3d5] #CONTENTS **【スクレイピングについて】[#i495c384] Webスクレイピングとは、Webサイト上の文字や画像、URLなどWebサイト上に存在するデータをHTML、CSS、JavaScriptとして解析したものを「かき集め」、自動で取得し、抽出する技術のことを言う。 活用方法として、リスク管理や商品企画のための口コミを収集・分析、営業リストの作成、AI開発のための機械学習用データ、競合調査、新規事業開発などがある。 メリットとして、業務を効率化できること、ビッグデータを活用できること、システムへの応用が可能なことなどがある。 デメリットとして、Webサイトの構造変化への対応が必要になる場合があること、収集できないサイトもあること、法律抵触への危険性があることなどがある。 今回のゼミではBeautiful Soup4を用いて、適当なサイトのタイトルとURLを取得した。 **【実行環境】[#rde624e4] ・python 64bit版~ ・python3.10.8 **【プログラムコード】 [#udebb2c6] プログラムコードは以下の通りである。~ #ref(beautifulsoup.py) #ref(1.png,,70%) #ref(2.png,,70%) **【実行結果】[#q403d9b3] 結果は以下の通りである。~ #ref(url_title.csv) #ref(4.png,,60%) **【参考資料】[#n524e1f0] 【入門編】Webスクレイピングとは?活用方法も手法も一挙解説~ https://pig-data.jp/blog_news/blog/scraping-crawling/whatisscraping/ Google検索の1ページ目にヒットしたページのタイトルとURLをCSVに書き出す~ https://udemyfun.com/scraping-google-save-csv/ Googleの検索結果のURLとタイトルを抜き出す(エラー対応版)~ https://udemyfun.com/scraping-url-title/
タイムスタンプを変更しない
[[専門ゼミ 榊原]] *目次 [#e890b3d5] #CONTENTS **【スクレイピングについて】[#i495c384] Webスクレイピングとは、Webサイト上の文字や画像、URLなどWebサイト上に存在するデータをHTML、CSS、JavaScriptとして解析したものを「かき集め」、自動で取得し、抽出する技術のことを言う。 活用方法として、リスク管理や商品企画のための口コミを収集・分析、営業リストの作成、AI開発のための機械学習用データ、競合調査、新規事業開発などがある。 メリットとして、業務を効率化できること、ビッグデータを活用できること、システムへの応用が可能なことなどがある。 デメリットとして、Webサイトの構造変化への対応が必要になる場合があること、収集できないサイトもあること、法律抵触への危険性があることなどがある。 今回のゼミではBeautiful Soup4を用いて、適当なサイトのタイトルとURLを取得した。 **【実行環境】[#rde624e4] ・python 64bit版~ ・python3.10.8 **【プログラムコード】 [#udebb2c6] プログラムコードは以下の通りである。~ #ref(beautifulsoup.py) #ref(1.png,,70%) #ref(2.png,,70%) **【実行結果】[#q403d9b3] 結果は以下の通りである。~ #ref(url_title.csv) #ref(4.png,,60%) **【参考資料】[#n524e1f0] 【入門編】Webスクレイピングとは?活用方法も手法も一挙解説~ https://pig-data.jp/blog_news/blog/scraping-crawling/whatisscraping/ Google検索の1ページ目にヒットしたページのタイトルとURLをCSVに書き出す~ https://udemyfun.com/scraping-google-save-csv/ Googleの検索結果のURLとタイトルを抜き出す(エラー対応版)~ https://udemyfun.com/scraping-url-title/
テキスト整形のルールを表示する