スクレイピング(10月20日)
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
]
開始行:
[[専門ゼミ(蒲田)]]
*目次 [#w9b976b5]
#CONTENTS
***ここでできること [#i421f0d8]
インターネットよりほしい情報を効率的に取り入れることがで...
*スクレイピングのやり方[#ie08a2ef]
**beautifulsoup4によるスクレイピング [#ie08a2ef]
-[[デモデータの作成]] ~
***beautifulsoup4の導入 [#ufcab7f3]
***beautifulsoup4の使い方 [#ufcab7f3]
**seleniumによるスクレイピング [#ga1c2f7d]
***Seleniumの導入 [#c7df3d58]
***Seleniumの使い方 [#ze850b3a]
**協調フィルタリング [#u6d50e13]
***協調フィルタリングとは [#i36c5908]
協調フィルタリングの定義は,「協調フィルタリングは与えら...
#ref(情報推薦のアルゴリズム.pdf,,情報推薦のアルゴリズム)
***教学データに対する協調フィルタリング [#h0f2d234]
滝沢の卒論では教学データに対して協調フィルタリングを行い...
-[[pythonによるユーザーベース協調フィルタリングの実装]] ~
詳しくはこちらにまとめてます.
**シラバスからキーワード抽出 [#v6774ab0]
シラバスから各授業における「キーワード」を抽出します.こ...
***準備 [#j661bc61]
pythonでhtml解析を行う際に便利なのがBeautifulSoupというラ...
pip install beautifulsoup4
***キーワード抽出 [#x6d80d4b]
富山県立大学のwebシラバスから授業ごとのキーワードを抜き出...
~
ここで少しやっかいなのが,webシラバスは科目区分や配当学年...
そこでかなり面倒なのですが一つ一つの科目のwebシラバスを「...
***url取得 [#r4175433]
https://tpuwswebsv.pu-toyama.ac.jp/public/web/Syllabus/We...
富山県立大学のwebシラバスにアクセス→自分が取得したい科目...
***サンプルコード [#c8a5e552]
#ref(screiping.py,,サンプルコード)~
まずは必要なパッケージをインポート
import requests
from bs4 import BeautifulSoup
import re
import time
import csv
import pandas as pd
webページのurlを指定してhtmlを解析します.html内で授業科...
# Webページを取得して解析する
url = "https://tpuwswebsv.pu-toyama.ac.jp/public/web/Syl...
P1=1025535&P2=2021&P3=20210401"
html = requests.get(url)
soup = BeautifulSoup(html.content, "html.parser")
#授業科目
koginame = soup.find(id = 'lblKogiName').text
#キーワード
keyword = re.split('[,_,_、]',soup.find(id ='lblHyokaHo...
最後に全てのキーワードをまとめてcsvファイルで出力します.
keyword_all = []
keyword_all.append(keyword)
keyword_all.append(keyword1)
keyword_all.append(keyword2)
keyword_all.append(keyword3)
keyword_all.append(keyword4)
#print(keyword_all)
koginame_Df = pd.DataFrame(keyword_all,index=[f'{koginam...
print(koginame_Df)
koginame_Df.to_csv('C:/Users/takky/富山県立大学/研究室/...
#ref(ss2.png,,50%)
このようなcsvファイルが出力されればOKです.csvファイルの...
次はこのcsvファイルを使ってwebページとyoutubeからのスクレ...
終了行:
[[専門ゼミ(蒲田)]]
*目次 [#w9b976b5]
#CONTENTS
***ここでできること [#i421f0d8]
インターネットよりほしい情報を効率的に取り入れることがで...
*スクレイピングのやり方[#ie08a2ef]
**beautifulsoup4によるスクレイピング [#ie08a2ef]
-[[デモデータの作成]] ~
***beautifulsoup4の導入 [#ufcab7f3]
***beautifulsoup4の使い方 [#ufcab7f3]
**seleniumによるスクレイピング [#ga1c2f7d]
***Seleniumの導入 [#c7df3d58]
***Seleniumの使い方 [#ze850b3a]
**協調フィルタリング [#u6d50e13]
***協調フィルタリングとは [#i36c5908]
協調フィルタリングの定義は,「協調フィルタリングは与えら...
#ref(情報推薦のアルゴリズム.pdf,,情報推薦のアルゴリズム)
***教学データに対する協調フィルタリング [#h0f2d234]
滝沢の卒論では教学データに対して協調フィルタリングを行い...
-[[pythonによるユーザーベース協調フィルタリングの実装]] ~
詳しくはこちらにまとめてます.
**シラバスからキーワード抽出 [#v6774ab0]
シラバスから各授業における「キーワード」を抽出します.こ...
***準備 [#j661bc61]
pythonでhtml解析を行う際に便利なのがBeautifulSoupというラ...
pip install beautifulsoup4
***キーワード抽出 [#x6d80d4b]
富山県立大学のwebシラバスから授業ごとのキーワードを抜き出...
~
ここで少しやっかいなのが,webシラバスは科目区分や配当学年...
そこでかなり面倒なのですが一つ一つの科目のwebシラバスを「...
***url取得 [#r4175433]
https://tpuwswebsv.pu-toyama.ac.jp/public/web/Syllabus/We...
富山県立大学のwebシラバスにアクセス→自分が取得したい科目...
***サンプルコード [#c8a5e552]
#ref(screiping.py,,サンプルコード)~
まずは必要なパッケージをインポート
import requests
from bs4 import BeautifulSoup
import re
import time
import csv
import pandas as pd
webページのurlを指定してhtmlを解析します.html内で授業科...
# Webページを取得して解析する
url = "https://tpuwswebsv.pu-toyama.ac.jp/public/web/Syl...
P1=1025535&P2=2021&P3=20210401"
html = requests.get(url)
soup = BeautifulSoup(html.content, "html.parser")
#授業科目
koginame = soup.find(id = 'lblKogiName').text
#キーワード
keyword = re.split('[,_,_、]',soup.find(id ='lblHyokaHo...
最後に全てのキーワードをまとめてcsvファイルで出力します.
keyword_all = []
keyword_all.append(keyword)
keyword_all.append(keyword1)
keyword_all.append(keyword2)
keyword_all.append(keyword3)
keyword_all.append(keyword4)
#print(keyword_all)
koginame_Df = pd.DataFrame(keyword_all,index=[f'{koginam...
print(koginame_Df)
koginame_Df.to_csv('C:/Users/takky/富山県立大学/研究室/...
#ref(ss2.png,,50%)
このようなcsvファイルが出力されればOKです.csvファイルの...
次はこのcsvファイルを使ってwebページとyoutubeからのスクレ...
ページ名: