滝沢さん卒論_backup の履歴(No.2)

履歴一覧
差分を表示
現在との差分を表示
ソースを表示
滝沢さん卒論_backup へ行く。
- 1 (2021-11-19 (金) 07:43:19)
- 2 (2021-11-19 (金) 11:08:09)

富山県立大学のwebシラバスから授業ごとのキーワードを抜き出します．
https://tpuwswebsv.pu-toyama.ac.jp/public/web/Syllabus/WebSyllabusKensaku/UI/WSL_SyllabusKensaku.aspx

ここで少しやっかいなのが，webシラバスは科目区分や配当学年から絞り込みを行ってもurlが変化しません．つまり，上のurlについてhtml解析を行っても何の情報も得られません．
そこでかなり面倒なのですが一つ一つの科目のwebシラバスを「選択」から開いてやります．そうすると新しいウインドが出ると思いますがこのウインドについては授業ごとにurlが割り当てられているのでこのurlを使用します．

サンプルコード

まずは必要なパッケージをインポート

import requests
from bs4 import BeautifulSoup
import re
import time
import csv
import pandas as pd

webページのurlを指定してhtmlを解析します．html内で授業科目名とキーワードについてidが割り振られているのでidを指定してhtml内からそれぞれを抽出します．同じような処理が続いていますが，これは上記した理由でこうなっています．

# Webページを取得して解析する
url = "https://tpuwswebsv.pu-toyama.ac.jp/public/web/Syllabus/WebSyllabusSansho/UI/WSL_SyllabusSansho.aspx? 
P1=1025535&P2=2021&P3=20210401"
html = requests.get(url)
soup = BeautifulSoup(html.content, "html.parser")

#授業科目
koginame = soup.find(id = 'lblKogiName').text

#キーワード
keyword = re.split('[,_，_、]',soup.find(id ='lblHyokaHoho').text.strip().replace(' ',''))

目次

ここでできること

デモデータの作成

協調フィルタリング

協調フィルタリングとは

教学データに対する協調フィルタリング

シラバスからキーワード抽出

準備

キーワード抽出

サンプルコード