スクレイピング_中市
の編集
Top
/
スクレイピング_中市
[
トップ
] [
編集
|
差分
|
履歴
|
添付
|
リロード
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
]
-- 雛形とするページ --
島部/menu/template
[[卒研1での技術習得 中市]] #menu(nakaichi) #attach(nolist) ~ **【BeautifulSoup4を使用したスクレイピング】[#i495c384] コマンドプロンプトからBeautifulSoup4とrequestsをインストールする。 pip install beautifulsoup4 pip install requests pythonファイルを作成、コピペする bs4.pyなどファイル名とモジュール名が同じだとエラーが起きる 今回使用するモジュールは4つ import requests from bs4 import BeautifulSoup import csv import re search_word = 'python' pages_num = 10 + 1 print(f'【検索ワード】{search_word}') url = f'https://www.google.co.jp/search?hl=ja&num={pages_num}&q={search_word}' request = requests.get(url) soup = BeautifulSoup(request.text, "html.parser") search_site_list = soup.select('div.kCrYT > a') for rank, site in zip(range(1, pages_num), search_site_list): try: site_title = site.select('h3.zBAuLc')[0].text except IndexError: site_title = site.select('img')[0]['alt'] site_url = site['href'].replace('/url?q=', '') print(str(rank) + "位: " + site_title + ": " + site_url) #ref(bes4.py,,ソースコード)
タイムスタンプを変更しない
[[卒研1での技術習得 中市]] #menu(nakaichi) #attach(nolist) ~ **【BeautifulSoup4を使用したスクレイピング】[#i495c384] コマンドプロンプトからBeautifulSoup4とrequestsをインストールする。 pip install beautifulsoup4 pip install requests pythonファイルを作成、コピペする bs4.pyなどファイル名とモジュール名が同じだとエラーが起きる 今回使用するモジュールは4つ import requests from bs4 import BeautifulSoup import csv import re search_word = 'python' pages_num = 10 + 1 print(f'【検索ワード】{search_word}') url = f'https://www.google.co.jp/search?hl=ja&num={pages_num}&q={search_word}' request = requests.get(url) soup = BeautifulSoup(request.text, "html.parser") search_site_list = soup.select('div.kCrYT > a') for rank, site in zip(range(1, pages_num), search_site_list): try: site_title = site.select('h3.zBAuLc')[0].text except IndexError: site_title = site.select('img')[0]['alt'] site_url = site['href'].replace('/url?q=', '') print(str(rank) + "位: " + site_title + ": " + site_url) #ref(bes4.py,,ソースコード)
テキスト整形のルールを表示する