蒲田さん
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
]
開始行:
[[由利恵]]
*目次 [#u5609921]
#CONTENTS
*プログラム [#r3c4f2b1]
#ref(flask.zip)
#ref(scraping2 .ipynb)
両方ともGoogle Drive2324の蒲田さんのプログラムに入っている~
*スクレイピング [#c94666a4]
**1. Google Driverをダウンロード[#r1a844d8]
[[chromedriver:https://chromedriver.chromium.org/download...
#ref(g1.png,,30%)
#ref(g2.png,,30%)
自分のパソコンのバージョンにあったものを入れる~
flaskの中にchromedriverというフォルダを作成する~
そこに「chromedriver.exe」を移す~
**2. app.pyを実行[#m5c71123]
46行目・222行目を「chromedriver.exe」の場所に書き換える
**3. scraping2 .ipynbを立ち上げる[#vea3ac98]
***1.以下の画像通りに選択されるようにする [#c4a2eea2]
[[日本銀行時系列統計データ検索サイト:https://www.stat-sea...
#ref(g3.png,,30%)
#ref(g4.png,,30%)
#ref(g5.png,,30%)
#ref(g6.png,,30%)
#ref(g7.png,,30%)
#ref(g8.png,,30%)
***2.Xpathを取得する [#tf4fa39c]
クリックしたい部分を右クリックし「検証」を押す~
#ref(g10.png,,30%)
該当する部分を「Copy→Copy Xpath」でコピーをする~
#ref(g11.png,,30%)
***3. プログラムに書く[#d6fca478]
+コードで新しいのを立ち上げコピーする~
def scraping():
from selenium import webdriver
from selenium.webdriver.common.by import By
import time
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.service import Service...
from webdriver_manager.chrome import ChromeDriverMana...
from pathlib import Path
import pandas as pd
import os
start_year = 2000
options = webdriver.ChromeOptions()
#options.add_argument('--headless')
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')
dldir_path = Path('csv') # csv という名前のフォルダ...
dldir_path.mkdir(exist_ok=True) # なければ作成
download_dir = str(dldir_path.resolve()) # 絶対パス...
print("download_dir: " + download_dir)
options.add_experimental_option('prefs', { # Chrom...
'download.default_directory': download_dir # 絶対パ...
})
service = Service(executable_path='C:/Users/tc22m064/...
driver = webdriver.Chrome(service=service, options=op...
driver.implicitly_wait(10)
以下のものを適切な形に変え保存し実行する
#ref(g12.png,,50%)
for i in range(1,3):
print(i)
driver.get("https://www.stat-search.boj.or.jp/")
elem = driver.find_element(By.XPATH, '//*[@id="touke...
elem.click()
elem = driver.find_element(By.XPATH, '//*[@id="touke...
elem.click()
elem_tenkai = driver.find_element(By.XPATH, '//*[@id...
elem_tenkai.click()
elem_check = driver.find_element(By.XPATH, '//*[@id=...
elem_check.click()
elem = driver.find_element(By.XPATH, '//*[@id="menuS...
elem.click()
elem = driver.find_element(By.XPATH, '//*[@id="menuS...
elem.click()
elem_start_year = driver.find_element(By.XPATH, '//*...
start_year = elem_start_year.send_keys(start_year)
elem = driver.find_element(By.XPATH, '//*[@id="resul...
elem.click()
handle_array = driver.window_handles
driver.switch_to.window(handle_array[i])
elem = driver.find_element(By.XPATH, '/html/body/div...
elem.click()
handle_array = driver.window_handles
driver.switch_to.window(handle_array[i+1])
elem = driver.find_element(By.XPATH, '/html/body/div...
elem.click()
scraping()
**4. [#md0e8b70]
**5. [#u400ec4c]
終了行:
[[由利恵]]
*目次 [#u5609921]
#CONTENTS
*プログラム [#r3c4f2b1]
#ref(flask.zip)
#ref(scraping2 .ipynb)
両方ともGoogle Drive2324の蒲田さんのプログラムに入っている~
*スクレイピング [#c94666a4]
**1. Google Driverをダウンロード[#r1a844d8]
[[chromedriver:https://chromedriver.chromium.org/download...
#ref(g1.png,,30%)
#ref(g2.png,,30%)
自分のパソコンのバージョンにあったものを入れる~
flaskの中にchromedriverというフォルダを作成する~
そこに「chromedriver.exe」を移す~
**2. app.pyを実行[#m5c71123]
46行目・222行目を「chromedriver.exe」の場所に書き換える
**3. scraping2 .ipynbを立ち上げる[#vea3ac98]
***1.以下の画像通りに選択されるようにする [#c4a2eea2]
[[日本銀行時系列統計データ検索サイト:https://www.stat-sea...
#ref(g3.png,,30%)
#ref(g4.png,,30%)
#ref(g5.png,,30%)
#ref(g6.png,,30%)
#ref(g7.png,,30%)
#ref(g8.png,,30%)
***2.Xpathを取得する [#tf4fa39c]
クリックしたい部分を右クリックし「検証」を押す~
#ref(g10.png,,30%)
該当する部分を「Copy→Copy Xpath」でコピーをする~
#ref(g11.png,,30%)
***3. プログラムに書く[#d6fca478]
+コードで新しいのを立ち上げコピーする~
def scraping():
from selenium import webdriver
from selenium.webdriver.common.by import By
import time
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.service import Service...
from webdriver_manager.chrome import ChromeDriverMana...
from pathlib import Path
import pandas as pd
import os
start_year = 2000
options = webdriver.ChromeOptions()
#options.add_argument('--headless')
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')
dldir_path = Path('csv') # csv という名前のフォルダ...
dldir_path.mkdir(exist_ok=True) # なければ作成
download_dir = str(dldir_path.resolve()) # 絶対パス...
print("download_dir: " + download_dir)
options.add_experimental_option('prefs', { # Chrom...
'download.default_directory': download_dir # 絶対パ...
})
service = Service(executable_path='C:/Users/tc22m064/...
driver = webdriver.Chrome(service=service, options=op...
driver.implicitly_wait(10)
以下のものを適切な形に変え保存し実行する
#ref(g12.png,,50%)
for i in range(1,3):
print(i)
driver.get("https://www.stat-search.boj.or.jp/")
elem = driver.find_element(By.XPATH, '//*[@id="touke...
elem.click()
elem = driver.find_element(By.XPATH, '//*[@id="touke...
elem.click()
elem_tenkai = driver.find_element(By.XPATH, '//*[@id...
elem_tenkai.click()
elem_check = driver.find_element(By.XPATH, '//*[@id=...
elem_check.click()
elem = driver.find_element(By.XPATH, '//*[@id="menuS...
elem.click()
elem = driver.find_element(By.XPATH, '//*[@id="menuS...
elem.click()
elem_start_year = driver.find_element(By.XPATH, '//*...
start_year = elem_start_year.send_keys(start_year)
elem = driver.find_element(By.XPATH, '//*[@id="resul...
elem.click()
handle_array = driver.window_handles
driver.switch_to.window(handle_array[i])
elem = driver.find_element(By.XPATH, '/html/body/div...
elem.click()
handle_array = driver.window_handles
driver.switch_to.window(handle_array[i+1])
elem = driver.find_element(By.XPATH, '/html/body/div...
elem.click()
scraping()
**4. [#md0e8b70]
**5. [#u400ec4c]
ページ名: