本プログラムを動かすうえで必要なモジュールをインストールすることが必要になってくる.
しかし中にはpipのみではインストールできないモジュールも存在する.
pip install mecab
のほかにも
リンク先のexeを使ってソフトをPCにインストールする必要がある.
mecabは言語を分析するモジュールだが,このままだと中身がない.
そのため,日本語の辞書を入れる必要がある.
pip install unidic-lite
では基本的な辞書が入っているunidecl-iiteがダウンロードできる.
しかし,インストールしたMecabには古い辞書しか入っていないので、NEologdという新しい辞書を追加する.
C:\Program Files\MeCab\dic 内に配布フォルダ内dicの中のneologdをコピーする.
MeCabをPCにインストールすると基本Program Filesの中に入る?
GoogleDrive(iie.lab.tpu.1920)の平松さんのページに行き、「neologd.zip」をDLする.
ログイン時は末尾にgmail.comをつける
解凍したneologdの中身のmecab-ipadic-neologdをdicのフォルダにコピーする.
dicの中でipadic-UTF8を作成しipadicの中身を全部コピぺする.
同様に空のフォルダneologdも作成する.
管理者権限でコマンドプロンプトを起動し(管理者として実行),ipadic-UTF8のディレクトリに移動し,ipadicの中身をUTF8に変換する.
cd "c:\Program Files\MeCab\dic\ipadic-UTF8" mecab-dict-index -f utf-8 -t utf-8
Neologdの辞書をコンパイルする
cd "c:\Program Files\MeCab\dic\mecab-ipadic-neologd\seed" mecab-dict-index -d "c:\Program Files\MeCab\dic\ipadic-UTF8" -u NEologd.20200820-u.dic -f utf-8 -t utf-8 mecab-user-dict-seed.20200820.csv
mecab-ipadic-neologdのフォルダ内に作られた「NEologd.20200820-u.dic」を先ほど作った空のneologdフォルダに移動させる
Program Files/MeCab/etcの中にあるmecabrcをメモ帳で開き,下の一行を追加する
; userdic = /home/foo/bar/user.dic userdic = C:\Program Files\MeCab\dic\neologd\NEologd.20200820-u.dic
エラー対応(mecabrcを上書き保存する際、「アクセス許可がない」という旨のメッセージが出るとき
右クリックでmecabrcのプロパティを開き、Usersの「書き込み」にチェックを入れる
キーワードを書き換える,追加することで検索ワードが変化する.
chromeを使ったスクレイピング,実際に画面が現れ遷移するのが特徴
chromeは勝手に更新するので常に最新版になっている
そのためdriverも常に更新し続けなければならない
ここからchromeのバージョンにあったものをダウンロードする
一回サイトの場所が変わってるので,また変わるかもしれない 注意
pipでインストールすることもできるだろうが,わかりやすいしスクレイピング実行ディレクトリに入れとくだけでもいい.
sakusei_sale.pyを実行
youtubeのスクレイピングを一瞬でできるapi
apiキーが必要になる
apiキー取得方法
api_keyを自分で取得したものに書き換えてvideo_sakusei.pyを実行