JRAにはガッカリだ
本日の授業は、
午前は、前回のおさらいと辞書の続き。
午後は、所用のため早退。
授業は粛々と進んでいきます。
なんとなくpythonの読み方が掴めてきたので、
予告通り、webスクレイピングにチャレンジしてみました。
ご利用は計画的に
まずはプランをたてます。
①ゴールの設定
②サンプルの検索
③目的サイトの解析
④コーディング
① ゴールの設定
素材としてまず頭に浮かんだのは競馬!
ターゲットはJRAです。
過去のレースデータを収集し、傾向を探る
といったところをゴールとしましょう。
② サンプルの検索
続いて、お手本探しです。
まだゼロから書き上げることはできないので、
というサイトを探して、サンプルとします。
いくつかのサイトをざっと読んでみて、
・標準ライブラリを使っている
・自前クラスを作っている
というサイトが一番勉強になりそうだったので、参考にさせていただきます。
※リンクを貼っていいのかよくわからないので、省略します
③ 目的サイトの解析
レース結果のサイトを解析します。
ここで問題発生。
同じレースなのに、URL内の番号が年毎に微妙に違う。。
しかもランダム(多分、その年のレース開催順とかなのかな?)。。。
例えばURLの末尾が
2019年は「2019/015」
2018年は「2018/014」
2017年は「2019/014」
みたいに。
さらに、2019年から、テーブルのレイアウトが変わってる。
「コーナー通過順位」とか、急に増やさないで!
これらを考慮して数年分のデータを収集するとなると、
取得条件がめんどくさいことになりそう。
というわけで、
目的変更
ゴールを少し変えてみます。
当日のレース結果を10分単位で読み込んで、次のレースの予想を立てる
これならURLもレイアウトも変わらないはず!
が、
当日のレース結果のページは、javaScriptの「doAction」を使ってリクエストする形式になっていて、
URL直叩きじゃアクセスできないっぽい。
ハードルが一つ上がったよ。。。
チョロっと調べてみましたが、
まだワタクシめには難しいようです。
JRAめ!
おぼえてろ!!
次回予告
競馬がダメならtotoがあるじゃないか!
本当にできたのか、乞うご期待。