JRAにはガッカリだ - AIっておもしろい？

本日の授業は、

午前は、前回のおさらいと辞書の続き。

午後は、所用のため早退。

授業は粛々と進んでいきます。

なんとなくpythonの読み方が掴めてきたので、

予告通り、webスクレイピングにチャレンジしてみました。

ご利用は計画的に

まずはプランをたてます。

①ゴールの設定

②サンプルの検索

③目的サイトの解析

④コーディング

① ゴールの設定

素材としてまず頭に浮かんだのは競馬!

ターゲットはJRAです。

過去のレースデータを収集し、傾向を探る

といったところをゴールとしましょう。

② サンプルの検索

続いて、お手本探しです。

まだゼロから書き上げることはできないので、

「JRAのサイトをスクレイピングしたよ」

というサイトを探して、サンプルとします。

いくつかのサイトをざっと読んでみて、

・標準ライブラリを使っている

・自前クラスを作っている

というサイトが一番勉強になりそうだったので、参考にさせていただきます。

※リンクを貼っていいのかよくわからないので、省略します

③ 目的サイトの解析

レース結果のサイトを解析します。

ここで問題発生。

同じレースなのに、URL内の番号が年毎に微妙に違う。。

しかもランダム(多分、その年のレース開催順とかなのかな？)。。。

例えばURLの末尾が

　2019年は「2019/015」

　2018年は「2018/014」

　2017年は「2019/014」

みたいに。

さらに、2019年から、テーブルのレイアウトが変わってる。

「コーナー通過順位」とか、急に増やさないで！

これらを考慮して数年分のデータを収集するとなると、

取得条件がめんどくさいことになりそう。

というわけで、

目的変更

ゴールを少し変えてみます。

当日のレース結果を10分単位で読み込んで、次のレースの予想を立てる

これならURLもレイアウトも変わらないはず！

が、

当日のレース結果のページは、javaScriptの「doAction」を使ってリクエストする形式になっていて、

URL直叩きじゃアクセスできないっぽい。

ハードルが一つ上がったよ。。。

チョロっと調べてみましたが、

まだワタクシめには難しいようです。

JRAめ！

おぼえてろ！！

次回予告

競馬がダメならtotoがあるじゃないか！

次回はtotoのサイトから試合結果をスクレイピングします。

本当にできたのか、乞うご期待。