AIっておもしろい?

離職者等再就職訓練でAIを勉強するブログです

JRAにはガッカリだ

本日の授業は、

午前は、前回のおさらいと辞書の続き。

午後は、所用のため早退。

 授業は粛々と進んでいきます。

 

なんとなくpythonの読み方が掴めてきたので、

予告通り、webスクレイピングにチャレンジしてみました。

 

 

ご利用は計画的に

まずはプランをたてます。

①ゴールの設定

②サンプルの検索

③目的サイトの解析

④コーディング

 

 

① ゴールの設定

素材としてまず頭に浮かんだのは競馬!

ターゲットはJRAです。

 

過去のレースデータを収集し、傾向を探る

 

といったところをゴールとしましょう。

 

 

② サンプルの検索

続いて、お手本探しです。

まだゼロから書き上げることはできないので、

JRAのサイトをスクレイピングしたよ」

というサイトを探して、サンプルとします。

 

いくつかのサイトをざっと読んでみて、

・標準ライブラリを使っている

・自前クラスを作っている

というサイトが一番勉強になりそうだったので、参考にさせていただきます。

※リンクを貼っていいのかよくわからないので、省略します

 

③ 目的サイトの解析

レース結果のサイトを解析します。

 

ここで問題発生。

同じレースなのに、URL内の番号が年毎に微妙に違う。。

しかもランダム(多分、その年のレース開催順とかなのかな?)。。。

例えばURLの末尾が

 2019年は「2019/015」

 2018年は「2018/014」

 2017年は「2019/014」

みたいに。

 

さらに、2019年から、テーブルのレイアウトが変わってる。

「コーナー通過順位」とか、急に増やさないで!

 

これらを考慮して数年分のデータを収集するとなると、

取得条件がめんどくさいことになりそう。

 

というわけで、

 

目的変更

ゴールを少し変えてみます。

 

当日のレース結果を10分単位で読み込んで、次のレースの予想を立てる

 

これならURLもレイアウトも変わらないはず!

 

が、

当日のレース結果のページは、javaScriptの「doAction」を使ってリクエストする形式になっていて、

URL直叩きじゃアクセスできないっぽい。

 

ハードルが一つ上がったよ。。。

 

チョロっと調べてみましたが、

まだワタクシめには難しいようです。

JRAめ!

おぼえてろ!!

 

 

次回予告

競馬がダメならtotoがあるじゃないか!

次回はtotoのサイトから試合結果をスクレイピングします。

本当にできたのか、乞うご期待。