RandomForestでPOGの賞金予測をする

結論から書けば玉砕でした。。

そりぁそうですよ

全兄弟で同じ厩舎でも一方はG1馬、他方は未勝利馬ということもあるわけですから。

数千サンプルのデータと二十次元程度の特徴量から予測するなんておこがましかったわけです。

いちおうトライしたのでやったことを書いておこうと思います。

先日実装したnetkeibaスクレイパーを使って現3歳馬のデータを抽出しました。

他に調教師、生産者、種牡馬、母父、母馬のデータも抽出し、結合して使います

調教師、生産者、種牡馬、母父、母馬のデータを結合し、 19次元のベクトルを入力として用います。

今年デビュー予定馬のデビュー時体重のデータを得るのは難しいかもしれませんが大型とか小型とかある程度はPOG本から情報仕入れられるのと予測に役に立ちそうなファクターな気がしたので入れています。

もちろん獲得賞金額になりますがlogをとって対数スケールにしました。

手っ取り早い RandomForest です。パラメータチューニングなしで学習させました。

学習データと検証データの比率は 7:3 でランダムに分割しました

学習結果

学習データでの予測結果のグラフです（logスケールなので軸の目盛りは0-10です）

f:id:sanshonoki:20180523223843p:plain

R²スコアは 0.83です

このグラフを見ると淡い期待が。。

競馬で言えば、最後の直線に入り「そのまま、そのまま」と叫ぶのに似た気持ちです

f:id:sanshonoki:20180523223919p:plain

R²スコアは 0.07 ...

全部正解だったときのスコアが1.0、ランダムに当てずっぽうに答えたときのスコアが0.0なので非常に辛い結果です

心の目で見るとわずかに右上がりの傾向が見えないこともないけど?（強がり）

夢は潰え終戦しました

が、最後にFeature Importanceを出力し、各特徴量の学習への寄与度を見てみます。

f:id:sanshonoki:20180523225001p:plain

これはPOGをやったことある人ならうなずける結果ではないでしょうか

このデータを頭に入れてドラフト会議に臨みたいと思います