競走馬の距離適性を計算する

前回パドック画像を収集しました。今回は各パドック画像のラベリングを行い学習データを作ります。

距離適性の計算

これまたnetkeibaにお世話になります。m(._.*)m

netkeibaの各馬のデータには 適性レビュー というデータがあります。 この適性レビューの 距離適性のパラメータ を利用します。

例えば、オルフェーヴルの距離適性のデータは以下のようになっています。 距離適性が 短い/長い のバーの長さの割合で表現されています。

f:id:sanshonoki:20170305072822p:plain:w400

htmlコードを見てみます。

f:id:sanshonoki:20170305073742p:plain

“短い” と “長い” のバーの長さが widthの数値で取得できそうです。(^○^)

  • 短い: 43
  • 長い: 73

距離適性は次式

 73 / (43 + 73) =  0.6293103448275862

で計算します。

この値が 0.0 に近ければ 短距離馬 で 1.0 に近ければ 長距離馬 になります。

距離適性の取得

馬名を入力として 先ほどの距離適性の値を取得します。 使ったコードはこちらにあります。

github.com

結果と分類

2525頭分の計算結果は https://github.com/tanakatsu/netkeiba_distance_aptitude/blob/master/sample.sorted_score.txt

になります。

私の肌感覚でざっくり分類すると、

category score
長距離 0.6-
中距離 0.4-0.59
マイラー 0.2-0.39
短距離 -0.19

っていうところでしょうか。

ただ、明確に線引きすることは難しそうなので長距離と短距離の分類(Classification)とかではなく回帰(Regression)として扱うのがよさそうです。

次はいよいよ学習です。 ((((o゚▽゚)o)))