前回でパドック画像を収集しました。今回は各パドック画像のラベリングを行い学習データを作ります。
距離適性の計算
これまたnetkeibaにお世話になります。m(._.*)m
netkeibaの各馬のデータには 適性レビュー というデータがあります。 この適性レビューの 距離適性のパラメータ を利用します。
例えば、オルフェーヴルの距離適性のデータは以下のようになっています。 距離適性が 短い/長い のバーの長さの割合で表現されています。
htmlコードを見てみます。
“短い” と “長い” のバーの長さが widthの数値で取得できそうです。(^○^)
- 短い: 43
- 長い: 73
距離適性は次式
で計算します。
この値が 0.0 に近ければ 短距離馬 で 1.0 に近ければ 長距離馬 になります。
距離適性の取得
馬名を入力として 先ほどの距離適性の値を取得します。 使ったコードはこちらにあります。
結果と分類
2525頭分の計算結果は https://github.com/tanakatsu/netkeiba_distance_aptitude/blob/master/sample.sorted_score.txt
になります。
私の肌感覚でざっくり分類すると、
category | score |
---|---|
長距離 | 0.6- |
中距離 | 0.4-0.59 |
マイラー | 0.2-0.39 |
短距離 | -0.19 |
っていうところでしょうか。
ただ、明確に線引きすることは難しそうなので長距離と短距離の分類(Classification)とかではなく回帰(Regression)として扱うのがよさそうです。
次はいよいよ学習です。 ((((o゚▽゚)o)))