競走馬のパドック画像を収集する

次の例のようにCNN (Convolutional Neural Network) で何か面白い分類をやってみたい

gigazine.net

MNISTやCifar10と言ったような練習用のありきたりのデータではなく何かcoolな題材はないかな〜と考えていたところ、、

馬体から短距離馬と長距離馬を見分けられたら面白いのではないか?(また、競馬かよ)

そう、短距離馬と長距離馬は首筋の長さ、太さで特徴が違うのです。

もしかしたらディープラーニングで見分けられるかも〜?!   ¨キ(o゚Д゚o)¨キ

ということで、パドック画像を探してみます。パドック画像だけを取りまとめているリソースがなかなか見つかりませんでしたが、、、

ありました! 競馬道のサイトの競馬ブックコーナーです。ヽ( ´¬`)ノ

早速、クローラを実装して画像を収集させていただきました。ソースコードはこちらにあります。

github.com

2001年より前はフォーマットが違っていて以下のように写真の中に文字も含まれてしまうので2002年以降の写真を収集しました。

http://www.keibado.ne.jp/keibabook/010109/photop.html http://www.keibado.ne.jp/keibabook/010109/images/pp01.jpg

2017年1/23時点で のべ頭数 8707頭、ユニーク頭数としては 2528頭分の画像を収集できました。

収集した画像はこちらからダウンロードできます。

今回はここまでです。