次の例のようにCNN (Convolutional Neural Network) で何か面白い分類をやってみたい
MNISTやCifar10と言ったような練習用のありきたりのデータではなく何かcoolな題材はないかな〜と考えていたところ、、
馬体から短距離馬と長距離馬を見分けられたら面白いのではないか?(また、競馬かよ)
そう、短距離馬と長距離馬は首筋の長さ、太さで特徴が違うのです。
もしかしたらディープラーニングで見分けられるかも〜?! ¨キ(o゚Д゚o)¨キ
ということで、パドック画像を探してみます。パドック画像だけを取りまとめているリソースがなかなか見つかりませんでしたが、、、
ありました! 競馬道のサイトの競馬ブックコーナーです。ヽ( ´¬`)ノ
早速、クローラを実装して画像を収集させていただきました。ソースコードはこちらにあります。
2001年より前はフォーマットが違っていて以下のように写真の中に文字も含まれてしまうので2002年以降の写真を収集しました。
http://www.keibado.ne.jp/keibabook/010109/photop.html
2017年1/23時点で のべ頭数 8707頭、ユニーク頭数としては 2528頭分の画像を収集できました。
収集した画像はこちらからダウンロードできます。
- https://momonoki.blob.core.windows.net/data/keibado/padock_images_20170123.zip (340M)
- https://momonoki.blob.core.windows.net/data/keibado/padock_photo_urls_20170123.pkl (1.8M)
- 馬名と画像URLのリスト
http://www.keibado.ne.jp/keibabook/170109/images/pp01.jpg
の画像URLの場合、170109_pp01.jpg
として保存しています
- 馬名と画像URLのリスト
今回はここまでです。