変動係数でPOGデータの分析

せっかく集めたデータなので変動係数(Coefficient of Variance)を使って粘って解析してみます。 データは5/3時点で集計したものを引き続き使っています。

変動係数(Coefficient of Variance)とは

定義

CV = 標準偏差 / 平均値

何を意味する?

相対的なばらつきを表します。 平均値が異なる二つの集団のばらつきを比較する場合に用いられます。

具体例

例えば、りんごが5個、いちごが5個ありそれぞれの重さ(g)が以下であったとします

りんご いちご
100 10
100 10
110 15
110 15
100 10

それぞれの標準偏差は次のようになります。

りんごの標準偏差=4.90、いちごの標準偏差=2.45

りんごの標準偏差の方が大きいので一見、りんごの方がバラつきが大きいように見えますがこれはりんごの1個1個の重さがいちごに比べて大きいためであり、

変動係数CVを計算すると

りんごの変動係数= 4.90(標準偏差) / 104(平均値) = 0.047

いちごの変動係数= 2.45(標準偏差) / 12(平均値) = 0.20 >> 0.047

となり、いちごの方がバラつきが大きいことがわかります。

POGのデータで解析

それでは、POGのデータでいろいろ見てみます。

見方としては、変動係数が大きい = リスクが高い ということになりますので 「平均値が高く、変動係数が小さい」ところを狙うのが統計的には良い戦略となります。

牡馬・牝馬

f:id:sanshonoki:20180530215652p:plain

やはりというか牡馬が平均値が高くリスクも低いという結果でした。 素直に牡馬の割合を多くしたほうが良さそうです。

種牡馬

リーディング上位の15頭をプロットしています。

f:id:sanshonoki:20180530215953p:plain

ディープインパクトが断トツなことがわかります。これはもう逆らえないですね。。

ダイワメジャーよりキングカメハメハハーツクライルーラーシップのほうに行きたくなりますが産駒全体としてはダイワメジャーのほうが平均的に稼ぐようです。なるほど、そうなのか。

キンシャサノキセキが健闘していて下位指名で妙味がありそうです。

ロードカナロアオルフェーヴルの新種牡馬は育成ノウハウがたまってくる来年以降、変動係数も下がってくるのではないでしょうか。注目したいです

BMS(母父)

リーディング上位の15頭をプロットしています。

f:id:sanshonoki:20180530220144p:plain

Storm Catキングカメハメハが抜けています。 なお、フォーティナイナー皐月賞馬のエポカドーロ効果です。

記憶に新しいところでは今年のダービー馬 ワグネリアンは母父キングカメハメハ、 2013年のダービー馬 キズナは母父Storm Catでした。 どちらも父はディープインパクト

生産者

リーディング上位20牧場をプロットしています。

f:id:sanshonoki:20180530221208p:plain

(注:エポカドーロ効果で生産者の田上徹さんは表外に突き抜けてプロットされています)

ノーザンファーム社台ファーム白老ファームの社台系はさすがに外せないですが

ケイアイファームはロードホースクラブやダノンとの結びつきがあり、社台系以外で狙うならこれではないでしょうか。

それ以外では、グラフから

も健闘していることが読み取れます。

下位で遊びつつも賞金も狙いたいというときによいかもしれません。

調教師

リーディング上位の40人をプロットしました。

f:id:sanshonoki:20180530223458p:plain

桜花賞馬アーモンドアイを出した国枝厩舎はさすがに変動係数が大きくなっています。 それを考えるとエポカドーロの藤原英厩舎、ダノンプレミアムの中内田厩舎はすごい気がします。

友道厩舎も重賞馬出していてこの変動係数の低さはすごいと思います。

あとはリーディング上位常連の藤沢和、池江厩舎、音無厩舎、角居厩舎、手塚厩舎と若手の木村厩舎ですか (角居と手塚はプロットが重なっています)

藤岡厩舎、南井厩舎、浅見厩舎はデータにすると私のイメージ以上の活躍でした。侮っていてすみません。。

須貝、矢作、石坂厩舎は毎年のように活躍馬を出しているイメージですが0勝に終わる馬も多いようで平均値が低くなっていることがわかりました。

勝ち上がり馬率

その、登録されている3歳馬のうち1勝以上あげている馬の割合です。

藤沢厩舎はすごいですね。 堀厩舎の安定感はイメージ通り。

このデータからは庄野厩舎、高野厩舎もマークしておきたいです。

f:id:sanshonoki:20180530223642p:plain

栗東美浦

f:id:sanshonoki:20180530222105p:plain

素直に栗東の割合を多くしましょう

誕生日

f:id:sanshonoki:20180530221718p:plain

このグラフと次のグラフは縦軸が賞金です。

ある程度以上の活躍する馬は1/1から数えて120日ぐらいが目安でしょうか。 つまり5月生まれはやはり不利なことがわかります。

デビュー時点での馬体重

f:id:sanshonoki:20180530221832p:plain

450-500Kgが良さそうですね。 本当に稼ぐ馬は470-480Kg前後ぐらいでしょうか。

使ったコード

今回の分析で使ったjupyter notebookはこちらになります。 csvファイルもあります。

github.com

「やはり」を連発してしまいましたが、自分で数字出せるとなかなか面白いです。 来年度、またやってみようと思います。(もうちょっと深い分析ができるとよいな)