【確率・統計っぽい】勝手にp i x i vオリジナルイラストオブザ“イヤー”はどこまで信頼できるのか

このブログのメインコンテンツはあくまでも「勝手にp i x i vオリジナルイラストオブザマンス」*1なわけだけど、2011年1月から始めたシリーズが12月まで至ったら、まぁマンスが12個揃ったらイヤーなわけで「勝手にp i x i vオリジナルイラストオブザ“イヤー”*2」もやろうかと思ってる。
それについて、ちょっと調べてみた。

■KPOIOTMについて

まずマンスはどうやって選んでいるかというと、

  1. p i x i vで日々イラストをブクマしている
  2. ↑の際、版権でないイラストは「オリジナル」として分類している
  3. ↑の内、特に気に入ったイラスト等は「PickUpオリジナル」として投稿月で分類している
  4. 月毎に「PickUpオリジナル」イラストから手動トーナメントソートでTop10を選んでいる

という感じになっている。「PickUpオリジナル」が毎月大体300〜400枚くらい。

■気になること

KPOIOTM2011年3月度のみにおいて、ここまで既にランクインイラストが5枚削除されるという事態が起きている。3月に製作・公開されるイラストには何か特別な事情があるんだろうか。何にせよ、ランクインイラストが削除された際には繰上げをしているわけだけど、これと同じことをKPOIOTYに対してやると、ある問題が生じる。
KPOIOTYは、該当する3000〜4000枚に対してまともにトーナメントソートを掛けると時間を著しく消耗するので、毎月のKPOIOTM該当イラスト、計120枚に対してトーナメントソートを掛けて選ぼうと思っている。
毎月のTOP10を全て網羅すれば、少なくとも年間TOP10は確実に網羅することができる。
問題は、その先だ。
極端な話、8月に年間TOP11が集中して投稿されたと仮定すると、11位は8月のランキングに残らず、当然年間ランキングにも残らない。この場合、仮に1枚繰上げが発生したとすると、その時10位に繰り上げられるのは11位ではなくなる。つまり、極端だろうが可能性がある以上、この方法で11位以降が正しく選ばれる確率は100%ではありえない。

■「100%でなくてはいけないんでしょうか」

ところで、統計の世界においては、「99% or 95% or 90%信頼できればいいんじゃーん?」という考え方をすることがある。統計先生が仰るんだから、この程度の信頼度が保証されたらとりあえず妥当だと思うのが正しいんである。多分。
じゃあ、11位以降が残ってる確率が100%でないのはいいとして、99%、95%、90%なら、何位までは信頼できるのか=繰上が妥当なのか。
それを調べてみた。
……言ってて不毛な気がしてきたけど、気になったんだから仕方ない。

■問題

4200個のデータを350個毎に12個のグループに分け、グループ毎に上位10個を選んだ時、1位から何位までのデータが99%、95%、90%の確率で連続して残留しているか。

■検証方法

EXCEL VBAでプログラム作って回した。処理が超遅かったので1000回くらいで止めた。今では反省している(適当にコーディングしたことを)。

■結果

確率 信頼できる最低順位
100% 10位
99% 43位
95% 51位
90% 56位

■感想

なんだ、全然よゆうじゃんね。心配して損したわ。

*1:以下「KPOIOTM」。

*2:以下「KPOIOTY」。