【確率・統計っぽい】勝手にp i x i vオリジナルイラストオブザマンス6月度をクラスター分析

※ただし手作業
7月度はこちら。
8月度はこちら。

■今回も平均値法のみ

もうこれだけでいいだろｊｋ……

■収集データ

	1位		2位		3位		4位		5位		6位	7位	8位	9位	10位
1位	―	0	-2	12	-2	-2	-3	-3	2	1
2位	0	―	7	-3	-2	1	6	-1	-5	-3
3位	-2	7	―	-1	-3	7	6	3	-2	-5
4位	12	-3	-1	―	0	3	-5	1	4	-2
5位	-2	-2	-3	0	―	2	-3	-3	-2	-3
6位	-2	1	7	3	2	―	0	8	-5	-4
7位	-3	6	6	-5	-3	0	―	3	-3	-2
8位	-3	-1	3	1	-3	8	3	―	-1	-2
9位	2	-5	-2	4	-2	-5	-3	-1	―	6
10位	1	-3	-5	-2	-3	-4	-2	-2	6	―

ちなみに、今回からは「提示された3枚を2グループに分けることができなかった」場合を、スキップではなくて比較1回にカウントしている。つまり、前回までよりは精度が下がる可能性がある。

■分類結果

〜4組〜

〜〜〜1/4組〜〜〜

〜〜〜2/4組〜〜〜

〜〜〜3/4組〜〜〜

〜〜〜4/4組〜〜〜

〜3組〜

〜〜〜1/3組〜〜〜

〜〜〜2/3組〜〜〜

〜〜〜3/3組〜〜〜

〜2組〜

〜〜〜1/2組〜〜〜

〜〜〜2/2組〜〜〜

……結構うまく分かれた？

■「比較回数が少ないとどうなるの？」っと

上で示した収集データはこれまでと同様、60回の比較作業の結果を集計したものになっている。ただ、10個のデータから3個を選ぶ組み合わせは120通りしかないわけで、つまりは全パターンの半分まで比較を終えていたことになる。そりゃ俺がブレなけりゃ精度も出るわ。
というわけで、こんなこともあろうかと比較回数10回ごとに収集データの途中経過を記録しておいたので、比較回数が少ない場合にどのような分類結果になるかを見てみる。徐々に分類の精度が上がっていく様子が見られるはず。

■収集データ（10回/60回）

	1位		2位		3位		4位		5位		6位	7位	8位	9位	10位
1位	―	-1	0	4	0	0	-1	-2	0	0
2位	-1	―	0	-1	0	0	0	0	0	0
3位	0	0	―	0	0	0	0	0	0	0
4位	4	-1	0	―	-1	2	0	1	-1	-2
5位	0	0	0	-1	―	-1	-1	-1	0	0
6位	0	0	0	2	-1	―	0	0	-1	-1
7位	-1	0	0	0	-1	0	―	6	-1	0
8位	-2	0	0	1	-1	0	6	―	-1	-1
9位	0	0	0	-1	0	-1	-1	-1	―	4
10位	0	0	0	-2	0	-1	0	-1	4	―

■分類結果

（4分割〜2分割まで60回の場合と同じだったため、略）

■なん……だと……。

……まぁ、今回たった10回の比較で60回と同じ精度の分類が得られたのは単なる偶然としても、データ群から無作為に3つを抽出して提示し、それを2組にグループ分けしてもらったデータを集めてデータ群全体をグループ分けするというやり方は割と上手くいくんじゃないかという気がしてきた。
人間、絶対的な一定の指標に基づいてコンテンツを評価するのは難しくても、コンテンツを並べて比較するのは割と簡単にできるもんで*1、これなら多少時間は掛かるけどさほど難しい判断をすることなく、そこそこ精度の高いグループわけができるようになりそうだ。
……てか、この発想って、協調フィルタリングに興味があった頃に読んだ論文の丸パクリなんだけどね……。

*1:だからこそ、何かの感想を言うときはつい比較をしてしまうわけで。