【確率・統計っぽい】勝手にp i x i vオリジナルイラストオブザマンス8月度をクラスター分析

※ただし手作業。

■なにやるか

先日選出したKPOIOTM201108の10枚のイラストを、クラスタ分析でもって良い感じに分類できないか実験する。

■元データはどうするか。

「対象の10枚のイラストからランダムに3枚を選び、似てる2枚と仲間外れの1枚に分けた結果」を掻き集めて元データとする。*1
例えば、【A、B、C】という3枚の組について「AとCが似ている」とした場合、

  • A×Bの組…… -1点
  • B×Cの組…… -1点
  • A×Cの組…… +2点

というようなデータを得る。
10枚からランダムに3枚選ぶパターンは120通りあるけど、内60パターンをデータとして集めたのでそこそこの精度になってもらわないと困る。
ただしデータは俺の分類のみ。

■階層的クラスタリなんとか

フルに名称書くと検索で引っ掛けて来る人がたまにいるので省略する。これは、最初はバラバラのデータを、近いものから順に組にしてクラスタリングする手法。
個と個の比較なら単に得点を見ればいいけど、個と群を比較する時どうすればいいの、というところでやり方が分かれる。
手作業なのであまり凝ったことはできないので

  1. グループとの比較では、個々の組み合わせの得点の最大値を見る
  2. グループとの比較では、個々の組み合わせの得点の最小値を見る
  3. グループとの比較では、個々の組み合わせの得点の平均値を見る

の3パターンを試す。
例えば、【A, B】組とCの得点を求める場合、A×Cを3点、B×Cを5点と仮定すると、

  1. 個々の組み合わせの得点の最大値を見るので、【A, B】×Cは5点
  2. 個々の組み合わせの得点の最小値を見るので、【A, B】×Cは3点
  3. 個々の組み合わせの得点の平均値を見るので、【A, B】×Cは4点

ということになる。

■収集データ

で、実際に集めたデータが以下。

  1位 2位 3位 4位 5位 6位 7位 8位 9位 10位
1位 1 -3 6 2 -4 1 4 10 -1
2位 1 5 -3 4 3 -2 9 0 -2
3位 -3 5 -4 3 5 -5 -2 -6 -4
4位 6 -3 -4 -2 -3 3 -1 8 -1
5位 2 4 3 -2 -2 3 0 1 -4
6位 -4 3 5 -3 -2 -3 0 -4 -4
7位 1 -2 -5 3 3 -3 -2 4 0
8位 4 9 -2 -1 0 0 -2 -1 -6
9位 10 0 -6 8 1 -4 4 -1 -3
10位 -1 -2 -4 -1 -4 -4 0 -6 -3

……おおう、右詰になってくれないと見づらい……。

■1. 最大値を見てクラスタリングした場合

とりあえず、4〜2組に分けた場合を見ることにする。

〜4組〜
〜〜〜1/4〜〜〜

〜〜〜2/4〜〜〜

〜〜〜3/4〜〜〜

〜〜〜4/4〜〜〜


1組目が「萌え度やや高め」、2組目が「萌え度低い」、3組目が「どっちつかず」、4組目が「ガチの萌え系」という感じだろうか。最大値法は、吸い込み性能高いやつが一大勢力を作ってしまうので、3・4組目みたいな孤立した組が残りやすい、気がする。

〜3組〜
〜〜〜1/3〜〜〜

〜〜〜2/3〜〜〜

〜〜〜3/3〜〜〜


4組の時の3組目が「萌え度低い」に取り込まれた感。

〜2組〜
〜〜〜1/2〜〜〜

〜〜〜2/2〜〜〜


「10枚の中で10位だけ異色すぎね?」的なアレが、孤立グループを作りやすい性質で浮き彫りになった感じだろうか。

■2. 最小値を見てクラスタリングした場合

〜4組〜
〜〜〜1/4〜〜〜

〜〜〜2/4〜〜〜

〜〜〜3/4〜〜〜

〜〜〜4/4〜〜〜


1組目が「萌え度高め、ギュウギュウ詰め」、2組目が「萌え度低め」、3組目が「やや開放的系」、4組目が「ガチの萌え系」って感じ?

〜3組〜
〜〜〜1/3〜〜〜

〜〜〜2/3〜〜〜

〜〜〜3/3〜〜〜


1組目が「女の子キャラ目立ってる絵」、2組目が「萌え度低い」、3組目が「ガチのm(r」的な。

〜2組〜
〜〜〜1/2〜〜〜

〜〜〜2/2〜〜〜


最大値法が2組の時に「10位が異端すぎね?」的に10位を孤立させたのに対して、最小値法は「10位は強いて言えば『萌え度強い系』グループと言えるんじゃん?」みたいな事になってる。

■3. 平均値を見てクラスタリングした場合

〜4組〜
〜〜〜1/4〜〜〜

〜〜〜2/4〜〜〜

〜〜〜3/4〜〜〜

〜〜〜4/4〜〜〜


最小値法と同じ。

〜3組〜
〜〜〜1/3〜〜〜

〜〜〜2/3〜〜〜

〜〜〜3/3〜〜〜


最小値法と同じ。

〜2組〜
〜〜〜1/2〜〜〜

〜〜〜2/2〜〜〜


最大値法と同じ。大して面白くない結果になったなぁ。

■……で?

いや、なんか、意外と良い感じに分かれたなぁ。まる。

*1:これは、以前妄想していたp i x i vのイラストをユーザに分類してもらうWebサービスで使おうと思ってたクラスタリングデータ収集法だったりする。有効かどうかは知らない。