近況

なんちゃって協調フィルタリング@pixivについては、計算法その2に足切りを加えた手法を暫定的に採用し、実験中。とはいえ、結局のところ、全体ブックマーク数が少ない(20とか50とか)イラストに対しては、十分な性能を発揮することができない、というのが現状。
約50ブクマの無題(-01-、-02-のサンプル2参照)については、手法1でそこそこの成績を出せていたので、可能性として何とかなることは有り得るけど、20まで行くともう実用には耐えないんじゃないか、というのが結論になりつつある感じ。
足切りを上位n%にして、候補イラストがm枚残らなかったら計算不能、とかの処理によって、対象イラスト自体を足切りすることになるかも知れない。

データ数による信頼度を連続的なパラメータとして織り込む方法も引き続き考え中。信頼区間は多分使わないけど。
全体ブクマ数0(または1)の時に0、全体ブクマ数n(例えば100)の時に0.95、その後は1に近づく漸近線となるような曲線を描く関数(例えばニューラルネットワークなどで用いる「シグモイド関数」)を、データに対する信頼度として採用し、実験する予定。統計に対する知識や理論の裏づけがない以上、ここからは恣意の域。

別アプローチとして、関連度上位になるイラスト群の全体ブクマ数(あるいは同時ブクマ数)の分散が最大となるような値(あるいはそこから少し上下させた値)を足切りに用いるという手法も考え中。これまで、「全体ブクマ数の多いものが出すぎている。人気のせいだ」「同時ブクマ数の少ないものが出すぎている。信頼度を考慮していない」と、抽出されるイラストのブクマ状況の偏りをもって性能に言及していたことに先日気づいたので、そこからアプローチしてみようかと。計算が面倒くさくなるけど、明示的に理想の挙動を手法に織り込むのは初なのでどうなるか気にはなる。

現在、pixiv内には、足切り手法(同時ブクマ数に対して、対象イラストの全体ブックマーク数の0.4乗で足切り)での抽出結果を4つほどブクマグループ化中。性能が芳しくなかった、ブクマ数の少ない2つの例はボツ。酷い話です><