なんちゃって協調フィルタリング@pixiv-番外編-

実は、最初の3つまでは事前にある程度は成果が出ていたというドーピングっぷりで三回まで順調そうにこなしてきたけど、当然のように順調に行ってない辺りで行き詰ったorz
全体ブックマーク数について、閾値足切りを行なう方法をいくつか試して思ったのは、「信頼できなさそうな関連度を持つイラストの全体ブックマーク数が、対象イラストの全体ブックマーク数が上がるにつれて上がってきているような気がする」ということだった。適当な性格なのでまだ厳密な検証はしていない(というか、厳密な検証をできるほどのデータを集める作業が比較的死ねる)。
もし前述の憶測が事実であるなら、固定の閾値は効果が保証されなくなってしまう……。
方法は大きく分けて2通りある、と思う。

  • 何らかの方法でデータ数に対応した信頼度を関連度計算に組み込む
  • そもそも計算法その2で導入した2つの割合の積算という概念がガンなので他を考える

正直、後者はぃゃん……と言いたいところだけど、あれによって全体ブックマーク数の極端に少ないイラストが、信頼できなさそうな割に強くなってしまったのは事実。指標(対象イラスト好きに人気な割に対象イラスト好き以外には不人気)が間違ってるとは思わないけど、その実現方法が乱暴すぎた可能性はある。
計算法その2は間違ってないよと信じて前者に取り組むか、計算法その2自体を疑ってかかるか。

…………。

とりあえず、リサーチ。