なんちゃって協調フィルタリング@pixiv-04-

pixivのイラストに対して協調フィルタリングっぽい何かを用いて、指定したイラストに傾向や内容の近いイラストを抽出、レコメンドしようとする試み。色々出して結果を見てみようかと。
オフィシャルにそういう機能があったら嬉しいという下心も込みで。

第四回「統計的信頼度確保のための足切り

第二回サンプル02において、「全体ブックマーク数の少ないイラストは、情報が少なく集計結果の信頼性に乏しいため、取り除かなければいけない」という結論に至った。ブックマークの少ないイラストがレコメンドの対象外となるのは、個人的な感覚では望ましいところではないけど、手法が協調フィルタリング(的な何か)であり、対象とするデータがブックマーク情報のみでは仕方ない。自分では多分やらないけど、画像内容やタグ、キャプションの分析など、その他の手法に任せることにする。
「データ数の少ない情報は信頼性に乏しい」という処理を実現する方法は、適当に思いついたところで二つある。

  • データ数の閾値を設定し、それよりブックマーク数の少ないイラストを足切りする(候補から外す)
  • データ数を「情報の信頼性」に変換する計算法を探し(あるいは考案し)、関連度に掛け(あるいは足し)合わせる

……意外と試行錯誤しても成果が出ない感じの袋小路になってしまった……少し考えてみます。