ときどき更新されます

CS 周りのお勉強のログ

Beyond Personalization: Social Content Recommendation for Creator Equality and Consumer Satisfaction (KDD19) を読んだ.

目的

レコメンドシステムにおいて,コンテンツを消費する人 (ユーザ) の満足が高く,推薦対象のコンテンツを選ぶ上で,クリエイターの人気の有無や,投稿したコンテンツ数などに依存せず,クリエイター間での偏りのない推薦を行うための手法を提案.
また,推薦がクリエイター間での偏りのないものであったかを確認するための指標として,ジニ係数を利用することを提供している.

論文の手法の特徴

提案手法では,コンテンツベースの手法を採用.

パーソナライズされたコンテンツの特徴を推薦に利用し,各ユーザの好みに近いコンテンツを推薦することで,クリエイターの人気などに依存せず,クリエイター間での偏りを軽減できると主張している.

f:id:jamjam723:20200505120951j:plain
特徴算出のアーキテクチャ

具体的に,ドキュメント内の単語単位の特徴から文単位の特徴を算出する際,および文単位の特徴からドキュメントの特徴を算出する際に,ユーザ特徴を利用して算出されるアテンションを基に重みづけが行うことで, パーソナライズされたコンテンツ特徴を算出を行う.
ユーザ特徴は,Embedding をもとに算出され,推薦対象ユーザだけではなく,その友人ユーザが算出に利用される.

提案手法では,ユーザ特徴でのユーザの友人利用について,隣接する友人だけでなく,数ホップ先の友人を利用すると同時に,その選択にランダム性を持たせる. これにより,推薦により寄与する友人を利用することによる推薦精度向上につながることに加えて,最終的な推薦結果に多様性が生まれるとしている.

f:id:jamjam723:20200505121025j:plain
友人利用の概要

具体的に,友人の探索はバンディット問題として扱われる.つまり,推薦に扱った方が良い友人の探索を目的とした友人選択 (探索) と,探索により得られた結果を利用した友人選択 (利用) について,それらのトレードオフを基に算出される値が最適になるよう友人を選択する.この際,選択は友人関係を基に構築されるネットワーク上で行われる.
利用において,どの友人が推薦に寄与するかの指標として,実際に探索で利用した際のF1スコアや,ページランクのスコアなど複数の指標を利用可能.探索の際には,ネットワーク上で,今まで探索に利用されていな友人ほど選ばれやすくなる指標が利用される.

実験

データセットとして,Steemit (ブロックチェーンデータベースを利用し,ブログや SNS を提供しているサービス) 上のユーザとドキュメントを利用.

あるユーザがコメントしたドキュメントを正例,友人はコメントしているがそのユーザはコメントしていないドキュメントを負例として扱う.

評価指標として,推薦精度を見るためには F1 と AUC を利用し,クリエイター間での偏りがないことを確かめるためにジニ係数を利用している.ジニ係数では,値が低いほど,いろいろなクリエイターのコンテンツが推薦対象となっている.加えて,F1 とジニ係数の調和平均 (C&C) をそれらのバランスの良さを見るための指標として利用.
ある時点より実験のデータで学習し,各時点で算出される精度の平均を最終的な精度としている.

f:id:jamjam723:20200505121103j:plain
比較結果

上表が結果であり,SEAN が提案手法. 結果において,NCF や SAMN が協調フィルタリングベースの手法であり,LR,DKN,SEAN のコンテンツベースの手法と比較しジニ係数の値が高いことがわかる. つまり,協調フィルタリングベースの手法では,推薦対象となるクリエイターに偏りがあることがわかる. DKN は,パーソナライズされたコンテンツベースの手法であるが,各ドキュメントの特徴を算出する際にユーザ情報が利用されておらず,特徴算出において提案によのアーキテクチャが有効であるとしている.

f:id:jamjam723:20200505121139j:plain
コンポーネントの貢献度

また,上の結果は提案手法をいくつかのコンポーネントに分けた際に,各コンポーネントの貢献度合いを示すもの.w/o social は,友人の情報を利用しない手法.w/o social attention は友人関係を利用する際に,提案手法では友人の特徴に対してアテンションによる重みづけを行っているが,それを無くした手法.one-hop friends は,隣接する友人しか利用しないというもの.

データセットの組み方から友人関係がかなり重要になりそうなので,提案手法の精度が高くなるのは少し当然かもしれないが(比較中で友人関係を利用するのは SAMN),マルチホップで友人関係をうまく利用する方法を提案しているのもこの論文の貢献.友人の選び方については,ランダムなものとの比較や,推薦への寄与を図る指標の比較,パイパーパラメータによる精度変化が検証されている.

関連研究

比較手法として利用されていた手法

友人関係を利用した協調フィルタリングベースの手法
Social attentional memory network: Modeling aspect-and friend-level differences in recommendation (WSDM 19)

実験でもそれなりにいい精度が出ていそうな,コンテンツベースの手法
Dkn: Deep knowledge- aware network for news recommendation (WWW 18)