ID対マルチモーダル推奨システム:転移学習の視点

ID対マルチモーダル推奨システム:転移学習の視点を使った美容とファッションに関する記事

1. 転送可能な推薦システムの開発

推薦システムの主な目標は、ユーザーの過去の行動をモデル化して最も可能性の高い次の相互作用を予測することです。しかし、新たに設立された推薦プラットフォームや新規ユーザーの制約された相互作用のシーケンスが存在するような「コールドスタート」の状況では、十分なサンプルデータがないため、初期のモデルトレーニングは困難を伴います。制限されたトレーニングデータでのモデル化は、満足のいくユーザー推薦の結果にならず、プラットフォームの成長を妨げます。この問題に対処するため、学術界や産業界の両方で注目されている解決策が転移学習です。予め学習された知識を後続のシナリオに導入することで、コールドスタートの問題を著しく緩和し、ユーザーの相互作用のモデル化に役立ちます。

そのため、転送可能な推薦システムの研究は、推薦システムの分野の発展の各段階でほぼ継続的に行われてきました。アイテムIDとユーザーIDに基づく行列分解の時代から、転送可能な推薦システムは、ソースと後続のシナリオの両方からのデータオーバーラップに基づいたIDベースの推薦システムのための転移学習を実現する必要がありました。近年では、マルチモーダル理解技術の急速な発展があります。研究者たちは徐々に、純粋なモーダル情報を使用してユーザーシーケンスをモデル化することに焦点を移し、ソースと後続のシナリオの間にデータオーバーラップがない場合でも、転送可能な推薦を実現しています。現在、「ワン・フォー・オール」と呼ばれる大規模言語モデル(LLM)を使用する推薦システムが注目を集めています。転送可能な推薦システムの探求、そして推薦システムの基盤モデルすらも次のフロンティアとして推薦システムの分野に現れています。

2. IDベースの転送可能な推薦システム

最初の段階は行列分解の時代であり、協調フィルタリングアルゴリズムにおいてアイテムをモデル化するためのID埋め込みの使用が推薦システムの分野で主流であり、約15年間推薦システムのコミュニティ全体を支配していました。古典的なアーキテクチャには、デュアルタワーアーキテクチャ、CTRモデル、セッションおよびシーケンス推薦、グラフネットワークなどがあります。これらはすべてアイテムをモデル化するためにID埋め込みを使用しており、現行の最先端の推薦システムは主にID特徴に基づいたモデル化に依存しています。

この段階では、転送可能な推薦システムは自然にIDに依存しており、ソースと後続のシナリオの間でデータの共有が必要でした。たとえば、複数のビジネスシナリオを持つ大企業では、既存のビジネスによって生成された流入を通じて新しいビジネスを推進する必要があります。この段階の初期の研究には、PeterRec[1](SIGIR 2020)、Conure[2](SIGIR 2021)、CLUE[3](ICDM 2021)などがあります。

PeterRecは、自己教師ありの事前トレーニング(自己回帰およびマスク言語モデル)に基づくユーザー表現の普遍性を明示的に主張した、推薦システムの分野で最初の論文です。これは、これらの事前トレーニングされた普遍的な表現がクロスドメインの推薦やユーザープロファイル予測に使用でき、パフォーマンスを大幅に向上させることを明確に示しています。ユーザープロファイル予測を通じてユーザー表現の普遍性を評価する手法は、後続の関連論文で広く採用されています。さらに、PeterRecは大規模なクロスドメインの推薦システムデータセットも公開しています。

Conureは、推薦システムの分野におけるユーザーの普遍的な表現に関する終身学習モデルです。このモデルは、複数の異なる後続タスクを連続的に学習し提供するモデルを導入します。著者によって提案された「一人につき一つの世界」という概念は、特にワンフォーオールモデルの研究において、現在の推薦システムの研究にインスピレーションを与えました。

CLUEは、PeterRecとConureの両方のアルゴリズムがユーザーの表現を学習する際に自己回帰またはマスキングメカニズムを使用していると主張しており、これらはアイテムベースの予測です。しかし、最適なユーザー表現は明らかに完全なユーザーシーケンスをモデル化してトレーニングすべきです。したがって、対比学習を組み合わせることでより良い結果が得られます。

この時期には、AlibabaのStarモデル(One Model to Serve All:Star Topology Adaptive Recommender for Multi-Domain CTR Prediction)やShopperBERTモデル(Eコマースの推薦システムのためのOne4allユーザー表現)などの同時または将来の研究もあります。

3. モード情報に基づく転送可能な推薦システム

前述の研究では、異なるドメイン間で転送可能な推薦システムを実現するために(ユーザーまたはアイテム)IDの共有に依存しています。このアプローチは、単一企業内の企業内転送に適していますが、現実には異なる推薦システムがユーザーとアイテムのID情報を共有することは困難であり、クロスプラットフォームの推薦に関連する研究に重要な制約を生じさせています。

他の深層学習コミュニティ(自然言語処理(NLP)やコンピュータビジョン(CV)など)とは対照的に、最近の数年間において、影響力のある汎用大規模モデル、またはファウンデーションモデルとして知られるものが登場してきました。BERT、GPT、Vision Transformerなどがその例です。推奨システムの分野では主にIDベースの特徴が使用されますが、NLPとCVのタスクはマルチモーダルなテキストや画像ピクセルの特徴に基づいており、異なるタスク間でモデルの再利用や転送をより良く可能にしています。この段階では、主流の方向性はIDベースの特徴をモーダルコンテンツで置き換えることで、異なるシステムやプラットフォーム間での転送を容易にすることです。この段階の代表的な作品には、TransRec [4]、MoRec [5](SIGIR 2023)、AdapterRec [6](WSDM 2024)、NineRec [7]などがあります。

TransRecは、ミックスモーダルベースのトランスファーラーニングを探求した初の推奨システムモデルです。また、画像ピクセル情報の転送を考慮した最初のモデルでもあります。 TransRecは、オフラインのマルチモーダルアイテム表現を直接的に抽出するのではなく、エンドツーエンドのトレーニング手法を採用しています。 IDベースのシーケンシャル推薦モデルと比較して、Fine-tuned TransRecは推奨結果を効果的に改善することができます。 TransRecは、ミックスモーダル情報を使用した大規模データの事前学習を通じて、ユーザーとアイテムの関係性を効果的に学習し、この知識を下流タスクに転送することで、一般的な推奨機能を実現できることを示しています。 この論文では、スケーリング効果を調査し、複数のマルチモーダルデータセットを公開する予定です。

MoRecは、アイテムを表現するために最新のモーダルエンコーダを使用することが、古典的なアイテムID埋め込みパラダイム(DRec)を置き換えることができるかどうかという問いに対して体系的な答えを提供します。この論文では、MoRecとIDRecの公正な比較を行い、MoRecが冷えた状況とホットな状況の両方でIDRecを上回ることができれば、これは推奨システムの古典的なパラダイムを革命的に変えるでしょう。MoRecは、アイテムのモーダル情報に基づいてユーザーを完全にモデリングするため、このようなコンテンツ情報は本質的に転送可能性を持ち、この論文は堅固な実験を通じて体系的に示し、MoRecは普遍的な大規模モデルを達成する可能性を持つということを示しています。

結論1

シーケンシャル推薦アーキテクチャSASRecにおいて、典型的なシナリオ(人気のあるアイテムとあまり知られていないアイテムがある場合)では、MoRecはテキストベースの推薦においてIDRecよりも優れたパフォーマンスを発揮しますが、画像ベースの推薦においてはIDRecと比較可能な結果を示します。冷始動シナリオでは、MoRecはIDRecをはるかに上回るパフォーマンスを発揮し、人気のあるアイテムの推薦ではMoRecとIDRecのパフォーマンスは同等です。

結論2

MoRecは、推奨システムとNLP、CV、およびマルチモーダルコミュニティとの関連性を確立し、NLPとCVの最新の発展から一般的に利益を得ています。

結論3

産業界における人気のある2段階のオフライン特徴抽出推薦手法は、特にビジュアル推薦においてMoRecのパフォーマンスを著しく低下させるものであり、実践において見逃すべきではありません。最近のマルチモーダルドメインにおける事前トレーニングモデルの革命的な成功にもかかわらず、これらの表現はまだ普遍的かつ一般化可能ではありません、少なくとも推奨システムにおいてはそうです。この研究は、インスピレーションを与え、最近の関連する研究努力につながっています。

AdapterRecは、モーダル情報に基づいた効率的な転送手法についての最初の体系的な議論を提供します。この論文ではアダプターに基づいたモデルパッチを評価します。下流転送のために全てのパラメータをファインチューニングする従来の手法とは異なり、AdapterRecはトランスファー中にモデルネットワーク内にアダプターネットワークを挿入およびファインチューニングします。この論文では、大規模なテキストと画像のモーダルデータについて幅広い検証実験を行います。

結果は、テキストシナリオでは、AdapterRecが計算コストを大幅に削減しながら、全パラメータのファインチューニングと同様の転送結果を達成できることを示しています。AdapterRecは、アダプター技術に基づいた効率的な転送手法が推奨システムの普遍的な大規模モデル構築の重要な要素であることを確認しています。

NineRecは、推奨システムの分野において、これまでで最も多様なマルチモーダルトランスファーラーニングデータセットを導入します。 MoRecとIDRecの公正な比較の原則に従って、この論文ではMoRecの転送能力を体系的に評価し、詳細なガイダンスと評価プラットフォームを提供します。 NineRecは、大規模な事前トレーニングデータセット(200万人のユーザー、14.4万のアイテム、2400万のユーザーアイテムインタラクションを含む)と9つのダウンストリームシナリオデータセット(同じプラットフォームからの5つの異なるシナリオと、異なるプラットフォームからの4つ)を提供します。

この論文では、さまざまなクラシックな推奨アーキテクチャ(SASRec、BERT4Rec、NextItNet、GRU4Rec)とアイテムエンコーダ(BERT、Roberta、OPT、ResNet、Swin Transformer)の転送性能を評価する大規模な実験を行います。また、エンドツーエンドと2段階アプローチがクロスドメインの推奨に与える影響も検証します。実験結果は、エンドツーエンドトレーニング技術がモーダル情報の潜在能力を大いに引き出すことができることを示しており、SASRecのような古典的なフレームワークでも最近の類似の転送可能な推奨モデルを上回ることができます。この論文はまた、純粋なモーダル情報に基づいたゼロショット転送能力も確認しています。

NineRecは、モデルベースのレコメンダーシステム転移学習と大規模なレコメンデーションモデルの開発のための新しいプラットフォームとベンチマークを提供します。NineRec(テキストと画像のモダリティのみ)に続いて、チームはMicroLensデータセット[10]を共同でリリースしました。これは、現在までで最も大規模なショートビデオの推薦データセットであり、オリジナルのショートビデオを含み、他の関連データセットと比べてスケールが何千倍も大きく、3000万人のユーザーと10億回のクリック行動が含まれており、大規模なレコメンデーションモデルのトレーニングに適しています。NineRecとMicroLensの計算コストとデータセット収集コストは、どちらも100万人民元を超えました。

4. 大規模言語モデル(LLMs)に基づく転移可能なレコメンダーシステム

人工知能の分野は現在、大規模モデルの時代を経験しており、さまざまな分野で数多くの普遍的な大規模モデルが提案され、AIコミュニティを大きく前進させています。しかし、レコメンダーシステムの分野における大規模モデル技術の応用はまだ初期段階にあります。既存のIDパラダイムを大幅に上回るレコメンデーションタスクの理解に大規模な言語モデルの使用が有効かどうか、さらに大規模なパラメータモデルが普遍的なレコメンデーション表現をもたらすことができるのか、といった多くの問いにはまだ充分な回答がありません。これらの問いに答えることが、レコメンダーシステムコミュニティを大規模モデルの時代に導く鍵であり、多くの研究グループからますます注目されています。

GPT4Rec [8]は、この段階での代表的な研究の一つです。 GPT4Recは1750億アイテムのエンコーダーの能力を詳細に評価しています。 プロンプト、思考の連鎖、ChatGPTなどを基にしたさまざまな後続研究もあります。 また、Googleの評価予測のためのLLM [9]などの共同作業もあります。 GPT4Recと同様に、それらは両方とも転送モデルを使用してパフォーマンスの限界を評価し、一方はトップNアイテムの推薦に特化し、もう一方は評価予測に重点を置いています。

GPT4Recは、1000億スケールの言語モデルをアイテムエンコーダーとして使用する最初の研究です。この論文では、以下のいくつかの重要な問いに取り組んでいます。

  1. テキストベースの協調フィルタリング(TCF)推薦アルゴリズムのパフォーマンスは、アイテムエンコーダーのパラメータ数が増加するにつれてどのように進化し、1000億パラメータスケールでもパフォーマンスの上限が存在するのか。
  2. 1750億パラメータのGPT-3などの超大規模パラメータLLMは、普遍的なアイテム表現を生成することができるのか。
  3. 1750億パラメータのLLMを搭載したレコメンダーシステムアルゴリズムは、アイテムIDに基づく古典的なアルゴリズムを公正な比較を通じて上回ることができるのか。
  4. TCFとLLMを使用したテキストベースの協調フィルタリングは、レコメンダーシステムの普遍的な大規模モデルの実現にどの程度近づいているのか。

実験結果は以下の通りです:

  1. 1750億パラメータのLLMは、まだパフォーマンスの限界に達していない可能性があります。観察結果からは、13億から1750億パラメータのLLMへの遷移時に、TCFモデルのパフォーマンスが収束しないことが示されています。これは、より多くのパラメータを持つLLMをテキストエンコーダとして使用することが、将来的にはより高い推薦精度をもたらす可能性があることを示しています。
  2. 極めて大規模なLM(たとえばGPT-3)によって学習されたアイテム表現でも、必ずしも普遍的な表現を形成するものではありません。状態-of-the-artのパフォーマンスを達成するには、テキストベースの推薦タスクでも関連するレコメンダーシステムデータセットのファインチューニングが依然として必要です。
  3. 1750億およびファインチューニングされた660億モデルを使用した場合、レコメンデーションバックボーンとしてDSSMを使用する場合、TCFはまだIDRecに大きく遅れています。ただし、シーケンシャルレコメンデーションモデルでは、凍結された表現を使用していてもLLMはIDRecと大まかに競合することができます。
  4. 1750億パラメータのLLMを使用したTCFモデルのパフォーマンスは、ランダムなアイテムサンプリングよりも推薦での改善をもたらしており、改善幅は6倍から40倍ですが、レコメンデーションデータセットで再トレーニングされたTCFモデルと比べてまだ大きな差があります。
  5. この論文では、一般的なレコメンダーシステムシナリオではChatGPTのパフォーマンスがTCFよりも明らかに劣ることがわかりました。特定の現実世界のレコメンデーションシナリオでChatGPTを使用するためには、より洗練されたプロンプトが必要かもしれません。

5. 結論

現在のレコメンダーシステムコミュニティでは、モダリティベースの大規模モデルに関する研究はまだ初期段階です。多くの重要な課題と制約が次のように要約できます:

  1. 従来のIDベースのレコメンデーションアルゴリズムは、ユーザーとアイテム情報が従来の識別子を超える異なる形式で利用可能なモダリティシナリオの扱いにおいて課題を抱えています。
  2. モダルコンテンツに基づくクロスドメインのレコメンダーシステムに関する既存の文献は一般化不足しており、さまざまなレコメンデーションタスクとドメインにわたって研究の成果を適用することが困難です。
  3. エンドツーエンドの結合トレーニングとは異なり、事前に抽出された特徴には粒度スケールの不一致の問題があり、通常、最適でない推薦を生成するだけです。
  4. 転移学習の研究に利用するための大規模で一般公開されたモダルコンテンツを含むデータセット、ベンチマークデータセット、およびリーダーボードがレコメンダーシステムのモデルパフォーマンスを評価するために不足しています。
  5. レコメンダーシステム大規模モデルの既存の研究は、NLPとCVの分野に比べて比較的小規模なモデルパラメータとトレーニングデータを持ち、オープンソースの大規模モデルの事前トレーニングパラメータも非常に限られています。

参考文献

[1] User Modeling and Recommendationのためのシーケンシャル行動からのパラメータ効率的な転送(SIGIR2020)

[2] 忘却せずに学習するための一人一モデル一世界:Continual User Representationの学習(SIGIR2021)

[3] コントラストプリトレーニングを介したシーケンシャル行動による転送可能なユーザーレプレゼンテーションの学習(ICDM2021)

[4] フィードバックのモダリティの混合からの転送可能な推薦の学習。Arxiv2022/06

[5] レコメンダーシステムにおける次のステップはどこ? ID-対モダリティベースのレコメンダーモデルの再検討(SIGIR2023)

[6] レコメンダーシステムのためのアダプターベースの転移学習を探索する:実証的研究と実用的な洞察(WSDM2024)

[7] モダリティベースのレコメンダーシステムのための転移学習データセットのNineRec:スイート。Arxiv2023/09

[8] 大規模な言語モデルを使用したテキストベースの共同フィルタリングの上限を探索する:発見と洞察。Arxiv2023/05

[9] LLMはユーザーの好みを理解していますか?ユーザー評価予測でのLLMの評価。Arxiv2023/05

[10] スケールのあるコンテンツ駆動型マイクロビデオ推薦データセット。Arxiv2023/09

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

データセットシフトのフレームワークを整理する

私たちはモデルを訓練し、それらを使用して特定の結果を予測します入力のセットが与えられた場合に、それが機械学習のゲーム...

機械学習

ディープネットワークの活性化関数の構築

ディープニューラルネットワークの基本的な要素は、活性化関数(AF)です活性化関数は、ネットワーク内のノード(「ニューロ...

データサイエンス

「機械学習入門:その多様な形式を探索する」

最近、機械学習はどこにでもありますねもしもあなたがここにいるなら、機械学習が一体何なのかに興味を持ったのかもしれませ...

人工知能

Rows AI:エクセルスプレッドシートの終焉か?

Rows AIは、非常に複雑なデータ分析のための信じられないほどのスプレッドシートを数分で構築することができます

データサイエンス

データから真実を解読する:大きな言語モデルが真実をモデル化するためにパーソナを使用する方法

大型言語モデル(LLM)の導入により、人工知能のサブフィールドである自然言語処理(NLP)は大幅に進化し改善されています。...

データサイエンス

「JAXとHaikuを使用してゼロからTransformerエンコーダを実装する🤖」

2017年に「アテンションはすべて」という画期的な論文で紹介されたトランスフォーマーアーキテクチャは、最近の深層学習の歴...