LinkedInのフィード進化:より詳細かつパワフルな機械学習、そして依然として人間も重要

「LinkedInのフィード進化:より詳細かつパワフルな機械学習、そして人間の重要性も変わらず」

LinkedInのフィードは、パワーを提供する機械学習インフラの組み立ての初期から大きく進化してきました。最近、このインフラの重要な更新がリリースされました。それについては、人々を中心に据えた原則が技術的な用語と実装にどのように翻訳されるのかを考察するため、関係者と話をしました。

イントロダクション

データと機械学習のアルゴリズムがニュースフィードを制御しストーリーを広める仕組みはどのように機能しているのでしょうか?それはどれくらい自動化されており、どれくらい理解と制御できるべきなのでしょうか?それは今後どこに向かっているのでしょうか?

それは私の2017年のZDNetの記事の紹介であり、その時点では新しくリニューアルされたLinkedInのニュースフィードについて、基礎となる機械学習の仕組みとそれを統治する原則に焦点を当てて探求していました。6年というのはテクノロジーの世界では長い時間です。当時は機械学習(別名「AI」)が主流に進出してきた初期でした。今日ではChatGPT時代に生きています。

昨年、AIへの関心はピークに達し、ほぼ毎週新しい進展があるように思われます。LinkedInは遅れるわけにはいきませんでしたので、その機械学習モデルとインフラも大きく進化しました。最近、LinkedInエンジニアリングがブログ投稿を公開しました。それは「大規模なコーパス疎なID埋め込みの力を活用してホームページのフィードの関連性を向上させる」と題されています。

このブログ投稿は、LinkedInの新しくリニューアルされた機械学習モデルとインフラについての詳細な解説です。2017年とは異なり、これらの変更は直接的には認識できません。新しい機能自体はなく、むしろフィードの関連性を向上させることを目指して基盤技術が改善されています。

私たちはLinkedInのスタッフソフトウェアエンジニアであるジェイソン・ジュとシニアディレクターのティム・ジューカと共に、人々を中心に据えた原則が技術的な用語としてどのように表現されるのかについて話し合いました。

ヒューマン・イン・ザ・ループ

このアップデートの要点は、LinkedInのフィードを支えるモデルがより多くのパラメータを処理できるようになり、より高品質なコンテンツの配信が可能になったということです。その過程で、ジュのチームはモデルを支えるハードウェアインフラもアップグレードしました。

ジュはLinkedInの基盤となるAIテクノロジーのチームのメンバーです。彼はチームのミッションを「LinkedInの複数の業界使用事例にメリットのある高度なアルゴリズムの基盤をプロトタイプ開発し構築すること」と定義しています。ジュは、LinkedInのフィードに関する2021年の以前の主要なアップデートと最新のアップデートの関係、およびLinkedInのアプローチの内部の仕組みについての洞察も提供しました。

ただし、私たちはLinkedInのフィードの2017年版と比べて何が変わったのかについても興味がありました。特に、LinkedInのスポークスパーソンたちは2017年にはヒューマン・イン・ザ・ループのアプローチを強調しており、それが今でも存在するのか疑問に思っていました。ジューカは、それは確かに今も存在しており、おそらく当時以上に重要な存在であると述べました。

「フィードには2つの適用事項があります。1つ目は、LinkedInのフィードで洞察に富み公正で知識を向上させるコンテンツを優先することですが、AIだけではうまくいく非常に難しい問題です。ただし、私たちには編集長であるダン・ロス率いる複数の賞を受賞しているジャーナリストからなる編集チームがいます。

実際に、彼らがキュレーションし、LinkedInのインサイトの観点で本当に優れたコンテンツだと信じているコンテンツでAIアルゴリズムを作成しました。そのAIアルゴリズムは、そのコンテンツをLinkedInのプラットフォームでプロモートするかどうかを判断し、そのコンテンツに共感するオーディエンスを見つけるためにプラットフォーム上で配信します。

ヒューマン・イン・ザ・ループのアプローチは、スパム検出にも適用されます。LinkedInはAIによるスパム検出を行っていますが、ユーザーがスパムを報告するオプションや、コンテンツモデレーターがAIが見逃した可能性のあるものに注意を払うこともあります。

ジューカは、フィードのスパム検出に関しては、一部は変わっていないものの、他の部分は変わっていると述べました。2017年に説明された3つのバケット分類システムはほとんど変わっていません。変わったのは、LinkedInがより深いコンテンツの理解に多くの投資を行っていることであり、各投稿の意図を理解しようとしていることです。

例えば、仕事の機会を共有しようとしている人ですか?ニュースについての意見を共有しようとしている人ですか?コンテンツの詳細について細かく説明することで、LinkedInはプラットフォーム全体でそれをどのように配信するかを把握することができます。

線形から神経へ、単一から複数の観点へ

Jurkaが共有したように、フィードランキングのアルゴリズムの進化はLinkedInのフィードの進化に応じています。2017年と比較して、フィードを使用しているメンバーが増え、LinkedInでコンテンツを公開しているクリエイターも増えています。AIモデルがさまざまなユースケースをカバーできるようにするためには、多様性を捉えることが重要です。そして、それは意図を理解することにも関連しています。

たとえば、スタートアップのシリーズAを上げたというメンバーからの投稿があり、現在彼らが採用を行っているとしています。この投稿は非常に異なる視点から受け取ることができます。

求職者の場合、この投稿は彼らが仕事を探すためのエントリーポイントになるかもしれません。AIモデルは、それが彼らにとっての価値を理解する必要があります。また、その個人との一次つながりがある場合、単に祝福の言葉を述べて「シリーズAの上乗せを確認しています。おめでとうございます」と言うかもしれません。ベンチャーキャピタルスペースにいる場合、この特定の企業がシリーズAを上げたことを知らなかったという洞察としてみるかもしれません」とJurkaは述べました。

それに続いて、ZhuはLinkedInのフィードには、メンバーやつながり、仕事や人物、記事などのさまざまな推奨事項を含む異種構成の更新リストが含まれていると説明しました。その目的は、各メンバーに対してパーソナライズされた順位付けを提供し、プラットフォーム上のプロフェッショナルがより生産的で成功するための支援をすることです。このために、LinkedInは2段階の順位付けプロセスを採用しています。

LinkedInが成長するにつれて、フィードの関連性とタイムリーさを保つための取り組みが続いています。それぞれの更新タイプに対して「ファーストパスランカー」と呼ばれるものが適用されます。各更新タイプの上位k個の候補を個別のアルゴリズムが選択し、それらは最終的な選別のために2番目のパスランカーに送られます。

LinkedInのモデルは、メンバーとコンテンツセットからの一連の特徴量を使用しています。モデルは、会話を開始する可能性や特定の投稿に対して特定のアクションを行う可能性など、いくつかの応答の確率を予測しようとしています。

以前は、LinkedInは線形ベースのモデルから深層学習/ニューラルネットワークベースのモデルにランキングを移行しました。Zhuは、深層学習モデルの方が効果的であり、活性化関数を介して非線形性を導入できると述べました。これにより、モデルはデータ内のより複雑で非線形な関係を捉え、より強力な表現を学習することができます。

各異なる応答を個別に予測するための個別の線形モデルではなく、マルチタスク深層学習モデルは異なるタスク間でパラメータを共有します。したがって、各タスクの学習は転移学習を介して他のタスクにも利益をもたらすことができます」とZhuは語りました。

ただし、彼は付け加えました、LinkedInのデータは異なるタイプの応答間で非常に偏っています。たとえば、クリックの応答数はエンゲージメントよりも多いです。そのため、モデルのトレーニングプロセス中に負のタスク干渉を回避するために注意深いサンプリングと再重み付けが必要です。なぜなら、すべてのタスクがパラメータを共有しているからです。

大規模コーパス希薄IDエンベッド

Zhuは、LinkedInのフィードの前の主要なアップデートである、TensorFlowを使用したマルチタスク学習について紹介しました。彼が共有したように、LinkedInのモデルのサイズは500倍になり、データセットも10倍に増えました。さらに、トレーニング期間が延長され、より多くのトレーニングデータがサンプリングされるようになりました。これにはバイアスを克服するといういくつかの課題もあります。

しかし、これはZhuのチームが実装した最新のアップデートの出発点に過ぎませんでした。彼らの目的は、エンゲージメントを最適化することであり、つまり、ユーザーが異なる投稿とどのように対話するかに関して可能性を予測することを改善することです。そして、この可能性の予測を向上させることで、LinkedInはフィードアイテムをより魅力的なものに並べ替え、ユーザーにより魅力的な体験を提供できるようになります。その鍵は希薄な埋め込みベクトルです。これが何であるか、そしてそれがどのように関連しているかを見てみましょう。

文字列のIDから埋め込みへの変換

(出典:「大規模な希薄 ID 埋め込みのパワーを利用したホームページフィードの関連性向上」)

AIに関心を持つLinkedInユーザーとして、あなたは#AIと#MLのハッシュタグに関わったことがあるかもしれません。別のユーザーは#generativeAIというハッシュタグに関わっています。これらは異なるハッシュタグです。しかし、埋め込みを介して、これらのハッシュタグの意味は埋め込み空間で近いです。その結果、モデルはあなたが私と似たような好みを持っている可能性があることを理解し、AIのドメインで両方のユーザーに類似したコンテンツを推奨することができます。

LinkedInの各コンテンツアイテムと各ユーザーについて、レコメンデーションシステムは埋め込みのベクトルを使用します。これはベクトルが非常に大きく、同時に非常に希薄であることを意味します。多くの異なるトピックと対応するハッシュタグがあるため、ベクトルは大きくなります。ただし、すべてのユーザーがすべてのハッシュタグと関わっているわけではないため、ベクトルは希薄になります。

朱氏は、大規模な希薄 ID の特徴(ハッシュタグ ID やアイテム/投稿 IDなど)を、数億件のレコードでトレーニングされた数億個のパラメータを持つ埋め込みルックアップテーブルを使用して埋め込み空間に変換することに焦点を当てています。例えば、LinkedInには何百万ものメンバーがいるため、メンバー IDには何百万もの次元があることを朱氏は指摘しています。

「各メンバーに対して、個別のテンソル表現を学習することが目標です。このテンソル表現は、特定の期間内の他のユーザーとの対話やハッシュタグの嗜好など、ユーザーの好みをエンコードします。トレーニング中には、すべての情報が密なベクトルにエンコードされます。このような個別化されたベクトルをモデルに提供することで、モデルは動的かつ変化する世界、およびメンバーの好みをよりよく捉えることができます」と朱氏は述べています。

希薄な特徴は、数百万もの濃密なカテゴリーのワンホット表現として解釈できます。これらの表現では、すべてのエントリーがゼロであり、IDインデックスに対応する1つだけが存在します。これは、例えばハッシュタグのIDやメンバーのIDなどです。これらは、数十億件のレコードでトレーニングされた数億個のパラメータを持つ埋め込みルックアップテーブルを使用して、埋め込み空間と呼ばれる低次元の連続的な濃密空間に変換されます。

朱氏は、埋め込みテーブル自体はデータセットと問題に密接に関連していると指摘しています。ただし、この技術は確かに一般化可能です。同様のアプローチは、求人の推奨や広告の推奨など、LinkedIn内のさまざまなユースケースで既に活用されています。「私たちは、これらの希薄なIDを濃密な表現に変換する非常に類似した戦略を採用しています。LinkedInでAIを開発するスケーラブルな方法だと考えています」と朱氏は述べています。

スケーリングアップ、進む方向

朱氏の研究はまた、ハードウェアのアップグレードに触れています。彼が説明するように、チームはモデルのサイズを100倍に拡大した後、サービングホストで複数の大規模モデルを並行して提供する際に課題に直面しました。ホストは、そのようなスケールを処理するために設計されていなかったため、チームは2段階の戦略でモデルを提供することを選びました。

第1段階では、通常の方法でグローバルモデルがトレーニングされます。ID特徴はまず大きな埋め込みテーブルから密なベクトルに変換され、その後、これらの密なベクトルは既存の特徴とともにディープニューラルネットワークに送信され、暗黙の特徴相互作用に使用されます。

第2段階では、グローバルモデルは埋め込みテーブルとディープニューラルネットワークの境界で分割されます。ディープニューラルネットワークの視点からは、結果を予測するために希薄な特徴の埋め込み表現である一連の密なベクトルのみが必要です。ID変換のステップは、モデル提供の重要なパス上では必要ありません。

埋め込みはオフラインで変換され、高性能なキーバリューストアにプッシュされます。したがって、これらの埋め込みテーブルは、制約されたメモリを持つサービングホストにホストする必要はありません。この戦略は、LinkedInがホストのアップグレードを進行中である間に使用されます。アップグレードが完了すると、朱氏は、すべてのものがメモリに移動し、メモリ最適化が適用されると述べています。チームは、オープンソースフレームワークのHorovodを採用し、拡張しました。

朱氏のチームは、今後もいくつかの方向性を探求したいとしています。メモリ集中型モデルと演算集中型モデルの両方を提供することに加えて、より多くの希薄な特徴を追加することでモデルのサイズをスケーリングアップすることも目標です。チームはまた、連続トレーニングまたは増分トレーニングと呼ばれるものを探求中で、移り変わりのある世界のダイナミクスを捉えるための方法です。

朱氏の説明によると、埋め込みは現在、固定期間ベースでトレーニングされています。これにより、オフラインとオンラインの結果の不整合や長期間にわたる成果の減少の問題が発生する可能性があります。朱氏は、より頻繁な検索によって、埋め込みがシステムのダイナミクスを捉え、LinkedInメンバーに個別化されたフィードをよりよく予測できると考えています。

詳細については、以下の朱氏とJurkaとの会話をお聞きください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more