「ULTRA 知識グラフ推論のための基礎モデル」
「美容とファッションの基本モデル: ULTRA 知識グラフ推論のためのエキスパートガイド」
グラフMLの新機能は何ですか?
すべてを支配する1つのモデル
任意のデータセットを解決するための単一の汎用モデルを訓練することは、常にML研究者の夢です。特に、基礎モデルの時代においては、画像や自然言語などの認識ドメインではそのような夢が実現されていますが、グラフのような推論ドメインでも再現できるかどうかは未解決の課題です。

このブログ投稿では、少なくとも知識グラフ(KG)に対して、そのような汎用推論モデルが存在することを証明します。私たちはULTRAという単一の事前学習された推論モデルを作成し、任意のエンティティおよびリレーション語彙に一般化するものであり、どのKG推論問題にもデフォルトの解決策として機能します。
この投稿は、私たちの最近の論文(プレプリント)に基づいて書かれました。共著者は、Xinyu Yuan(Mila)、Zhaocheng Zhu(Mila)、Bruno Ribeiro(Purdue / Stanford)です。詳細については、Michael、Xinyu、Zhaocheng、BrunoをTwitterでフォローしてください。
アウトライン
- なぜKG表現学習が2018年で行き詰まっているのか
- 理論:モデルの帰納性と転移性を決定する要素は何ですか?
- 理論:多重関係グラフにおける相変換不変性
- ULTRA:KG推論の基礎モデル
- 実験:ゼロショット推論でも最高の性能、スケーリングの適用
- コード、データ、チェックポイント
なぜKG表現学習が2018年で行き詰まっているのか
2018年にELMoやULMFitが初めて有望な結果を示し、それがBERTやGPTによって後押しされました。
大規模な言語モデル(LLM)やより一般的な基礎モデル(FM)の時代には、(GPT-4やLlama-2のような)巨大なデータ量で事前学習され、ゼロショットの方法で多様な言語タスクを実行できる単一のモデルがしばしば存在します(または特定のデータセットでファインチューニングできます)。これらの日々、多様なモダリティ(言語、ビジョン、音声など)を同じ1つのモデルでサポートします。
グラフMLでは、少し異なる動作があります。特に、「2023年末のKG上での表現学習について何が起こっているの?」というのは注目すべきです。ここでは、主なタスクはエッジレベルのものです:
- エンティティの予測(またはナレッジグラフの完成)
(h,r,?)
:ヘッドノードと関係が与えられた場合、グラフ内で真である可能性のあるすべてのノードのランクを付けます。 - 関係の予測
(h,?,t)
:2つのノードが与えられた場合、それらの間の関係のタイプを予測します。
実は、これまでのところ、それは2018年以前のどこかに位置していました。主な問題は次のようなものです:
各KGには固有のエンティティと関係のセットがあり、どのグラフにも適用できるような単一の事前学習モデルは存在しません。
たとえば、Freebase(Google Knowledge Graphの背後にあるKG)とWikidata(最大のオープンソースKG)を見てみましょう。彼らは完全に異なるエンティティのセット(86M対100M)と関係(1500対6000)を持っています。現在のKG表現学習手法は、あるグラフで訓練され、別のグラフに移植される可能性はあるのでしょうか?
❌ TransE、ComplEx、RotatE、および他の数百の埋め込みベースの手法などの古典的な転移学習手法は、訓練グラフから固定されたエンティティと関係のタイプを学習し、同じグラフに追加される新しいノードをサポートすることすらできません。浅い埋め込みベースの手法は移植されません(実際、学生のプロジェクト演習以外では、そのような手法を開発する意味はないと考えています)。
🟡 NodePieceやNeural Bellman-Ford Netsのような帰納的なエンティティ手法では、エンティティの埋め込みを学習しません。代わりに、訓練(観測済み)と新しい推論(未知の)ノードを固定された関係の関数としてパラメータ化します。彼らは関係の埋め込みのみを学習するため、新しいノードが追加されたグラフに移植することはできますが、異なる関係を持つ新しいグラフ(たとえばFreebaseからWikidataへ)への移植はまだ困難です。
推論時に新しいエンティティと関係を両方持つ場合(完全に新しいグラフの場合)、どうすればよいでしょうか?エンティティまたは関係の埋め込みを学習しない場合、移植は理論的に可能でしょうか?それでは理論について見てみましょう。
理論:モデルを帰納的かつ転移可能にする要素
より形式的にセットアップを定義しましょう:
- KGは、任意のノードと関係タイプを持つ有向多関係グラフです。
- グラフは特徴を持たず、つまり、エンティティと関係のテキストの説明(または事前計算済みの特徴ベクトル)の存在を前提としません。
- クエリ(ヘッド、関係、?)が与えられた場合、基礎となるグラフ(推論グラフ)内のすべてのノードをランク付けし、真のテールの返却確率を最大化したい。
- 推移的なセットアップ:訓練時と推論時のノードとエンティティのセットは同じです。
- 帰納的(エンティティ)セットアップ:関係のセットは訓練時に固定される必要がありますが、ノードは訓練時と推論時で異なる場合があります。
- 帰納的(エンティティおよび関係)セットアップ:推論時には新しい未知のエンティティと関係の両方が許可されます。
ニューラルネットワークが新しいデータに一般化するために学習するものは何でしょうか?主要な参考文献であるBronstein、Bruna、Cohen、およびVeličkovićによるGeometric Deep Learningの書籍は、それが対称性と不変性の問題であると述べています。
ファウンデーションモデルに存在する学習可能な不変性は何ですか?LLMはトークンの固定された語彙(サブワードユニット、バイト、あるいはLexinvariant LLMsのようにランダムに初期化されたベクトル)で訓練されています。ビジョンモデルは画像パッチを投影する関数を学習し、オーディオモデルはオーディオパッチを投影する方法を学習します。
マルチリレーショナルグラフの学習可能な不変性は何ですか?
まず、標準的な一様なグラフにおける不変性(等変性)を紹介します。
標準的な(単一の)順列等変性グラフモデル:グラフMLの大きな進歩は、初期のGNNの研究(Scarselli et al. 2008、Xu et al. 2018、Morris et al. 2018)によってもたらされました。これらの研究は、グラフモデルの予測は頂点IDの再割り当てを行っても変わらないという前提条件の下で、グラフのノードIDを任意と仮定することから非常に利益を得たことを示しています。これは、ニューラルネットワークの節点IDに関して順列等変性を持つことを意味します。この認識は、グラフモデルと呼ばれるものを、ニューラルネットワークが節点IDの順列等変性である限り、新たなグラフ表現手法を生み出すことになりました。
節点IDの順列等変性により、GNNは訓練グラフで学習したパターンを他の(異なる)テストグラフに帰納的に(ゼロショットで)転送することができます。これは等変性の結果であり、ニューラルネットワークは節点IDを埋め込みに使用することができないため、グラフ構造を使用しなければなりません。これにより、グラフにおける構造的表現が生まれます(詳細はSrinivasan & Ribeiro (ICLR 2020)参照)。
マルチリレーショナルグラフにおける等変性
ここでは、グラフ内のエッジには異なる関係型があるかもしれません。そのようなグラフに対してGNNの理論は存在するのでしょうか?
1️⃣私たちの以前の研究であるWeisfeiler and Leman Go Relational(Pablo Barceló、Christopher Morris、Miguel Romero Orthと共著、LoG 2022)では、ノードレベルのタスクに焦点を当てたマルチリレーショナルグラフのためのRelational WLというWL表現能力の階層を導出しました。その後のHuangらによる追加の研究(NeurIPS 2023)は、リンク予測を拡張し、条件付きメッセージパッシングを形式化し、Relational WLを使用した論理表現能力を定義しました。 ✍️ 条件付きメッセージパッシングを覚えておきましょう。後で必要になりますが、これはリンク予測のパフォーマンスを改善することが証明されています。
着信/送信エッジ方向によって誘発されるグローバルな読み出しベクトルの提案は、均質なMPNNの方向性を研究したEmanuele Rossiらによる最近の研究に似ています(詳細についてはVoAGIのブログ記事を参照してください)。ただし、これらの研究は、テスト時にさらなる関係が不明な場合を予測していません。
2️⃣二重順列等変性(マルチリレーショナル)グラフモデル:最近、Gao et al. 2023は、マルチリレーショナルグラフのための二重等変性の概念を提案しました。二重等変性は、ニューラルネットワークがノードIDと関係IDの両方の組み合わせの順列等変性を持つようにすることを要求します。これにより、ニューラルネットワークはノードと関係間の構造的なパターンを学習することができ、新しいノードと新しい関係を持つ別のグラフに学習したパターンを帰納的に(ゼロショットで)転送することができます。
<!–
➡️私たちの研究では、リレーション間の不変性を見つけました。つまり、リレーションの身元が異なっても、基本的な相互作用は変わらず、その基本的な相互作用はリレーションのグラフによって捉えられます。リレーションのグラフでは、各ノードは元のグラフからのリレーションの種類です。このグラフ内の2つのノードは、元のグラフのそのリレーションの種類を持つエッジに接続されます(つまり、ヘッドノードやテールノードを共有します)。この接続状態に応じて、リレーションのグラフ内には4つのエッジタイプがあります:
- ヘッド-ヘッド(h2h)- 2つのリレーションが同じヘッドエンティティから始まることがあります。
- テール-ヘッド(t2h)- 1つのリレーションのテールエンティティが他のリレーションのヘッドになることがあります。
- ヘッド-テール(h2t)- 1つのリレーションのヘッドエンティティが他のリレーションのテールになることがあります。
- テール-テール(t2t)- 2つのリレーションが同じテールエンティティを持つことがあります。
理論的な基盤が揃ったことで、ULTRAをご紹介する準備が整いました。
ULTRAは、統一的で学習可能かつ転移可能なグラフ表現の方法です。ULTRAは、リレーションのグラフとその基本的な相互作用の不変性(およびイキバリアント性)を活用し、条件付きメッセージパッシングを適用して相対的なリレーショナル表現を取得します。おそらく最も素晴らしい事実は、
単一の事前学習済みULTRAモデルは、可能なすべてのマルチリレーショナルグラフで0ショット推論を実行し、任意の対象グラフで微調整することができます。
言い換えれば、ULTRAは実質的にはどのグラフ入力に対しても推論を実行できる基礎モデルであり(既に優れた性能を持っています)、任意の対象グラフで微調整することができます。
ULTRAの重要な要素は、リレーションのグラフから構築された相対的なリレーション表現です。クエリ(Michael Jackson, genre, ?)
が与えられた場合、リレーションのグラフ内のgenre
ノードをすべて1のベクトルで初期化します(他のノードはすべて0で初期化されます)。GNNを実行すると、リレーショングラフの結果のノード埋め込みはgenre
ノードに依存しています-つまり、各初期化されたリレーションが独自のリレーショナル特徴の行列を持つことになります。これは、理論的および実践的な側面から非常に役立ちます!
実際には、入力KGと(h、r、?)クエリが与えられた場合、ULTRAは以下のアクションを実行します:
- 関係グラフの構築;
- 関係グラフ上の条件付きメッセージ伝達GNNから関係特徴を取得する(初期化されたクエリ関係rに基づく条件付き);
- 初期化されたヘッドノードhに基づく帰納的リンク予測GNNに取得した関係表現を使用する。
ステップ2と3は、Neural Bellman-Fordネット(NBFNet)のわずかに異なる改良によって実装されています。ULTRAは、4つの基本的な相互作用(h2t、t2t、t2h、h2h)とGNNの重みのエンベッディングのみを学習し、全体的には非常に小さいです。私たちが実験したメインモデルは、わずか177kのパラメータのみです。
実験:ゼロショット推論とファインチューニングにおいて優れた結果
私たちは、Freebase、Wikidata、およびWordnetに基づいた3つの標準的なKGでULTRAを事前学習し、1k〜120kノードおよび2kエッジ〜1.1Mエッジのさまざまなサイズの50以上の他のKGに対して0ショットリンク予測を実行しました。
既知のSOTAデータセットを平均化した結果、単一の事前学習されたULTRAモデルは、各グラフごとに特別に訓練された既存のSOTAモデルよりもゼロショット推論モードで優れています🚀。ファインチューニングにより、パフォーマンスをさらに10%向上させることができます。特に、単一の訓練済みULTRAモデルが、ノードサイズで100倍、エッジサイズで500倍という異なるサイズのグラフにスケーリングできることは驚くべきことです(サイズ一般化の問題でGNNは知られています。Yehudai et al, ICML 2021およびZhou et al, NeurIPS 2022の優れた研究を参照)。
より多くのグラフを事前学習のミックスに追加することで、ゼロショットの性能をさらに向上させることができますが、4つ以上のグラフでのトレーニング後にはある程度の性能飽和が観察されます。
スケーリング・ロウズの教会は、より多くの定性的データでトレーニングされた大きなモデルがさらに優れたパフォーマンスを示すと予測しており、それは私たちのアジェンダに確かに含まれています。
結論:コード、データ、チェックポイント
KG推論のための基盤モデルはついに登場しました。2018年の閾値を超えています!単一の事前学習済みULTRAモデルは、どのドメインのどのKG(多関係グラフ)でもリンク予測を実行できます。始めるには、1つ以上のエッジタイプを持つグラフが必要です。
📈 実際には、ULTRAは0ショットモードでもさまざまなKGベンチマークで非常に有望なパフォーマンスを示していますが、短期のファインチューニングでさらにパフォーマンスを向上させることができます。
コード、トレーニングデータ、および事前学習済みモデルのチェックポイントはすべてGitHubで利用できるため、すぐにULTRAをデータで実行できます!
📜 preprint: arxiv
🛠️ コード、データ: Githtubリポジトリ
🍪 チェックポイント: ギットハブリポジトリ内の2つのチェックポイント(各2MB)
🌎 プロジェクトのウェブサイト: こちら
締めくくりとして、KG推論は推論領域の多くの興味深い問題の一部を表しているに過ぎず、まだ一般的な解決策が存在しないものが大多数です。私たちは、KG推論の成功が推論領域の他の分野(たとえば、LLMsが実際にテキストルールを学習して利用できることを最近発見しました)においてもさらなる飛躍をもたらすと信じています。推論の未来について楽観的であり続けましょう!
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles