「ULTRA 知識グラフ推論のための基礎モデル」
「美容とファッションの基本モデル: ULTRA 知識グラフ推論のためのエキスパートガイド」
グラフMLの新機能は何ですか?
すべてを支配する1つのモデル
任意のデータセットを解決するための単一の汎用モデルを訓練することは、常にML研究者の夢です。特に、基礎モデルの時代においては、画像や自然言語などの認識ドメインではそのような夢が実現されていますが、グラフのような推論ドメインでも再現できるかどうかは未解決の課題です。
このブログ投稿では、少なくとも知識グラフ(KG)に対して、そのような汎用推論モデルが存在することを証明します。私たちはULTRAという単一の事前学習された推論モデルを作成し、任意のエンティティおよびリレーション語彙に一般化するものであり、どのKG推論問題にもデフォルトの解決策として機能します。
この投稿は、私たちの最近の論文(プレプリント)に基づいて書かれました。共著者は、Xinyu Yuan(Mila)、Zhaocheng Zhu(Mila)、Bruno Ribeiro(Purdue / Stanford)です。詳細については、Michael、Xinyu、Zhaocheng、BrunoをTwitterでフォローしてください。
アウトライン
- なぜKG表現学習が2018年で行き詰まっているのか
- 理論:モデルの帰納性と転移性を決定する要素は何ですか?
- 理論:多重関係グラフにおける相変換不変性
- ULTRA:KG推論の基礎モデル
- 実験:ゼロショット推論でも最高の性能、スケーリングの適用
- コード、データ、チェックポイント
なぜKG表現学習が2018年で行き詰まっているのか
2018年にELMoやULMFitが初めて有望な結果を示し、それがBERTやGPTによって後押しされました。
大規模な言語モデル(LLM)やより一般的な基礎モデル(FM)の時代には、(GPT-4やLlama-2のような)巨大なデータ量で事前学習され、ゼロショットの方法で多様な言語タスクを実行できる単一のモデルがしばしば存在します(または特定のデータセットでファインチューニングできます)。これらの日々、多様なモダリティ(言語、ビジョン、音声など)を同じ1つのモデルでサポートします。
グラフMLでは、少し異なる動作があります。特に、「2023年末のKG上での表現学習について何が起こっているの?」というのは注目すべきです。ここでは、主なタスクはエッジレベルのものです:
- エンティティの予測(またはナレッジグラフの完成)
(h,r,?)
:ヘッドノードと関係が与えられた場合、グラフ内で真である可能性のあるすべてのノードのランクを付けます。 - 関係の予測
(h,?,t)
:2つのノードが与えられた場合、それらの間の関係のタイプを予測します。
実は、これまでのところ、それは2018年以前のどこかに位置していました。主な問題は次のようなものです:
各KGには固有のエンティティと関係のセットがあり、どのグラフにも適用できるような単一の事前学習モデルは存在しません。
たとえば、Freebase(Google Knowledge Graphの背後にあるKG)とWikidata(最大のオープンソースKG)を見てみましょう。彼らは完全に異なるエンティティのセット(86M対100M)と関係(1500対6000)を持っています。現在のKG表現学習手法は、あるグラフで訓練され、別のグラフに移植される可能性はあるのでしょうか?
❌ TransE、ComplEx、RotatE、および他の数百の埋め込みベースの手法などの古典的な転移学習手法は、訓練グラフから固定されたエンティティと関係のタイプを学習し、同じグラフに追加される新しいノードをサポートすることすらできません。浅い埋め込みベースの手法は移植されません(実際、学生のプロジェクト演習以外では、そのような手法を開発する意味はないと考えています)。
🟡 NodePieceやNeural Bellman-Ford Netsのような帰納的なエンティティ手法では、エンティティの埋め込みを学習しません。代わりに、訓練(観測済み)と新しい推論(未知の)ノードを固定された関係の関数としてパラメータ化します。彼らは関係の埋め込みのみを学習するため、新しいノードが追加されたグラフに移植することはできますが、異なる関係を持つ新しいグラフ(たとえばFreebaseからWikidataへ)への移植はまだ困難です。
推論時に新しいエンティティと関係を両方持つ場合(完全に新しいグラフの場合)、どうすればよいでしょうか?エンティティまたは関係の埋め込みを学習しない場合、移植は理論的に可能でしょうか?それでは理論について見てみましょう。
理論:モデルを帰納的かつ転移可能にする要素
より形式的にセットアップを定義しましょう:
- KGは、任意のノードと関係タイプを持つ有向多関係グラフです。
- グラフは特徴を持たず、つまり、エンティティと関係のテキストの説明(または事前計算済みの特徴ベクトル)の存在を前提としません。
- クエリ(ヘッド、関係、?)が与えられた場合、基礎となるグラフ(推論グラフ)内のすべてのノードをランク付けし、真のテールの返却確率を最大化したい。
- 推移的なセットアップ:訓練時と推論時のノードとエンティティのセットは同じです。
- 帰納的(エンティティ)セットアップ:関係のセットは訓練時に固定される必要がありますが、ノードは訓練時と推論時で異なる場合があります。
- 帰納的(エンティティおよび関係)セットアップ:推論時には新しい未知のエンティティと関係の両方が許可されます。
ニューラルネットワークが新しいデータに一般化するために学習するものは何でしょうか?主要な参考文献であるBronstein、Bruna、Cohen、およびVeličkovićによるGeometric Deep Learningの書籍は、それが対称性と不変性の問題であると述べています。
ファウンデーションモデルに存在する学習可能な不変性は何ですか?LLMはトークンの固定された語彙(サブワードユニット、バイト、あるいはLexinvariant LLMsのようにランダムに初期化されたベクトル)で訓練されています。ビジョンモデルは画像パッチを投影する関数を学習し、オーディオモデルはオーディオパッチを投影する方法を学習します。
マルチリレーショナルグラフの学習可能な不変性は何ですか?
まず、標準的な一様なグラフにおける不変性(等変性)を紹介します。
標準的な(単一の)順列等変性グラフモデル:グラフMLの大きな進歩は、初期のGNNの研究(Scarselli et al. 2008、Xu et al. 2018、Morris et al. 2018)によってもたらされました。これらの研究は、グラフモデルの予測は頂点IDの再割り当てを行っても変わらないという前提条件の下で、グラフのノードIDを任意と仮定することから非常に利益を得たことを示しています。これは、ニューラルネットワークの節点IDに関して順列等変性を持つことを意味します。この認識は、グラフモデルと呼ばれるものを、ニューラルネットワークが節点IDの順列等変性である限り、新たなグラフ表現手法を生み出すことになりました。
節点IDの順列等変性により、GNNは訓練グラフで学習したパターンを他の(異なる)テストグラフに帰納的に(ゼロショットで)転送することができます。これは等変性の結果であり、ニューラルネットワークは節点IDを埋め込みに使用することができないため、グラフ構造を使用しなければなりません。これにより、グラフにおける構造的表現が生まれます(詳細はSrinivasan & Ribeiro (ICLR 2020)参照)。
マルチリレーショナルグラフにおける等変性
ここでは、グラフ内のエッジには異なる関係型があるかもしれません。そのようなグラフに対してGNNの理論は存在するのでしょうか?
1️⃣私たちの以前の研究であるWeisfeiler and Leman Go Relational(Pablo Barceló、Christopher Morris、Miguel Romero Orthと共著、LoG 2022)では、ノードレベルのタスクに焦点を当てたマルチリレーショナルグラフのためのRelational WLというWL表現能力の階層を導出しました。その後のHuangらによる追加の研究(NeurIPS 2023)は、リンク予測を拡張し、条件付きメッセージパッシングを形式化し、Relational WLを使用した論理表現能力を定義しました。 ✍️ 条件付きメッセージパッシングを覚えておきましょう。後で必要になりますが、これはリンク予測のパフォーマンスを改善することが証明されています。
着信/送信エッジ方向によって誘発されるグローバルな読み出しベクトルの提案は、均質なMPNNの方向性を研究したEmanuele Rossiらによる最近の研究に似ています(詳細についてはVoAGIのブログ記事を参照してください)。ただし、これらの研究は、テスト時にさらなる関係が不明な場合を予測していません。
2️⃣二重順列等変性(マルチリレーショナル)グラフモデル:最近、Gao et al. 2023は、マルチリレーショナルグラフのための二重等変性の概念を提案しました。二重等変性は、ニューラルネットワークがノードIDと関係IDの両方の組み合わせの順列等変性を持つようにすることを要求します。これにより、ニューラルネットワークはノードと関係間の構造的なパターンを学習することができ、新しいノードと新しい関係を持つ別のグラフに学習したパターンを帰納的に(ゼロショットで)転送することができます。
<!–
➡️私たちの研究では、リレーション間の不変性を見つけました。つまり、リレーションの身元が異なっても、基本的な相互作用は変わらず、その基本的な相互作用はリレーションのグラフによって捉えられます。リレーションのグラフでは、各ノードは元のグラフからのリレーションの種類です。このグラフ内の2つのノードは、元のグラフのそのリレーションの種類を持つエッジに接続されます(つまり、ヘッドノードやテールノードを共有します)。この接続状態に応じて、リレーションのグラフ内には4つのエッジタイプがあります:
- ヘッド-ヘッド(h2h)- 2つのリレーションが同じヘッドエンティティから始まることがあります。
- テール-ヘッド(t2h)- 1つのリレーションのテールエンティティが他のリレーションのヘッドになることがあります。
- ヘッド-テール(h2t)- 1つのリレーションのヘッドエンティティが他のリレーションのテールになることがあります。
- テール-テール(t2t)- 2つのリレーションが同じテールエンティティを持つことがあります。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles