「関係深層学習ベンチマーク(RelBench)に出会ってください:関係データベース上の機械学習のためのリアルな、大規模で多様なベンチマークデータセットのコレクション」

「関係データベース上での機械学習に必要なリアルな、大規模かつ多様なベンチマークデータセットを集めた『関係深層学習ベンチマーク(RelBench)』の紹介」

人工知能(AI)と機械学習(ML)の急速な進歩の分野において、効果的で自動化され、適応性のある手法を見つけることは非常に重要です。AIとMLの手法の持続的な向上は、機械が何を達成できるかと人間が機械とどのように相互作用するかの可能性を再定義しました。

ディープラーニングを含むAIの分野はデータに完全に依存しており、重要なデータはデータウェアハウスに格納されており、これは主外部キーの関係を介して複数のテーブルに分散されています。このようなデータを使用してMLモデルを開発することはいくつかの困難を伴い、既存のML手法は複数の関係テーブルにまたがるデータから直接学習するのに適していません。現在の手法では、データをフィーチャーエンジニアリングと呼ばれる手順を介して単一のテーブルに変換する必要があります。

この課題に対処するため、スタンフォード、Kumo AI、イエール、マックス・プランク、イリノイ大学アーバナ・シャンペーン校の研究者チームは最近、Relational Deep Learningを提案しました。このエンドツーエンドのディープレプリゼンテーション学習手法は、複数のテーブルに分散されたデータを扱うことができます。この手法は、関係テーブルを異種グラフとして基本的な方法で再構築するために開発されました。このグラフモデルでは、各テーブルの行がノードを表し、主外部キーの関係がエッジを定義します。

Message Passing Neural Networks(MPNN)を使用して複数のテーブルを自動的にトラバースし、学習することで、手動のフィーチャーエンジニアリングを必要とせずに、すべての入力データを活用する表現を抽出します。チームはまた、ベンチマークデータセットとRelational Deep Learningの実装を含む包括的なフレームワークであるRELBENCHを提供しています。これらのデータセットには、Amazon Product Catalogの書籍レビューやStack Exchangeなどのサイトでの会話など、さまざまな主題が含まれています。

RELBENCHには、次の3つの主要なモジュールが含まれています。

  1. データモジュール:RELBENCHのデータモジュールは、関係データセットを効率的に使用するためのフレームワークを提供します。その中には、時間的なデータ分割、タスクの指定、データの読み込みという3つの主要な機能が含まれています。
  1. モデルモジュール:このモジュールは、未処理のデータをグラフ表現に変換することで、Graph Neural Networks(GNN)の予測モデルを構築します。頑健なディープラーニングライブラリPyTorch Geometricを使用して、RELBENCHはいくつかの広く使用されているGNNアーキテクチャのベンチマークを行います。このモジュールはモデルアーキテクチャの柔軟性を可能にし、予測モデルの開発と生の関係データの間のギャップを埋めるのに不可欠です。
  1. 評価モジュール:このモジュールは、モデルの性能を評価するための一貫した手順を作成します。モデルの予測を方法論的に評価することで、モデルの効果を定量化する量的な指標を提供します。このモジュールは、深層学習フレームワークから独立して作られているため、さまざまな人気のある深層学習ツールと連携します。この柔軟性により、研究者や実践者は評価手順を犠牲にすることなく、自分の選択したフレームワークを使用することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more