Google AIは、埋め込みモデルのスケーラビリティの利点と、クロスアテンションモデルの品質を効果的に組み合わせた新しいクラスタリングアルゴリズムを紹介します
「Google AIが導入する新しいクラスタリングアルゴリズム:埋め込みモデルのスケーラビリティとクロスアテンションモデルの品質を効果的に組み合わせた」
画像:
クラスタリングは、データマイニングや教師なし機械学習の領域で基本的かつ広範な課題として用いられています。その目的は、似たアイテムを異なるグループにまとめることです。クラスタリングには2つのタイプがあります:メトリッククラスタリングとグラフクラスタリングです。メトリッククラスタリングでは、データ点間の距離を設定する特定のメトリック空間を使用します。これらの距離は、データ点をグループ化するための基準となります。一方、グラフクラスタリングでは、類似したデータ点をエッジで結ぶ与えられたグラフを使用します。クラスタリングプロセスは、これらのデータ点を結ぶ関係に基づいてデータ点をグループ化します。
BERTやRoBERTaなどの埋め込みモデルを用いてメトリッククラスタリング問題を定式化するクラスタリング戦略もあります。また、他のアプローチとして、PaLMやGPTなどのクロスアテンション(CA)モデルを使用してグラフクラスタリング問題を確立する方法があります。CAモデルは非常に正確な類似性スコアを提供できますが、入力グラフの構築にはモデルへの推論呼び出しの二乗の数が必要となる場合があります。一方、埋め込みモデルによって生成される埋め込み間の距離は、効果的なメトリック空間を定義することができます。
研究者たちは、「KwikBucks: Correlation Clustering with Cheap-Weak and Expensive-Strong Signals」というクラスタリングアルゴリズムを提案しました。この革新的なアルゴリズムは、埋め込みモデルの拡張性の利点とCAモデルが提供する優れた品質をうまく組み合わせています。グラフクラスタリングのためのアルゴリズムは、CAモデルと埋め込みモデルの両方にクエリアクセスを持っていますが、CAモデルへのクエリ数に制約が課せられています。このアルゴリズムでは、CAモデルをエッジクエリに対応するために使用し、埋め込みモデルからの類似性スコアに無制限アクセスを活用します。
- DISC-FinLLMとは、複数の専門家のファインチューニングに基づいた中国の金融大規模言語モデル(LLM)です
- 「Amazon SageMaker Model Registry、HashiCorp Terraform、GitHub、およびJenkins CI/CDを使用して、マルチ環境設定でのパイプラインの促進を行う」
- 「Azure OpenAI Studioを使用したNL2SQLシステムのセットアップ方法」
このプロセスは、まず非類似のエッジを共有しないセンターと呼ばれるドキュメントのセットを特定し、それらのセンターに基づいてクラスタを作成することから始まります。また、高品質な情報を提供するCross-Attention(CA)モデルと埋め込みモデルの効果的な操作をバランスさせるために、コンボ類似性オラクルと呼ばれる手法が提示されています。
この手法では、埋め込みモデルを使用してCAモデルに対してクエリを適切に指示します。センターの集合とターゲットドキュメントが与えられた場合、コンボ類似性オラクルメカニズムは、ターゲットドキュメントと類似性が存在する場合にセットからターゲットドキュメントに類似したセンターを特定することで出力を生成します。このコンボ類似性オラクルは、センターの選択とクラスタの形成時にCAモデルへのクエリ呼び出しの数を制限することで、割り当てられた予算を節約するのに役立ちます。これは、まず埋め込みの類似性に基づいてセンターをランキングし、その後CAモデルに識別されたペアのクエリを行うことによって達成されます。
初期のクラスタリングに続いて、クラスタは統合されるという後処理のステップも行われます。統合は、2つのクラスタ間で強い接続が確認された場合に行われます。具体的には、接続エッジの数が2つのクラスタ間の欠落エッジの数を超える場合に行われます。
研究者たちは、さまざまな特徴を持ついくつかのデータセットでアルゴリズムをテストしました。アルゴリズムのパフォーマンスは、埋め込みとクロスアテンションに基づくさまざまなモデルを使用して、2つの最も優れたベースラインアルゴリズムと比較してテストされました。
提案されたクエリ効率の高い相関クラスタリングアプローチは、クロスアテンション(CA)モデルと予算制限内のクラスタリング機能のみを使用します。このため、k最近傍グラフ(kNN)を使用して、スペクトラルクラスタリングを適用します。各頂点のk最近傍ノードをCAモデルにクエリするための埋め込みベースの類似性を使用して、このグラフを作成します。
評価では、適合率と再現率の計算が行われます。適合率は、共にクラスタリングされたペアのうち類似なペアの割合を示し、再現率は、共にクラスタリングされた類似ペアの割合を示します。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles