Google AIは、埋め込みモデルのスケーラビリティの利点と、クロスアテンションモデルの品質を効果的に組み合わせた新しいクラスタリングアルゴリズムを紹介します

「Google AIが導入する新しいクラスタリングアルゴリズム:埋め込みモデルのスケーラビリティとクロスアテンションモデルの品質を効果的に組み合わせた」

画像:

クラスタリングは、データマイニングや教師なし機械学習の領域で基本的かつ広範な課題として用いられています。その目的は、似たアイテムを異なるグループにまとめることです。クラスタリングには2つのタイプがあります:メトリッククラスタリングとグラフクラスタリングです。メトリッククラスタリングでは、データ点間の距離を設定する特定のメトリック空間を使用します。これらの距離は、データ点をグループ化するための基準となります。一方、グラフクラスタリングでは、類似したデータ点をエッジで結ぶ与えられたグラフを使用します。クラスタリングプロセスは、これらのデータ点を結ぶ関係に基づいてデータ点をグループ化します。

BERTやRoBERTaなどの埋め込みモデルを用いてメトリッククラスタリング問題を定式化するクラスタリング戦略もあります。また、他のアプローチとして、PaLMやGPTなどのクロスアテンション(CA)モデルを使用してグラフクラスタリング問題を確立する方法があります。CAモデルは非常に正確な類似性スコアを提供できますが、入力グラフの構築にはモデルへの推論呼び出しの二乗の数が必要となる場合があります。一方、埋め込みモデルによって生成される埋め込み間の距離は、効果的なメトリック空間を定義することができます。

研究者たちは、「KwikBucks: Correlation Clustering with Cheap-Weak and Expensive-Strong Signals」というクラスタリングアルゴリズムを提案しました。この革新的なアルゴリズムは、埋め込みモデルの拡張性の利点とCAモデルが提供する優れた品質をうまく組み合わせています。グラフクラスタリングのためのアルゴリズムは、CAモデルと埋め込みモデルの両方にクエリアクセスを持っていますが、CAモデルへのクエリ数に制約が課せられています。このアルゴリズムでは、CAモデルをエッジクエリに対応するために使用し、埋め込みモデルからの類似性スコアに無制限アクセスを活用します。

このプロセスは、まず非類似のエッジを共有しないセンターと呼ばれるドキュメントのセットを特定し、それらのセンターに基づいてクラスタを作成することから始まります。また、高品質な情報を提供するCross-Attention(CA)モデルと埋め込みモデルの効果的な操作をバランスさせるために、コンボ類似性オラクルと呼ばれる手法が提示されています。

この手法では、埋め込みモデルを使用してCAモデルに対してクエリを適切に指示します。センターの集合とターゲットドキュメントが与えられた場合、コンボ類似性オラクルメカニズムは、ターゲットドキュメントと類似性が存在する場合にセットからターゲットドキュメントに類似したセンターを特定することで出力を生成します。このコンボ類似性オラクルは、センターの選択とクラスタの形成時にCAモデルへのクエリ呼び出しの数を制限することで、割り当てられた予算を節約するのに役立ちます。これは、まず埋め込みの類似性に基づいてセンターをランキングし、その後CAモデルに識別されたペアのクエリを行うことによって達成されます。

初期のクラスタリングに続いて、クラスタは統合されるという後処理のステップも行われます。統合は、2つのクラスタ間で強い接続が確認された場合に行われます。具体的には、接続エッジの数が2つのクラスタ間の欠落エッジの数を超える場合に行われます。

研究者たちは、さまざまな特徴を持ついくつかのデータセットでアルゴリズムをテストしました。アルゴリズムのパフォーマンスは、埋め込みとクロスアテンションに基づくさまざまなモデルを使用して、2つの最も優れたベースラインアルゴリズムと比較してテストされました。

提案されたクエリ効率の高い相関クラスタリングアプローチは、クロスアテンション(CA)モデルと予算制限内のクラスタリング機能のみを使用します。このため、k最近傍グラフ(kNN)を使用して、スペクトラルクラスタリングを適用します。各頂点のk最近傍ノードをCAモデルにクエリするための埋め込みベースの類似性を使用して、このグラフを作成します。

評価では、適合率と再現率の計算が行われます。適合率は、共にクラスタリングされたペアのうち類似なペアの割合を示し、再現率は、共にクラスタリングされた類似ペアの割合を示します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIテクノロジー

「接続から知能へ:ブロックチェーンとAIがIoTエコシステムを変革する方法」

「ブロックチェーンは、金融、データセキュリティとプライバシー、農業、供給などのさまざまな分野で問題解決策を提供する、...

AIニュース

メタが「AudioCraft」を発表:テキストを音声や音楽に変換するためのAIツール

Metaは、Facebook、Instagram、WhatsAppなどのソーシャルメディアプラットフォームを展開しているテックジャイアントであり、...

機械学習

「リトリーバル増強生成によるジェネラティブAIの最適化:アーキテクチャ、アルゴリズム、およびアプリケーションの概要」

この記事はAIの専門家を対象にし、AIのアーキテクチャー、トレーニング、そして応用に焦点を当てて検討します

データサイエンス

「AIがあなたの問題を解決できるでしょうか?」

「AIの能力を製品やサービスに組み込むことを目指す製品企業では、AIに詳しくない人々をAIの流れに乗せるという課題が常に存...

データサイエンス

リトリーバル・オーグメンテッド・ジェネレーションにおける関連性の課題にどのように対処するか

パート1では、非最適な埋め込みモデル、効率の悪いチャンキング戦略、およびメタデータフィルタリングの不足により、LLMから...

AIニュース

オープンAIがインドに進出:現地チームの設立

名声高い人工知能(AI)企業OpenAIは、インドで力強い存在を確立するために重要な進展を遂げています。TechCrunchによれば、...