Google AIは、埋め込みモデルのスケーラビリティの利点と、クロスアテンションモデルの品質を効果的に組み合わせた新しいクラスタリングアルゴリズムを紹介します

「Google AIが導入する新しいクラスタリングアルゴリズム:埋め込みモデルのスケーラビリティとクロスアテンションモデルの品質を効果的に組み合わせた」

画像:

クラスタリングは、データマイニングや教師なし機械学習の領域で基本的かつ広範な課題として用いられています。その目的は、似たアイテムを異なるグループにまとめることです。クラスタリングには2つのタイプがあります:メトリッククラスタリングとグラフクラスタリングです。メトリッククラスタリングでは、データ点間の距離を設定する特定のメトリック空間を使用します。これらの距離は、データ点をグループ化するための基準となります。一方、グラフクラスタリングでは、類似したデータ点をエッジで結ぶ与えられたグラフを使用します。クラスタリングプロセスは、これらのデータ点を結ぶ関係に基づいてデータ点をグループ化します。

BERTやRoBERTaなどの埋め込みモデルを用いてメトリッククラスタリング問題を定式化するクラスタリング戦略もあります。また、他のアプローチとして、PaLMやGPTなどのクロスアテンション(CA)モデルを使用してグラフクラスタリング問題を確立する方法があります。CAモデルは非常に正確な類似性スコアを提供できますが、入力グラフの構築にはモデルへの推論呼び出しの二乗の数が必要となる場合があります。一方、埋め込みモデルによって生成される埋め込み間の距離は、効果的なメトリック空間を定義することができます。

研究者たちは、「KwikBucks: Correlation Clustering with Cheap-Weak and Expensive-Strong Signals」というクラスタリングアルゴリズムを提案しました。この革新的なアルゴリズムは、埋め込みモデルの拡張性の利点とCAモデルが提供する優れた品質をうまく組み合わせています。グラフクラスタリングのためのアルゴリズムは、CAモデルと埋め込みモデルの両方にクエリアクセスを持っていますが、CAモデルへのクエリ数に制約が課せられています。このアルゴリズムでは、CAモデルをエッジクエリに対応するために使用し、埋め込みモデルからの類似性スコアに無制限アクセスを活用します。

このプロセスは、まず非類似のエッジを共有しないセンターと呼ばれるドキュメントのセットを特定し、それらのセンターに基づいてクラスタを作成することから始まります。また、高品質な情報を提供するCross-Attention(CA)モデルと埋め込みモデルの効果的な操作をバランスさせるために、コンボ類似性オラクルと呼ばれる手法が提示されています。

この手法では、埋め込みモデルを使用してCAモデルに対してクエリを適切に指示します。センターの集合とターゲットドキュメントが与えられた場合、コンボ類似性オラクルメカニズムは、ターゲットドキュメントと類似性が存在する場合にセットからターゲットドキュメントに類似したセンターを特定することで出力を生成します。このコンボ類似性オラクルは、センターの選択とクラスタの形成時にCAモデルへのクエリ呼び出しの数を制限することで、割り当てられた予算を節約するのに役立ちます。これは、まず埋め込みの類似性に基づいてセンターをランキングし、その後CAモデルに識別されたペアのクエリを行うことによって達成されます。

初期のクラスタリングに続いて、クラスタは統合されるという後処理のステップも行われます。統合は、2つのクラスタ間で強い接続が確認された場合に行われます。具体的には、接続エッジの数が2つのクラスタ間の欠落エッジの数を超える場合に行われます。

研究者たちは、さまざまな特徴を持ついくつかのデータセットでアルゴリズムをテストしました。アルゴリズムのパフォーマンスは、埋め込みとクロスアテンションに基づくさまざまなモデルを使用して、2つの最も優れたベースラインアルゴリズムと比較してテストされました。

提案されたクエリ効率の高い相関クラスタリングアプローチは、クロスアテンション(CA)モデルと予算制限内のクラスタリング機能のみを使用します。このため、k最近傍グラフ(kNN)を使用して、スペクトラルクラスタリングを適用します。各頂点のk最近傍ノードをCAモデルにクエリするための埋め込みベースの類似性を使用して、このグラフを作成します。

評価では、適合率と再現率の計算が行われます。適合率は、共にクラスタリングされたペアのうち類似なペアの割合を示し、再現率は、共にクラスタリングされた類似ペアの割合を示します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

デジタルツインは現代の物流を革命化しますこうすればどうなるか

「デジタルツインは物理的な世界と仮想的な世界をつなげることで、物流を変革し、効率性を向上させ、無駄を削減し、そして産...

AI研究

「タンパク質設計の革命:ディープラーニングの改良により成功率が10倍に向上したこのAI研究」

タンパク質はほぼすべての疾患を統治するポリマー構造です。主な問題は、どのタンパク質がそれに対応するタンパク質ポリマー...

AI研究

「AIIMSデリーが医療のためのロボット技術、AI、およびドローンの研究を開始」

医療の常に進化し続ける世界で先行するために、インドの名門医学研究所であるオールインド医科学研究所(AIIMS)デリーは未来...

機械学習

ディープラーニング実験の十のパターンとアンチパターン

この記事では、深層学習エンジニアとしての10年の経験から収集したパターンとアンチパターンのリストを紹介します深層学習エ...

AIニュース

スウェーデンからの持続可能なソリューションの推進

「本日、私たちはGoogle.org インパクトチャレンジ:ソーシャルグッドのためのテックにおけるスウェーデンの受賞者を発表し...

機械学習

最初のネイティブLLMは電気通信業界に最適化されました

キネティカのSQL-GPT for Telecomは、ネットワークのパフォーマンスと顧客体験を最適化するためのより高速な分析と対応を可能...