「解釈力を高めたk-Meansクラスタリングの改善」

「k-Meansクラスタリングの解釈力向上のための改善法」

データセットのクラス近傍構造の学習によるクラスタリングの改善

2020年国際合同ニューラルネットワーク会議(IJCNN)で発表された”A.F. AgarapとA.P. Azcarragaによる論文「Disentangled Internal Representationsを用いたk-Meansクラスタリングの改善」に関連する記事です。

背景

クラスタリングは、対象の集合をグループ化する非教師付き学習のタスクであり、グループ内の対象同士が他のグループよりも類似性を持つようにグループ化します。データ解析と可視化、異常検知、シーケンス解析、自然言語処理など、応用範囲が広く研究されています。

他の機械学習手法と同様に、クラスタリングアルゴリズムは特徴量表現の選択に大いに依存します。私たちの研究では、特徴量表現の品質を解き放つことによって向上させています。

私たちは、クラスの類似性が高いデータ同士がどれだけ遠くに存在するか(クラスの異なるデータ点に対して)、クラスの類似するデータ同士と比較して定義しています。これは、前述の用語が「Frosst et al.(2019)」で扱われた方法に類似しています。したがって、表現学習中にディセンタングルメントを最大化することは、クラスの類似するデータ点間の距離を最小化することを意味します。

Figure by the author.

これにより、データセットの例のクラス所属が保持され、特徴量空間内で最近傍分類器またはクラスタリングアルゴリズムがうまく機能する特徴表現空間が得られます。

クラスタリング

クラスタリングは、データポイントのグループ化を見つける機械学習のタスクであり、グループ内のポイント同士が他のグループのポイントよりも類似性を持つようにします。

Figure by the author.

他の機械学習アルゴリズムと同様に、クラスタリングアルゴリズムの成功は特徴量表現の選択に依存します。使用するデータセットに関して一つの表現が他よりも優れていることがあります。しかし、ディープラーニングではニューラルネットワークの暗黙のタスクとして特徴量表現が学習されるため、この場合は異なります。

ディープクラスタリング

そのため、最近の研究では、Deep Embedding Clustering(DEC)やVariational Deep Embedding(VADE)などがニューラルネットワークの特徴量表現学習能力を利用しています。

Figure from DEC (Xie et al., 2016). The network structure of DEC.

この記事では詳細には言及しませんが、これらの研究の基本的なアイデアは本質的に同じであり、それは深層ニューラルネットワークを使用して特徴表現とクラスタ割り当てを同時に学習することです。このアプローチはディープクラスタリングとして知られています。

動機

クラスタリング前のデータポイントのクラス所属を保持することはできますか?

クラスタリングの割り当てと特徴表現を同時に学習する深層学習手法では、データセットのクラスの近傍構造を明示的に維持することは目指されていません。これが私たちの研究の動機であり、データセットのクラスの近傍構造を維持し、その後深層ネットワークの学習表現上でクラスタリングを行うことができるかということです。

2019年には、Not Too DeepまたはN2Dクラスタリング手法と呼ばれるものが提案されました。この手法では、データセットの潜在コード表現を学習し、その後t-SNE、Isomap、UMAPなどの技術を使用して潜在的な多様体を探索しました。探索された多様体は、クラスタリングに適した表現です。したがって、多様体学習の後、彼らは学習された多様体をデータセットの特徴としてクラスタリングに使用しました。このアプローチにより、良好なクラスタリング性能が得られました。N2Dは、深層クラスタリングアルゴリズムと比較して比較的シンプルなアプローチであり、私たちは類似のアプローチを提案しています。

解釈可能な表現の学習

私たちはまた、オートエンコーダーネットワークを使用してデータセットの潜在コード表現を学習し、それをクラスタリングに使用します。私たちは、クラスタリングに適したより解釈しやすい表現を学ぶ方法についての違いを明確にします。多様体学習の技術を使用する代わりに、私たちはオートエンコーダーネットワークの学習表現を分解することを提案します。

著者による図。クラスに似たデータポイント間の距離が最小化され、クラス間の異なるデータポイントの分離が向上します。

学習表現を分解するために、私たちはソフト最近傍損失(SNNL)を使用しています。この損失関数は、各隠れ層内のクラスに似たデータポイント間の距離を最小化します。Frosst、Papernot、Hintonの研究では、この損失関数を固定された温度Tで使用して、識別的なタスクと生成的なタスクにおいてSNNLを使用しました。

著者による図。私たちはNeelakantan et al., 2015から指数を取得しましたが、任意の値であることがあります。

私たちの研究では、クラスタリングのためにSNNLを使用し、固定温度ではなくアニーリング温度の使用を導入します。アニーリング温度は、訓練エポック数に対する逆関数であり、τで示されます。

著者による図。アニーリング温度と固定温度でのソフト最近傍損失の比較。ガウス分布から300個のデータポイントをサンプリングしてランダムなラベルを付け、ソフト最近傍損失を用いて勾配降下法を実行しました。左側の図はラベル付けポイントの初期状態を示しています。エポック20からエポック50までの潜在コードにおけるクラスの分離が見られ、クラス分離がより明確になります。論文でベンチマークデータセット上で分離された表現を示しています。<a href=paper

ガウス分布から無作為にサンプリングされ、ラベルが付けられた300のデータポイントに対してグラディエント降下を実行することで、SNNLの退火温度を使用することで、固定された温度を使用する場合と比較して、より速い解状態を見つけることができます。見ることができるように、20エポック目でも、解状態のクラス類似のデータポイントは、固定された温度を使用する場合よりもアニーリング温度を使用する場合によりクラスタ化されているまたは絡み合っているように見えます。このことは、SNNLの値によっても数値的に示されています。

私たちの手法

したがって、私たちの貢献は、クラスタリングのための特徴表現の解状態におけるSNNLの使用、SNNLのためのアニーリング温度の使用、および深層クラスタリング手法と比較してよりシンプルなクラスタリング手法の使用です。

以下に、私たちの手法を要約します。

  1. 再構成損失としてのバイナリクロスエントロピーと、正則化子としてのソフト最近傍ネイバー損失を含む複合損失を持つオートエンコーダをトレーニングします。オートエンコーダの各隠れ層のSNNLは、データセットのクラス近傍構造を保持するために最小化されます。
  2. トレーニングの後、データセットの潜在コード表現をクラスタリングのためのデータセットの特徴として使用します。

解状態表現におけるクラスタリング

私たちの実験設定は以下の通りです。

  1. MNISTFashion-MNIST、およびEMNIST Balancedのベンチマークデータセットを使用しました。データセットの各画像は784次元ベクトルにフラット化されました。クラスタリングモデルのクラスタリング精度を測定するため、それらのグラウンドトルースラベルを疑似クラスタリングラベルとして使用しました。
  2. 計算上の制約と手法をシンプルにするために、ハイパーパラメータの調整や他のトレーニングテクニックは行いませんでした。
  3. 解状態プロセスに影響を与える可能性があるため、ドロップアウトやバッチノーマライゼーションなどの他の正則化子は省略しました。
  4. モデルのパフォーマンスの平均値を計算しました。各ランは異なるランダムシードを持ちました。

クラスタリングのパフォーマンス

ただし、オートエンコーディングとクラスタリングはいずれも教師なし学習のタスクですが、データセットのクラス近傍構造を保持するためにラベルを使用する損失関数であるSNNLを使用しています。

Figure by the author.

これを踏まえて、ベンチマークデータセットのラベル付きトレーニングデータの小さなサブセットを使用して、ラベル付きデータの不足を模擬しました。使用したラベル付き例の数は任意に選ばれました。

文献からのDEC、VaDE、ClusterGAN、およびN2Dのクラスタリング精度の報告結果を基準結果として使用し、上記の表では、私たちの手法が基準モデルより優れていることが要約されています。

これらの結果は、各データセットの四つのランの中で最も優れたクラスタリング精度です。なお、文献からの基準結果は、それぞれの著者によって報告された最も優れたクラスタリング精度でもあります。

解状態表現の可視化

さらに、各データセットのネットワークによる解状態表現を可視化しました。

EMNIST Balancedデータセットでは、可視化が容易でクリーンなものにするために、10のクラスをランダムに選びました。

これらの可視化から、各データセットの潜在コード表現が、クラスタのばらつきによって示されるように、よりクラスタリングに適したものになったことがわかります。

Figure by the author. 3D visualization comparing the original representation and the disentangled latent representation of the three datasets. To achieve this visualization, the representations were encoded using t-SNE with perplexity = 50 and learning rate = 10, optimized for 5,000 iterations, with the same random seed set for all computations. However, for clustering, we used higher dimensionality to achieve better clustering performance.

少ないラベル付きの例でのトレーニング

また、ラベル付きの例を少なくしてモデルのトレーニングも試しました。

Figure by the author. Test clustering accuracy on the MNIST and Fashion-MNIST test sets when small subsets of labelled data are used for training. Both the original representation and the baseline autoencoder do not take advantage of the labelled dataset.

上の図では、ラベル付きのトレーニング例が少なくても、分解表現のクラスタリングパフォーマンスは、文献からの基準モデルと同等です。

これにより、ラベル付きデータセットが不足している状況では、この方法を使用して良い結果を得ることができます。

結論

深層クラスタリング手法と比較して、私たちはオートエンコーダの再構築損失とソフト最近傍損失の複合損失を使用してよりクラスタリングに適した表現を学習し、k-Meansクラスタリングアルゴリズムのパフォーマンスを向上させるより簡単なクラスタリングアプローチを採用しました。

私たちのソフト最近傍損失の拡張では、アニーリング温度を使用してより速く、より良い分解を行い、ベンチマークデータセットでのクラスタリングパフォーマンスを改善しました。これにより、私たちの作業はまとめられました。

私たちの作業の公開以来、他のいくつかの論文がソフト最近傍損失を基にしているか、非常に類似していると見なされました。特に、Googleの教師ありコントラスティブ(SupCon)学習論文が挙げられますが、SupConアプローチでは埋め込みの正規化、データ拡張の増加、使い捨てのコントラスティブヘッド、および2段階のトレーニングを提案しています。

一方で、私たちの作業は比較的低いハードウェアリソースで良い結果を得る必要があります。

参考文献

  • Frosst, Nicholas, Nicolas Papernot, and Geoffrey Hinton. “Analyzing and improving representations with the soft nearest neighbor loss.” International conference on machine learning. PMLR, 2019.
  • Goldberger, Jacob, et al. “Neighbourhood components analysis.” Advances in neural information processing systems. 2005.
  • Khosla, Prannay, et al. “Supervised contrastive learning.” Advances in neural information processing systems 33 (2020): 18661–18673.
  • Salakhutdinov, Ruslan, and Geoff Hinton. “Learning a nonlinear embedding by preserving class neighbourhood structure.” Artificial Intelligence and Statistics. 2007.

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more