UCLとGoogle DeepMindの研究者が、トランスフォーマーニューラルネットワークにおけるインコンテキスト学習(ICL)の一瞬のダイナミクスを明らかにします

UCLとGoogle DeepMindの研究者によるトランスフォーマーニューラルネットワークのインコンテキスト学習(ICL)に関する瞬間的なダイナミクスの解明

モデルが推論時に入力を使用して重みを更新せずに動作を変更する能力は、インコンテキスト学習またはICLとして知られています。特に少数の例から望ましい振る舞いを学習する能力を備えたニューラルネットワークアーキテクチャが、最初にこの能力を示しました。モデルがトレーニングセットでうまく機能するためには、将来の予測を行うために、コンテキストからの実例-ラベルのマッピングを覚えておく必要がありました。これらの状況では、トレーニングは各エピソードごとに入力実例に対応するラベルを再配置することを意味しました。テスト時には新しい実例-ラベルのマッピングが提供され、ネットワークのタスクはこれを使用してクエリ実例を分類することでした。

ICLの研究は、トランスフォーマーの開発の結果として発展しました。研究者は、トレーニングの目的やデータを通じて特にそれを促そうとはしていなかったことに注目しました。むしろ、トランスフォーマーベースの言語モデルGPT-3は、適切なサイズで自己回帰的にトレーニングされた後にICLを示しました。それ以来、多くの研究がICLの実例を調査または文書化しています。巨大なニューラルネットワークにおける新しい機能の研究が行われています。ただし、最近の研究では、トランスフォーマーのトレーニングがICLを引き起こすわけではないことが示されています。研究者は、トランスフォーマーにおけるICLの発生は、バースティさや高い偏った分布など、特定の言語データの特性に大きく影響を受けることを発見しました。

ユクルとGoogle Deepmindの研究者は、これらの特性が欠けるデータでトレーニングされたトランスフォーマーが通常インウェイト学習(IWL)に頼ることが明らかになりました。IWLレジームのトランスフォーマーは、新たに提供されたインコンテキスト情報を使用せず、モデルの重みに格納されたデータを使用します。重要なのは、ICLとIWLはお互いと相反するように見えることです。ICLは、トレーニングデータがバースティであるときに、つまりオブジェクトがランダムではなくクラスターとして表示され、トークンやクラスの数が多いときにより簡単に現れるようです。ICLの現象をトランスフォーマーでよりよく理解するためには、確立されたデータ生成分布を使用した制御された調査を行うことが重要です。

図1:12層、埋め込み次元64、各クラス20の実例が含まれる1,600個のコースでトレーニングされ、インコンテキスト学習は一時的です。トレーニングセッションごとにバーストがあります。トレーニング時間が不十分なため、研究者はICLの一時的な変動を目撃することはありませんでしたが、これらの環境はICLを非常に奨励していることがわかりました。 (a) ICL評価器の精度。 (b) IWL評価器の精度。研究チームは、テストシーケンスが分布から外れているため、トレーニングシーケンスの精度が100%であるにもかかわらず、IWL評価器の精度の改善が非常に遅いことを確認しています。 (c) トレーニングログの損失。 2つの色調は2つの実験的な種を示しています。

基本的に、過学習は、LLMでICLを調査する最近のほとんどの研究において内在的な前提に基づいています。モデルは、ICLに依存した機能が発生するため十分なトレーニングを受けたと、トレーニング損失が減少し続ける限り保持されると信じられています。ここでは、研究チームは永続性が存在するという広く信じられている考えを否定します。研究チームは、制御された環境でICLを徹底的に評価することを可能にする、一般的な画像ベースの少数派トレーニングデータセットを修正することでこれを行います。研究チームは、ICLが出現し、モデルの損失が減少し続けるにつれて消える簡単なシナリオを提供します。

言い換えれば、ICLは新興現象として広く認識されているにもかかわらず、研究チームはそれが一時的なものである可能性も考慮すべきです(図1)。研究チームは、さまざまなモデルサイズ、データセットサイズ、およびデータセットの種類において一時性が起こることを発見しましたが、特定の属性が一時性を遅延させることも示しました。一般的には、長期間無責任に訓練されたネットワークは、ICLが現れるのと同じくらい速く消えてしまい、現代のAIシステムから期待されるスキルをモデルから奪うことがあります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「Mini-DALLE3と出会おう:大規模な言語モデルによるテキストから画像へのインタラクティブアプローチ」

人工知能コンテンツ生成の急速な進化、特にテキストから画像へのモデル(T2I)の進展により、高品質で多様性に富み創造的なAIに...

AIニュース

クラゲ、猫、ヘビ、宇宙飛行士は何を共有しているのか?数学

新しいアルゴリズムは、動物が体の形状を変えることによって環境を移動するためのさまざまな動きを説明しています

データサイエンス

「NLP(スクラッチからのdoc2vec)&クラスタリング:テキストの内容に基づいたニュースレポートの分類」

このタイプの分類を行うためには、教師付き学習法(タグ付きのデータセットを使用する方法)、クラスタリングを使用する方法...

データサイエンス

AIと機械学習のためのReactJS:強力な組み合わせ

このブログ記事では、ReactJSとAI/MLが組み合わされることで、パワフルでインタラクティブなウェブアプリケーションを構築す...

AI研究

XGen-Image-1の内部:Salesforce Researchが巨大なテキストから画像へのモデルを構築、トレーニング、評価する方法

Salesforceは、新しい基盤モデルの最も活発な研究所の一つです最近、Salesforce Researchは、異なるドメインにわたるさまざま...

コンピュータサイエンス

「祝福と恐怖:広告主が慎重にAIを受け入れる」

「多くの広告は、急速に進化する技術によってより簡単に作成できるようになっていますただし、これは既に変動中の産業にとっ...