UCLとGoogle DeepMindの研究者が、トランスフォーマーニューラルネットワークにおけるインコンテキスト学習(ICL)の一瞬のダイナミクスを明らかにします

UCLとGoogle DeepMindの研究者によるトランスフォーマーニューラルネットワークのインコンテキスト学習(ICL)に関する瞬間的なダイナミクスの解明

モデルが推論時に入力を使用して重みを更新せずに動作を変更する能力は、インコンテキスト学習またはICLとして知られています。特に少数の例から望ましい振る舞いを学習する能力を備えたニューラルネットワークアーキテクチャが、最初にこの能力を示しました。モデルがトレーニングセットでうまく機能するためには、将来の予測を行うために、コンテキストからの実例-ラベルのマッピングを覚えておく必要がありました。これらの状況では、トレーニングは各エピソードごとに入力実例に対応するラベルを再配置することを意味しました。テスト時には新しい実例-ラベルのマッピングが提供され、ネットワークのタスクはこれを使用してクエリ実例を分類することでした。

ICLの研究は、トランスフォーマーの開発の結果として発展しました。研究者は、トレーニングの目的やデータを通じて特にそれを促そうとはしていなかったことに注目しました。むしろ、トランスフォーマーベースの言語モデルGPT-3は、適切なサイズで自己回帰的にトレーニングされた後にICLを示しました。それ以来、多くの研究がICLの実例を調査または文書化しています。巨大なニューラルネットワークにおける新しい機能の研究が行われています。ただし、最近の研究では、トランスフォーマーのトレーニングがICLを引き起こすわけではないことが示されています。研究者は、トランスフォーマーにおけるICLの発生は、バースティさや高い偏った分布など、特定の言語データの特性に大きく影響を受けることを発見しました。

ユクルとGoogle Deepmindの研究者は、これらの特性が欠けるデータでトレーニングされたトランスフォーマーが通常インウェイト学習(IWL)に頼ることが明らかになりました。IWLレジームのトランスフォーマーは、新たに提供されたインコンテキスト情報を使用せず、モデルの重みに格納されたデータを使用します。重要なのは、ICLとIWLはお互いと相反するように見えることです。ICLは、トレーニングデータがバースティであるときに、つまりオブジェクトがランダムではなくクラスターとして表示され、トークンやクラスの数が多いときにより簡単に現れるようです。ICLの現象をトランスフォーマーでよりよく理解するためには、確立されたデータ生成分布を使用した制御された調査を行うことが重要です。

図1:12層、埋め込み次元64、各クラス20の実例が含まれる1,600個のコースでトレーニングされ、インコンテキスト学習は一時的です。トレーニングセッションごとにバーストがあります。トレーニング時間が不十分なため、研究者はICLの一時的な変動を目撃することはありませんでしたが、これらの環境はICLを非常に奨励していることがわかりました。 (a) ICL評価器の精度。 (b) IWL評価器の精度。研究チームは、テストシーケンスが分布から外れているため、トレーニングシーケンスの精度が100%であるにもかかわらず、IWL評価器の精度の改善が非常に遅いことを確認しています。 (c) トレーニングログの損失。 2つの色調は2つの実験的な種を示しています。

基本的に、過学習は、LLMでICLを調査する最近のほとんどの研究において内在的な前提に基づいています。モデルは、ICLに依存した機能が発生するため十分なトレーニングを受けたと、トレーニング損失が減少し続ける限り保持されると信じられています。ここでは、研究チームは永続性が存在するという広く信じられている考えを否定します。研究チームは、制御された環境でICLを徹底的に評価することを可能にする、一般的な画像ベースの少数派トレーニングデータセットを修正することでこれを行います。研究チームは、ICLが出現し、モデルの損失が減少し続けるにつれて消える簡単なシナリオを提供します。

言い換えれば、ICLは新興現象として広く認識されているにもかかわらず、研究チームはそれが一時的なものである可能性も考慮すべきです(図1)。研究チームは、さまざまなモデルサイズ、データセットサイズ、およびデータセットの種類において一時性が起こることを発見しましたが、特定の属性が一時性を遅延させることも示しました。一般的には、長期間無責任に訓練されたネットワークは、ICLが現れるのと同じくらい速く消えてしまい、現代のAIシステムから期待されるスキルをモデルから奪うことがあります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

Q&A:ブラジルの政治、アマゾンの人権、AIについてのGabriela Sá Pessoaの見解

ブラジルの社会正義のジャーナリストは、MIT国際研究センターのフェローです

AIニュース

OpenAIはAIチップ製造リーグへの参加を検討しています

有名なChatGPTを開発した強力な企業であるOpenAIは、まもなく人工知能チップ製造のダイナミックな世界に飛び込むかもしれませ...

AI研究

「MITの研究者が深層学習と物理学を使用して、動きによって損傷を受けたMRIスキャンを修正する」

MRI(磁気共鳴画像)スキャンは、大型磁石、電波、およびコンピュータを使用して体内の構造を明確に映し出すテストです。医療...

機械学習

「分類メトリックの理解:モデルの精度評価ガイド」

機械学習における正確性、精度、再現率の迷宮を進む

AI研究

MITとCUHKの研究者たちは、LLM(Long Context Large Language Models)に対して効率的なファインチューニングAIアプローチであるLongLoRA(Long Low-Rank Adaptation)を提案しています

Large language models(LLMs)の導入により、人工知能の領域で大きな進歩がもたらされました。自然言語処理(NLP)、自然言...

データサイエンス

AIの進歩を促進するための医療データのラベリングをゲーム化する

MITの卒業生が運営するプラットフォームは、AI企業のために医療データに対してクラウドの知恵を活用してラベルを付けます