UCLとGoogle DeepMindの研究者が、トランスフォーマーニューラルネットワークにおけるインコンテキスト学習(ICL)の一瞬のダイナミクスを明らかにします
UCLとGoogle DeepMindの研究者によるトランスフォーマーニューラルネットワークのインコンテキスト学習(ICL)に関する瞬間的なダイナミクスの解明
モデルが推論時に入力を使用して重みを更新せずに動作を変更する能力は、インコンテキスト学習またはICLとして知られています。特に少数の例から望ましい振る舞いを学習する能力を備えたニューラルネットワークアーキテクチャが、最初にこの能力を示しました。モデルがトレーニングセットでうまく機能するためには、将来の予測を行うために、コンテキストからの実例-ラベルのマッピングを覚えておく必要がありました。これらの状況では、トレーニングは各エピソードごとに入力実例に対応するラベルを再配置することを意味しました。テスト時には新しい実例-ラベルのマッピングが提供され、ネットワークのタスクはこれを使用してクエリ実例を分類することでした。
ICLの研究は、トランスフォーマーの開発の結果として発展しました。研究者は、トレーニングの目的やデータを通じて特にそれを促そうとはしていなかったことに注目しました。むしろ、トランスフォーマーベースの言語モデルGPT-3は、適切なサイズで自己回帰的にトレーニングされた後にICLを示しました。それ以来、多くの研究がICLの実例を調査または文書化しています。巨大なニューラルネットワークにおける新しい機能の研究が行われています。ただし、最近の研究では、トランスフォーマーのトレーニングがICLを引き起こすわけではないことが示されています。研究者は、トランスフォーマーにおけるICLの発生は、バースティさや高い偏った分布など、特定の言語データの特性に大きく影響を受けることを発見しました。
ユクルとGoogle Deepmindの研究者は、これらの特性が欠けるデータでトレーニングされたトランスフォーマーが通常インウェイト学習(IWL)に頼ることが明らかになりました。IWLレジームのトランスフォーマーは、新たに提供されたインコンテキスト情報を使用せず、モデルの重みに格納されたデータを使用します。重要なのは、ICLとIWLはお互いと相反するように見えることです。ICLは、トレーニングデータがバースティであるときに、つまりオブジェクトがランダムではなくクラスターとして表示され、トークンやクラスの数が多いときにより簡単に現れるようです。ICLの現象をトランスフォーマーでよりよく理解するためには、確立されたデータ生成分布を使用した制御された調査を行うことが重要です。
- UC San Diegoの研究者たちは、EUGENeという使いやすいディープラーニングゲノミクスソフトウェアを紹介します
- シカゴ大学の研究者が3Dペイントブラシを導入:テキストを入力として使用してメッシュ上にローカルスタイルのテクスチャを生成するためのAIメソッド
- メタリサーチは、システム2アテンション(S2A)を導入します:入力コンテキストの重要な部分を決定するためのAI技術で、優れた応答を生成する能力がございます
基本的に、過学習は、LLMでICLを調査する最近のほとんどの研究において内在的な前提に基づいています。モデルは、ICLに依存した機能が発生するため十分なトレーニングを受けたと、トレーニング損失が減少し続ける限り保持されると信じられています。ここでは、研究チームは永続性が存在するという広く信じられている考えを否定します。研究チームは、制御された環境でICLを徹底的に評価することを可能にする、一般的な画像ベースの少数派トレーニングデータセットを修正することでこれを行います。研究チームは、ICLが出現し、モデルの損失が減少し続けるにつれて消える簡単なシナリオを提供します。
言い換えれば、ICLは新興現象として広く認識されているにもかかわらず、研究チームはそれが一時的なものである可能性も考慮すべきです(図1)。研究チームは、さまざまなモデルサイズ、データセットサイズ、およびデータセットの種類において一時性が起こることを発見しましたが、特定の属性が一時性を遅延させることも示しました。一般的には、長期間無責任に訓練されたネットワークは、ICLが現れるのと同じくらい速く消えてしまい、現代のAIシステムから期待されるスキルをモデルから奪うことがあります。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 中国のこのAI研究は、AIの幻覚を探求する:大型言語モデルにおける幻視に深く潜る
- このAI研究では、ドライブ可能な3Dガウスアバター(D3GA)を提案します:ガウススプラットでレンダリングされた人体のための最初の3Dコントローラブルモデルです
- マイクロソフトリサーチと清華大学の研究者たちは、「思考の骨格(SoT):LLMの生成を加速するための新しい人工知能の手法」という提案を行いました
- 複雑なAIモデルの解読:パデュー大学の研究者が、ディープラーニングの予測を位相マップに変換
- NVIDIA AI研究者が提案するTied-Lora 低ランクアダプテーション(LoRA)メソッドのパラメータ効率を向上させるための画期的な人工知能アプローチ
- マイクロソフトリサーチは、Florence-2という新しいビジョン基盤モデルを導入しましたこれは、さまざまなコンピュータビジョンやビジョン言語のタスクに対応する統一されたプロンプトベースの表現を持っています
- アリババの研究者らがQwen-Audioシリーズを発表 ユニバーサルな音声理解能力を備えた大規模な音声言語モデルのセット