このAI論文では、LLMsの既存のタスクの新しいバリアントに適応する能力が評価されています

This AI paper evaluates the ability to adapt LLMs to new variants of existing tasks.

言語モデル(LM)の注目すべきパフォーマンスは、大規模な次の単語予測がテキストコーパスから知識を効果的に蒸留できることを示唆しています。LMは、さまざまな自然言語処理ベンチマークで印象的な結果を達成し、最先端の手法を上回り、複雑な推論を必要とするタスクでも人間を上回る成績を収めています。ただし、これらの成功は、タスクに一般的な推論スキルからくるものなのか、事前学習時に遭遇した特定のタスクを認識・回想することからくるものなのかを判断することが重要です。

これまでの研究は、主にインスタンスレベルの一般化に焦点を当てており、データの汚染問題が複雑さを増しています。本研究では、研究者たちは、パフォーミングタスクが実行される条件やルールを変更することで、LMの一般化能力を新たなタスクバリアントに対して調査しました。これらのタスクの一般的な推論手順は変更せず、具体的な入出力マッピングのみが変更されます。これらの新しいタスクは、カウンターファクトタスクと呼ばれ、デフォルト条件から逸脱し、モデルのタスクレベルの一般化能力を測定します。

研究者たちは、複数のカテゴリとドメインを網羅する11のカウンターファクト評価タスクのスイートを提案しています。これらのタスクには、演繹的な推論、コード生成、ドローイング、空間的な推論などが含まれます。元のタスクとそのカウンターファクトバリアント間の推論手順は一貫していますが、入出力マッピングは異なります。この評価は、LMの新しいタスクバリアントへの適応性を評価することを目的としています。

GPT-4、GPT-3.5、Claude、およびPaLM-2のパフォーマンスは、タスクのデフォルト条件とカウンターファクト条件の両方で評価されます。結果は、LMがランダム以上のカウンターファクトパフォーマンスを示す一方で、デフォルト設定と比較して一貫して性能が低下することを示しています。これは、これらのタスクにおけるモデルの成功が、抽象的で一般化可能な推論スキルではなく、デフォルト条件固有の振る舞いに一部帰属できることを示唆しています。

研究結果は、デフォルトとカウンターファクトタスクのモデルの振る舞いにおける興味深い関係も明らかにしています。デフォルトとカウンターファクトのパフォーマンスの相関関係、ゼロショットの連鎖思考プロンプトの効果、およびタスクおよびインスタンスレベルの頻度効果の相互作用が観察されています。全体として、タスクのデフォルトの具体化にわずかな変動があることは、LMにとって課題を提供し、既存のモデルの成功は単に目標タスクへの一般的な能力にのみ帰せられるべきではないことを示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

AIの創造的かつ変革的な可能性

ジェームズ・マニカ氏は、AIと創造性についてカンヌライオンズフェスティバルで講演しました彼の発言の抜粋を読んでください

機械学習

「ウッドペッカーは、言語モデルにおけるAIの精度を革新している方法とは?」

中国の腾讯YouTu Labと中国科学技術大学(USTC)のAI研究者グループが、Multimodal Large Language Models(MLLM)の幻想問題...

人工知能

「Azureプロジェクト管理のナビゲーション:効率的な運用と展開についての深い探求」

「エキスパートのストラテジーを使用して、シームレスな操作と成功した展開に必要なキーワードを明らかにし、Microsoft Azure...

機械学習

「FlexGenに会おう:GPUメモリが限られている場合に大規模な言語モデル(LLM)を実行するための高スループットな生成エンジン」

大規模言語モデル(LLM)は最近、さまざまなタスクで印象的なパフォーマンスを発揮しています。生成型LLMの推論は以前にない...

AIテクノロジー

ウェブサイトのためにChatGPTに適切なテクニカルテキストを書かせる方法

「長いテキストを書くように依頼しないでくださいできるだけ多くの詳細と仕様を提供し、適切な言語を使用し、AIディテクター...

データサイエンス

トロント大学の研究者が、大規模な材料データセットにおける驚くべき冗長性と、情報豊かなデータの機械学習パフォーマンスの向上における力を明らかにする

AIの登場と共に、その利用は私たちの生活のあらゆる分野で感じられるようになっています。AIはあらゆる生活領域での応用が見...