このAI論文では、LLMsの既存のタスクの新しいバリアントに適応する能力が評価されています

This AI paper evaluates the ability to adapt LLMs to new variants of existing tasks.

言語モデル(LM)の注目すべきパフォーマンスは、大規模な次の単語予測がテキストコーパスから知識を効果的に蒸留できることを示唆しています。LMは、さまざまな自然言語処理ベンチマークで印象的な結果を達成し、最先端の手法を上回り、複雑な推論を必要とするタスクでも人間を上回る成績を収めています。ただし、これらの成功は、タスクに一般的な推論スキルからくるものなのか、事前学習時に遭遇した特定のタスクを認識・回想することからくるものなのかを判断することが重要です。

これまでの研究は、主にインスタンスレベルの一般化に焦点を当てており、データの汚染問題が複雑さを増しています。本研究では、研究者たちは、パフォーミングタスクが実行される条件やルールを変更することで、LMの一般化能力を新たなタスクバリアントに対して調査しました。これらのタスクの一般的な推論手順は変更せず、具体的な入出力マッピングのみが変更されます。これらの新しいタスクは、カウンターファクトタスクと呼ばれ、デフォルト条件から逸脱し、モデルのタスクレベルの一般化能力を測定します。

研究者たちは、複数のカテゴリとドメインを網羅する11のカウンターファクト評価タスクのスイートを提案しています。これらのタスクには、演繹的な推論、コード生成、ドローイング、空間的な推論などが含まれます。元のタスクとそのカウンターファクトバリアント間の推論手順は一貫していますが、入出力マッピングは異なります。この評価は、LMの新しいタスクバリアントへの適応性を評価することを目的としています。

GPT-4、GPT-3.5、Claude、およびPaLM-2のパフォーマンスは、タスクのデフォルト条件とカウンターファクト条件の両方で評価されます。結果は、LMがランダム以上のカウンターファクトパフォーマンスを示す一方で、デフォルト設定と比較して一貫して性能が低下することを示しています。これは、これらのタスクにおけるモデルの成功が、抽象的で一般化可能な推論スキルではなく、デフォルト条件固有の振る舞いに一部帰属できることを示唆しています。

研究結果は、デフォルトとカウンターファクトタスクのモデルの振る舞いにおける興味深い関係も明らかにしています。デフォルトとカウンターファクトのパフォーマンスの相関関係、ゼロショットの連鎖思考プロンプトの効果、およびタスクおよびインスタンスレベルの頻度効果の相互作用が観察されています。全体として、タスクのデフォルトの具体化にわずかな変動があることは、LMにとって課題を提供し、既存のモデルの成功は単に目標タスクへの一般的な能力にのみ帰せられるべきではないことを示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「データ注釈は機械学習の成功において不可欠な役割を果たす」

「自動車から医療まで、AIの成功におけるデータアノテーションの重要な役割を発見しましょう方法、応用、そして将来のトレン...

機械学習

Google AIは、アクティブノイズキャンセリング(ANC)ヘッドフォンのための人工知能搭載の革新的な心臓モニタリングモダリティである音響脈波計(APG)を導入します

コンシューマーエレクトロニクスと健康技術の分野において、活発なノイズキャンセリング(ANC)ウェアラブルに健康モニタリン...

機械学習

「LeNetのマスタリング:アーキテクチャの洞察と実践的な実装」

はじめに LeNet-5は、1990年代にYann LeCunと彼のチームによって開発された画期的な畳み込みニューラルネットワーク(CNN)で...

機械学習

ラストマイルAIは、AiConfigをリリースしました:オープンソースの構成駆動型、ソースコントロールに対応したAIアプリケーション開発フレームワーク

AIアプリケーション開発の進化する風景の中で、AI Configは、LastMile Ai から登場し、開発者がAIモデルを統合し、管理する方...

人工知能

Relume AIによって生成されたワイヤーフレームとサイトマップ

もしウェブサイトをデザインする必要がある場合、Relumeを試さないのは愚かです

データサイエンス

「AIと倫理の架け橋:医療実施における包括的な解決策」

「この記事では、AIの倫理的な考慮事項について掘り下げ、医療の分野でAIの力を責任を持ってかつ公正に活用する方法について...