このAI論文では、LLMsの既存のタスクの新しいバリアントに適応する能力が評価されています

This AI paper evaluates the ability to adapt LLMs to new variants of existing tasks.

言語モデル(LM)の注目すべきパフォーマンスは、大規模な次の単語予測がテキストコーパスから知識を効果的に蒸留できることを示唆しています。LMは、さまざまな自然言語処理ベンチマークで印象的な結果を達成し、最先端の手法を上回り、複雑な推論を必要とするタスクでも人間を上回る成績を収めています。ただし、これらの成功は、タスクに一般的な推論スキルからくるものなのか、事前学習時に遭遇した特定のタスクを認識・回想することからくるものなのかを判断することが重要です。

これまでの研究は、主にインスタンスレベルの一般化に焦点を当てており、データの汚染問題が複雑さを増しています。本研究では、研究者たちは、パフォーミングタスクが実行される条件やルールを変更することで、LMの一般化能力を新たなタスクバリアントに対して調査しました。これらのタスクの一般的な推論手順は変更せず、具体的な入出力マッピングのみが変更されます。これらの新しいタスクは、カウンターファクトタスクと呼ばれ、デフォルト条件から逸脱し、モデルのタスクレベルの一般化能力を測定します。

研究者たちは、複数のカテゴリとドメインを網羅する11のカウンターファクト評価タスクのスイートを提案しています。これらのタスクには、演繹的な推論、コード生成、ドローイング、空間的な推論などが含まれます。元のタスクとそのカウンターファクトバリアント間の推論手順は一貫していますが、入出力マッピングは異なります。この評価は、LMの新しいタスクバリアントへの適応性を評価することを目的としています。

GPT-4、GPT-3.5、Claude、およびPaLM-2のパフォーマンスは、タスクのデフォルト条件とカウンターファクト条件の両方で評価されます。結果は、LMがランダム以上のカウンターファクトパフォーマンスを示す一方で、デフォルト設定と比較して一貫して性能が低下することを示しています。これは、これらのタスクにおけるモデルの成功が、抽象的で一般化可能な推論スキルではなく、デフォルト条件固有の振る舞いに一部帰属できることを示唆しています。

研究結果は、デフォルトとカウンターファクトタスクのモデルの振る舞いにおける興味深い関係も明らかにしています。デフォルトとカウンターファクトのパフォーマンスの相関関係、ゼロショットの連鎖思考プロンプトの効果、およびタスクおよびインスタンスレベルの頻度効果の相互作用が観察されています。全体として、タスクのデフォルトの具体化にわずかな変動があることは、LMにとって課題を提供し、既存のモデルの成功は単に目標タスクへの一般的な能力にのみ帰せられるべきではないことを示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

FraudGPT AIを活用したサイバー犯罪ツールの驚異的な台頭

インターネットの暗く不気味な一角で、サイバー犯罪者たちは再び人工知能の力を利用して悪意ある目的を追求しています。悪名...

データサイエンス

「LangChain、Activeloop、およびDeepInfraを使用したTwitterアルゴリズムのリバースエンジニアリングのためのプレーンな英語ガイド」

このガイドでは、Twitterの推奨アルゴリズムを逆解析して、コードベースをより理解し、より良いコンテンツを作成するための洞...

データサイエンス

「データストーリーテリングとアナリティクスにおける生成AIのインパクトの公開」

導入 データ分析の広大な領域の中で、ゲネラティブ人工知能(GAI)はゲームを変える最も重要な進展の一つです。これは、歴史...

機械学習

「これらの完全自動の深層学習モデルは、スマートフォンの統合を使用して、猫の苦痛指標スケール(FGS)を使用した痛み予測に使用できます」

人工知能(AI)の能力は、医療、金融、教育など、あらゆる業界に広がっています。医学や獣医学の分野では、適切な治療を施す...

データサイエンス

オープンAIによるこの動きは、AGIへの道を開くだろう

人工知能(AI)の能力向上を目指した画期的な取り組みの一環として、OpenAIはデータパートナーシップイニシアチブを発表しま...

人工知能

「エンタープライズ環境におけるゼロトラストの実装」

「ゼロトラストアーキテクチャは、マイクロセグメンテーション、継続的な認証、およびアイデンティティ管理などの要素を統合...