このAIリサーチはGAIAを紹介します:一般AIの能力の次のマイルストーンを定義するベンチマーク

「GAIAの紹介:一般AIの能力の次のマイルストーンを定義するベンチマークのAIリサーチ」

FAIR Meta、HuggingFace、AutoGPT、GenAI Metaの研究者は、論理思考や多様性のハンドリングなどの基本的なスキルを必要とする現実世界の問題を、人間のような応答能力を持つ高度なAIに対してテストする問題に取り組んでいます。GAIAの開発は、人間レベルの堅牢性を目指すことで、人工汎用知能(AGI)の達成を目指しています。

GAIAは、人間と高度なAIの両方にとって困難なタスクに重点を置くことで、現在のトレンドから外れています。クローズドシステムとは異なり、GAIAは現実のAIアシスタントの使用例を反映しています。GAIAは、品質を重視し、GPT-4とのプラグインを使用して人間の優位性を確認するため、慎重に選ばれたゲーム可能性のない質問を特集しています。それは、マルチステップの完了を確実にし、データの汚染を防ぐための質問設計を指南することを目指しています。

LLM(Language and Logic Models)は現在のベンチマークを超える性能を持つようになってきており、その能力を評価することはますます困難になっています。ただし、複雑なタスクに重点を置くにもかかわらず、LLMにとっての難易度レベルは必ずしも人間を挑戦するものではありません。この課題に対処するために、GAIAという新しいモデルが導入されました。GAIAは、LLMの評価の落とし穴を回避するために、実世界の問題に焦点を当てた一般的なAIアシスタントです。AIアシスタントの使用例を反映する人間が作成した質問によって実用的性を確保しています。NLPにおけるオープンエンドの生成を目指すことで、GAIAは評価ベンチマークを再定義し、次世代のAIシステムを進化させることを目指しています。

GAIAによって行われたベンチマークでは、実世界の質問に対する人間とGPT-4の間に大きな性能差があることが明らかになりました。人間は92%の成功率を達成しましたが、GPT-4はわずか15%のスコアでした。ただし、GAIAの評価では、LLMの正確性と使用例は、ツールAPIやWebアクセスを介して向上させることができることも示されています。これは、ヒューマン・AIモデルと次世代のAIシステムの進歩のための機会を提供します。全体として、このベンチマークはAIアシスタントの明確なランキングを提供し、一般的なAIアシスタントの性能向上のためにさらなる改善の必要性を浮き彫りにしています。

まとめると、GAIAによる実世界の質問に対する一般的なAIアシスタントの評価のためのベンチマークでは、ヒューマンがプラグインと共にGPT-4を凌駕していることが示されました。それは概念的に単純で複雑な質問に対しても、人間と同様の堅牢性をAIシステムが示す必要性を強調しています。ベンチマークの方法論のシンプルさ、ゲーム性のなさ、解釈可能性は、人工汎用知能を実現するための効率的なツールとして役立ちます。さらに、注釈付きの質問とリーダーボードの公開は、NLPおよびそれ以上の領域におけるオープンエンドの生成評価の課題に対処することを目指しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「生成AIの余波におけるオープンソースAIの戦い」

テックジャイアントやAI実践者がリスクと報酬を考慮しながら、オープンソースAIの議論の進化する性質について学びましょう

機械学習

「FraudGPTと出会ってください:ChatGPTのダークサイドの双子」

ChatGPTは人々の仕事やオンラインでの検索内容に影響を与え、人気を集めています。AIチャットボットの潜在能力に興味を持つ人...

データサイエンス

OpenAIは、GPTBotを導入しましたこれは、インターネット全体からデータを自動的にスクレイピングするために設計されたウェブクローラです

OpenAIは、公開ウェブサイトでのデータ収集に起因するプライバシーや知的財産権の懸念に対応するため、GPTBotと呼ばれる新し...

データサイエンス

「NVIDIA DGX Cloudが利用可能になり、生成型AIトレーニングを強化します」

NVIDIA DGX Cloud(ほぼすべての企業をAI企業に変えることができるツールを提供する)は、現在、Oracle Cloud Infrastructure...

機械学習

「作者の正体を暴く:AIか人間か?IBMの革新的なテキスト検出ツールを用いたAIフォレンジックスの出現を探る」

急速に進化するAIの時代において、注目すべき課題が存在します。それは、生成AIの透明性と信頼性です。IBMの研究者たちは、世...