このAIリサーチはGAIAを紹介します:一般AIの能力の次のマイルストーンを定義するベンチマーク

「GAIAの紹介:一般AIの能力の次のマイルストーンを定義するベンチマークのAIリサーチ」

FAIR Meta、HuggingFace、AutoGPT、GenAI Metaの研究者は、論理思考や多様性のハンドリングなどの基本的なスキルを必要とする現実世界の問題を、人間のような応答能力を持つ高度なAIに対してテストする問題に取り組んでいます。GAIAの開発は、人間レベルの堅牢性を目指すことで、人工汎用知能(AGI)の達成を目指しています。

GAIAは、人間と高度なAIの両方にとって困難なタスクに重点を置くことで、現在のトレンドから外れています。クローズドシステムとは異なり、GAIAは現実のAIアシスタントの使用例を反映しています。GAIAは、品質を重視し、GPT-4とのプラグインを使用して人間の優位性を確認するため、慎重に選ばれたゲーム可能性のない質問を特集しています。それは、マルチステップの完了を確実にし、データの汚染を防ぐための質問設計を指南することを目指しています。

LLM(Language and Logic Models)は現在のベンチマークを超える性能を持つようになってきており、その能力を評価することはますます困難になっています。ただし、複雑なタスクに重点を置くにもかかわらず、LLMにとっての難易度レベルは必ずしも人間を挑戦するものではありません。この課題に対処するために、GAIAという新しいモデルが導入されました。GAIAは、LLMの評価の落とし穴を回避するために、実世界の問題に焦点を当てた一般的なAIアシスタントです。AIアシスタントの使用例を反映する人間が作成した質問によって実用的性を確保しています。NLPにおけるオープンエンドの生成を目指すことで、GAIAは評価ベンチマークを再定義し、次世代のAIシステムを進化させることを目指しています。

GAIAによって行われたベンチマークでは、実世界の質問に対する人間とGPT-4の間に大きな性能差があることが明らかになりました。人間は92%の成功率を達成しましたが、GPT-4はわずか15%のスコアでした。ただし、GAIAの評価では、LLMの正確性と使用例は、ツールAPIやWebアクセスを介して向上させることができることも示されています。これは、ヒューマン・AIモデルと次世代のAIシステムの進歩のための機会を提供します。全体として、このベンチマークはAIアシスタントの明確なランキングを提供し、一般的なAIアシスタントの性能向上のためにさらなる改善の必要性を浮き彫りにしています。

まとめると、GAIAによる実世界の質問に対する一般的なAIアシスタントの評価のためのベンチマークでは、ヒューマンがプラグインと共にGPT-4を凌駕していることが示されました。それは概念的に単純で複雑な質問に対しても、人間と同様の堅牢性をAIシステムが示す必要性を強調しています。ベンチマークの方法論のシンプルさ、ゲーム性のなさ、解釈可能性は、人工汎用知能を実現するための効率的なツールとして役立ちます。さらに、注釈付きの質問とリーダーボードの公開は、NLPおよびそれ以上の領域におけるオープンエンドの生成評価の課題に対処することを目指しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

大規模な言語モデルについて企業が知っておくべきこと

大規模な言語モデルは、ビジネスコミュニケーション、コンテンツ作成、データ分析を変革しますビジネスにおける主な機能と利...

AI研究

南開大学と字節跳動の研究者らが『ChatAnything』を導入:LLM強化された人物像生成に特化した革新的なAIフレームワーク

南開大学と字節跳動の研究者チームが、オンラインで大規模な言語モデル(LLM)ベースのキャラクターのための人間らしさのある...

機械学習

ディープシークは、ディープシーク-67Bモデルをオープンソース化しました:中国からの最新のChatGPTのライバル

中国のAIスタートアップ、DeepSeek AIは、DeepSeek LLMファミリーのデビューによって、大規模な言語モデル(LLM)の新時代を...

機械学習

PyTorchを使用して畳み込みニューラルネットワークを構築する

このブログ投稿では、PyTorchを使用して画像分類のための畳み込みニューラルネットワークを構築するチュートリアルを提供して...

機械学習

ヴェクタラは、AI言語モデルの「幻覚」をベンチマーク化し、対処するための画期的なオープンソースモデルを立ち上げます

急速に進化するGenerative AI(GenAI)領域での責任追及を促進する前例のない取り組みとして、Vectaraはオープンソースの幻覚...

AIニュース

アマゾンがベッドロックを展開:AIモデルの評価と人間のベンチマーキング

開発において、Amazon Bedrockは、特定のニーズに合わせて選択し、比較し、最適なファウンデーションモデル(FM)を選択する...