中国の研究者が提案する、新しい知識統合における大規模言語モデルの評価における画期的な人工知能ベンチマーク「ALCUNA」

中国研究者が提案する、画期的な人工知能ベンチマーク「ALCUNA」:新たな知識統合における大規模言語モデルの評価方法

大規模言語モデル(LLM)の新しい知識の取り扱い能力を評価することは困難です。北京大学の研究者たちは、既存のエンティティの属性と関係を修正することで新しい知識を生成する方法であるKnowGenを紹介しました。ALCUNAというベンチマークは、LLMの知識理解と区別能力を評価します。彼らの研究では、LLMは新しい知識と既存の知識の推論に苦労することが明らかになりました。新しいシナリオにLLMを適用する際の注意の重要性を強調し、新しい知識の取り扱いにおけるLLMの開発を促します。

FLAN-T5、GPT-3、OPT、LLama、GPT-4などのLLMは、商業製品に応用されるさまざまな自然言語タスクで優れた成果を収めてきました。既存のベンチマークは彼らのパフォーマンスを評価していますが、既存の知識に依存しています。研究者たちは、Know-GenとALCUNAベンチマークを提案し、LLMの新しい知識の取り扱いを評価することで、新しいシナリオや専門知識でLLMを使用する際の注意が必要であり、この文脈での開発を促進することを目指しています。

LLMはさまざまなタスクで優れた成果を収めていますが、既存のベンチマークでは新しい知識の取り扱い能力を測定する必要があるかもしれません。進化する情報のために、LLMの新しい知識の取り扱いの評価は重要です。重複する訓練データとテストデータはメモリの評価に影響を与える可能性があります。新しい知識のベンチマークを構築することは困難ですが、必要です。

Know-Genは、エンティティの属性と関係を修正することで新しい知識を生成する方法です。ゼロショットとフューショットの手法、およびCoT推論形式でLLMを評価します。彼らの研究では、人工的なエンティティの類似性が親エンティティに与える影響、属性と名前の類似性の評価を探究しています。ChatGPT、Alpaca-7B、Vicuna-13B、ChatGLM-6Bなどの複数のLLMがこれらのベンチマークで評価されます。

新しい知識の取り扱いを評価するALCUNAベンチマークでLLMのパフォーマンスがもっと良くなると良いです。ChatGPTが最も優れており、Vicunaが2番目に優れたモデルです。フューショット設定は一般的にゼロショットを上回り、CoT推論形式が優れています。LLMは知識の関連付けとマルチホップの推論に最も苦労しています。エンティティの類似性が彼らの理解に影響を与えます。彼らの方法は、LLMの新しい知識を評価することの重要性を強調し、この文脈での進歩を促すためにKnow-GenとALCUNAベンチマークを提案しています。

提案されたメソッドは生物学データに限定されていますが、本体論的表現に従う他のドメインでも応用可能性があります。クローズドソースモデルとスケールのため、評価はわずかなLLMモデルに制約されており、より広範なモデルで評価する必要があります。LLMの新しい知識の取り扱いを強調していますが、現行ベンチマークの制限の詳細な分析は不足しています。また、Know-Genアプローチを使用した新しい知識の生成やLLMの新しい知識のコンテキストでの責任ある使用に関連する潜在的なバイアスや倫理的な影響には触れていません。

KnowGenとALCUNAベンチマークは、LLMの新しい知識の取り扱いを評価するのに役立ちます。ChatGPTが最も優れており、Vicunaが2番目に優れたモデルですが、LLMの新しい知識と既存の知識の推論においてパフォーマンスはもっと良くなると良いです。フューショット設定はゼロショットを上回り、CoT推論が優れています。LLMは知識の関連付けに苦労しており、さらなる開発の必要性が強調されます。LLMを新しい知識とともに使用する際には注意が必要であり、これらのベンチマークがこの文脈でのLLMの開発を進めることが期待されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

この脳AIの研究では、安定した拡散を用いて脳波から画像を再現します

人間の視覚システムと似たように、世界を見て認識する人工システムを構築することは、コンピュータビジョンの重要な目標です...

機械学習

Amazon BedrockとAmazon Transcribeを使用して、生成AIを使用して録音のサマリーを作成します

「会議のメモは共同作業の重要な一部ですが、しばしば見落とされてしまいます討論を主導し、注意深く聞きながらメモを取るこ...

機械学習

中国における大量生産自動運転の課題

自律走行は、世界でも最も困難な運転の一つが既に存在する中国では、特に難しい課題です主に3つの要因が関係しています:動的...

データサイエンス

データ体験の再発明:生成的AIと現代的なデータアーキテクチャを使用して、洞察を解き放つ

現代的なデータアーキテクチャを実装することで、異なるソースからのデータを統合するためのスケーラブルな方法が提供されま...

機械学習

『NVIDIAのCEO、ジェンソン・ファング氏がテルアビブで開催されるAIサミットの主演を務めます』

NVIDIAの創設者兼CEOであるJensen Huang氏は、10月15日から16日までテルアビブで開催されるNVIDIA AIサミットで、生成型AIと...

人工知能

AIを学校に持ち込む:MITのアナント・アガルワルとの対話

NVIDIAのAI Podcastの最新エピソードで、edXの創設者であり2Uの最高プラットフォーム責任者であるAnant Agarwal氏は、オンラ...