中国の研究者が提案する、新しい知識統合における大規模言語モデルの評価における画期的な人工知能ベンチマーク「ALCUNA」

中国研究者が提案する、画期的な人工知能ベンチマーク「ALCUNA」:新たな知識統合における大規模言語モデルの評価方法

大規模言語モデル(LLM)の新しい知識の取り扱い能力を評価することは困難です。北京大学の研究者たちは、既存のエンティティの属性と関係を修正することで新しい知識を生成する方法であるKnowGenを紹介しました。ALCUNAというベンチマークは、LLMの知識理解と区別能力を評価します。彼らの研究では、LLMは新しい知識と既存の知識の推論に苦労することが明らかになりました。新しいシナリオにLLMを適用する際の注意の重要性を強調し、新しい知識の取り扱いにおけるLLMの開発を促します。

FLAN-T5、GPT-3、OPT、LLama、GPT-4などのLLMは、商業製品に応用されるさまざまな自然言語タスクで優れた成果を収めてきました。既存のベンチマークは彼らのパフォーマンスを評価していますが、既存の知識に依存しています。研究者たちは、Know-GenとALCUNAベンチマークを提案し、LLMの新しい知識の取り扱いを評価することで、新しいシナリオや専門知識でLLMを使用する際の注意が必要であり、この文脈での開発を促進することを目指しています。

LLMはさまざまなタスクで優れた成果を収めていますが、既存のベンチマークでは新しい知識の取り扱い能力を測定する必要があるかもしれません。進化する情報のために、LLMの新しい知識の取り扱いの評価は重要です。重複する訓練データとテストデータはメモリの評価に影響を与える可能性があります。新しい知識のベンチマークを構築することは困難ですが、必要です。

Know-Genは、エンティティの属性と関係を修正することで新しい知識を生成する方法です。ゼロショットとフューショットの手法、およびCoT推論形式でLLMを評価します。彼らの研究では、人工的なエンティティの類似性が親エンティティに与える影響、属性と名前の類似性の評価を探究しています。ChatGPT、Alpaca-7B、Vicuna-13B、ChatGLM-6Bなどの複数のLLMがこれらのベンチマークで評価されます。

新しい知識の取り扱いを評価するALCUNAベンチマークでLLMのパフォーマンスがもっと良くなると良いです。ChatGPTが最も優れており、Vicunaが2番目に優れたモデルです。フューショット設定は一般的にゼロショットを上回り、CoT推論形式が優れています。LLMは知識の関連付けとマルチホップの推論に最も苦労しています。エンティティの類似性が彼らの理解に影響を与えます。彼らの方法は、LLMの新しい知識を評価することの重要性を強調し、この文脈での進歩を促すためにKnow-GenとALCUNAベンチマークを提案しています。

提案されたメソッドは生物学データに限定されていますが、本体論的表現に従う他のドメインでも応用可能性があります。クローズドソースモデルとスケールのため、評価はわずかなLLMモデルに制約されており、より広範なモデルで評価する必要があります。LLMの新しい知識の取り扱いを強調していますが、現行ベンチマークの制限の詳細な分析は不足しています。また、Know-Genアプローチを使用した新しい知識の生成やLLMの新しい知識のコンテキストでの責任ある使用に関連する潜在的なバイアスや倫理的な影響には触れていません。

KnowGenとALCUNAベンチマークは、LLMの新しい知識の取り扱いを評価するのに役立ちます。ChatGPTが最も優れており、Vicunaが2番目に優れたモデルですが、LLMの新しい知識と既存の知識の推論においてパフォーマンスはもっと良くなると良いです。フューショット設定はゼロショットを上回り、CoT推論が優れています。LLMは知識の関連付けに苦労しており、さらなる開発の必要性が強調されます。LLMを新しい知識とともに使用する際には注意が必要であり、これらのベンチマークがこの文脈でのLLMの開発を進めることが期待されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

コンピュータサイエンス

弁護士には、ChatGPTを使用したことについて、許しを求めることを検討するよう命じられました

裁判官は、スティーブン・A・シュワルツとピーター・ロドゥーカに、架空の内容を含む書類で名指しされた裁判官に対して罰金を...

AIニュース

「ChatGPTは人間の創造性テストでトップ1%のスコアを獲得」

人工知能(AI)は、モンタナ大学とそのパートナーによる研究によれば、新たな高みに達しました。この研究では、チャットGPTが...

データサイエンス

「分散データパラレル(DDP)の包括的ガイド」

みなさんこんにちは!私はメタの研究科学者、フランソワです新しいチュートリアルシリーズ「素晴らしいAIチュートリアル」の...

データサイエンス

クラウドの保護:クラウドセキュリティのフロンティアを航海する

この記事では、クラウドセキュリティについて、重要な考慮事項、ベストプラクティス、およびクラウド上のデータを保護するた...

機械学習

「このAI論文は、ChatGPTにペルソナを割り当てると、毒性が最大6倍に増加することを示しています」

最近の技術の進歩により、GPT-3やPaLMなどの大規模言語モデル(LLM)は、教育、コンテンツ制作、医療、研究などの様々な領域...

AIニュース

マイクロソフト エージェントAIがIdea2Imgを導入:自己金融による多モーダルAIフレームワークで、画像の開発とデザインを自動化します

“画像の設計と生成”の目的は、ユーザーからの広範な概念に基づいて画像を生成することです。この入力のアイデア...