中国の研究者が提案する、新しい知識統合における大規模言語モデルの評価における画期的な人工知能ベンチマーク「ALCUNA」

中国研究者が提案する、画期的な人工知能ベンチマーク「ALCUNA」:新たな知識統合における大規模言語モデルの評価方法

大規模言語モデル(LLM)の新しい知識の取り扱い能力を評価することは困難です。北京大学の研究者たちは、既存のエンティティの属性と関係を修正することで新しい知識を生成する方法であるKnowGenを紹介しました。ALCUNAというベンチマークは、LLMの知識理解と区別能力を評価します。彼らの研究では、LLMは新しい知識と既存の知識の推論に苦労することが明らかになりました。新しいシナリオにLLMを適用する際の注意の重要性を強調し、新しい知識の取り扱いにおけるLLMの開発を促します。

FLAN-T5、GPT-3、OPT、LLama、GPT-4などのLLMは、商業製品に応用されるさまざまな自然言語タスクで優れた成果を収めてきました。既存のベンチマークは彼らのパフォーマンスを評価していますが、既存の知識に依存しています。研究者たちは、Know-GenとALCUNAベンチマークを提案し、LLMの新しい知識の取り扱いを評価することで、新しいシナリオや専門知識でLLMを使用する際の注意が必要であり、この文脈での開発を促進することを目指しています。

LLMはさまざまなタスクで優れた成果を収めていますが、既存のベンチマークでは新しい知識の取り扱い能力を測定する必要があるかもしれません。進化する情報のために、LLMの新しい知識の取り扱いの評価は重要です。重複する訓練データとテストデータはメモリの評価に影響を与える可能性があります。新しい知識のベンチマークを構築することは困難ですが、必要です。

Know-Genは、エンティティの属性と関係を修正することで新しい知識を生成する方法です。ゼロショットとフューショットの手法、およびCoT推論形式でLLMを評価します。彼らの研究では、人工的なエンティティの類似性が親エンティティに与える影響、属性と名前の類似性の評価を探究しています。ChatGPT、Alpaca-7B、Vicuna-13B、ChatGLM-6Bなどの複数のLLMがこれらのベンチマークで評価されます。

新しい知識の取り扱いを評価するALCUNAベンチマークでLLMのパフォーマンスがもっと良くなると良いです。ChatGPTが最も優れており、Vicunaが2番目に優れたモデルです。フューショット設定は一般的にゼロショットを上回り、CoT推論形式が優れています。LLMは知識の関連付けとマルチホップの推論に最も苦労しています。エンティティの類似性が彼らの理解に影響を与えます。彼らの方法は、LLMの新しい知識を評価することの重要性を強調し、この文脈での進歩を促すためにKnow-GenとALCUNAベンチマークを提案しています。

提案されたメソッドは生物学データに限定されていますが、本体論的表現に従う他のドメインでも応用可能性があります。クローズドソースモデルとスケールのため、評価はわずかなLLMモデルに制約されており、より広範なモデルで評価する必要があります。LLMの新しい知識の取り扱いを強調していますが、現行ベンチマークの制限の詳細な分析は不足しています。また、Know-Genアプローチを使用した新しい知識の生成やLLMの新しい知識のコンテキストでの責任ある使用に関連する潜在的なバイアスや倫理的な影響には触れていません。

KnowGenとALCUNAベンチマークは、LLMの新しい知識の取り扱いを評価するのに役立ちます。ChatGPTが最も優れており、Vicunaが2番目に優れたモデルですが、LLMの新しい知識と既存の知識の推論においてパフォーマンスはもっと良くなると良いです。フューショット設定はゼロショットを上回り、CoT推論が優れています。LLMは知識の関連付けに苦労しており、さらなる開発の必要性が強調されます。LLMを新しい知識とともに使用する際には注意が必要であり、これらのベンチマークがこの文脈でのLLMの開発を進めることが期待されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「コンテキストの解読:NLPにおける単語ベクトル化技術」

「あなたは自国から遠く離れた新しい町に引っ越しましたそこで偶然、コーヒーショップで誰かにぶつかりましたあなたと同じく...

データサイエンス

「最小全域木の理解:グラフ理論の重要な概念」

この記事では、MSTの世界に深く入り込み、その意義、特性、実用的な使い方を探求します

機械学習

Google AIは、TPUを使用して流体の流れを計算するための新しいTensorFlowシミュレーションフレームワークを導入しました

流体力学では、数値技術とアルゴリズムを用いて流体の流れと熱伝達の挙動を調べ、解決する問題を計算流体力学(CFD)として知...

AI研究

マイクロソフトの研究者が「LoRAShear LLMの構造的な剪定と知識の回復に対する画期的な人工知能効率的アプローチ」を紹介

LLMは大量のテキストデータを処理し、関連情報を迅速に抽出することができます。これは、検索エンジン、質問応答システム、デ...

機械学習

「グラフ機械学習 @ ICML 2023」

「壮大なビーチとトロピカルなハワイの風景🌴は、勇敢な科学者たちを国際機械学習会議に出席し、最新の研究成果を発表するこ...