中国の研究者が提案する、新しい知識統合における大規模言語モデルの評価における画期的な人工知能ベンチマーク「ALCUNA」

中国研究者が提案する、画期的な人工知能ベンチマーク「ALCUNA」:新たな知識統合における大規模言語モデルの評価方法

大規模言語モデル(LLM)の新しい知識の取り扱い能力を評価することは困難です。北京大学の研究者たちは、既存のエンティティの属性と関係を修正することで新しい知識を生成する方法であるKnowGenを紹介しました。ALCUNAというベンチマークは、LLMの知識理解と区別能力を評価します。彼らの研究では、LLMは新しい知識と既存の知識の推論に苦労することが明らかになりました。新しいシナリオにLLMを適用する際の注意の重要性を強調し、新しい知識の取り扱いにおけるLLMの開発を促します。

FLAN-T5、GPT-3、OPT、LLama、GPT-4などのLLMは、商業製品に応用されるさまざまな自然言語タスクで優れた成果を収めてきました。既存のベンチマークは彼らのパフォーマンスを評価していますが、既存の知識に依存しています。研究者たちは、Know-GenとALCUNAベンチマークを提案し、LLMの新しい知識の取り扱いを評価することで、新しいシナリオや専門知識でLLMを使用する際の注意が必要であり、この文脈での開発を促進することを目指しています。

LLMはさまざまなタスクで優れた成果を収めていますが、既存のベンチマークでは新しい知識の取り扱い能力を測定する必要があるかもしれません。進化する情報のために、LLMの新しい知識の取り扱いの評価は重要です。重複する訓練データとテストデータはメモリの評価に影響を与える可能性があります。新しい知識のベンチマークを構築することは困難ですが、必要です。

Know-Genは、エンティティの属性と関係を修正することで新しい知識を生成する方法です。ゼロショットとフューショットの手法、およびCoT推論形式でLLMを評価します。彼らの研究では、人工的なエンティティの類似性が親エンティティに与える影響、属性と名前の類似性の評価を探究しています。ChatGPT、Alpaca-7B、Vicuna-13B、ChatGLM-6Bなどの複数のLLMがこれらのベンチマークで評価されます。

新しい知識の取り扱いを評価するALCUNAベンチマークでLLMのパフォーマンスがもっと良くなると良いです。ChatGPTが最も優れており、Vicunaが2番目に優れたモデルです。フューショット設定は一般的にゼロショットを上回り、CoT推論形式が優れています。LLMは知識の関連付けとマルチホップの推論に最も苦労しています。エンティティの類似性が彼らの理解に影響を与えます。彼らの方法は、LLMの新しい知識を評価することの重要性を強調し、この文脈での進歩を促すためにKnow-GenとALCUNAベンチマークを提案しています。

提案されたメソッドは生物学データに限定されていますが、本体論的表現に従う他のドメインでも応用可能性があります。クローズドソースモデルとスケールのため、評価はわずかなLLMモデルに制約されており、より広範なモデルで評価する必要があります。LLMの新しい知識の取り扱いを強調していますが、現行ベンチマークの制限の詳細な分析は不足しています。また、Know-Genアプローチを使用した新しい知識の生成やLLMの新しい知識のコンテキストでの責任ある使用に関連する潜在的なバイアスや倫理的な影響には触れていません。

KnowGenとALCUNAベンチマークは、LLMの新しい知識の取り扱いを評価するのに役立ちます。ChatGPTが最も優れており、Vicunaが2番目に優れたモデルですが、LLMの新しい知識と既存の知識の推論においてパフォーマンスはもっと良くなると良いです。フューショット設定はゼロショットを上回り、CoT推論が優れています。LLMは知識の関連付けに苦労しており、さらなる開発の必要性が強調されます。LLMを新しい知識とともに使用する際には注意が必要であり、これらのベンチマークがこの文脈でのLLMの開発を進めることが期待されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「Appleの次の動き:『Apple GPT』の開発と最先端の生成型AIツールの開発によるOpenAIへの挑戦」

Appleは驚くべき動きで、AIを搭載したチャットボット「Apple GPT」として仮称されるものを開発していると報じられています。...

機械学習

「AnimateDiffとは モデル特有の調整なしでパーソナライズされたテキストからイメージ(T2I)モデルをアニメーション生成器に拡張するための効果的なAIフレームワーク」

テキストから画像(T2I)生成モデルは、研究コミュニティ内外から前例のない注目を集めており、芸術家やアマチュアなどの非研...

AI研究

「中国AI研究チームが導入した4K4D ハードウェアラスタライゼーションをサポートし、前例のない描画速度を実現する4Dポイントクラウド表現」

ダイナミックビューシンセシスは、キャプチャされたビデオから動的な3Dシーンを再構築し、没入型仮想再生を生成しようとする...

機械学習

「MLOpsの全機械学習ライフサイクルをカバーする:論文要約」

このAIの論文は、MLOpsの分野に関する包括的な調査を提供しています。MLOpsは、機械学習のライフサイクル全体を自動化するこ...

データサイエンス

「ToolLLMをご紹介します:大規模言語モデルのAPI利用を向上させるためのデータ構築とモデルトレーニングの一般的なツールユースフレームワーク」

多くのツール(API)と効率的に接続し、困難なタスクを完了するために、ツール学習は大規模な言語モデル(LLM)の潜在能力を...

機械学習

AIによるテキストメッセージングの変革:自然言語処理技術の詳細な探求

「自然言語処理(NLP)の技術によるテキストメッセージングにおける人工知能(AI)の影響を深く探求し、洞察を得る」