中国の研究者が提案する、新しい知識統合における大規模言語モデルの評価における画期的な人工知能ベンチマーク「ALCUNA」

中国研究者が提案する、画期的な人工知能ベンチマーク「ALCUNA」:新たな知識統合における大規模言語モデルの評価方法

大規模言語モデル(LLM)の新しい知識の取り扱い能力を評価することは困難です。北京大学の研究者たちは、既存のエンティティの属性と関係を修正することで新しい知識を生成する方法であるKnowGenを紹介しました。ALCUNAというベンチマークは、LLMの知識理解と区別能力を評価します。彼らの研究では、LLMは新しい知識と既存の知識の推論に苦労することが明らかになりました。新しいシナリオにLLMを適用する際の注意の重要性を強調し、新しい知識の取り扱いにおけるLLMの開発を促します。

FLAN-T5、GPT-3、OPT、LLama、GPT-4などのLLMは、商業製品に応用されるさまざまな自然言語タスクで優れた成果を収めてきました。既存のベンチマークは彼らのパフォーマンスを評価していますが、既存の知識に依存しています。研究者たちは、Know-GenとALCUNAベンチマークを提案し、LLMの新しい知識の取り扱いを評価することで、新しいシナリオや専門知識でLLMを使用する際の注意が必要であり、この文脈での開発を促進することを目指しています。

LLMはさまざまなタスクで優れた成果を収めていますが、既存のベンチマークでは新しい知識の取り扱い能力を測定する必要があるかもしれません。進化する情報のために、LLMの新しい知識の取り扱いの評価は重要です。重複する訓練データとテストデータはメモリの評価に影響を与える可能性があります。新しい知識のベンチマークを構築することは困難ですが、必要です。

Know-Genは、エンティティの属性と関係を修正することで新しい知識を生成する方法です。ゼロショットとフューショットの手法、およびCoT推論形式でLLMを評価します。彼らの研究では、人工的なエンティティの類似性が親エンティティに与える影響、属性と名前の類似性の評価を探究しています。ChatGPT、Alpaca-7B、Vicuna-13B、ChatGLM-6Bなどの複数のLLMがこれらのベンチマークで評価されます。

新しい知識の取り扱いを評価するALCUNAベンチマークでLLMのパフォーマンスがもっと良くなると良いです。ChatGPTが最も優れており、Vicunaが2番目に優れたモデルです。フューショット設定は一般的にゼロショットを上回り、CoT推論形式が優れています。LLMは知識の関連付けとマルチホップの推論に最も苦労しています。エンティティの類似性が彼らの理解に影響を与えます。彼らの方法は、LLMの新しい知識を評価することの重要性を強調し、この文脈での進歩を促すためにKnow-GenとALCUNAベンチマークを提案しています。

提案されたメソッドは生物学データに限定されていますが、本体論的表現に従う他のドメインでも応用可能性があります。クローズドソースモデルとスケールのため、評価はわずかなLLMモデルに制約されており、より広範なモデルで評価する必要があります。LLMの新しい知識の取り扱いを強調していますが、現行ベンチマークの制限の詳細な分析は不足しています。また、Know-Genアプローチを使用した新しい知識の生成やLLMの新しい知識のコンテキストでの責任ある使用に関連する潜在的なバイアスや倫理的な影響には触れていません。

KnowGenとALCUNAベンチマークは、LLMの新しい知識の取り扱いを評価するのに役立ちます。ChatGPTが最も優れており、Vicunaが2番目に優れたモデルですが、LLMの新しい知識と既存の知識の推論においてパフォーマンスはもっと良くなると良いです。フューショット設定はゼロショットを上回り、CoT推論が優れています。LLMは知識の関連付けに苦労しており、さらなる開発の必要性が強調されます。LLMを新しい知識とともに使用する際には注意が必要であり、これらのベンチマークがこの文脈でのLLMの開発を進めることが期待されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

コンピュータサイエンス

「A.I.があなたについて嘘をついた場合、あなたは何ができるのか?」

「人々は、技術が彼らについての誤りを作り出し、広める際にほとんど保護や救済手段がありません」

機械学習

「イギリスのテックフェスティバルが、クリエイティブ産業でAIを活用するスタートアップ企業を紹介する」

英国最大的技术节之一,企业和初创公司本周正展示他们最新的创新成果,举办研讨会,并庆祝位于英国西南部的技术生态系统的不...

機械学習

このAI論文は、イギリスのインペリアルカレッジロンドンとEleuther AIが対話エージェントの行動を理解するための枠組みとしてロールプレイを探究しています

“`html 現代社会では、人工知能(AI)の統合が人間の相互作用を根本的に変えています。ChatGPTなどの大規模言語モデル...

AI研究

ETHチューリッヒとマイクロソフトの研究者らが提案したX-Avatarは、人間の体の姿勢と顔の表情をキャプチャできるアニメーション可能な暗黙の人間アバターモデルです

ポーズ、見つめること、表情、手のジェスチャーなど、総称して「ボディランゲージ」と呼ばれるものは、多くの学術的研究の対...

機械学習

このAI論文は、自律言語エージェントのためのオープンソースのPythonフレームワークである「Agents」を紹介しています

カスタマーサービス、コンサルティング、プログラミング、執筆、教育などのタスクでは、言語エージェントは人間の労力を削減...

データサイエンス

グラフ、分析、そして生成AI グラフニュースレターの年

グラフ、分析、および生成AIグラフとAIが結びつくさまざまな方法と、業界と研究のニュースについての説明