ヴェクタラは、AI言語モデルの「幻覚」をベンチマーク化し、対処するための画期的なオープンソースモデルを立ち上げます
AI言語モデルの「幻覚」対処の画期的なオープンソースモデル『ヴェクタラ』発表
急速に進化するGenerative AI(GenAI)領域での責任追及を促進する前例のない取り組みとして、Vectaraはオープンソースの幻覚評価モデルを公開しました。これは、Large Language Models(LLMs)の事実に基づく正確性の測定を標準化するための重要な一歩であり、LLMsによる真実からの逸脱である「幻覚」の度合いを測定するための商業およびオープンソースのリソースを提供します。
この公開は、透明性を強化し、主要なGenAIツールの幻視リスクを定量化する客観的な手法を提供することを目的としており、責任あるAIの促進、誤情報の緩和、効果的な規制の基盤を築くための重要な措置です。幻視評価モデルは、提供された参考資料に基づくコンテンツの生成時にLLMsがどれだけ事実に基づいているかを評価するうえで、重要なツールとなるでしょう。
Vectaraの幻覚評価モデルは、Apache 2.0ライセンスに基づいてHugging Face上でアクセス可能であり、LLMsの事実的な完全性を明確に示しています。これ以前は、LLMベンダーがモデルの幻覚耐性に関する主張を検証する手段がほとんどありませんでした。Vectaraのモデルは、最新の幻覚研究の進歩を活用して、客観的にLLMの要約を評価します。
- 「ロンドン帝国大学チーム、少ないデモンストレーションで新たな現実世界のタスクをマスターするための人工知能の方法を開発」
- 「’Acoustic Touch’テクノロジーが音を通して視覚を提供する方法」
- 「機械学習の探求」
公開には、Vectaraのチームがオープンソースコミュニティと協力して維持しているLeaderboard(GenAIの正確さに対するFICOスコアに似たもの)が付属しています。これにより、LLMsは標準化された一連のプロンプトでのパフォーマンスに基づいてランク付けされ、ビジネスと開発者にとって有益な情報を提供します。
Leaderboardの結果からは、OpenAIのモデルが現在のパフォーマンスでリードし、Llama 2モデルが続いており、CohereとAnthropicも力強い結果を示しています。しかし、GoogleのPalmモデルのスコアは低くなっており、領域の持続的な進化と競争を反映しています。
Vectaraのモデルは幻覚への解決策ではありませんが、より安全かつ正確なGenAIの導入のための決定的なツールです。その導入は、米国大統領選挙などの重大なイベントに向けて、誤情報のリスクに関する関心が高まる時期に行われました。
幻覚評価モデルとLeaderboardは、業界および規制当局の待望の標準的な基準を提供することで、GenAIの規制にデータ駆動のアプローチを促進するうえで重要な役割を果たすことが期待されます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「Scikit-LLMを使用したゼロショットテキスト分類の経験」
- 「FANToMとは:相互作用における機械心理理論のストレステストのためのベンチマーク」
- 「フリーノイズ」にご挨拶:複数のテキストプロンプトから最大512フレームまでの長いビデオを生成する新しい人工知能手法
- リーンで、意味ありげなAI夢マシン:DejaVuは知能を失わずにAIとのおしゃべりコストを削減しる
- 人工知能の言語スキルを評価する:ChatGPTの言語形態スキルをさらに掘り下げて
- 「AIとIMOの課題を結ぶ:形式的な平面幾何学システムにおける大発見」
- 「事実かフィクションかを超えて:GPT-4の高度な事実チェック能力の評価」