新しいAI研究がREVを紹介:AI研究における画期的な変革 – 自由文テキストの合理的な情報に関する新しい情報理論的指標の評価

New AI research introduces REV Evaluating a novel information-theoretic indicator for rational information in AI research.

モデルの説明は、自然言語処理(NLP)における信頼性と解釈性において重要であることが証明されています。モデルの予測の自然言語による説明を提供するフリーテキストの根拠は、モデルの選択に関わった思考プロセスを引き出すことができるため、人間の説明に近づけることができるという柔軟性から人気があります。ただし、現在のフリーテキスト説明評価のメトリックは、主に正確性に基づいており、説明が(代理)モデルのラベル予測を支援する能力に焦点を絞っています。これらのメトリックは、説明がラベルの選択理由を説明するための具体的な機能を提供しません。

たとえば、図1の二つの根拠r*1とr*1は、新鮮で適切な情報の量が異なるにもかかわらず、現在の尺度では同じくらい重要と見なされます。この問題に対処するため、この論文ではフリーテキストの根拠の自動評価を、次の二つの次元で行います:(1)根拠が意図したラベルをサポートしているかどうか、および(2)入力に既に存在する情報に加えて、ラベルの根拠にどれだけの追加情報を提供しているか。

たとえば、図1の根拠r^1,bは(1)に矛盾しており、ラベル「自然を楽しむ」を予測することはありません。根拠r^1,aはラベルをサポートしていますが、入力xにすでに述べられているものとは異なる情報は提供していないため、条項(2)に違反しています。根拠r*1は、ラベルをサポートするために入力を超えて追加的かつ関連性のある情報を提供しており、両方の要件を満たしています。根拠r^1,aとr^1,bは評価でペナルティを受け、r1,aとr1,bは報酬を受けます。バージニア大学、Allen Institute for AI、南カリフォルニア大学、ワシントン大学の研究者は、この研究で、これらの二つの次元に沿ってフリーテキストの根拠を評価するための情報理論的なフレームワークであるREV2を提供しています。

図1:メトリックREVは、虚無的な根拠よりも新しいラベルに関連する情報をどれだけ追加するかを測定することで、三つの根拠を区別できます。

REVは、条件付きV情報に基づいており、表現がベースライン表現を超えた情報を持ち、モデルファミリーVで利用可能である程度を測定します。彼らは、空の根拠を考慮せずに、あらかじめ定められたラベルと入力を対応付けるだけの無意味な根拠をベースライン表現として扱います。根拠を評価する際、REVは条件付きV情報を適用します。これにより、入力と根拠を与えた場合にラベルを生成する評価モデルからの表現と、同じタスクの別の評価モデルからの表現(虚無的な根拠を仮定したもの)を比較します。

他のメトリックは、空の根拠を考慮していないため、根拠の新鮮でラベルに関連する情報を評価することができません。常識的な質問応答と自然言語推論の二つの推論タスクにおいて、四つのベンチマークで、彼らは研究のための根拠に対してREVを使用した評価を提供しています。多くの定量的評価は、REVが現在の測定よりも人間の判断に合致した新しい軸に沿ってフリーテキストの根拠に評価を提供する可能性があることを示しています。さらに、REVによる評価は、考えの連鎖によって発見された根拠が常に予測の性能を向上させない理由を明らかにすることに光を当てています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「メーカーに会う ロボット学生がNVIDIA Jetsonを搭載した自律型車椅子を発表する」

AIの助けを借りて、ロボット、トラクターやベビーカー、さらにはスケートパークさえも自律化しています。Kabilan KBという開...

機械学習

「機械学習におけるモデルの解釈性においてSHAP値の使用」

モデルの特徴が予測に与える影響を理解するのにSHAPがどのように役立つかを発見してください

AI研究

「MITのこのAI研究は、光を基にした機械学習システムがより強力で効率的な大規模言語モデルを生み出す方法を示しています」

ディープニューラルネットワーク(DNN)は、コンピューターにとってスーパーブレインのような存在です。彼らは多くの情報から...

機械学習

「Bingチャットは、最新のリアルタイムな知識を提供する点でChatGPTを上回るのか? 検索補完強化ジェネレーション(RAG)によるご紹介」

近年、大規模言語モデル(LLM)の開発により、人工知能(AI)と機械学習の分野において革新的な変化がもたらされました。これ...