新しいAI研究がREVを紹介:AI研究における画期的な変革 – 自由文テキストの合理的な情報に関する新しい情報理論的指標の評価

New AI research introduces REV Evaluating a novel information-theoretic indicator for rational information in AI research.

モデルの説明は、自然言語処理(NLP)における信頼性と解釈性において重要であることが証明されています。モデルの予測の自然言語による説明を提供するフリーテキストの根拠は、モデルの選択に関わった思考プロセスを引き出すことができるため、人間の説明に近づけることができるという柔軟性から人気があります。ただし、現在のフリーテキスト説明評価のメトリックは、主に正確性に基づいており、説明が(代理)モデルのラベル予測を支援する能力に焦点を絞っています。これらのメトリックは、説明がラベルの選択理由を説明するための具体的な機能を提供しません。

たとえば、図1の二つの根拠r*1とr*1は、新鮮で適切な情報の量が異なるにもかかわらず、現在の尺度では同じくらい重要と見なされます。この問題に対処するため、この論文ではフリーテキストの根拠の自動評価を、次の二つの次元で行います:(1)根拠が意図したラベルをサポートしているかどうか、および(2)入力に既に存在する情報に加えて、ラベルの根拠にどれだけの追加情報を提供しているか。

たとえば、図1の根拠r^1,bは(1)に矛盾しており、ラベル「自然を楽しむ」を予測することはありません。根拠r^1,aはラベルをサポートしていますが、入力xにすでに述べられているものとは異なる情報は提供していないため、条項(2)に違反しています。根拠r*1は、ラベルをサポートするために入力を超えて追加的かつ関連性のある情報を提供しており、両方の要件を満たしています。根拠r^1,aとr^1,bは評価でペナルティを受け、r1,aとr1,bは報酬を受けます。バージニア大学、Allen Institute for AI、南カリフォルニア大学、ワシントン大学の研究者は、この研究で、これらの二つの次元に沿ってフリーテキストの根拠を評価するための情報理論的なフレームワークであるREV2を提供しています。

図1:メトリックREVは、虚無的な根拠よりも新しいラベルに関連する情報をどれだけ追加するかを測定することで、三つの根拠を区別できます。

REVは、条件付きV情報に基づいており、表現がベースライン表現を超えた情報を持ち、モデルファミリーVで利用可能である程度を測定します。彼らは、空の根拠を考慮せずに、あらかじめ定められたラベルと入力を対応付けるだけの無意味な根拠をベースライン表現として扱います。根拠を評価する際、REVは条件付きV情報を適用します。これにより、入力と根拠を与えた場合にラベルを生成する評価モデルからの表現と、同じタスクの別の評価モデルからの表現(虚無的な根拠を仮定したもの)を比較します。

他のメトリックは、空の根拠を考慮していないため、根拠の新鮮でラベルに関連する情報を評価することができません。常識的な質問応答と自然言語推論の二つの推論タスクにおいて、四つのベンチマークで、彼らは研究のための根拠に対してREVを使用した評価を提供しています。多くの定量的評価は、REVが現在の測定よりも人間の判断に合致した新しい軸に沿ってフリーテキストの根拠に評価を提供する可能性があることを示しています。さらに、REVによる評価は、考えの連鎖によって発見された根拠が常に予測の性能を向上させない理由を明らかにすることに光を当てています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

AgentGPT ブラウザ内の自律型AIエージェント

あなたのAIエージェントに名前と目標を与え、割り当てられた目的を達成するのを見てください

機械学習

K-平均クラスタリングのためのワンストップショップ

K-Meansクラスタリングは、非監視学習アルゴリズムであり、私たちが似たようなデータポイントをクラスターにまとめるのを助け...

データサイエンス

Hamiltonを使って、8分でAirflowのDAGの作成とメンテナンスを簡単にしましょう

この投稿では、2つのオープンソースプロジェクト、HamiltonとAirflowの利点と、それらの有向非循環グラフ(DAG)が連携して動...

データサイエンス

スタンフォードの研究者たちは、基礎流体力学のための初の大規模な機械学習データセットであるBLASTNetを紹介しました

スタンフォードの研究者たちは、BLASTNetという画期的な開発を紹介し、計算流体力学(CFD)の新たな時代の到来を予感させまし...

AIニュース

Amazon Pollyを使用してテキストが話されている間にテキストをハイライト表示します

Amazon Pollyは、テキストを生き生きとした音声に変換するサービスですこのサービスは、テキストを複数の言語に音声に変換す...

AI研究

KAISTのAI研究者が、「KTRL+F」という技術を導入しましたこれは、ドキュメント内で意味的なターゲットをリアルタイムで特定するための知識を補完するコンピューター上の検索タスクです

KTRL+Fタスクは、リアルタイムでドキュメント内の意味的な対象を特定するための知識拡張型インドキュメント検索問題であり、...