LLM説明性への道:なぜ私のモデルはこの出力を出したのか?

「LLMの解釈力を高めるための道:私のモデルがこの結果を出した理由は何なのか?」

これらの最近数ヶ月間における、より大きく、優れた大型言語モデルのリリースは、新たな機能を示している一方で、AIの安全性に対する懸念が増大しています。LMM (Large Language Models) の説明可能性研究は、これらのモデルがどのように機能するのかを理解するために展開されています。

昨年、大量の言語モデル(Large Language Models、LLMs)が開発されました。最近ではGPT-4やClaude 2のリリースがありました。これらのモデルは、以前のバージョンと比べて新しい能力を発揮しますが、ほとんどは事後分析によって発見され、意図的なトレーニングプランの一部ではありませんでした。これらの能力は、パラメータの数、トレーニングデータ、およびコンピューティングリソースの拡大によるものです。

概念的なレベルでは、LLMsと圧縮アルゴリズムのアナロジーが好きです。インターネットのテラバイト規模のデータが入力され、数多くのFLOPSの計算を経て、数百GBのパラメータを含むファイルが生成されます。モデルは初期の知識を正確に取り戻すことはできませんが、多くの場合、適切な出力を生成します。

Image by the author and DALL-E 3 (inspired by Karpathy’s llmintro)

LLMsの謎は、技術的なアーキテクチャや計算の複雑さにはありません。モデルのアーキテクチャが完全に文書化されている場合、実行されている数学的操作を簡単に追うことができます。しかし、どのような一連のパラメータが協力して意味のある出力を生成するのかを完全に説明することはまだできません。初期のトレーニングデータからの知識は実際にどのように取り出されるのでしょうか?ネットワーク内のどこに、どのように実際に保存されているのでしょうか?

LLMsの説明可能性は、現在活発に研究されており、昨年多くの興味深い結果が発表されています。私は次に示す内容について完全を求めるわけではありませんが、現在の研究方向と有望な結果に注目したいと思います。

簡単に説明すると、次の4つの主要な方向性を区別できます:

  1. 入力に基づいて出力を説明する(特徴の帰属)
  2. トレーニングデータに基づいて出力を説明する
  3. 個々の役割を説明する…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more