「信頼性のあるLLMテストの5つの柱」
「信頼性抜群のLLMテストの5つの柱」
生成AIの使用とテストに関する研究の第4部
大規模言語モデル(LLM)は、さまざまな業界の労働者、テクノロジー企業のリーダー、そしてすべての学習環境の学生の心に浸透してきました。しかし、非常に多くのモデルパラメータを持つこの大きな力には、大きな責任が伴います。現在、企業や専門家、さらには学生たちの間で深刻な関心事となっているのは、LLMの失敗がいつどこで起こるのかを知ることです。
Kolenaの機械学習エンジニアの視点から、この記事はLLMのテストパラダイムをハイレベルで特定し、LLMの故障モードを識別する一環としてのディスカッションシリーズの継続です。
LLMを信頼できないものとする要素は何ですか?
例えば、LLMが医師の詳細な患者のメモを受け取り、適切な薬の推奨を助ける場合を考えます。しかし、LLMが患者のアレルギーを認識できない場合、LLMの誤った出力が命にかかわる重大な結果をもたらす可能性があります。
LLMが間違いを comits したり、嘘を生み出したりすると、広まるといわれる幻覚の影響は大きいです。GoogleのLLMバードが登場する一つの劇的なケースでは、幻覚によって会社に1000億ドル以上の損失が発生しました!コストが人々の健康であったり、会社の財務であったりするにせよ、LLMが産生する幻覚を発見することは極めて重要です。
それでは、「信頼できる」LLMとは何でしょうか?異なる使用シナリオで、ユーザーは信頼性を異なるように定義します。例えば、判事はバイアスを最小限に抑えることを要求し、作家は最大限の生成品質を望んでいます。以下の図は、LLMの振る舞いを理解することの重要性を示しています。特定のユーザーグループや一般的なアプリケーションにおいては、ベースラインのGPTモデルが適切な選択肢となるかもしれませんが、より高度なアプリケーションでは、基本的なGPTモデルの性能が十分ではなくなる可能性があります。特定の目的のためにLLMを作成したり微調整したりし、その信頼性を検証することがより合理的かもしれません。
全体的なLLMのパフォーマンスを評価する際には、幻想の話題に限らず、複数の要素が考慮されます。LLMは非常に柔軟であるため、自然と複数の故障モードが存在します。ハイレベルで、少なくとも以下の5つの要素を考慮する必要があります:
- 幻覚
- バイアス
- 論理
- 生成品質
- モデルのメカニズム
MLまたはLLMテストをソフトウェアのユニットテスト原則に従って実施すれば、これらの要素に対するテストは容易です。例えば、開発者はTruthfulQAに類似したデータセットを使用して幻想の存在を特定することができます。生成品質は感情分析や読みやすさの指標で定量化できます。結局のところ、LLMのパフォーマンスを評価する方法は目的によって異なりますので、各要素ごとにカスタム評価プロセスを設定する必要があります。
幻覚
特定のユーザーにとって、LLMの妥当性と正確性は極めて重要です。したがって、LLMテストの最初の要素は「幻覚」です。幻覚とは、LLMの出力が現実世界の事実と一致しないことを指します。LLMは感動的で魅力的な結果を生み出すことを目指す生成エージェントです。正しい情報をコンテキストとして思い出して回答を生成するために必要な情報を思い出せない場合、完全に真実とは言えず、情報を補完する目的で情報を増幅します。
ホールシネーションは、LLMのテストの第一の柱です。一般的なNLPのタスクを実行したり、STEM(科学、技術、工学、数学)分野に関する質問をスケールで行ったりする間、ユーザーはLLMの非真実性に気付かないかもしれません。法律や医療の分野などの特定の高度なユースケースでは、ホールシネーションがより一般的になる場合があります。事前訓練されたLLMは専門用語を理解するのに苦労し、特定のタスクを実行するための十分な知識を持っていない可能性があるためです。
例:
一般的な質問応答におけるホールシネーション:ユーザー: ジャックとジルはなぜ丘を上ったのですか?モデル: ジャックとジルは水を飲むために丘を上がった。問題: 子供の童謡によると、ジャックとジルは水を取りに行った。モデルは彼らが水を飲みに行くと主張している。
数学におけるホールシネーション:ユーザー: 17077は素数ですか?モデル: いいえ、17077は素数ではありません。問題: 17077は素数です。
科学的な文章におけるホールシネーション:「178の参考文献を分析した結果、28の参考文献はGoogleの検索結果にもDOIが存在しませんでした」— PubMed問題: ChatGPTは存在しない参考文献を作り出しています。
バイアス
エンジニアやエンドユーザーが直面する持続的な課題は、機械学習のバイアスです。これはAI産業の成長とともに進化している課題です。バイアスの同義語は不公平であり、ユースケースとユーザーによって定義が異なります。さまざまなグループや利害関係者は、公平であるという定義を異なる方法で表現するでしょう。たとえば、モデルは公平さと平等さを区別すべきでしょうか?
バイアスへの対処は、すべてのMLテストプロセスにおいて重要で自明な問題ですが、特にLLMにとってはさらに重要です。なぜなら、LLMはさまざまなインターネットソースでトレーニングされるためです。もしGPT-4が突然明らかに人種差別的や性差別的な行動をとるようになったら、どれだけ多くの新聞記事を見ることになるでしょうか?LLMが生成する人種、宗教、性別、政治、または社会的なバイアスに関わる倫理的な問題は、LLMのテストにおいて継続的な研究と進歩が必要であることを示しています。
例:
上記から、われわれはOpenAIがキリスト教嫌悪やイスラム嫌悪を反映しないようにバイアスを緩和する方法を確認できますが、それは世界に存在するし、トレーニングデータにも存在する可能性があります。しかし、キリスト教とムスリムに関するモデルの出力が異なることもわかります。ムスリムのプロンプトの後、ChatGPTは実質的に人種差別主義者にならないようにと言っています。ChatGPTの議論は独立に行われたものであるため、この単一の例でバイアスを完全に緩和することの難しさが十分に示されています。
推論
LLMは、文脈の深い理解を必要とするタスクに苦労することがありますが、人間の専門家には優れています。LLMが推論し、情報を論理的に処理する能力があると、複雑なユースケースを理解し、正確で一貫した応答を生成する可能性が高くなります。さらに、推論の能力は、法律、健康、研究などのさまざまな専門分野での利用価値を高めることができます。
透明性のある正当化のないまま、LLMの出力を信頼性があると主張するのは難しいです。たとえば、一般的なNLPタスクでは、LLMの推論能力は洞察に富んだ応答を提供するか、単に保持された情報を口頭的に反転させるかの違いになります。LLMの推論能力を継続的に評価し改善することで、より価値のある出力の改良された正確さと信頼性を確保することができます。
例:
文学における推論:ユーザー: 童謡「ジャックとジル」で、彼らが転んだ理由は何だと思いますか?推論を説明してください。モデル: […] 以下はいくつかの可能な解釈です: 1. 事故: 最も直接的な解釈は、ジャックとジルの転倒は純粋に事故的なものであったということです。どのような子供でも、登ったり歩いたりする際につまづいたり転んだりすることがあります。 2. 道徳的な教訓: 童謡が服従や不注意の結果についての子供たちへの教訓を伝えるために作られた可能性もあります。[…]
数学における推論:ユーザー: 1からnまでの自然数の合計はn*(n+1)/2と等しいですか?もしそうなら、段階的に証明してください。モデル: はい、1からnまでの自然数の合計は実際にはn*(n+1)/2と等しいです。これはよく知られた結果であり、数学的帰納法を用いて証明することができます。数学的帰納法は、2つのステップで構成される証明手法です: 1. ベースケース: nの最も小さい可能な値について、命題が成り立つことを証明します。2. 帰納的ステップ: 任意の正の整数kについて、命題がk+1についても成り立つことを前提として証明します。このように、ステップごとにこの命題を証明します: ベースケース(n=1): nが1の場合、1*(1+1)/2 = 1であることを示さなければなりません。これは実際に真です: 1*(1+1)/2 = 1*2/2 = 2/2 = 1。したがって、基本ケースは真です。帰納的ステップ: 1からkまでの自然数の合計が正の整数kの場合を仮定します。これが我々の帰納仮定です(IH)。[…]
ジェネレーション品質
LLM(Language Model)は、以下の理由からジェネレーション品質を考慮する必要があります:
1. 倫理的責任。LLMは膨大な量のテキストを生成することができ、倫理、道徳、社会規範に合致したコンテンツを生成する必要があります。生成品質の向上は、有害、憎悪、害を及ぼす、プロパガンダ的、不適切なコンテンツの存在による倫理的な懸念を解決し、倫理的でないイデオロギーやオンラインでの嫌がらせの姿勢を広めないようにするための役割を果たします。例えば、LLMは違法行為を推奨してはなりません。
2. プライバシーと安全性。LLMに膨大なデータをトレーニングすることで、個人情報が露出する可能性があります。また、クラウドが使用履歴をログに記録する場合、ユーザーが注意を怠った場合には直接プロンプトから個人情報が簡単に保存される可能性があります。開発者は、LLMが個人のプライバシーを適切なレベルで保持し、個人情報を安全に保つために、政府の規制に適合することを確認することが重要です。例えば、LLMは誤って誰かを危険にさらすような個人情報を明かしてはなりません。
3. 一貫性。生成されたコンテンツの品質は、ユーザーエクスペリエンスに直接影響を与えます。LLMがたまにでも品質の低い、つじつまの合わない回答をすると、ユーザーはシステムへの興味を失うかもしれません。生成品質を向上させることで、LLMはより読みやすく、筋の通った、有用な出力を提供することができます。これは、文章作成支援、言語翻訳、コンテンツ要約など、さまざまな応用において役立ちます。例えば、LLMは文法エラーを避け、対象のユーザーに適した語彙を使用する必要があります。
要約すると、LLMのジェネレーション品質の向上に焦点を当てる際には、バイアスを超えた倫理基準を維持すること、プライバシーと安全性を確保すること、一貫した出力を提供することが重要です。これにより、最高のユーザーエクスペリエンスが提供されます。
モデルのメカニクス
LLMのメカニクスのテストの重要性は、適応性、多機能性、幅広い応用可能性が保証されるかどうかを確認するためです。質問に答えることから言語の翻訳、コーディングまで、モデルは異なる応用間をシームレスに移行する必要があります(特定の応用を対象としない場合)。これらのメカニクスの例には、コスト効率、一貫性、個別化があります。
ユーザーが最も重視する要素は、LLMのコスト効率です。LLMが1つの結果を生み出すために時間や費用がかかりすぎる場合、大規模なタスクに対してモデルの魅力が損なわれます。LLMのトレーニングのコストも言及する価値があります。数百万ドルのコストがかかり、膨大な環境への影響を残します。OpenAIの場合、GPT-3のトレーニングにより、502メトリックトンの二酸化炭素が発生し、ユーザーへのアクセスを維持することでその環境への影響がさらに増大します。
一貫した信頼性のある応答が必要な場合もあります。その場合、LLMは一貫性を持つ必要があります。他の場合は、創造性が重要視されます。LLMの創造性は、温度と呼ばれるパラメータを調整することで制御できます。
個別化は、ユーザーがLLMを簡単に指示した方向に進めるための重要なメカニズムです。一方でこれは、ユーザーが要求したスタイル、トーン、特別な指示を反映させたプロンプトのさまざまな要求に適切に応答することを意味します。これを人々はプロンプトエンジニアリングと呼びます。また、チャットボットやインターフェースとの単純なやり取りを超えて、LLMは特定の応用に対してアップデート、再トレーニング、微調整が容易であるべきです。
例:
俳句のプロンプト:User: 大学についての俳句を作ってください。Model: 本と授業の和音、キャンパスが知識のささやき、心が各クラスで花開く。
ピッグラテンのプロンプト:User: Finding Nemoのストーリーをピッグラテンで一文で要約してください。Model: オーシャンウェイで、やさしい魚が父親を探し、ワンダーランドを案じ、彼の友達が彼を助けます。
異なる応用には、重要なメカニズムがあります。一部の場合、非常に大きなバンド幅のAPIを介した相互作用が24時間365日必要です。他の場合では、LLMは時間を超えた複数のメッセージの文脈情報を保持する必要がありますし、合理的に透明で説明可能でなければなりません。LLMの応用はさまざまあるため、すべてのユーザーやエンジニア、利害関係者が重要とするモデルのメカニクスを明確にし、最大の効用と効果を確保することが重要です。
結論
責任あるAIはこれらの5つの柱を超えて広がっていますが、高いレベルで言えば、すべてのLLMはホールシネーション、バイアス、推論、ジェネレーション品質、使用メカニズムに対して一定のパフォーマンス基準を遵守すべきです。
しかし、誰もが特定の故障モードの重要性を異なるように定義します。例えば、医療業界で動作するように設計されたLLMは、幻覚のテストを重視したいでしょう。一方、裁判官を支援するLLMは、人間の裁判官よりも公平性を示すか、少なくとも偏見を少なくするようにしたいでしょう。エンジニアは、基本的な性能の上に速度とコストしか気にしないかもしれません。
信頼できるすべてのLLMのテストの5つの柱を支えるモデルを作ることは、継続的な課題です。機械の進歩は生成品質の低下につながるかもしれませんが、出力品質の向上に進歩することは、幻覚や偏見をゆっくりと明らかにするかもしれません!
信頼性のあるLLMをどうするかは、個々の組織、専門家、エンドユーザー、あなた次第です!もし幻覚を生じさせずに全体的な生成品質を悪化させる必要がある場合、あなたはどうしますか?あなたのLLMにはどの柱が欠けているのか、どのように見つけますか?
読んでいただきありがとうございます!さらに詳しくは、こちらで私のLLMの応用テスト結果をご覧ください:GPT-4のパフォーマンス、プロンプトエンジニアリング、および一般的なNLPタスクについて学ぶことができます。
すべてのプロットの画像は、それ以外に示されていない限り、Kolenaからのスクリーンショットです。同様のプロットはmathplotlibなどの一般的なフレームワークで手動で生成することもできることに注意してください。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles