あなたのLLMアプリケーションは公開に準備ができていますか？

LLMアプリケーションの準備はできていますか？

LLMベースのアプリケーションを実稼働化する際の重要な懸念事項

大規模言語モデル（LLMs）は、現代の自然言語処理（NLP）アプリケーションの主力となり、名前付きエンティティ認識モデル、質問応答モデル、テキスト分類などのより専門的なツールの代わりに多くの面で置き換わっています。そのため、少なくともある程度の形でLLMを使用しないNLP製品を想像することは困難です。LLMは、より高度なパーソナライズや創造的な対話生成など多くの利点をもたらしますが、エンドユーザー向けのソフトウェア製品にこれらのモデルを統合する際に、その欠点と対処方法を理解することが重要です。結果として、モニタリングはこれらの課題の多くを解決することができ、LLMsを使用するビジネスにとって必要不可欠なツールボックスの一部です。

データ、プライバシー、プロンプトインジェクション

Image by TheDigitalArtist via Pixabay — TheDigitalArtistによる画像（Pixabayより）

データとプライバシー

プライバシーとデータ利用は、現代の消費者の主要な懸念事項の一つであり、Cambridge Analyticaなどのよく知られたデータ共有スキャンダルの後、個人のプライバシーを危険にさらすサービスや製品を使用する可能性がますます低くなっています。LLMは、ユーザーに信じられないほど高度なパーソナライゼーションを提供しますが、それらがもたらすリスクを理解することが重要です。すべての機械学習モデルと同様に、LLMはトレーニングデータを明らかにするために設計された標的攻撃に対して脆弱であり、生成的な性質により特に危険性が高く、フリーフォームの生成中に誤ってデータを漏洩させることさえあります。例えば、2020年のブログ投稿で、Google Brainの研究科学者であるNicholas Carliniは、GPTなどのLLMが、モデルのトレーニングデータに含まれる名前、住所、電子メールアドレスなどの個人情報を明らかにするようにプロンプトされる方法について説明しています。これは、顧客のデータをファインチューニングするビジネスが同じようなプライバシーリスクを引き起こす可能性があることを示唆しています。同様に、Microsoftの研究者による論文もこれらの主張を裏付け、差分プライバシーからの技術を利用して、LLMのトレーニング中にデータ漏洩の懸念を軽減する特定の緩和策を提案しています。残念ながら、LLMのファインチューニングプロセスを制御できないLLM APIを使用している多くの企業は、これらの技術を活用できません。これらの企業の解決策は、エンドユーザーに結果を返す前にモデルの出力を検証し制限するモニタリングステップを挿入することです。このように、ビジネスは、個人情報漏洩の実際の発生前にポテンシャルなトレーニングデータ漏洩の場合を特定してフラグ付けすることができます。例えば、モニタリングツールは、名前エンティティ認識や正規表現フィルタリングなどの技術を適用して、モデルによって生成された人名、住所、電子メールなどの機密情報を認識し、間違った手に渡る前にフィルタリングすることができます。これは、健康保険や金融などのプライバシー制限のある領域で作業する組織にとって特に重要です。こうした領域では、HIPAA、FTC/FDICなどの厳格な規制が適用されます。また、単に国際的に作業する企業であっても、EUのGDPRなどの複雑な地域固有の規制に違反するリスクがあります。

プロンプトインジェクション

プロンプトインジェクションとは、システムを何らかの方法で「だまして」または混乱させ、有害な出力を提供するように設計されたLLMプロンプトのプロセスを指します。たとえば、最近の記事では、よく設計されたプロンプトインジェクション攻撃により、OpenAIのGPT-4モデルを覆すことができ、事実に反する情報を提供したり、陰謀説を推奨したりすることが可能であることが示されています。ユーザーがLLMにアドバイスを求めて、爆弾の作り方や最善の自殺方法について詳細を提供したり、他のコンピュータに感染させるためのコードを生成したりするようにLLMをプロンプトするような、より悪質なシナリオを想像することができます。プロンプトインジェクション攻撃に対する脆弱性は、LLMのトレーニング方法の副作用であり、すべての可能なプロンプトインジェクション攻撃を防ぐためのフロントエンドでの対策は困難です。最も堅牢で最新のLLMであるOpenAIのChatGPTなどでも、特定のプロンプトインジェクション攻撃に脆弱であることが証明されています。

プロンプトインジェクションが現れる方法は多岐にわたるため、すべての可能性に対処することはほとんど不可能です。そのため、LLMによって生成された出力のモニタリングは重要であり、不正確な情報や明らかに有害な生成物を特定し、フラグを立てるメカニズムを提供します。モニタリングは、簡単なNLPヒューリスティックスまたは追加のML分類器を使用して、モデルから返された有害なコンテンツを含む応答にフラグを立てることができます。同様に、プロンプト自体のモニタリングにより、モデルに渡される前に有害なプロンプトの一部をキャッチすることができます。

幻覚

「幻覚」とは、LLMが現実に基づかない出力を「夢見る」傾向を指します。プロンプト注入と幻覚は同じコインの2つの側面として現れることがありますが、プロンプト注入では偽りを生成することがユーザーの意図であるのに対し、幻覚はLLMのトレーニング目的の副作用として起こります。LLMは、各時間ステップでシーケンスで次に最も可能性が高い単語を予測するようにトレーニングされているため、非常にリアルなテキストを生成することができます。そのため、幻覚は最も可能性が高いものが常に真実であるとは限らないという事実の単純な結果です。

Image by Matheus Bertelli via Pexels — イメージ by Matheus Bertelli via Pexels

GPT-3やGPT-4などの最新世代のLLMは、人間のフィードバックからの強化学習アルゴリズム（RLHF）を使用して、人間の主観的な意見に合わせて最適化されています。これにより、LLMはより高いレベルの会話の流暢さに達することができましたが、返答を出す際に過度に自信を持って話すことがあるため、ときには誤った返答をすることがあります。例えば、ChatGPTに質問をすると、一見 plausible な返答を自信を持って与えられることがありますが、よく調べてみると客観的には間違っていることがあります。LLMに不確実性の量化能力を注入することは、現在も研究中であり、すぐに解決されることはないでしょう。そのため、LLMベースの製品の開発者は、幻覚を検出し、LLMモデルが提供する既製の応答よりもニュアンスのある応答を提供するために、出力を監視して分析することを考慮する必要があります。これは、LLMの出力が下流のプロセスを指導している可能性のある文脈で特に重要です。たとえば、LLMチャットボットがユーザーを支援して製品の推奨事項を提供し、小売業者のウェブサイトで注文をするのを支援する場合、監視手順を実施して、その小売業者のウェブサイトで実際に販売されていない製品を購入することを提案しないようにする必要があります。

制御されていないコスト

LLMがAPIを介してますます商品化されているため、これらのモデルを製品に統合する企業は、コストの増大を防止するための計画を立てる必要があります。保護措置がない場合、製品のユーザーが何千回もAPIコールを生成し、入力に非常に長いドキュメントをコピー＆ペーストしてLLMに分析を依頼することが容易になります。LLM APIは通常、コール数とトークン数（プロンプトとモデルの応答の両方で）に基づいてメーターされますので、コストが急速に膨らむ可能性があることは明らかです。したがって、企業はこれらのコストを相殺するために自社の価格体系を作成する際に注意を払う必要があります。さらに、企業は使用量の増加がコストにどのように影響するかを理解し、使用量のキャップを課したり、他の対策を取ることで増加の影響を緩和するための監視手順を実施する必要があります。

結論

LLMを製品に使用するすべての企業は、LLMの多くの落とし穴を回避し、対処するために、監視をシステムに組み込むことが重要です。さらに、使用される監視ソリューションは、潜在的なプライバシー違反を特定し、プロンプト注入を防止/対処し、幻覚をフラグ付けし、コストの上昇を診断するために特にLLMアプリケーションに適したものである必要があります。最高の監視ソリューションは、これらの問題すべてに対処し、企業がLLMベースのアプリケーションを公開できるようにする枠組みを提供します。Monaの包括的な監視機能を見て、LLMアプリケーションが完全に最適化され、意図した通りに実行されていることに自信を持ちましょう。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AIGptLarge Language ModelsMonitoringOpenAI

Was this article helpful?

93 out of 132 found this helpful

あなたのLLMアプリケーションは公開に準備ができていますか？

LLMベースのアプリケーションを実稼働化する際の重要な懸念事項

データ、プライバシー、プロンプトインジェクション

データとプライバシー

プロンプトインジェクション

幻覚

制御されていないコスト

結論

Was this article helpful?

Orca LLM：ChatGPTの推論プロセスをシミュレートする

オペレーションとサポートのためのローテーション・オン・コール：データ・チームでは必須

機械学習

効率的な開発者ですか？それならAIがあなたの仕事を狙っています

ロボットスキル合成のための言語から報酬への変換

「PyTorchモデルのパフォーマンス分析と最適化 - パート3」

DeepMind RoboCat：自己学習ロボットAIモデル

「ニューラルネットワークとディープラーニングの基礎の理解」

「2023年版AI音声生成器の究極ガイド」