「Protopia AIによる企業LLMアクセラレーションの基盤データの保護」

「Protopia AIによる企業LLMアクセラレーションの基盤データ保護術」

この投稿は、Protopia AIのBalaji Chandrasekaran、Jennifer Cwagenberg、Andrew Sansom、およびEiman Ebrahimiとの共同制作で書かれています。

新しくて強力な大規模言語モデル(LLM)は、さまざまなエンタープライズのユースケースで迅速かつ効果的にビジネスを変革し、効率を改善しています。スピードが重要であり、LLMテクノロジーの採用は、ビジネスの競争上の優位性を作り出すか破壊する可能性があります。AWSは、企業が重要な意思決定を可能にするためにLLMを規模に応じて展開するために必要なツールを提供するのに特に適しています。

企業が生成的AI技術を実装する際、企業はLLMに送信される機密情報のデータ露出と所有権について本当の懸念を抱いています。これらのプライバシーとデータ保護の懸念は、組織内でLLMの使用を遅らせたり制限したりすることがあります。企業は、オンプレミスのDevOpsの過剰なオーバーヘッドを負担することなく、モデルに機密情報を安全に送信する責任ある方法とより安全な方法を必要としています。

この投稿では、Protopia AIの「Stained Glass Transform」を展開することで、LLMの使用中にデータ所有権とデータプライバシーの課題を克服する方法について説明します。Protopia AIは、AWSと提携して、生成的AIの安全で効率的な企業導入のためのデータ保護と所有権の重要なコンポーネントを提供しています。この投稿では、この解決策を概説し、AWSでのよくあるエンタープライズのユースケース(Retrieval Augmented Generation(RAG)やLlama 2などの最新のLLMを使用したもの)でどのように使用できるかを示しています。

Stained Glass Transformの概要

組織は、企業の機密データの完全な所有と制御を維持したいと考えています。これは、責任あるAIの支柱であり、LLMプロバイダの基本的なセキュリティと法的保証以上のデータ保護とプライバシーの要件です。

エンタープライズのビジネス部門は、さまざまなタスクにLLMを利用したいと考えていますが、同時に、貿易秘密、知的財産、および他のプロプライエタリ情報がこれらのモデルに送信されたデータを通じて漏れることにも懸念を抱いています。同時に、エンタープライズのセキュリティ、コンプライアンス、データ管理、および情報事務所は、エンタープライズ外の平文の顧客情報または他の規制対象データを公開または漏洩することを遠慮しています。AWSとProtopia AIは、この一般的なエンタープライズの顧客ニーズを解決するための重要なコンポーネントを提供するために提携しています。

Protopia AIの「Stained Glass Transform(SGT)」は、保護されていないエンタープライズデータをランダム化された再表現(RmoRedデータとも呼ばれる)に変換することで、これらの課題を解決します。この表現は、元のデータの確率的な埋め込みであり、機密のプロンプトやクエリ、コンテキスト、または微調整データを露呈せずに、ターゲットLLMが機能するために必要な情報を保存します。この再表現は一方向の変換であり、ハイブリッドデータの包括的なプライバシーと平文の機密情報のLLMへの漏洩防止を保証します。SGTは言語モデルに限定されるものではありません。ランダム化された再表現は、視覚的および構造化データに対しても生成できます。名前のStained Glass Transformは、視覚データのランダム化された再表現がステンドグラスを通してデータを表示しているように見えることに由来しています。この米海軍のユースケースで示されているように。

SGTはLlama 2などの最新のLLMと連携して機能します。次の図は、SGTをLlama 2モデルに適用して、命令とコンテキストに保護レイヤーを追加する例を示しています。図の左側には、コンテキストとしての財務文書の例が示されており、命令ではモデルに文書の要約を求めています。左下には、生のプロンプトで動作するLlama 2によって生成された応答が表示されます。SGTを使用する場合、このプロンプトに関連する埋め込みはクライアント側でランダム化された埋め込みに変換されます(この変換については、この投稿の後半で詳しく説明します)。右下には、保護されていない埋め込みの代わりにRmoRedデータ(変換後の埋め込み)が送信された場合、Llama 2は依然として正しい応答を生成できることを示しています。右上には、RmoRedデータが漏洩した場合、元のプロンプトの再構築は不可解なテキストになることを示しています。

プロトピアAIは、Llama 2などの指定されたモデルのためのSGT(Stained Glass Transform)を作成するために、PyTorchの拡張であるStained Glass SDKという軽量なライブラリを提供しています。以下の図に示されているように、SGTが作成された後、それは複数の方法で展開パイプラインに統合することができます。SDKから作成される変換は、ローカルで展開されるか、ハイブリッド環境で展開されるか、完全にクラウド上で展開されるかのいずれかです。これは、SGTが非常に少ないコンピュートリソースを必要とする軽量なプロセスであり、推論の重要な経路への影響が最小限であるため、可能となっています。もう一つの重要な評価指標は、再表現データを使用したモデルの精度の保持です。異なるデータ型やモデルのバリエーションを考慮しても、再表現データを使用することで、望ましい許容限界内で精度が保持されることを観察しています。

このような展開と精度の維持のためのオプションは、企業組織内のすべての関係者がSGTを自信を持って採用できるようにします。さらに、LLMの出力を保護するため、プロトピアAIはクエリの出力をエンコードして、そのデコーダーをエンタープライズデータの所有者のみが利用できるようにすることもできます。

ソリューションの概要

前のセクションでは、Stained Glass Transformをさまざまなアーキテクチャで使用する方法について説明しました。次の図は、LLM向けのSGTの作成、展開、および使用に関与する手順の詳細を示しています:

  • SGTの作成 – ベースラインのLLM基盤モデルをトレーニングするチーム(LLMの提供元、クラウドサービスプロバイダ、または自社でLLMを作成するエンタープライズMLチーム)は、Protopia AIのStained Glass SDKソフトウェアを既存のトレーニングおよびデプロイのプラクティスを変更せずに実行します。基盤モデルのトレーニングが完了したら、SDKは言語モデルに対して最適化パスとして実行され、SGTを計算します。この最適化パスは、PyTorchの拡張を通じて提供されます。SDKは基盤モデルをラップし、数学的にそのLLMに対する一意のStained Glass Transformを見つけ出します。基礎となる数学の詳細は添付ホワイトペーパーに記載されています。なお、LLMのトレーニングを行うチーム自体もStained Glass SDKを実行しているため、このステップが完了するにはモデルの重みを公開または送信する必要はありません。
  • SGTのリリースと展開 – 前のセクションで説明したように、早期最適化ステップから出力されたSGTは、トレーニングされたLLMにデータパイプラインの一部として展開されます。SGTはエンタープライズクライアント側に配置されます。
  • SGTの使用 – SGTは、エンタープライズが作成したプロンプト上で実行され、保護されたプロンプトを生成し、それが展開されたLLMに送信されます。これにより、企業は機密性の高いクエリとコンテキストの所有権を維持することができます。Protopia AI Stained Glassを使用することで、機密性の高いデータはエンタープライズのサイトまたは信頼ゾーンを離れることはありません。

Stained Glass SDKを使用してSGTを複数の方法で作成することができます。例えば、自己管理型の機械学習(ML)環境でAmazon Elastic Kubernetes Service(Amazon EKS)と共に使用する、または直接Amazon Elastic Compute Cloud(Amazon EC2)内で使用することができます。また、Amazon SageMaker内で実行してトレーニングされたモデルに対してSGTを作成することもできます。クライアントからの推論時に展開のための入力の変換は、選択した展開実装とは独立して行われます。

以下の図は、Amazon EKS 上で実行されるステインドグラス変換のトレーニングを行う可能な自己管理型 ML 環境の実装例を示しています。

このワークフローでは、ステインドグラス SDK を使用してコンテナを作成し、Amazon Elastic Container Registry(Amazon ECR)にデプロイします。このコンテナはその後、Amazon EKS 上に展開され、Amazon Simple Storage Service(Amazon S3)に保存される SGT のトレーニングが行われます。Amazon EC2 を使用している場合は、ML セットアップの一部としてインスタンス上で直接変換をトレーニングすることができます。ステインドグラス SDK は、Amazon P5、P4、または G5 インスタンスファミリなど、基本的な LLM 要件に基づいて、さまざまなインスタンスタイプで実行することができます。 LLM が展開され、推論に使用されるようになった後、クライアントアプリケーションは作成された SGT を使用して、プロンプトとコンテキストを変換してから LLM に送信します。これにより、変換されたデータのみが LLM に公開され、元の入力の所有権がクライアント側に保持されます。

以下の図は、SageMaker で変換をトレーニングし、推論を実行する方法を示しています。

SGT の作成は、Amazon S3 からトレーニングデータを取り込んで、コンテナ上で SGT のトレーニングを行い、それを Amazon S3 に保存するという Amazon EKS のセットアップと似たパスに従います。既存の SageMaker セットアップでステインドグラス SDK を使用できます。使用できる方法は、 Amazon SageMaker StudioSageMaker ノートブック、および SageMaker トレーニングジョブ で Stained Glass SDK を使用します。LLM は SageMaker のエンドポイントとしてホストされ、クライアントアプリケーションからアクセスできます。クライアントアプリケーションに対する推論も Amazon EKS のセットアップと同様ですが、モデルを提供するものが異なります。

LLM プロンプトとファインテューニングデータの保護のためのランダム化された再表現

このセクションでは、ランダム化された再表現が LLM プロンプトを保護するさまざまなユースケースをカバーしています。例では、企業の生成型 AI の取り組みに重大な影響を与えることを示しており、AI のユースケースを拡大し、企業データを適切に保護しながら市場投入までのスピードを加速し、LLM プロンプトで使用するために必要な機密データの所有権を保持します。

RAG ユースケース

LLM の一般的な企業ユースケースである Retrieval Augmented Generation (RAG) の使用例です。以下の図は、Stained Glass を使用してプロンプトとソースを保護する例を示しています。図の左側には保護されていないプロンプトとソース情報が表示されます。RAG の企業実装では、ソースには企業の機密情報、知的財産、または財務情報などの機密情報が含まれる可能性があります。図の右側には、SGT によって作成された RmoRed プロンプトからの最良の再構成が人間が読めるテキストで表示されます。

最良の再構成でも、情報は完全に曖昧化されていることが観察されます。ただし、変換を行った場合と行わなかった場合のモデルからの応答は同じであり、元のソースドキュメントへのポインタが含まれているため、この一般的な企業ユースケースを実行しながら、質問とソースドキュメントの正確性を保ちます。

LLMと言語における広範な適用性

Stained Glass SDKのハイライトの1つは、モデルの進化に対して高い耐久性を備え、Llama 2などの最先端のモデルにも適応可能であることです。以下の図は、日本語テキストとの連携のために事前に微調整されたLlama 2 LLM上で作成されたSGTを示しています。この例は、SGTが任意の言語に対して作成および適用が可能であり、微調整されたモデルの入力も変換できることをさらに説明しています。SGTの一般的な適用性は、堅牢な基盤モデルとデータに依存しないStained Glass SDKによって実現されています。

ファインチューニングデータとプロンプトの保護

Stained Glass Transformは、推論時にデータを保護するだけでなく、基盤モデルのファインチューニングに使用されるデータも保護することができます。ファインチューニングデータセットの変換プロセスは、この記事のソリューションアーキテクチャセクションで以前に説明されたものと同じです。変換は、ファインチューニングデータへのアクセスなしで、基盤モデルのためにファインチューニングされるように作成されます。SGTが基盤モデルのために作成され、トレーニングされた後、ファインチューニングデータセットはランダムな再表現に変換され、その後、基盤モデルのファインチューニングに使用されます。このプロセスについては、付属のホワイトペーパーで詳しく説明されています。

以下の例では、エンタープライズ顧客が既存のモデルをネットワークログの異常検出のためにファインチューニングする必要がありました。彼らはStained Glassを使用して、センシティブなファインチューニングデータをランダムな埋め込みに変換しました。これらのランダムな埋め込みは、基盤モデルのファインチューニングに使用されました。彼らは、変換された表現でファインチューニングされた検出モデルが、保護されていないファインチューニングデータセットを使用して基盤モデルをファインチューニングした仮想シナリオとほぼ同じ精度で動作したことを見つけました。以下の表は、ファインチューニングデータセットからの平文データレコードの2つの例と、ファインチューニングデータセットからの同じデータレコードのテキストへの再構築を示しています。

LLM向けステインドグラス変換の仕組み

コンピュータビジョンに適用する場合、SGTは入力ピクセル特徴で動作し、LLMにおいては埋め込みレベルで動作します。Stained Glass Transformの動作原理を強調するために、プロンプトの埋め込みを行列として考えてみましょう。以下の図の左側に示されているように、各エントリには確定値があります。この値は、元のデータにマッピングすることができ、保護されていないプロンプトが明らかにされます。Stained Glass Transformは、この確定値の行列を要素が可能性のクラウドである行列に変換します。

変換されたプロンプトは、SGTによって定義された確率分布からノイズをサンプリングし、サンプリングされたノイズを確定的な埋め込みに追加することで、元のプロンプトの値を不可逆的にランダム化します。モデルは数学的レベルでランダム化された再表現プロンプトを理解し、正確にタスクを実行することができます。

結論

この記事では、Protopia AIのStained Glass Transformが、LLMのプロンプトやファインチューニングデータの敏感な情報の所有権と保護をMLオペレーションプロセスから切り離す方法について説明しました。この最先端のデータ保護を使用することで、企業は敏感情報の露出について心配することなく、基盤モデルとLLMの採用を加速することができます。実際の企業データの価値を安全に解放することにより、組織はLLMの約束された効率とビジネス成果をより効率的かつ迅速に実現できます。この技術について詳しく学ぶためには、付属のホワイトペーパーProtopia AIに連絡して、企業データでの使用と試用を取得してください。

Protopia AIについて

Protopia AIは、テキサス州オースティンに拠点を置くデータ保護とプライバシー保護型AI/ML技術のリーダーであり、AIアルゴリズムとソフトウェアプラットフォームが平文情報にアクセスする必要なく運用できるように特化しています。過去2年間、Protopia AIは、米海軍、主要金融サービス、グローバルなテクノロジープロバイダーとのさまざまなMLユースケースやデータタイプで、その主力製品であるStained Glass Transformを成功裏に実証してきました。

Protopia AIは、企業、生成ベースのAIおよびLLMプロバイダー、クラウドサービスプロバイダー(CSP)と協力して、AI/MLソリューションを使用しながら企業データの所有権と機密性を維持することを可能にしています。Protopia AIは、AWSと提携し、企業が生成ベースのAIを採用する際のデータ保護と所有権の重要な要素を提供しており、2023年の初回AWS Generative AI Acceleratorに選ばれた21社のうちの1社です。リンク

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more