「ファウンデーションモデルの安全で準拠した利用を可能にする生成AIゲートウェイを作成する」
Note The provided title was already in Japanese. However, I have made some slight changes to enhance readability and clarity while conveying the same meaning.
AI(人工知能)と機械学習(ML)の急速に進化する世界で、基礎モデル(FM)は革新を推進し、新たなユースケースを開拓するための驚異的なポテンシャルを示しています。しかし、組織がますますFMの力を活用するにつれて、データプライバシーやセキュリティ、追加コスト、コンプライアンスへの懸念が重要視されるようになりました。金融サービス、ヘルスケアおよびライフサイエンス、政府機関などの規制およびコンプライアンス志向のある業界では、これらのモデルを安全かつ責任ある方法で利用するために固有の課題に直面しています。俊敏さ、革新、標準の遵守のバランスをとるためには、強固なプラットフォームが不可欠です。この記事では、企業が迅速な革新のためにFMへの安全なアクセスを許可するためのプラットフォームとして、Generative AI Gatewayを提案します。
この記事では、Generative AI Gatewayとは何か、その利点、およびAWS上でそのアーキテクチャを設計する方法について説明します。Generative AI Gatewayは、Amazon Bedrock、Amazon SageMaker JumpStart、第三者のモデルプロバイダ(例:AnthropicとそのAPI)およびAWSエコシステム外の他のモデルプロバイダからのFMの消費を大規模企業が制御、標準化、ガバナンスするのに役立ちます。
Generative AI Gatewayとは何ですか?
従来のAPI(RESTやgRPCなど)に対して、API Gatewayは企業がAPIの公開と消費を標準化および制御するためのデザインパターンとして確立しています。さらに、APIレジストリはAPIの中央集権的なガバナンス、制御、および検索性を可能にしました。
同様に、Generative AI Gatewayは、大規模企業の設定で基礎モデルを提供および消費するためのAPI Gatewayおよびレジストリパターンに特有の考慮事項を拡張したデザインパターンです。例えば、幻覚の処理、企業固有のIPとEULA(エンドユーザーライセンス契約)の管理、および生成の適切な管理は、従来のAPI Gatewayの範囲を超える新たな責任です。
- 「Amazon SageMaker Canvas UIとAutoML APIを使用して、時系列の予測を最大50%高速化しましょう」
- 「CDS HooksとAWS HealthLakeを使用してCRDを自動化して事前承認を行う」
- AIにおける幻覚の克服:事実に基づく強化学習ハイブリッドフレームワークが大規模な多モーダルモデルのビジョン・言語の整合性を最適化する方法
Generative AIに固有の要件に加えて、基礎モデルの技術的および規制上の状況は急速に変化しています。これにより、企業が革新の速度とコンプライアンスのバランスを取るために独自の課題が生まれます。例えば:
- モデル、アーキテクチャ、およびベストプラクティスの最先端は常に変化しています。これは、会社が必要に応じて大規模言語モデル(LLM)、ビジョン、またはマルチモーダルのエンドポイント間を簡単に切り替えることを保証するアプリクライアント(モデル消費者)とモデル推論エンドポイントの間の緩いカップリングが必要であることを意味します。モデル推論エンドポイント上の抽象化レイヤーがこのような緩いカップリングを提供します。
- 知的財産(IP)やデータプライバシーに対する規制上の不確定性により、生成物の可視化、モニタリング、およびトレースが必要です。たとえば、Retrieval Augmented Generation(RAG)ベースのアプリケーションがコンテキストに個人情報(PII)データを誤って含んでしまった場合、このような問題をリアルタイムで検出する必要があります。大企業が基礎モデルを展開するために独自の分散プラットフォームを使用する場合、これは課題となります。
Generative AI Gatewayは、これらの新しい要件を解決することを目指し、従来のAPI Gatewayおよびレジストリの利点(中央集権的なガバナンスと可視性、共通コンポーネントの再利用)を提供します。
ソリューションの概要
具体的には、Generative AI Gatewayは以下の主要なコンポーネントを提供します:
- 承認済みFMのモデル抽象化レイヤー
- FM(AI Gateway)のためのAPI Gateway
- 内部モデルの検出性のためのFMのプレイグラウンド
次の図は、ソリューションのアーキテクチャを示しています。
耐障害性を向上させるために、提案されるソリューションはマルチ-AZ環境で展開できます。先述の図の点線はネットワークの境界を表しており、このソリューション全体は単一のVPC内に展開することができます。
モデル抽象化レイヤー
モデル抽象化レイヤーは、組織のFMプールへの安全で制御されたアクセスの基盤として機能します。このレイヤーは会社、チーム、従業員ごとに利用可能なモデルとそれぞれのモデルへのアクセス方法をストアし、エンドポイント情報を保存することで全体の真実の源となります。
このレイヤーは、Generative AI Gatewayを介したFMの安全でコンプライアンスのある俊敏な消費を支援し、組織内で責任あるAIの実践を促進するための基礎となります。
レイヤー自体は、4つの主要なコンポーネントで構成されています。
- FMエンドポイントの登録 – FMが評価、承認、展開されて使用される後、エンドポイントはFMエンドポイントレジストリに追加されます。これは、展開されたまたは外部からアクセス可能なAPIエンドポイントの中央リポジトリです。レジストリには、組織が消費する生成的AIサービスのエンドポイントに関するメタデータが含まれており、内部展開されたFMまたはベンダーから提供される外部の生成的AI APIなど、各ファウンデーションモデルとその構成、アクセスポリシー(役割、チームなどに基づく)を含む情報が含まれています。
- モデルポリシーのストアとエンジン – FMsが準拠するように消費されるには、モデル抽象化層はモデル生成の定性的および定量的なルールを追跡する必要があります。例えば、CCPA(カリフォルニア消費者プライバシー法)などの特定の規制に準拠する必要がある世代があるかもしれません。したがって、ポリシーは国と地理に関する意識を持つ必要があり、地域ごとの変動する規制環境に対する準拠を保証します。
- アイデンティティレイヤー – モデルが消費可能になった後、アイデンティティレイヤーはアクセス管理において重要な役割を果たし、AIゲートウェイを介して特定のFMsとの対話を許可するのは承認されたユーザーまたは組織内の役割だけです。役割ベースのアクセス制御(RBAC)メカニズムは、ユーザーが役割と責任に基づいてモデルにアクセスできるようにし、細かいアクセス許可を定義します。
- ベンダーモデルレジストリとの統合 – FMSは様々な方法で利用可能です。例えば、組織アカウントのVPC内に展開されるか、ベンダーを介して異なるAPIで利用可能です。先述の初期チェックをパスした後、エンドポイントレジストリにはベンダーからのこれらのモデルとそのバージョンに関する必要な情報が保持されます。これにより、エンドユーザーから基礎となる複雑さが抽象化されます。
AIモデルのエンドポイントレジストリに情報を登録するために、Generative AIゲートウェイチームはドメインの専門家やビジネスラインの利害関係者と協力し、注意深くFMsを選択し、プラットフォームにオンボードします。このオンボーディングフェーズでは、モデルのパフォーマンス、コスト、倫理的な整合性、業界規制への準拠、およびベンダーの評判などの要素が慎重に考慮されます。綿密な評価を行うことで、組織は選択したFMsが特定のビジネスニーズを満たし、セキュリティとプライバシーの要件に適合していることを保証します。
以下の図は、このレイヤーのアーキテクチャを示しています。
AWSサービスは、次のようなモデル抽象化レイヤー(MAL)の構築に役立ちます:
- 生成AIマネージャーは、Amazon DynamoDBを使用してレジストリテーブルを作成します。このテーブルには、組織アカウント内で内部展開されたFMsやベンダーからのAPIでアクセス可能なモデルに関する情報が追加されます。このテーブルには、モデルのエンドポイント、メタデータ、および構成パラメータが保持されます。ベンダー固有のAPIクライアントを呼び出すためにカスタムのAWS Lambda関数が必要な場合は、このテーブルに情報も格納されます。
- 生成AIマネージャーは、ユーザーのアクセスを決定し、制限を追加し、ユーザーが実行できる世代のタイプ(画像、テキスト、マルチモダリティなど)のためのポリシーを追加し、AWS Identity and Access Management(IAM)の役割やAPIキーなどの組織固有のポリシーを別個のポリシーテーブルとしてDynamoDBに追加します。
- ユーザーがAIゲートウェイを使用してリクエストを行うと、クライアントのアクセスを特定するためにAmazon Cognitoにルーティングされます。Lambda認可者は、DynamoDBテーブルポリシーで管理されるアイデンティティレイヤーからのアクセスを判断するのに役立ちます。クライアントがアクセス権を持っている場合、関連するアクセス(AWS Identity and Access Management(IAM)の役割やAPIキーなど)はAWS Secrets Managerから取得されます。また、この段階で、レジストリから関連するエンドポイントと構成も取得されます。
- リクエストに関するエンドポイント、構成、アクセスキー、カスタム関数などの必要な情報が取得されると、それらはAIゲートウェイに返され、特定のモデルエンドポイントを呼び出すディスパッチャLambda関数で使用されます。
AI ゲートウェイ
AI ゲートウェイは、組織内での安全かつ効率的な FMs の利用を可能にする重要なコンポーネントとして機能します。モデル抽象化レイヤーの上で動作し、開発者、データサイエンティスト、ビジネスアナリストを含む内部ユーザーに対して API ベースのインターフェースを提供します。
この使いやすいインターフェース(プログラマティックおよびプレイグラウンド UI ベース)を通じて、内部ユーザーは組織の厳選されたモデルにシームレスにアクセスし、相互作用し、使用することができます。関連するモデルはアイデンティティと責任に基づいて提供されます。AI ゲートウェイには以下の要素が含まれる場合があります。
- すべての FMs に対する統一された API インターフェース – AI ゲートウェイは、統一された API インターフェースと SDK を提供し、内部ユーザーが組織のプールの FMs と簡単にインタラクトすることができるようにします。ユーザーはこれらの API を使用して、さまざまなモデルを呼び出し、プロンプトを送信してモデル生成を行うことができます。
- API クォータ、制限、および使用管理 – これには以下が含まれます:
- 消費されたクォータ – リソースの効率的な割り当てとコスト制御を可能にするため、AI ゲートウェイは各モデルの消費されたクォータに関する情報をユーザーに提供します。この透明性により、ユーザーはAIリソースの使用を効果的に管理し、最適な利用とリソースの無駄を防ぐことができます。
- 専用ホスティングのリクエスト – 重要なユースケースのリソース割り当ての重要性を認識し、AI ゲートウェイは特定のモデルの専用ホスティングのリクエストをユーザーに許可します。高優先度やレイテンシに敏感なアプリケーションを持つユーザーは、この機能を使用してモデルの推論ニーズに一貫した専用環境を確保することができます。
- アクセス制御およびモデルガバナンス – モデル抽象化レイヤーからのアイデンティティレイヤーを使用して、AI ゲートウェイは厳格なアクセス制御を強制します。各ユーザーのアイデンティティと割り当てられた役割によって、アクセスできるモデルが決定されます。この細かいアクセス制限により、ユーザーは自分のドメインに関連するモデルのみが表示され、データのセキュリティとプライバシーが維持され、責任ある AI の使用が促進されます。
- コンテンツ、プライバシー、および責任ある AI ポリシーの強制 – API ゲートウェイは、モデルへのすべての入力データの前処理と後処理、およびモデル生成のフィルタリングを行い、有害性、暴力性、害のあるもの、PII データなどを除去およびモデレートします。AI ゲートウェイでこの機能を一元化することで、ポリシーの強制と簡単な監査が実現されます。
AI ゲートウェイをモデル抽象化レイヤーと統合し、アイデンティティに基づいたアクセス制御、モデルリストとメタデータの表示、消費されたクォータのモニタリング、専用ホスティングのリクエストなどの機能を組み込むことで、組織は強力なAI消費プラットフォームを作成できます。
さらに、AI ゲートウェイは以下のような API ゲートウェイの標準的な利点も提供します:
- コスト制御メカニズム – リソースの割り当てを最適化し、コストを効果的に管理するために、堅牢なコスト制御メカニズムを実装することができます。このメカニズムは、リソースの使用状況、モデルの推論コスト、データの転送費用を監視します。生成AIリソースの支出に関する情報を提供し、コスト削減の機会を特定し、リソースの割り当てに関する情報に基づいて判断を行うことができます。
- キャッシュ – FMs からの推論は、特にアプリケーションのテストや開発フェーズではコストがかかることがあります。キャッシュレイヤーは頻繁なリクエストのためのキャッシュを保持することで、このコストを削減し、さらに速度を向上させることができます。キャッシュはまた、推論の負荷をエンドポイントからオフロードするため、他のリクエストのための空間を作ります。
- 可観測性 – これは AI ゲートウェイとディスカバリープレイグラウンド上で実行される活動を捉える上で重要な役割を果します。詳細なログは、ユーザーの相互作用、モデルのリクエスト、およびシステムの応答を記録します。これらのログは、トラブルシューティング、ユーザーの行動の追跡、透明性と説明責任の強化に貴重な情報を提供します。
- クォータ、レート制限、およびスロットリング – このレイヤーのガバナンスの一環として、クォータ、レート制限、およびスロットリングの適用が行え、AIリソースの使用を管理および制御することができます。クォータは特定の時間枠内でユーザーまたはチームが行うことのできるリクエストの最大数を定義し、公平なリソース配分を保証します。レート制限は、最大リクエストレートを強制することで、リソースの過度な使用を防ぎます。スロットリングは、サービスの過負荷のリスクを軽減するために、受信リクエストの頻度を制御することで、サービスの中断を防止します。
- 監査ログと使用状況のモニタリング – チームはエコシステム全体の詳細な監査ログの維持に責任を持ちます。これらのログは、包括的な使用状況のモニタリングを可能にし、中央チームがユーザーの活動を追跡し、潜在的なリスクを特定し、AIの消費に関する透明性を維持するための貴重な情報源となります。
以下の図は、このアーキテクチャを示しています。
AWSサービスは、以下のようにしてAIゲートウェイの構築に役立ちます。
- ユーザーは、リクエストをAmazon API Gatewayを使用して行い、認証と承認が完了した後、モデル抽象化レイヤーにルーティングされます。
- AIゲートウェイは、MALから返される使用制限ポリシーを使用して、各ユーザーのリクエストに対する使用制限を強制します。簡単な制限のために、API Gatewayのネイティブ機能を使用してメータリングを強制します。さらに、JSONスキーマを使用してリクエストに対して標準のAPI Gatewayのバリデーションを実行します。
- 使用制限が検証された後、MALから受け取ったエンドポイント構成と資格情報は、承認された各モデルベンダーが提供するネイティブインターフェースを使用して実際の推論ペイロードを形成します。ディスパッチレイヤーは、ベンダーのSDKやAPIインターフェースの違いを正規化し、クライアントへの統一インターフェースを提供します。 DNSの変更、負荷分散、キャッシュなどの問題は、より高度なディスパッチサービスで処理することもできます。
- 基になるモデルのエンドポイントから応答を受信した後、ポストプロセッシングLambda関数は、MALからのコンテンツ(有害性、ヌードなど)およびコンプライアンス(CCPA、GDPRなど)に関するポリシーを使用して、生成物を全体または一部フィルタリングまたはマスキングします。
- リクエストのライフサイクル全体で生成物と推論ペイロードはAmazon CloudWatch Logsを介してログとして記録され、タグやMALから取得したポリシーに応じてロググループに整理することができます。たとえば、モデルベンダーと地理ごとにログを分離することができます。これにより、さらなるモデルの改善やトラブルシューティングが可能になります。
- 最後に、AWS CloudTrailを介して漏れなく監査できます。
ディスカバリープレイグラウンド
最後のコンポーネントは、モデル抽象化レイヤーとAIゲートウェイの上に構築されたユーザーフレンドリーなインターフェースを提供するディスカバリープレイグラウンドを紹介することです。これにより、ユーザーは利用可能なFMsのフルポテンシャルを探索、テスト、そして引き出すためのダイナミックな環境を提供します。AIの機能にアクセスするだけでなく、プレイグラウンドはユーザーに対してリッチなUIインターフェースを使用してモデルと対話し、価値あるフィードバックを提供し、組織内の他のユーザーとその発見を共有する力を与えます。以下の主な特徴を提供します:
- プレイグラウンドインターフェース – 素早く入力してリアルタイムにモデルの出力を受け取ることができます。 UIは、技術レベルに応じてユーザーが利用できる生成AIの探索をシンプルにするため、対話プロセスを効率化します。
- モデルカード – 対応するメタデータと共に利用可能なモデルの包括的なリストにアクセスできます。各モデルについて、機能、パフォーマンスメトリックス、および対応するユースケースなどの詳細な情報を探索できます。この機能により、適切なモデルを選択するための情報を提供し、情報に基づいた意思決定を容易にします。
- フィードバックメカニズム – プレイグラウンドの特徴的な側面として、ユーザーはモデルの出力に関する洞察を提供できるフィードバックメカニズムがあります。ユーザーは、虚実(捏造された情報)、不適切な言語、またはモデルとの対話中に観察された意図しない動作などの問題を報告することができます。
- ユースケースの推奨 – ディスカバリープレイグラウンドは、FMsのさまざまなユースケースにおける機能の学習と理解を促進するために設計されることがあります。さまざまなプロンプトで実験し、特定のシナリオで優れた成果を上げるモデルを発見することができます。
リッチなUIインターフェース、モデルカード、フィードバックメカニズム、ユースケースの推奨、およびオプションのエクサンプルストアを提供することで、ディスカバリープレイグラウンドは組織内での生成AIの探索と知識共有の強力なプラットフォームとなります。
プロセスに関する考慮事項
前述のGenerative AIゲートウェイのモジュールがプラットフォームを提供するのに対して、このレイヤーはより実践的であり、組織内でのFMsの責任ある、コンプライアンスを守った活用を保証します。これには、技術的な側面以上の追加措置が含まれ、法的、実践的、規制上の考慮事項に焦点を当てています。このレイヤーでは、データセキュリティ、ライセンス、組織の規制、監査トレイルなどの重要な責任が中央のチームによって対応され、信頼と透明性のある文化を育みます:
- データセキュリティとプライバシー – FMsは膨大なデータを処理する可能性があるため、データセキュリティとプライバシーは最重要事項となります。中央のチームは、暗号化、アクセス制御、データの匿名化などの堅牢なデータセキュリティ対策を実施する責任があります。 GDPR、HIPAA、その他の業界固有の基準など、データ保護規制への準拠を厳密に確保し、機密情報とユーザープライバシーを保護します。
- データモニタリング – 入出力情報をAIゲートウェイとディスカバリープレイグラウンドを通じて追跡する包括的なデータモニタリングシステムを構築する必要があります。これには、ユーザーが提供するプロンプトおよび対応するモデルの出力のモニタリングが含まれます。データモニタリングメカニズムにより、組織はデータパターンを観察し、異常を検出し、機密情報が安全に保たれることを確認することができます。
- モデルライセンスと契約 – 中央のチームは、モデルの使用に関連するライセンスと契約の管理にリードを取るべきです。ベンダーが提供するモデルには、特定の使用契約、使用制限、またはライセンス条件が付属している場合があります。チームはこれらの契約に準拠し、各モデルに関する権利と制約についての明確な理解を確保するためにすべてのライセンスの総合的なリポジトリを維持します。
- 倫理
結論
Generative AI Gatewayにより、組織は基礎モデルを責任を持って安全に使用することができます。モデルの抽象化レイヤー、AI Gateway、およびモニタリング、可観測性、ガバナンス、セキュリティ、コンプライアンス、および監査レイヤーが統合されたDiscovery Playgroundを通じて、組織はイノベーションとコンプライアンスのバランスを取ることができます。AI Gatewayは厳選されたモデルへのシームレスなアクセスを提供し、Discovery Playgroundは探索とフィードバックを促進します。モニタリングとガバナンスは最適なリソース配分と積極的な意思決定のための洞察を提供します。セキュリティ、コンプライアンス、倫理的なAIの実践を重視したGenerative AI Gatewayは、AIによるアプリケーションが責任を持って成長し、組織の新たな可能性を開く未来への扉を開きます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 『Qwen Large Language Models(LLMs)Seriesについて知っておくべきすべて』
- 「AIガバナンスの12のコア原則」
- ビデオアクション認識を最適化するにはどのようにすればよいのでしょうか?深層学習アプローチにおける空間的および時間的注意モジュールの力を明らかにします
- Reka AIは、視覚センサと聴覚センサを備えたマルチモーダル言語アシスタントであるYasa-1を紹介しますYasa-1は、コードの実行を通じてアクションを起こすことができます
- 「教師なし学習を用いた秋の検出モデルの作成」
- 「私たちはAIとの関係をどのように予測できるのか?」
- 「マルチモーダルAIの最新の進歩:(ChatGPT + DALLE 3)+(Google BARD + 拡張)など、さまざまなものがあります….」