「Amazon Rekognitionを使用して、Amazon IVSライブストリームを適度に制御する」
「アマゾン レコグニションを活用して、アマゾン IVS ライブストリームの適度な制御を実現する方法」
Amazon Interactive Video Service(Amazon IVS)は、インタラクティブなビデオ体験を構築し、インタラクティブなビデオコンテンツを取り入れて配信するための、迅速かつ簡単なセットアップを提供するマネージドライブストリーミングソリューションです。
ライブストリーミングの利用が増えるにつれて、効果的なコンテンツのモデレーションの必要性はますます重要になってきます。ユーザー生成コンテンツ(UGC)は安全に対して複雑な課題を提供します。多くの企業では人間のモデレーターによるビデオストリームの監視に頼っており、これは時間のかかる作業であり、誤りが発生しやすいだけでなく、ビジネスの成長速度に合わせてスケーリングできません。ヒューマン・イン・ザ・ループ(HITL)をサポートする自動モデレーションソリューションの需要がますます高まっています。
Amazon Rekognition Content Moderationは、Amazon Rekognitionの機能であり、機械学習(ML)の経験を必要とせずに画像およびビデオのモデレーションワークフローを自動化および効率化します。この記事では、Amazon Rekognition Image APIを使用してライブストリームをモデレートするソリューションを説明します。このソリューションは、AWS Cloud Development Kit(AWS CDK)パッケージを使用してAWSアカウントに展開できます。パッケージは、GitHubリポジトリで入手可能です。
ライブストリームのビジュアルコンテンツをモデレートする
UGCライブストリームのビジュアルモデレーションには、ストリームからイメージをサンプリングし、チカチカモデレーションを行うという最も一般的なアプローチがあります。ライブストリームプラットフォームは、柔軟なルールを使用してビジュアルコンテンツをモデレートできます。例えば、若い視聴者を対象としたプラットフォームでは、成人向けのコンテンツや特定の製品に関する厳格なルールがある一方、他のプラットフォームではヘイトシンボルに焦点を当てる場合もあります。これらのプラットフォームは、効果的にポリシーに合ったルールを設定します。ヒューマンと自動のレビューを組み合わせたハイブリッドプロセスは一般的な設計アプローチです。一部のストリームは自動的に停止されますが、ヒューマンモデレーターもストリームがプラットフォームのポリシーに違反しているかどうかを評価し、無効にする必要があります。
- LLMWareは、複雑なビジネスドキュメントを含む企業ワークフローに適した、生産用の微調整済みモデルであるRAG-Specialized 7BパラメータLLMを発表しました
- このAI論文では、大規模なマルチモーダルモデルの機能を拡張する汎用のマルチモーダルアシスタントであるLLaVA-Plusを紹介しています
- マルチクエリアテンションの解説
次の図は、ライブストリームシステムとの緩いカップリングで設計されたほぼリアルタイムのモデレーションシステムの概念的なワークフローを示しています。
このワークフローには、次のステップが含まれています:
- ライブストリームサービス(またはクライアントアプリ)は、特定の間隔でビデオストリームから画像フレームをサンプリングします。
- ルールエンジンは、モデレーションのガイドラインを評価し、ストリームサンプリングの頻度と適用可能なモデレーションカテゴリを事前に定義されたポリシー内で決定します。このプロセスには、MLと非MLのアルゴリズムの両方を利用します。
- ルールエンジンは、ビデオストリームで違反を検出した場合にヒューマンモデレーターに通知します。
- ヒューマンモデレーターは結果を評価し、ライブストリームを無効にします。
UGCライブストリームのモデレートは、メディアのクラシックなビデオモデレーションとは異なります。異なる規制に対応するためです。モデレーションのためにビデオフレームからどれだけの頻度でイメージをサンプリングするかは、プラットフォームの信頼性とセーフティポリシーおよびサービスレベル契約(SLA)によって通常決定されます。たとえば、ポリシー違反のためにチャンネルを3分以内に停止するようなライブストリームプラットフォームでは、1〜2分ごとにサンプリングするという実用的なアプローチが適切であり、ヒューマンモデレーターが確認してアクションを起こすための時間が確保されます。一部のプラットフォームでは、柔軟なモデレーション頻度の制御が必要です。たとえば、高名なストリーマーはモデレーションが少なくても済むかもしれませんが、新しいストリーマーはより注意が必要です。これにより、サンプリング頻度を減らすことでコストの最適化も可能です。
コストは、ライブストリームモデレーションソリューションにおいて重要な考慮事項です。UGCライブストリームプラットフォームが急速に拡大する中で、高頻度で同時に複数のストリームをモデレートすることはコストの懸念を引き起こす可能性があります。この記事で紹介されたソリューションは、モデレーションルールを定義して、サンプリング頻度をカスタマイズし、類似のイメージフレームを無視するなどの方法でコストを最適化するように設計されています。
Amazon IVSストリームコンテンツをAmazon S3に記録する
Amazon IVSは、ストリームコンテンツを記録し、Amazon Simple Storage Service(Amazon S3)バケットにサムネイル(ビデオストリームからの画像フレーム)を生成するネイティブのソリューションを提供しています。デフォルトでは、60秒ごとにサムネイルが生成され、ユーザーはイメージの品質と頻度をカスタマイズできます。AWS Management Consoleを使用して、記録構成を作成し、Amazon IVSチャネルにリンクさせることができます。記録構成がチャネルに関連付けられると、チャネルのライブストリームは自動的に指定されたS3バケットに記録されます。
Amazon IVS の自動記録から Amazon S3 への機能や Amazon S3 への書き込みには料金がかかりません。ただし、Amazon S3 のストレージ料金、Amazon IVS が顧客の代わりに行う Amazon S3 API コールの料金、および保存されたビデオを視聴者に提供する料金が発生します。Amazon IVS の料金の詳細については、コスト(低遅延ストリーミング)を参照してください。
Amazon Rekognition モデレーション API
このソリューションでは、Amazon Rekognition DetectModerationLabel APIを使用して、Amazon IVS のサムネイルをリアルタイムでモデレートしています。Amazon Rekognition コンテンツモデレーションは、暴力、ヌーディティ、憎悪の象徴など、さまざまな不適切または攻撃的なコンテンツを分析するための事前訓練済みのAPIを提供しています。Amazon Rekognition コンテンツモデレーションのタクソノミーの詳細については、コンテンツのモデレーションを参照してください。
次のコードスニペットは、Python Boto3 ライブラリを使用して AWS Lambda 関数内で Amazon Rekognition DetectModerationLabel API を呼び出す方法を示しています:
import boto3# Amazon Rekognition クライアントオブジェクトの初期化rekognition = boto3.client('rekognition')# Rekognition 画像モデレーション API を呼び出すresponse = rekognition.detect_moderation_labels( Image={'S3Object': {'Bucket': data_bucket,'Name': s3_key}})
次の例は、Amazon Rekognition 画像モデレーション API からの応答です:
{ "ModerationLabels": [ { "Confidence": 99.9290542602539, "Name": "Female Swimwear Or Underwear", "ParentName": "Suggestive" }, ... ], "ModerationModelVersion": "6.1"}
Amazon Rekognition 画像モデレーション API の追加の例については、コンテンツモデレーション画像ラボを参照してください。
ソリューションの概要
このソリューションは、S3 バケットからサムネイル画像を読み取り、画像を Amazon Rekognition 画像モデレーション API に送信することで Amazon IVS と統合します。自動的にストリームを停止したり、人間が関与したレビューを行うための選択肢を提供します。システムが条件に基づいてストリームを自動的に停止するためのルールを設定することもできます。また、軽量な人間のレビューポータルも含まれており、モデレーターはストリームを監視したり、違反アラートを管理したり、必要に応じてストリームを停止することができます。
このセクションでは、システムアーキテクチャについて簡単に紹介します。詳細な情報については、GitHub リポジトリを参照してください。
次のスクリーンレコーディングは、モデレーターがモデレーションの警告付きのアクティブなストリームを監視し、ストリームを停止したり警告を解除したりすることができるモデレーターの UI を表示しています。
ユーザーは、ビデオストリームのチャネルごとのサンプル頻度、信頼度の閾値を持つ Amazon Rekognition モデレーションのカテゴリを設定し、類似性のチェックを有効にするなど、モデレーションルールをカスタマイズできます。これにより、冗長な画像の処理を回避し、パフォーマンスとコストを最適化できます。
次のスクリーンレコーディングは、グローバル構成を管理するための UI を表示しています。
このソリューションには、Amazon IVS と疎結合された 2 つの主要なコンポーネントから成るマイクロサービスアーキテクチャが使用されています。
ルールエンジン
ルールエンジンは、ライブストリームのモデレーションシステムの基盤です。ほぼリアルタイムのモデレーションを可能にするライブ処理サービスです。画像のモデレーションにAmazon Rekognitionを使用し、カスタマイズ可能なルールによって結果を検証し、類似画像を認識および除外するために画像ハッシングアルゴリズムを使用し、ルール違反時にはストリームを自動的に停止させるか人間のレビューシステムにアラートを送信します。このサービスは、Amazon IVSとAmazon S3ベースの画像読み取りを通じて統合され、Amazon API Gatewayを介してAPIの呼び出しを容易にします。
以下のアーキテクチャ図は、ほぼリアルタイムのモデレーションのワークフローを示しています。
ルールエンジンの処理ワークフローをトリガーする方法は2つあります:
- S3ファイルトリガー—S3バケットに新しい画像が追加されると、ワークフローが開始されます。これはAmazon IVSとの統合に推奨される方法です。
- REST API呼び出し—イメージバイトをリクエストボディに含めてAPI GatewayにRESTful API呼び出しを行うことができます。APIはイメージをS3バケットに保存し、ほぼリアルタイムの処理をトリガーします。このアプローチは、クライアント側でキャプチャされ、インターネット経由で送信される画像に適しています。
AWS Step Functionsによって管理される画像処理ワークフローは、以下の手順で行われます:
- サンプルの頻度ルールをチェックします。前回のサンプル時間があまりにも最近の場合、処理は停止します。
- 構成で有効になっている場合、画像ハッシュアルゴリズムを使用して類似性チェックを実行します。プロセスは、同じチャネルに対して受信した前の画像と類似している場合は画像をスキップします。
- Amazon Rekognition Image Moderation APIを使用して、画像を構成されたルールに基づいて評価します。信頼度のしきい値を適用し、不必要なカテゴリを無視します。
- モデレーションの結果がルールに違反している場合、モデレーションの警告を持つAmazon Simple Notification Service(Amazon SNS)トピックに通知を送信し、下流システムにアラートを送信します。
- 自動停止モデレーションルールに違反する場合、Amazon IVSストリームは自動的に停止されます。
この設計では、Step Functionsステートマシンを介してルールを管理し、柔軟なワークフロー定義のためのドラッグアンドドロップGUIを提供しています。追加のStep Functionsワークフローを組み込むことで、ルールエンジンを拡張することもできます。
モニタリングおよび管理ダッシュボード
モニタリングおよび管理ダッシュボードは、人間のモデレーターがAmazon IVSライブストリームを監視できるUIを備えたWebアプリケーションです。ほぼリアルタイムのモデレーションアラートを提供し、モデレーターがストリームを停止したり警告を無視したりできるようにします。このWebポータルでは、管理者はルールエンジンのモデレーションルールを管理することもできます。次の2つのタイプの設定をサポートしています:
- チャネルルール—特定のチャネルに対してルールを定義できます。
- グローバルルール—これらのルールは、特定の設定がないAmazon IVSチャネル全体または一部に適用されます。グローバルルールをAmazon IVSチャネル名のパターンに一致するように適用するために正規表現を定義できます。例: .* はすべてのチャネルに適用されます。 /^test-/ はtest-で始まるチャネルに適用されます。
このシステムは、Amazon S3でホストされた静的ReactフロントエンドとAmazon CloudFrontを使用したキャッシングを備えたサーバーレスのWebアプリです。認証はAmazon Cognitoによって処理されます。データはAPI GatewayとLambdaを介して提供され、状態の保存にAmazon DynamoDBが使用されます。次の図は、このアーキテクチャを示しています。
監視ダッシュボードは、モデレーターに必要な機能を提供する軽量なデモアプリです。機能を強化するためには、管理システムをサポートし、WebSocketsを使用してプッシュメカニズムを実装することでレイテンシを削減することができます。
モデレーションレイテンシ
このソリューションは、ほぼリアルタイムのモデレーションを実現するために、2つの別々のサブシステム間のレイテンシを測定して設計されています:
- ルールエンジンのワークフロー – ルールエンジンのワークフローは、画像の受信からAmazon SNS経由での通知の送信までの平均が2秒以内です。このサービスは、Step Functionsステートマシンを介して迅速に画像を処理します。 Amazon Rekognition Image Moderation APIは、1 MB以下の平均ファイルサイズに対して500ミリ秒以下で処理します。(これらの調査結果は、近似リアルタイムの要件を満たすためにサンプルアプリで実施されたテストに基づいています。)Amazon IVSでは、画像サイズを調整するために、異なるサムネイルの解像度を選択するオプションがあります。
- 監視Webポータル – 監視Webポータルは、ルールエンジンのSNSトピックに購読します。警告はDynamoDBテーブルに記録されますが、ウェブサイトのUIは最新の警告を10秒ごとに取得します。この設計は、モデレーターのビューの軽量デモンストレーションを示しています。レイテンシをさらに削減するためには、Amazon SNSを介して到着した警告をUIに即座にプッシュするためにWebSocketを実装することを検討してください。
ソリューションの拡張
この記事では、ライブストリームのビジュアルコンテンツのモデレーションに焦点を当てています。ただし、このソリューションは意図的に柔軟性を持っており、チャットメッセージやライブストリームでの音声のモデレーションなど、他のメディアタイプのサポートにも対応しています。新しいStep Functionsステートマシンのワークフローと上流ディスパッチロジックを導入することで、ルールエンジンを強化することができます。今後の投稿では、AWS AIサービスを使用したライブストリームのテキストと音声のモデレーションについて詳しく説明します。
要約
この記事では、Amazon Rekognitionを使用してAmazon IVSライブストリームビデオをモデレートする方法を示すサンプルソリューションの概要を提供しました。サンプルアプリは、GitHubリポジトリの手順に従ってデプロイし、AWS CDKパッケージを使用してAWSアカウントに展開することで体験することができます。
AWS上でのコンテンツモデレーションについて詳しく学ぶ。AWSを使用してコンテンツモデレーション操作を効率化するための最初のステップを踏み出しましょう。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- mPLUG-Owl2をご紹介しますこれは、モダリティの協力によってマルチモーダルな大規模言語モデル(MLLMs)を変換するマルチモーダルファウンデーションモデルです
- AIキャリアのトレンド:人工知能の世界で注目されているものは何ですか?
- CV2(OpenCV)は、コンピュータビジョンのためのオープンソースのライブラリですこのライブラリは、画像処理やコンピュータビジョンの応用を開発するために広く使用されています CV2を使用すると、さまざまな画像処理タスクを実行できますその中の一つが、イメージ上のパターンを見つけることです パターン検出は、コンピュータビジョンの重要な分野です例えば、顔検出や文字認識などのアプリケーションでは、パターン検出が一般的に使用されます
- このAI論文は、実世界の網膜OCTスキャンを使用して、年齢に関連した黄斑変性の段階を分類するためのディープラーニングモデルを紹介しています
- 「ネットイース・ヨウダオがEmotiVoiceをオープンソース化:強力でモダンなテキスト読み上げエンジン」というタイトルの記事です
- このAIの論文は「ミスからの学習(LeMa):エラー駆動学習を通じた大規模言語モデルにおける数学的推論の強化」という題目です
- フィリップスは、Amazon SageMakerをベースにしたMLOpsプラットフォームでAI対応のヘルスケアソリューションの開発を加速しています