Amazon BedrockとAmazon Transcribeを使用して、生成AIを使用して録音のサマリーを作成します

Amazon BedrockとAmazon Transcribeを活用して、音声録音の要約を生成AIで作成する

ミーティングのメモはコラボレーションの重要な一部ですが、しばしば見逃されてしまいます。ディスカッションをリードし、注意深く聞き、メモを取るという作業を同時に行っていると、重要な情報が記録されずに見逃されることがあります。メモが記録されたとしても、整理されていなかったり、読みにくかったりして役に立たないものになることがあります。

この記事では、ビデオやオーディオの記録からクリーンで簡潔な要約を自動生成するために、Amazon TranscribeAmazon Bedrockの使い方を探求します。社内のチームミーティング、カンファレンスのセッション、収益の呼び出しのような場面でも、このアプローチによって数時間のコンテンツを要点にまとめることができます。

この記事では、プロジェクトチームのミーティングを転写し、Amazon Bedrockを使用してキーポイントを要約するためのソリューションを紹介します。また、これを講義、インタビュー、セールスコールなどの他の一般的なシナリオにカスタマイズする方法についても説明します。読み進めて、ノートを取るプロセスを簡素化し、自動化しましょう。

ソリューションの概要

Amazon TranscribeとAmazon Bedrockを組み合わせることで、時間を節約し、洞察を捉え、コラボレーションを向上させることができます。Amazon Transcribeは、音声対テキストの変換機能をアプリケーションに追加するのが簡単な自動音声認識(ASR)サービスです。進化したディープラーニング技術を使用して、音声を正確にテキストに変換します。Amazon Bedrockは、AI21 Labs、Anthropic、Cohere、Meta、Stability AI、Amazonなど、主要なAI企業からのハイパフォーマンスなファンデーションモデル(FM)の選択肢を提供するフルマネージドサービスであり、ジェネラティブAIアプリケーションの構築に必要な幅広い機能も提供します。Amazon Bedrockでは、さまざまなトップFMを簡単に試すことができ、ファインチューニングやRetrieval Augmented Generation(RAG)などの手法を使用してデータに基づいてカスタマイズすることができます。

この記事で紹介するソリューションは、指定されたAmazon Simple Storage Service(Amazon S3)バケットに録音をアップロードするとトリガーされるAWS Step Functionsステートマシンを使用して組織化されます。Step Functionsは、AWSサービス間のコンポーネントをオーケストレーションし、接続するためのサーバーレスワークフローを作成することができます。これにより、アプリケーションロジックに集中できるように、基本的な複雑さを処理します。タスクの調整、分散処理、ETL(抽出、変換、ロード)、ビジネスプロセスの自動化に便利です。

以下の図は、高レベルのソリューションアーキテクチャを示しています。

ソリューションのワークフローは次の手順で構成されています:

  1. ユーザーが録音をS3アセットバケットに保存します。
  2. この操作により、Step Functionsトランスクリプションおよび要約ステートマシンがトリガーされます。
  3. ステートマシンの一部として、AWS Lambda関数がトリガーされ、Amazon Transcribeを使用して録音を転写し、転写をアセットバケットに保存します。
  4. 第2のLambda関数が転写を取得し、Amazon BedrockのAnthropic Claudeモデルを使用して要約を生成します。
  5. 最後に、最終のLambda関数がAmazon Simple Notification Service(Amazon SNS)を使用して録音の要約を受信者に送信します。

このソリューションは、Anthropic Claude on Amazon Bedrockが利用可能なリージョンでサポートされています。

ステートマシンは特定のタスクを実行するための手順をオーケストレートします。以下の図は、詳細なプロセスを示しています。

前提条件

Amazon Bedrockのユーザーは、使用可能になる前にモデルへのアクセスをリクエストする必要があります。これは一度だけのアクションです。このソリューションでは、Amazon BedrockのAnthropic Claude(Anthropic Claude Instantではありません)モデルへのアクセスを有効にする必要があります。詳細については、 モデルアクセスを参照してください。

ソリューションリソースの展開

このソリューションは、AWSアカウント内で必要なリソースを自動的にプロビジョニングするために、 AWS CloudFormationテンプレートを使用して展開されます。テンプレートには次のパラメータが必要です:

  • サマリーの送信に使用されるメールアドレス – このアドレスにサマリーが送信されます。追加の通知を受ける前に、初期のAmazon SNS確認メールを確認する必要があります。
  • サマリーの指示 – これはAmazon Bedrockモデルに与えられるサマリーの生成に関する指示です。

ソリューションの実行

AWS CloudFormationを使用してソリューションを展開した後、次の手順を完了します:

  1. CloudFormationスタックの作成後、数分後に受け取るはずのAmazon SNSメールの確認を行います。
  2. AWS CloudFormationコンソールで、作成したばかりのスタックに移動します。
  3. スタックのOutputsタブで、AssetBucketNameと関連する値を探します。例:summary-generator-assetbucket-xxxxxxxxxxxxxというような形式になります。
  4. Amazon S3コンソールで、アセットバケットに移動します。

ここに、録音ファイルをアップロードします。有効なファイル形式は、MP3、MP4、WAV、FLAC、AMR、OGG、およびWebMです。

  1. 録音をrecordingsフォルダにアップロードします。

録音のアップロードにより、ステップ関数のステートマシンが自動的にトリガーされます。この例では、GitHubリポジトリのsample-recordingディレクトリにあるサンプルのチームミーティングの録音を使用します。

  1. ステップ関数コンソールで、summary-generatorステートマシンに移動します。
  2. ステータスがRunningのステートマシン実行の名前を選択します。

ここでは、ステートマシンが録音を処理する過程の進行状況を確認できます。

  1. Successステートに到達した後、録音のサマリーがメールで受け取れるはずです。

また、S3アセットバケットに移動し、トランスクリプトをトランスクリプトフォルダーで表示することもできます。

サマリーの確認

クラウドフォーメーションスタックを作成したときに指定したアドレスに、録音のサマリーがメールで送信されます。数分後にメールを受け取らない場合は、スタックを作成した後に受け取るはずのAmazon SNS確認メールを確認し、録音を再度アップロードしてサマリープロセスをトリガーしてください。

このソリューションには、ソリューションをテストするために使用できるチームミーティングの模擬録音が含まれています。サマリーは次の例のようになります。ただし、生成AIの性質上、出力は若干異なるかもしれませんが、内容は近いはずです。

スタンドアップのキーポイントは次のとおりです:

  • JoeはタスクEDU1の現在の状態をレビューし、将来の状態を開発するための新しいタスクを作成しました。その新しいタスクは優先順位付けのためにバックログにあります。現在はEDU2に取り掛かっていますが、リソースの選択にブロックされています。
  • Robは、最適な方法に基づいてSLG1のタギング戦略を作成しましたが、自分たちの戦略を作成した他のチームと調整する必要があるかもしれません。タギング戦略を調整するための新しいタスクが作成されました。
  • RobはSLG2のデバッグに進展を見せましたが、追加のサポートが必要かもしれません。このタスクはSprint 2に移動し、追加のリソースを確保するための時間を確保します。

次のステップ:

  • Joeはリソースの選択が決定するまで、可能な範囲でEDU2の作業を続けます
  • 他のチームとのタギング戦略の調整のための優先順位付けされた新しいタスク
  • SLG2をSprint 2に移動しました
  • 来週からスタンドアップは月曜日に移行します

ソリューションを展開する

動作するソリューションがあるので、特定のユースケースにカスタマイズするためのいくつかの潜在的なアイデアを紹介します:

  • 利用可能なソースコンテンツと希望する出力に合わせてプロセスを変更してみてください:
    • トランスクリプトが利用可能な場合、既存のテキストベースまたはPDFベースのトランスクリプションを取り込むための代替のステップ関数ワークフローを作成してください。
    • Amazon SNSを使用して受信者に電子メールで通知する代わりに、チームの共有サイトやチャットチャネルなど別のエンドポイントに出力を送信するために使用することもできます。
  • Amazon Bedrockに提供されるCloudFormationスタックパラメーターで指定された概要の手順を変更して、ユースケースに特化した出力を生成するために試してみてください(これは生成的AIプロンプトです):
    • 企業の業績発表の要約を作成する場合、モデルは潜在的な有望な機会、懸念事項、および監視を継続するべき事項に焦点を当てることができます。
    • コースの講義を要約するためにこれを使用している場合、モデルは予定されている課題、主要な概念の要約、事実のリストを特定し、録音からの雑談を除外することができます。
  • 同じ録音に対して、異なる受け手向けに異なる要約を作成してみてください:
    • エンジニア向けの要約は、設計の意思決定、技術的な課題、および今後の納品物に焦点を当てます。
    • プロジェクトマネージャー向けの要約は、タイムライン、コスト、納品物、行動事項に焦点を当てます。
    • プロジェクトのスポンサーは、プロジェクトのステータスとエスカレーションに関する簡単な更新情報を受け取ります。
    • より長い録音に対しては、興味の度合いと時間の制約に応じて異なる要約を生成してみてください。例えば、1文、1段落、1ページ、または詳細な要約を作成することができます。プロンプトに加えて、異なるコンテンツの長さに対応するためにmax_tokens_to_sampleパラメーターを調整することもおすすめです。

クリーンアップ

ソリューションをクリーンアップするには、以前に作成したCloudFormationスタックを削除してください。スタックを削除してもアセットバケットは削除されませんので、録音やトランスクリプトが不要になった場合は別途このバケットを削除することができます。Amazon Transcribeはトランスクリプションジョブを自動的に90日後に削除しますが、それ以前に手動で削除することもできます。

まとめ

この記事では、Amazon TranscribeとAmazon Bedrockを使用して、ビデオや音声の録音のクリーンで簡潔な要約を自動的に生成する方法について探求しました。Amazon Bedrock、Amazon Transcribe、およびAmazon TextractAmazon TranslateAmazon Rekognitionなどの他のAWS AIサービスを引き続き評価し、ビジネス目標の達成にどのように役立つかを確認することをお勧めします。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIテクノロジー

「AIと芸術における可能性と破壊」

「人工知能は、非常にスムーズなトピックとなっています多くの人々は懐疑的でありながら楽観的でもあり、一部の人々はそれを...

機械学習

「Mozilla Common Voiceにおける音声言語認識 — 音声変換」

これは、Mozilla Common Voiceデータセットに基づく話し言葉認識に関する3番目の記事です第1部では、データの選択とデータの...

AIニュース

Voicebox メタ社の驚異的な音声生成AIツール

Meta(旧Facebook)は、革新的な音声生成を実現する最新の生成AIモデル「Voicebox」をリリースしました

機械学習

「Declarai、FastAPI、およびStreamlitを使用したLLMチャットアプリケーション— パート2 🚀」

前回のVoAGI記事(リンク🔗)の人気を受けて、LLMチャットアプリケーションの展開について詳しく説明しました皆様からのフィ...

機械学習

NODE:表形式に特化したニューラルツリー

近年、機械学習は人気が爆発し、ニューラルディープラーニングモデルは画像やテキストなどの複雑なタスクにおいて、XGBoost [...

データサイエンス

ChatGPTの応用:産業全体におけるポテンシャルの開放

チャットGPTの応用は、仕事や家庭のあらゆる分野で私たちの生活を変えつつありますしかし、どのようにビジネスはそれを成長に...