Amazon Transcribeは、100以上の言語に対応する新しいスピーチ基礎モデル搭載のASRシステムを発表しました

Amazon Transcribeが新しいスピーチ基盤モデル搭載のASRシステムを発表、100以上の言語に対応

Amazon Transcribeは、アプリケーションに音声からテキストへの変換機能を追加するのが簡単な、完全に管理された自動音声認識（ASR）サービスです。今日、私たちは100以上の言語に自動音声認識を拡大する、次世代の数十億のパラメータにわたる音声基盤モデルを発表できることを喜んでお知らせします。こちらの記事では、このシステムのいくつかの利点、企業がどのように活用しているか、そして始める方法について説明します。また、以下に転送の例も提供します。

Transcribeの音声基盤モデルは、言語やアクセントを越えた人間の音声の普遍的なパターンを学習するため、ベストインクラスの自己学習アルゴリズムを使用してトレーニングされています。それは100以上の言語の数百万時間にわたる非ラベル付きオーディオデータでトレーニングされています。トレーニングレシピは、言語間のトレーニングデータをバランスよくするためにスマートなデータサンプリングによって最適化されており、従来の低頻度言語でも高い精度レベルに到達することが保証されています。

Carbyneは、緊急時の通話応対のためにクラウドベースの使命重視の連絡センターソリューションを開発するソフトウェア企業です。Carbyneのミッションは、緊急対応者が命を救えるようにすることであり、言語は彼らの目標の邪魔になるわけではありません。以下は、彼らがミッションを追求するためにAmazon Transcribeをどのように活用しているかの説明です：

「AIパワードカーバインライブオーディオトランスレーションは、英語以外を母国語とする6800万人のアメリカ人と、年間およそ7900万人の外国人訪問者が緊急時応対の改善を支援することを目標としています。Amazon Transcribeの新しい多言語基盤モデルのASRを活用することで、カーバインは命を救う緊急サービスを民主化するためにより優れた装備を持つようになります、なぜならば、全ての個人が重要だからです。」
医療画像AIがより簡単になりました：NVIDIAがMONAIをホステッドクラウドサービスとして提供
効果的にLLMをトレーニングする方法：小規模な導入のためのベストプラクティス
「PhysGaussian（フィジカルガウシアン）に会いましょう：物理的に根拠のあるニュートン力学を3Dガウス関数に組み込むことで高品質な新世代モーションシンセシスを生み出す人工知能技術」

– Carbyneの共同創設者でありCTOであるAlex Dizengof

音声基盤モデルを活用することにより、Amazon Transcribeはほとんどの言語で20％から50％の精度向上を実現します。困難でデータの少ない電話音声では、精度の向上は30％から70％です。精度の大幅な向上に加えて、この大規模なASRモデルは、より正確な句読点と大文字小文字を備えた可読性の向上ももたらします。生成的AIの出現により、数千の企業がAmazon Transcribeを使用して、オーディオコンテンツから豊かな知見を引き出しています。精度が大幅に向上し、100以上の言語に対応するAmazon Transcribeは、すべての使用ケースにポジティブな影響を与えます。既存のおよび新規のバッチモードでAmazon Transcribeを使用している顧客は、APIエンドポイントまたは入力パラメータに変更を加える必要なく、音声基盤モデルに基づく音声認識にアクセスできます。

新しいASRシステムは、使用の容易性、カスタマイズ、ユーザーの安全性、プライバシーの面で100以上の言語に関連するいくつかの主要な特徴を提供します。これには自動句読点、カスタム語彙、自動言語識別、話者分割、単語レベルの信頼性スコア、およびカスタム語彙フィルターなどの機能が含まれます。さまざまなアクセント、ノイズ環境、音響環境への拡張サポートにより、より正確な出力を生成し、アプリケーションで音声テクノロジーを効果的に組み込むのに役立ちます。

さまざまなアクセントやノイズの条件でAmazon Transcribeの高い精度を活用し、多数の言語をサポートし、バリューアッドの特徴セットを備えていることから、数千の企業がそのオーディオコンテンツから豊富な知識を引き出し、さまざまなドメインでオーディオやビデオコンテンツのアクセシビリティと探索性を高めることができるようになります。例えば、コンタクトセンターでは顧客の通話を転記して分析し、洞察を特定し、それによって顧客体験やエージェントの生産性を向上させます。コンテンツプロデューサーやメディア配信業者は、Amazon Transcribeを使用して自動的に字幕を生成し、コンテンツのアクセシビリティを向上させます。

Amazon Transcribeの利用を開始する

AWSコマンドラインインターフェース（AWS CLI）、AWS管理コンソール、およびさまざまなAWS SDKを使用してバッチ転記を行い、拡張されたASRモデルからのパフォーマンスの利点を享受するために、コードやパラメータの変更は必要ありません。AWS CLIおよびコンソールの使用方法の詳細については、それぞれ「AWS CLIで転記する」および「AWS管理コンソールで転記する」を参照してください。

最初のステップは、メディアファイルをAmazon Simple Storage Service（Amazon S3）バケットにアップロードすることです。Amazon S3は、どこからでも任意のデータ量を保存し、取得するために構築されたオブジェクトストレージサービスであり、業界をリードする耐久性、可用性、パフォーマンス、セキュリティ、そしてほぼ無制限のスケーラビリティを非常に低コストで提供します。自分自身のS3バケットにトランスクリプトを保存するか、Amazon Transcribeが安全なデフォルトのバケットを使用するかを選択できます。S3バケットの使用方法の詳細については、Amazon S3バケットの作成、設定、および操作を参照してください。

転写の結果

Amazon Transcribeは、その出力にJSON表現を使用します。テキスト形式と項目化形式の2つの異なる形式で転写結果を提供します。APIエンドポイントや入力パラメータに関しては何も変更されません。

テキスト形式では、テキストのブロックとしてトランスクリプトが提供されます。一方、項目化形式ではタイムリーに順序付けられた項目ごとに転写されたトランスクリプトが追加のメタデータとともに提供されます。両方の形式は出力ファイル内に並行して存在します。

転写ジョブの作成時に選択した機能に応じて、Amazon Transcribeは転写結果の追加の豊かなビューを作成します。以下は例です:

{   "jobName": "2x-speakers_2x-channels",    "accountId": "************",    "results": {        "transcripts": [{                "transcript": "こんにちは、ようこそ。"            }        ],        "speaker_labels": [            {                "channel_label": "ch_0",                "speakers": 2,                "segments": [                ]            },            {                "channel_label": "ch_1",                "speakers": 2,                "segments": [                ]            }        ],        "channel_labels": {            "channels": [            ],            "number_of_channels": 2        },        "items": [                    ],        "segments": [        ]    },    "status": "COMPLETED"}

以下は各ビューについての説明です:

トランスクリプト – transcripts要素によって表され、トランスクリプトのテキスト形式のみが含まれます。マルチスピーカー、マルチチャネルの場合、すべてのトランスクリプトの結合が単一のブロックとして提供されます。
スピーカー – speaker_labels要素によって表され、スピーカーごとにグループ化されたトランスクリプトのテキスト形式と項目化形式が含まれます。マルチスピーカー機能が有効な場合のみ利用できます。
チャンネル – channel_labels要素によって表され、チャンネルごとにグループ化されたトランスクリプトのテキスト形式と項目化形式が含まれます。マルチチャネル機能が有効な場合のみ利用できます。
項目 – items要素によって表され、トランスクリプトの項目化形式のみが含まれます。マルチスピーカー、マルチチャネルの場合、項目にはスピーカーとチャンネルを示す追加のプロパティが付加されます。
セグメント – segments要素によって表され、代替転写ごとにグループ化されたトランスクリプトのテキスト形式と項目化形式が含まれます。代替結果機能が有効な場合のみ利用できます。

結論

AWSでは、常にお客様のためにイノベーションを行っています。Amazon Transcribeでの言語サポートを100以上の言語に拡張することで、お客様は多様な言語背景を持つユーザーに対応できるようになります。これにより、アクセシビリティが向上するだけでなく、グローバルな規模でのコミュニケーションと情報交換の新たな可能性が開かれます。この投稿で説明された機能について詳しくは、機能ページと新機能の投稿をご覧ください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Amazon TranscribeAnnouncementsGenerative AI

Was this article helpful?

93 out of 132 found this helpful

Amazon Transcribeは、100以上の言語に対応する新しいスピーチ基礎モデル搭載のASRシステムを発表しました

Amazon Transcribeの利用を開始する

転写の結果

結論

Was this article helpful?

「AIアシスタントと共に気候変動に備える」

UC San Diegoの研究者たちは、EUGENeという使いやすいディープラーニングゲノミクスソフトウェアを紹介します

機械学習

「人間の活動認識におけるディープラーニング：このAI研究は、Raspberry PiとLSTMを使用した適応的なアプローチを導入し、位置に依存しない正確性を高めます」

エッジコンピューティングにおけるAI：リアルタイムを向上させるアルゴリズムの実装

エッセンシャルコンプレクシティは、開発者のユニークセリングポイントです

DEF CONでハッカーたちがいたずらをしてAIの脆弱性を暴露

「AIが航空会社のコントレイルによる気候への影響を軽減するのに役立っている方法」

ゼロトラストから安全なアクセスへ：クラウドセキュリティの進化