『NVIDIAの研究者たちが、現行のCTCモデルと互換性のあるGPU加速の重み付き有限状態トランスデューサ(WFST)ビームサーチデコーダを導入』

『NVIDIAの研究者が開発したGPU加速WFSTビームサーチデコーダ』

最近の人工知能の人気を受けて、自動音声認識(ASR)の分野は非常に進歩しました。これによって音声認識技術や人間とコンピュータのインタラクションが大きく変わりました。ASRでは、機械が話された言語をテキストに変換することができます。これは仮想アシスタントや音声文字起こしサービスなど、さまざまなアプリケーションに不可欠です。より正確で効果的なASRシステムのために、研究者たちは潜在的なアルゴリズムを探求しています。

NVIDIAの最近の研究では、研究チームがConnectionist Temporal Classification(CTC)モデルの欠点について調査しました。ASRパイプラインでは、CTCモデルが高い精度を達成するための一流の手法となっています。これらのモデルは、時間的な連続性を解釈する能力が非常に優れており、話された言語の微妙なニュアンスにも対応することができます。しかし、従来のCPUベースのビーム探索デコーディング方法では、CTCモデルの性能が制限されてしまいます。

ビーム探索デコーディングは、話された単語を正確に書き起こすための重要な段階です。従来の方法である貪欲探索法では、各時間ステップでどの出力トークンが最も選ばれる可能性が高いかを音響モデルで決定します。この手法には、コンテキストのバイアスや外部データの処理に伴うさまざまな課題が存在します。

これらの課題を解決するために、研究チームはGPUを利用したWeighted Finite State Transducer(WFST)ビーム探索デコーダーを提案しました。このアプローチは、現在のCTCモデルとの統合をスムーズに行うことを目的として導入されました。このGPUを利用したデコーダーにより、ASRパイプラインのパフォーマンスが向上し、スループットやレイテンシ、発話固有の単語ブースティングなどの機能のサポートも可能になります。提案されたGPUアクセラレーションデコーダーは、パイプラインのスループットが向上し、レイテンシが低いため、ストリーミング推論に特に適しています。

研究チームは、このアプローチをオフラインおよびオンラインの環境でデコーダーをテストすることで評価しました。オフラインのシナリオでは、最新のCPUデコーダーと比較して、GPUアクセラレーションデコーダーは最大7倍のスループットが向上しました。オンラインストリーミングのシナリオでは、GPUアクセラレーションデコーダーは従来と同じまたはさらに高い単語エラーレートを維持しながら、8倍以上のレイテンシの低下を実現しました。これらの結果から、提案されたGPUアクセラレーションWFSTビーム探索デコーダーをCTCモデルと組み合わせることで、効率と精度が大幅に向上することが示されています。

結論として、CTCモデルのCPUベースのビーム探索デコーディングのパフォーマンス制約を克服するために、このアプローチは非常に優れた効果を発揮することができます。提案されたGPUアクセラレーションデコーダーは、オフラインおよびオンラインの両方の状況でCTCモデルのための最速のビーム探索デコーダーです。なぜなら、スループットが向上し、レイテンシが低下し、先進的な機能をサポートするからです。デコーダーをPythonベースの機械学習フレームワークと統合するために、研究チームはGitHubで事前構築されたDLPackベースのPythonバインディングを提供しています。この作業により、提案されたソリューションをPython開発者とMLフレームワークにとって使いやすく、アクセスしやすくすることができます。カーネルウェーブフィールドトランスデューサーデコーダーはC++とPythonのライブラリであり、コードリポジトリはhttps://github.com/nvidia-riva/riva-asrlib-decoderからアクセスできます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「自動通話要約を通じて、エージェントの生産性を向上させるために生成的AIを使用する」

あなたのコンタクトセンターは、ビジネスと顧客の間の重要なリンクとして機能しますコンタクトセンターへのすべての電話は、...

データサイエンス

クラウドを通じたデジタルトランスフォーメーションの推進

オラクルクラウドワールドの基調講演では、クラウドとAIを活用してデジタル変革の旅を進める業界リーダーたちが、経験とビジ...

AIニュース

学校でのAI教育の台頭:現実と未来の可能性のバランス

多くの野心的なティーンエイジャーたちは、AIについて学ぶ機会をより充実させるよう学校に提唱しています

人工知能

SalesforceのLive Call Analyticsによる統合でエージェントの生産性を向上させる

コンタクトセンターエージェントとして、生産的な顧客との会話に集中することが好きですか?それとも、さまざまなシステムに...

AI研究

Amazon AlexaのAI研究者がQUADRoを発表:QAシステムの向上に向けた画期的なリソースで、440,000以上のアノテーション付きの例があります

人工知能(AI)と機械学習(ML)の能力は、あらゆる可能な産業に進出することを成功裏に可能にしました。最近では、大規模言...

機械学習

『LLM360をご紹介します:最初の完全オープンソースで透明な大規模言語モデル(LLM)』

“`html オープンソースの大規模言語モデル(LLM)であるLLaMA、Falcon、Mistralなどは、AIのプロフェッショナルや学者...