『NVIDIAの研究者たちが、現行のCTCモデルと互換性のあるGPU加速の重み付き有限状態トランスデューサ(WFST)ビームサーチデコーダを導入』

『NVIDIAの研究者が開発したGPU加速WFSTビームサーチデコーダ』

最近の人工知能の人気を受けて、自動音声認識(ASR)の分野は非常に進歩しました。これによって音声認識技術や人間とコンピュータのインタラクションが大きく変わりました。ASRでは、機械が話された言語をテキストに変換することができます。これは仮想アシスタントや音声文字起こしサービスなど、さまざまなアプリケーションに不可欠です。より正確で効果的なASRシステムのために、研究者たちは潜在的なアルゴリズムを探求しています。

NVIDIAの最近の研究では、研究チームがConnectionist Temporal Classification(CTC)モデルの欠点について調査しました。ASRパイプラインでは、CTCモデルが高い精度を達成するための一流の手法となっています。これらのモデルは、時間的な連続性を解釈する能力が非常に優れており、話された言語の微妙なニュアンスにも対応することができます。しかし、従来のCPUベースのビーム探索デコーディング方法では、CTCモデルの性能が制限されてしまいます。

ビーム探索デコーディングは、話された単語を正確に書き起こすための重要な段階です。従来の方法である貪欲探索法では、各時間ステップでどの出力トークンが最も選ばれる可能性が高いかを音響モデルで決定します。この手法には、コンテキストのバイアスや外部データの処理に伴うさまざまな課題が存在します。

これらの課題を解決するために、研究チームはGPUを利用したWeighted Finite State Transducer(WFST)ビーム探索デコーダーを提案しました。このアプローチは、現在のCTCモデルとの統合をスムーズに行うことを目的として導入されました。このGPUを利用したデコーダーにより、ASRパイプラインのパフォーマンスが向上し、スループットやレイテンシ、発話固有の単語ブースティングなどの機能のサポートも可能になります。提案されたGPUアクセラレーションデコーダーは、パイプラインのスループットが向上し、レイテンシが低いため、ストリーミング推論に特に適しています。

研究チームは、このアプローチをオフラインおよびオンラインの環境でデコーダーをテストすることで評価しました。オフラインのシナリオでは、最新のCPUデコーダーと比較して、GPUアクセラレーションデコーダーは最大7倍のスループットが向上しました。オンラインストリーミングのシナリオでは、GPUアクセラレーションデコーダーは従来と同じまたはさらに高い単語エラーレートを維持しながら、8倍以上のレイテンシの低下を実現しました。これらの結果から、提案されたGPUアクセラレーションWFSTビーム探索デコーダーをCTCモデルと組み合わせることで、効率と精度が大幅に向上することが示されています。

結論として、CTCモデルのCPUベースのビーム探索デコーディングのパフォーマンス制約を克服するために、このアプローチは非常に優れた効果を発揮することができます。提案されたGPUアクセラレーションデコーダーは、オフラインおよびオンラインの両方の状況でCTCモデルのための最速のビーム探索デコーダーです。なぜなら、スループットが向上し、レイテンシが低下し、先進的な機能をサポートするからです。デコーダーをPythonベースの機械学習フレームワークと統合するために、研究チームはGitHubで事前構築されたDLPackベースのPythonバインディングを提供しています。この作業により、提案されたソリューションをPython開発者とMLフレームワークにとって使いやすく、アクセスしやすくすることができます。カーネルウェーブフィールドトランスデューサーデコーダーはC++とPythonのライブラリであり、コードリポジトリはhttps://github.com/nvidia-riva/riva-asrlib-decoderからアクセスできます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

このAI研究は、「Atom」という低ビット量子化技術を導入し、効率的かつ正確な大規模言語モデル(LLM)の提供を行っています

大規模言語モデル(LLM)は、最近の人工知能コミュニティで最新の導入であり、世界中で大きな話題となっています。これらのモ...

機械学習

「3Dで動作する魔法の筆:Blended-NeRFはニューラル放射場におけるゼロショットオブジェクト生成を行うAIモデルです」

ここ数年は、さまざまな分野でユーレカの瞬間が続いています。私たちは、革新的な手法が登場し、巨大な進歩がもたらされるの...

機械学習

MeLoDyとは:音楽合成のための効率的なテキストからオーディオへの拡散モデル

音楽は、調和、メロディ、リズムから成る芸術であり、人生のあらゆる面に浸透しています。深層生成モデルの発展に伴い、音楽...

データサイエンス

マイクロソフトとETHチューリッヒの研究者が「HoloAssist」を紹介:物理世界の次世代AIコパイロットのためのマルチモーダルデータセット

人工知能の分野において、対話型のAIアシスタントを開発し、現実世界のタスクを効果的にナビゲートし、支援することは、ずっ...

機械学習

このAI論文は、言語エージェントのための自然言語とコードの調和を目指して、LemurとLemur Chatを紹介しています

広義では、知的エージェントとは、周囲から収集したデータに基づいて知覚、判断、行動の能力を備えた自律問題解決者です。こ...

機械学習

ロボットスキル合成のための言語から報酬への変換

Googleの研究科学者、Wenhao YuとFei Xiaによる投稿 エンドユーザーがロボットに新しいタスクを教えるためのインタラクティブ...