『NVIDIAの研究者たちが、現行のCTCモデルと互換性のあるGPU加速の重み付き有限状態トランスデューサ(WFST)ビームサーチデコーダを導入』
『NVIDIAの研究者が開発したGPU加速WFSTビームサーチデコーダ』
最近の人工知能の人気を受けて、自動音声認識(ASR)の分野は非常に進歩しました。これによって音声認識技術や人間とコンピュータのインタラクションが大きく変わりました。ASRでは、機械が話された言語をテキストに変換することができます。これは仮想アシスタントや音声文字起こしサービスなど、さまざまなアプリケーションに不可欠です。より正確で効果的なASRシステムのために、研究者たちは潜在的なアルゴリズムを探求しています。
NVIDIAの最近の研究では、研究チームがConnectionist Temporal Classification(CTC)モデルの欠点について調査しました。ASRパイプラインでは、CTCモデルが高い精度を達成するための一流の手法となっています。これらのモデルは、時間的な連続性を解釈する能力が非常に優れており、話された言語の微妙なニュアンスにも対応することができます。しかし、従来のCPUベースのビーム探索デコーディング方法では、CTCモデルの性能が制限されてしまいます。
ビーム探索デコーディングは、話された単語を正確に書き起こすための重要な段階です。従来の方法である貪欲探索法では、各時間ステップでどの出力トークンが最も選ばれる可能性が高いかを音響モデルで決定します。この手法には、コンテキストのバイアスや外部データの処理に伴うさまざまな課題が存在します。
- 朝鮮大学研究者が、ブリーチされたサンゴの正確な位置情報を特定するための機械学習フレームワークを紹介します特徴ベースのハイブリッドビジュアル分類によるものです
- UCバークレーの研究者は、目的指向の対話エージェントのゼロショット獲得を実現する人工知能アルゴリズムを提案しています
- ヴァンダービルト大学とUCデービスからの研究者は、学習および再構築フェーズの両方でメモリ効率の良いPRANCというディープラーニングフレームワークを紹介しました
これらの課題を解決するために、研究チームはGPUを利用したWeighted Finite State Transducer(WFST)ビーム探索デコーダーを提案しました。このアプローチは、現在のCTCモデルとの統合をスムーズに行うことを目的として導入されました。このGPUを利用したデコーダーにより、ASRパイプラインのパフォーマンスが向上し、スループットやレイテンシ、発話固有の単語ブースティングなどの機能のサポートも可能になります。提案されたGPUアクセラレーションデコーダーは、パイプラインのスループットが向上し、レイテンシが低いため、ストリーミング推論に特に適しています。
研究チームは、このアプローチをオフラインおよびオンラインの環境でデコーダーをテストすることで評価しました。オフラインのシナリオでは、最新のCPUデコーダーと比較して、GPUアクセラレーションデコーダーは最大7倍のスループットが向上しました。オンラインストリーミングのシナリオでは、GPUアクセラレーションデコーダーは従来と同じまたはさらに高い単語エラーレートを維持しながら、8倍以上のレイテンシの低下を実現しました。これらの結果から、提案されたGPUアクセラレーションWFSTビーム探索デコーダーをCTCモデルと組み合わせることで、効率と精度が大幅に向上することが示されています。
結論として、CTCモデルのCPUベースのビーム探索デコーディングのパフォーマンス制約を克服するために、このアプローチは非常に優れた効果を発揮することができます。提案されたGPUアクセラレーションデコーダーは、オフラインおよびオンラインの両方の状況でCTCモデルのための最速のビーム探索デコーダーです。なぜなら、スループットが向上し、レイテンシが低下し、先進的な機能をサポートするからです。デコーダーをPythonベースの機械学習フレームワークと統合するために、研究チームはGitHubで事前構築されたDLPackベースのPythonバインディングを提供しています。この作業により、提案されたソリューションをPython開発者とMLフレームワークにとって使いやすく、アクセスしやすくすることができます。カーネルウェーブフィールドトランスデューサーデコーダーはC++とPythonのライブラリであり、コードリポジトリはhttps://github.com/nvidia-riva/riva-asrlib-decoderからアクセスできます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- ワシントン大学とデューク大学の研究者たちは、Punicaを紹介しました:共有GPUクラスタで複数のLoRAモデルを提供するための人工知能システム
- 中国のSJTUの研究者たちは、大規模なLiDARオドメトリ用のウィンドウベースのマスキングされたポイントトランスフォーマーフレームワーク、TransLOを紹介しました
- オープンAIのCEOであるサム・アルトマン氏が解任されました
- アマゾンの研究者が提案するKD-Boost:リアルタイムセマンティックマッチングのための新しい知識蒸留アルゴリズム
- 「中国AI研究チームが導入した4K4D ハードウェアラスタライゼーションをサポートし、前例のない描画速度を実現する4Dポイントクラウド表現」
- このAI論文は、MITが化学研究のために深層学習モデルのスケーリングを探究しています
- 「UCLA研究者が「Rephrase and Respond」(RaR)を導入、LLMsの人間の質問理解を向上させる新しい人工知能手法を紹介」