『NVIDIAの研究者たちが、現行のCTCモデルと互換性のあるGPU加速の重み付き有限状態トランスデューサ(WFST)ビームサーチデコーダを導入』

『NVIDIAの研究者が開発したGPU加速WFSTビームサーチデコーダ』

最近の人工知能の人気を受けて、自動音声認識(ASR)の分野は非常に進歩しました。これによって音声認識技術や人間とコンピュータのインタラクションが大きく変わりました。ASRでは、機械が話された言語をテキストに変換することができます。これは仮想アシスタントや音声文字起こしサービスなど、さまざまなアプリケーションに不可欠です。より正確で効果的なASRシステムのために、研究者たちは潜在的なアルゴリズムを探求しています。

NVIDIAの最近の研究では、研究チームがConnectionist Temporal Classification(CTC)モデルの欠点について調査しました。ASRパイプラインでは、CTCモデルが高い精度を達成するための一流の手法となっています。これらのモデルは、時間的な連続性を解釈する能力が非常に優れており、話された言語の微妙なニュアンスにも対応することができます。しかし、従来のCPUベースのビーム探索デコーディング方法では、CTCモデルの性能が制限されてしまいます。

ビーム探索デコーディングは、話された単語を正確に書き起こすための重要な段階です。従来の方法である貪欲探索法では、各時間ステップでどの出力トークンが最も選ばれる可能性が高いかを音響モデルで決定します。この手法には、コンテキストのバイアスや外部データの処理に伴うさまざまな課題が存在します。

これらの課題を解決するために、研究チームはGPUを利用したWeighted Finite State Transducer(WFST)ビーム探索デコーダーを提案しました。このアプローチは、現在のCTCモデルとの統合をスムーズに行うことを目的として導入されました。このGPUを利用したデコーダーにより、ASRパイプラインのパフォーマンスが向上し、スループットやレイテンシ、発話固有の単語ブースティングなどの機能のサポートも可能になります。提案されたGPUアクセラレーションデコーダーは、パイプラインのスループットが向上し、レイテンシが低いため、ストリーミング推論に特に適しています。

研究チームは、このアプローチをオフラインおよびオンラインの環境でデコーダーをテストすることで評価しました。オフラインのシナリオでは、最新のCPUデコーダーと比較して、GPUアクセラレーションデコーダーは最大7倍のスループットが向上しました。オンラインストリーミングのシナリオでは、GPUアクセラレーションデコーダーは従来と同じまたはさらに高い単語エラーレートを維持しながら、8倍以上のレイテンシの低下を実現しました。これらの結果から、提案されたGPUアクセラレーションWFSTビーム探索デコーダーをCTCモデルと組み合わせることで、効率と精度が大幅に向上することが示されています。

結論として、CTCモデルのCPUベースのビーム探索デコーディングのパフォーマンス制約を克服するために、このアプローチは非常に優れた効果を発揮することができます。提案されたGPUアクセラレーションデコーダーは、オフラインおよびオンラインの両方の状況でCTCモデルのための最速のビーム探索デコーダーです。なぜなら、スループットが向上し、レイテンシが低下し、先進的な機能をサポートするからです。デコーダーをPythonベースの機械学習フレームワークと統合するために、研究チームはGitHubで事前構築されたDLPackベースのPythonバインディングを提供しています。この作業により、提案されたソリューションをPython開発者とMLフレームワークにとって使いやすく、アクセスしやすくすることができます。カーネルウェーブフィールドトランスデューサーデコーダーはC++とPythonのライブラリであり、コードリポジトリはhttps://github.com/nvidia-riva/riva-asrlib-decoderからアクセスできます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

トゥギャザーアイは、ShortおよびLongコンテキストの評価で最高のオープンソーストランスフォーマーに対抗する、StripedHyena-7Bという代替人工知能モデルを紹介します

AIと共に、シーケンスモデリングアーキテクチャへの大きな貢献を果たし、StripedHyenaモデルを導入しました。従来のトランス...

機械学習

ジョージア工科大学のこのAI論文は、より速く信頼性の高い方法で潜在的な超伝導体の新しい候補を特定するための人工知能手法を提案しています

超電導体は、臨界温度以下に冷却されると、電気抵抗を無視することができ、ゼロ抵抗を示します。この素晴らしい超電導体の特...

機械学習

Google AIは、TPUを使用して流体の流れを計算するための新しいTensorFlowシミュレーションフレームワークを導入しました

流体力学では、数値技術とアルゴリズムを用いて流体の流れと熱伝達の挙動を調べ、解決する問題を計算流体力学(CFD)として知...

人工知能

「チャットモデル対決:GPT-4 vs. GPT-3.5 vs. LLaMA-2によるシミュレートされた討論会-パート1」

最近、MetaがGPT-4と競合するチャットモデルを開発する計画を発表し、AnthropicがClaude2を発売したことにより、どのモデルが...

機械学習

魚の養殖スタートアップ、AIを投入して水産養殖をより効率的かつ持続可能にする

海洋生物学の学生だったJosef Melchnerは、イルカ、クジラ、魚を探すために毎日海をクルーズすることを常に夢見ていましたが...

AI研究

マイクロソフトの研究者たちは、人間のフィードバックを用いた強化学習のためのメモリ効率の高い解決策であるHydra-RLHFを紹介しました

知名度が高まった以来、ChatGPT、GPT-4、Llama-2ファミリーモデルは、さまざまな仕事の有用な助手としての汎用性により、ユー...