「ハギングフェイスの研究者たちは、Distil-Whisperを紹介しました:高性能でリソースが限られた環境におけるギャップを埋めるコンパクトな音声認識モデル」
「ハギングフェイスの研究者たちが紹介する:Distil-Whisper - 限られたリソース環境でギャップを埋めるコンパクトな音声認識モデル」
ハギングフェイスの研究者たちは、リソース制約のある環境での大規模な事前学習済音声認識モデルの展開の問題に取り組んできました。彼らは、擬似ラベリングを通じて大規模なオープンソースデータセットを作成することにより、この問題を解決しました。そのデータセットは、Distil-Whisperと呼ばれるWhisperモデルのより小さいバージョンの煮詰まった形式に蒸留されるために利用されました。
Whisper音声認識トランスフォーマーモデルは、ノイズの多いインターネット音声データの680,000時間の事前学習を行いました。これは、トランスフォーマーベースのエンコーダとデコーダのコンポーネントを含み、ファインチューニングなしでゼロショットシナリオで競争力のある結果を実現しています。Distil-Whisperは、擬似ラベリングを使用して行われた知識蒸留を通じて派生したコンパクトなバージョンです。Distil-Whisperは、長い形式のオーディオにおける幻聴エラーを緩和しながら、Whisperモデルの耐音響的な状況への頑健性を維持しています。この研究は、音声データのための大規模な擬似ラベリング方法を導入し、知識蒸留に対する未探索でありながら有望なアプローチです。
自動音声認識(ASR)システムは人間レベルの精度に達しましたが、リソース制約のある環境での事前学習モデルのサイズの増大による課題に直面しています。Whisperは大規模な事前学習済ASRモデルで、さまざまなデータセットで優れた性能を発揮しますが、低レイテンシの展開にはより実用的になる可能性があります。知識蒸留はNLPトランスフォーマーモデルを効果的に圧縮してきましたが、音声認識での利用は未探索です。
- このAI研究は、単一の画像を探索可能な3Dシーンに変換する、パノラマニックNeRF(PERF)を紹介します
- このAI研究は、高品質なビデオ生成のための2つの拡散モデル、テキストからビデオ(T2V)モデルと画像からビデオ(I2V)モデルを紹介します
- このAI研究は、「Atom」という低ビット量子化技術を導入し、効率的かつ正確な大規模言語モデル(LLM)の提供を行っています
提案されたアプローチでは、知識蒸留を容易にするために、擬似ラベリングを使用して大規模なオープンソースデータセットを構築します。トレーニング品質を確保するために、最適な擬似ラベルの選択にWERヒューリスティックが使用されます。知識蒸留の目的は、Kullback-Leibler距離と擬似ラベルの項の組み合わせで、学生の隠れ層の出力を教師のものと一致させるために平均二乗誤差の成分を導入することです。この蒸留技術は、Seq2Seq ASRフレームワーク内のWhisperモデルに適用され、一貫した転写のフォーマッティングとシーケンスレベルの蒸留ガイダンスを提供します。
知識蒸留によって得られたDistil-Whisperは、元のWhisperモデルと比較してスピードが向上し、パラメータが削減されています。ゼロショットシナリオでの分布外テストデータにおいて、Distil-Whisperは1%未満のWERを達成し、5.8倍の高速化と51%のパラメータ削減を実現しています。distil-medium.enモデルは、わずかに高いWERを持っていますが、6.8倍の即時推論と75%のモデル圧縮を示しています。Whisperモデルは長い形式のオーディオ転写において幻聴エラーに対して脆弱ですが、Distil-Whisperはこれらのエラーを軽減しながら競争力のあるWER性能を維持しています。
結論として、Distil-Whisperは知識蒸留を通じて実現されたWhisperモデルのコンパクトなバリアントです。この革新的なアプローチは、元のWhisperモデルと比較してスピードとパラメータの削減の面で注目すべき利益をもたらします。distil-medium.enモデルはわずかに高いWERを示していますが、より即時の推論と大規模なモデル圧縮を提供しています。
将来の研究では、音声認識におけるトランスフォーマーベースのモデルを圧縮するための音声ドメインの知識蒸留と擬似ラベリングの可能性が有望です。さまざまなフィルタリング方法や閾値が転写品質やダウンストリームのモデル性能に与える影響の調査は、知識蒸留の最適化に貴重な知見を提供することができます。レイヤーベースの方法や平均二乗誤差項を使用した他の圧縮技術の探索は、パフォーマンスを犠牲にすることなくさらなるモデル圧縮を実現する可能性があります。この研究で提供されたトレーニングコード、推論コード、およびモデルは、音声認識のための知識蒸留に関するさらなる研究や実験において貴重なリソースとなるでしょう。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- このAI研究により、チップデザインに適した言語モデルの独自な手法が紹介されています
- オックスフォード大学の研究者たちは、DynPointという人工知能アルゴリズムを開発しましたこのアルゴリズムは、自由な単眼ビデオの新しい視点を迅速に合成することを目的としています
- 中国の研究者たちは、複雑な現実世界の課題を解決するために、大規模言語模型(LLM)がマルチモーダルツールを利用できるようにする人工知能フレームワークであるControlLLMを紹介しました
- マイクロソフトの研究者が「LoRAShear LLMの構造的な剪定と知識の回復に対する画期的な人工知能効率的アプローチ」を紹介
- サリー大学の研究者が新しい人工知能(AI)モデルを開発しましたこのモデルは、通信ネットワークが最大76%ものネットワークを節約できる可能性があります
- COSPとUSPの内部:GoogleがLLMsの推論を進めるための新しい方法を研究する
- 「ビジョン・トランスフォーマーの内部機能」