「ハギングフェイスの研究者たちは、Distil-Whisperを紹介しました:高性能でリソースが限られた環境におけるギャップを埋めるコンパクトな音声認識モデル」

「ハギングフェイスの研究者たちが紹介する:Distil-Whisper - 限られたリソース環境でギャップを埋めるコンパクトな音声認識モデル」

ハギングフェイスの研究者たちは、リソース制約のある環境での大規模な事前学習済音声認識モデルの展開の問題に取り組んできました。彼らは、擬似ラベリングを通じて大規模なオープンソースデータセットを作成することにより、この問題を解決しました。そのデータセットは、Distil-Whisperと呼ばれるWhisperモデルのより小さいバージョンの煮詰まった形式に蒸留されるために利用されました。

Whisper音声認識トランスフォーマーモデルは、ノイズの多いインターネット音声データの680,000時間の事前学習を行いました。これは、トランスフォーマーベースのエンコーダとデコーダのコンポーネントを含み、ファインチューニングなしでゼロショットシナリオで競争力のある結果を実現しています。Distil-Whisperは、擬似ラベリングを使用して行われた知識蒸留を通じて派生したコンパクトなバージョンです。Distil-Whisperは、長い形式のオーディオにおける幻聴エラーを緩和しながら、Whisperモデルの耐音響的な状況への頑健性を維持しています。この研究は、音声データのための大規模な擬似ラベリング方法を導入し、知識蒸留に対する未探索でありながら有望なアプローチです。

自動音声認識(ASR)システムは人間レベルの精度に達しましたが、リソース制約のある環境での事前学習モデルのサイズの増大による課題に直面しています。Whisperは大規模な事前学習済ASRモデルで、さまざまなデータセットで優れた性能を発揮しますが、低レイテンシの展開にはより実用的になる可能性があります。知識蒸留はNLPトランスフォーマーモデルを効果的に圧縮してきましたが、音声認識での利用は未探索です。

提案されたアプローチでは、知識蒸留を容易にするために、擬似ラベリングを使用して大規模なオープンソースデータセットを構築します。トレーニング品質を確保するために、最適な擬似ラベルの選択にWERヒューリスティックが使用されます。知識蒸留の目的は、Kullback-Leibler距離と擬似ラベルの項の組み合わせで、学生の隠れ層の出力を教師のものと一致させるために平均二乗誤差の成分を導入することです。この蒸留技術は、Seq2Seq ASRフレームワーク内のWhisperモデルに適用され、一貫した転写のフォーマッティングとシーケンスレベルの蒸留ガイダンスを提供します。

知識蒸留によって得られたDistil-Whisperは、元のWhisperモデルと比較してスピードが向上し、パラメータが削減されています。ゼロショットシナリオでの分布外テストデータにおいて、Distil-Whisperは1%未満のWERを達成し、5.8倍の高速化と51%のパラメータ削減を実現しています。distil-medium.enモデルは、わずかに高いWERを持っていますが、6.8倍の即時推論と75%のモデル圧縮を示しています。Whisperモデルは長い形式のオーディオ転写において幻聴エラーに対して脆弱ですが、Distil-Whisperはこれらのエラーを軽減しながら競争力のあるWER性能を維持しています。

結論として、Distil-Whisperは知識蒸留を通じて実現されたWhisperモデルのコンパクトなバリアントです。この革新的なアプローチは、元のWhisperモデルと比較してスピードとパラメータの削減の面で注目すべき利益をもたらします。distil-medium.enモデルはわずかに高いWERを示していますが、より即時の推論と大規模なモデル圧縮を提供しています。

将来の研究では、音声認識におけるトランスフォーマーベースのモデルを圧縮するための音声ドメインの知識蒸留と擬似ラベリングの可能性が有望です。さまざまなフィルタリング方法や閾値が転写品質やダウンストリームのモデル性能に与える影響の調査は、知識蒸留の最適化に貴重な知見を提供することができます。レイヤーベースの方法や平均二乗誤差項を使用した他の圧縮技術の探索は、パフォーマンスを犠牲にすることなくさらなるモデル圧縮を実現する可能性があります。この研究で提供されたトレーニングコード、推論コード、およびモデルは、音声認識のための知識蒸留に関するさらなる研究や実験において貴重なリソースとなるでしょう。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

『Stack OverflowがOverflowをリリース:開発者コミュニティとAIの統合』

Stack Overflow(スタック・オーバーフロー)は、問題解決と知識を求める開発者のための名高いプラットフォームであり、新し...

AIニュース

AIの今週、8月18日:OpenAIが財政的な問題に直面 • Stability AIがStableCodeを発表

「This Week in AI」はVoAGIで提供される、人工知能の世界での最新の出来事を週ごとにまとめた記事です最新のヘッドライン、...

AIニュース

パーソナライズされたA.I.エージェントがここにあります世界は彼らに対して準備ができていますか?

「自律型AIアシスタントの時代は、大きな影響をもたらす可能性があります」

AI研究

MITの研究者たちは「MechGPT」を導入しました:メカニクスと材料モデリングにおいてスケール、学問領域、およびモダリティをつなぐ言語ベースのパイオニア

研究者たちは、物質科学の広範な領域において密度の濃い科学的な文書から重要な洞察を効率的に抽出するという困難な課題に直...

データサイエンス

データを中心に:Srikanth Velamakanniと共にデータドリブンの組織を築く

Analytics Vidhyaの「データを活用したリーダーシップ(Leading With Data)」は、業界のリーダーが自身の経験、キャリアの道...

データサイエンス

2024年にフォローすべきトップ10のデータサイエンスYouTubeチャンネル

イントロダクション データサイエンスは、プログラミング、統計学、ドメインの専門知識を組み合わせてデータから洞察力と知識...