「ハギングフェイスの研究者たちは、Distil-Whisperを紹介しました:高性能でリソースが限られた環境におけるギャップを埋めるコンパクトな音声認識モデル」

「ハギングフェイスの研究者たちが紹介する:Distil-Whisper - 限られたリソース環境でギャップを埋めるコンパクトな音声認識モデル」

ハギングフェイスの研究者たちは、リソース制約のある環境での大規模な事前学習済音声認識モデルの展開の問題に取り組んできました。彼らは、擬似ラベリングを通じて大規模なオープンソースデータセットを作成することにより、この問題を解決しました。そのデータセットは、Distil-Whisperと呼ばれるWhisperモデルのより小さいバージョンの煮詰まった形式に蒸留されるために利用されました。

Whisper音声認識トランスフォーマーモデルは、ノイズの多いインターネット音声データの680,000時間の事前学習を行いました。これは、トランスフォーマーベースのエンコーダとデコーダのコンポーネントを含み、ファインチューニングなしでゼロショットシナリオで競争力のある結果を実現しています。Distil-Whisperは、擬似ラベリングを使用して行われた知識蒸留を通じて派生したコンパクトなバージョンです。Distil-Whisperは、長い形式のオーディオにおける幻聴エラーを緩和しながら、Whisperモデルの耐音響的な状況への頑健性を維持しています。この研究は、音声データのための大規模な擬似ラベリング方法を導入し、知識蒸留に対する未探索でありながら有望なアプローチです。

自動音声認識(ASR)システムは人間レベルの精度に達しましたが、リソース制約のある環境での事前学習モデルのサイズの増大による課題に直面しています。Whisperは大規模な事前学習済ASRモデルで、さまざまなデータセットで優れた性能を発揮しますが、低レイテンシの展開にはより実用的になる可能性があります。知識蒸留はNLPトランスフォーマーモデルを効果的に圧縮してきましたが、音声認識での利用は未探索です。

提案されたアプローチでは、知識蒸留を容易にするために、擬似ラベリングを使用して大規模なオープンソースデータセットを構築します。トレーニング品質を確保するために、最適な擬似ラベルの選択にWERヒューリスティックが使用されます。知識蒸留の目的は、Kullback-Leibler距離と擬似ラベルの項の組み合わせで、学生の隠れ層の出力を教師のものと一致させるために平均二乗誤差の成分を導入することです。この蒸留技術は、Seq2Seq ASRフレームワーク内のWhisperモデルに適用され、一貫した転写のフォーマッティングとシーケンスレベルの蒸留ガイダンスを提供します。

知識蒸留によって得られたDistil-Whisperは、元のWhisperモデルと比較してスピードが向上し、パラメータが削減されています。ゼロショットシナリオでの分布外テストデータにおいて、Distil-Whisperは1%未満のWERを達成し、5.8倍の高速化と51%のパラメータ削減を実現しています。distil-medium.enモデルは、わずかに高いWERを持っていますが、6.8倍の即時推論と75%のモデル圧縮を示しています。Whisperモデルは長い形式のオーディオ転写において幻聴エラーに対して脆弱ですが、Distil-Whisperはこれらのエラーを軽減しながら競争力のあるWER性能を維持しています。

結論として、Distil-Whisperは知識蒸留を通じて実現されたWhisperモデルのコンパクトなバリアントです。この革新的なアプローチは、元のWhisperモデルと比較してスピードとパラメータの削減の面で注目すべき利益をもたらします。distil-medium.enモデルはわずかに高いWERを示していますが、より即時の推論と大規模なモデル圧縮を提供しています。

将来の研究では、音声認識におけるトランスフォーマーベースのモデルを圧縮するための音声ドメインの知識蒸留と擬似ラベリングの可能性が有望です。さまざまなフィルタリング方法や閾値が転写品質やダウンストリームのモデル性能に与える影響の調査は、知識蒸留の最適化に貴重な知見を提供することができます。レイヤーベースの方法や平均二乗誤差項を使用した他の圧縮技術の探索は、パフォーマンスを犠牲にすることなくさらなるモデル圧縮を実現する可能性があります。この研究で提供されたトレーニングコード、推論コード、およびモデルは、音声認識のための知識蒸留に関するさらなる研究や実験において貴重なリソースとなるでしょう。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

研究者たちは、複雑なシステムを正確にシミュレーションするためのツールを作成しました

彼らが開発したシステムは、シミュレーションにおけるバイアスの源を排除し、アルゴリズムの改善につながり、アプリケーショ...

機械学習

「Amazon SageMakerスマートシフティングを使用して、ディープラーニングモデルのトレーニングを最大35%高速化」

今日の急速に進化する人工知能の風景において、ディープラーニングモデルは革新の最前線に位置しており、コンピュータビジョ...

AI研究

Covid-19の多様な変異株に対応する多目的ワクチンの作成

機械学習の助けを得て、科学者たちは、すべてのSARS-CoV-2株に対して有効なワクチンを開発するために取り組んでいます

AI研究

ネゲヴのベン・グリオン大学の研究者たちは、社会的規範の違反を特定するAIシステムを設計しました

社会心理学辞典によれば、社会的規範は特定の社会的文脈内で典型的かつ適切な行動を示す社会的に決定された基準です。これら...

データサイエンス

「ハックからハーモニーへ:レコメンデーションでの製品ルールの構造化」

今日のデータ駆動のランドスケープでは、推薦システムがソーシャルメディアのフィードから電子商取引まで、すべてを支えてい...

機械学習

アリババのChatGPTの競合相手、統一千文と出会ってください:その大規模言語モデルは、Tmall Genieスマートスピーカーや職場メッセージングプラットフォームのDingTalkに組み込まれる予定です

人工知能は、過去数年間で急速に人気と重要性が高まっており、企業はAIの研究開発に大きな投資を行っています。AIが波を起こ...