「ハギングフェイスの研究者たちは、Distil-Whisperを紹介しました:高性能でリソースが限られた環境におけるギャップを埋めるコンパクトな音声認識モデル」

「ハギングフェイスの研究者たちが紹介する:Distil-Whisper - 限られたリソース環境でギャップを埋めるコンパクトな音声認識モデル」

ハギングフェイスの研究者たちは、リソース制約のある環境での大規模な事前学習済音声認識モデルの展開の問題に取り組んできました。彼らは、擬似ラベリングを通じて大規模なオープンソースデータセットを作成することにより、この問題を解決しました。そのデータセットは、Distil-Whisperと呼ばれるWhisperモデルのより小さいバージョンの煮詰まった形式に蒸留されるために利用されました。

Whisper音声認識トランスフォーマーモデルは、ノイズの多いインターネット音声データの680,000時間の事前学習を行いました。これは、トランスフォーマーベースのエンコーダとデコーダのコンポーネントを含み、ファインチューニングなしでゼロショットシナリオで競争力のある結果を実現しています。Distil-Whisperは、擬似ラベリングを使用して行われた知識蒸留を通じて派生したコンパクトなバージョンです。Distil-Whisperは、長い形式のオーディオにおける幻聴エラーを緩和しながら、Whisperモデルの耐音響的な状況への頑健性を維持しています。この研究は、音声データのための大規模な擬似ラベリング方法を導入し、知識蒸留に対する未探索でありながら有望なアプローチです。

自動音声認識(ASR)システムは人間レベルの精度に達しましたが、リソース制約のある環境での事前学習モデルのサイズの増大による課題に直面しています。Whisperは大規模な事前学習済ASRモデルで、さまざまなデータセットで優れた性能を発揮しますが、低レイテンシの展開にはより実用的になる可能性があります。知識蒸留はNLPトランスフォーマーモデルを効果的に圧縮してきましたが、音声認識での利用は未探索です。

提案されたアプローチでは、知識蒸留を容易にするために、擬似ラベリングを使用して大規模なオープンソースデータセットを構築します。トレーニング品質を確保するために、最適な擬似ラベルの選択にWERヒューリスティックが使用されます。知識蒸留の目的は、Kullback-Leibler距離と擬似ラベルの項の組み合わせで、学生の隠れ層の出力を教師のものと一致させるために平均二乗誤差の成分を導入することです。この蒸留技術は、Seq2Seq ASRフレームワーク内のWhisperモデルに適用され、一貫した転写のフォーマッティングとシーケンスレベルの蒸留ガイダンスを提供します。

知識蒸留によって得られたDistil-Whisperは、元のWhisperモデルと比較してスピードが向上し、パラメータが削減されています。ゼロショットシナリオでの分布外テストデータにおいて、Distil-Whisperは1%未満のWERを達成し、5.8倍の高速化と51%のパラメータ削減を実現しています。distil-medium.enモデルは、わずかに高いWERを持っていますが、6.8倍の即時推論と75%のモデル圧縮を示しています。Whisperモデルは長い形式のオーディオ転写において幻聴エラーに対して脆弱ですが、Distil-Whisperはこれらのエラーを軽減しながら競争力のあるWER性能を維持しています。

結論として、Distil-Whisperは知識蒸留を通じて実現されたWhisperモデルのコンパクトなバリアントです。この革新的なアプローチは、元のWhisperモデルと比較してスピードとパラメータの削減の面で注目すべき利益をもたらします。distil-medium.enモデルはわずかに高いWERを示していますが、より即時の推論と大規模なモデル圧縮を提供しています。

将来の研究では、音声認識におけるトランスフォーマーベースのモデルを圧縮するための音声ドメインの知識蒸留と擬似ラベリングの可能性が有望です。さまざまなフィルタリング方法や閾値が転写品質やダウンストリームのモデル性能に与える影響の調査は、知識蒸留の最適化に貴重な知見を提供することができます。レイヤーベースの方法や平均二乗誤差項を使用した他の圧縮技術の探索は、パフォーマンスを犠牲にすることなくさらなるモデル圧縮を実現する可能性があります。この研究で提供されたトレーニングコード、推論コード、およびモデルは、音声認識のための知識蒸留に関するさらなる研究や実験において貴重なリソースとなるでしょう。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

コンピュータサイエンス

「プライバシーを保護しながらジェネラティブAIツールを使用する方法」

人工知能ツールやアプリを使用しながらデータをいくらか制御する方法をここで紹介します

機械学習

「AIバイアス&文化的なステレオタイプ:影響、制約、そして緩和」

「AIのバイアスは私たちの社会に害をもたらしますAIアルゴリズムに根付いたバイアスについて学び、それらを軽減するさまざま...

機械学習

オルカ2の内部:Microsoftが小さな言語モデルに推論を教えるための新しい方法を紹介

今年早い時期、マイクロソフトリサーチはOrcaを発表しましたこれは130億パラメータのモデルで、他のLLMが示す複雑な推論プロ...

AI研究

デジタルアートの革新:ソウル国立大学の研究者が、強化学習を用いたコラージュ作成における新しいアプローチを紹介

“`html 芸術的なコラージュ作成は、人々の芸術的な才能と深く結びついている分野であり、人工知能(AI)に興味を引かせ...

機械学習

新たなディープ強化学習(DRL)フレームワークは、シミュレートされた環境で攻撃者に対応し、サイバー攻撃がエスカレートする前に95%をブロックすることができます

サイバーセキュリティの防御者は、技術の発展とシステムの複雑さのレベルが上昇するにつれて、自分たちの技術と戦術を動的に...

コンピュータサイエンス

「不確実な世界での自律的なイノベーション」

ジョナサン・ハウ氏と彼のチームは、航空宇宙制御研究所で、自律型車両が衝突せずに動的な環境を航行できるようにするプラン...