AIの聴覚スキルを革命化する:清華大学とバイトダンスが、高度なオーディオ処理のための画期的なマルチモーダルニューラルネットワーク「SALMONN」を発表

「AIの聴覚スキルを革命化! 清華大学とバイトダンスが、画期的なマルチモーダルニューラルネットワーク『SALMONN』を発表」

さまざまな自然言語処理アプリケーションでは、テキストベースの大規模言語モデルが印象的であり、人間に近いパフォーマンスを示しています。一方、ユーザーの指示と参照応答のペアとしてデータが配置される「指示調整」というLLMトレーニングパラダイムは、LLMが制約のないユーザーの命令に従うことを可能にするように進化しています。研究者たちは、LLMにマルチモーダル感覚スキルを備えさせることに興味を持っています。現在の研究は、LLMを1つ以上の入力型(画像、無音動画、音声イベント、スピーチなど)のエンコーダにリンクさせること、または多くの入力種別のエンコーダと組み合わせることに焦点を当てています。

エンコーダの出力空間をLLMの入力空間と整列させるためには、クロスモーダルプレトレーニングと指示調整を通じて教えられることがしばしばあり、コネクションモジュールとLLMアダプタを利用することができます。この研究で提案されている音声音楽オープンニューラルネットワーク(SALMONN)は、音声、音声イベント、音楽の3つの主要な音のカテゴリを認識し理解できる単一のオーディオテキストマルチモーダルLLMです。 SALMONNは、Whisper音声モデルの音声エンコーダとWhisper音声モデルの音声エンコーダからなるデュアルエンコーダフレームワークを採用して、音声および非音声のオーディオアプリケーションのパフォーマンスを向上させることを目指しています。

Vicunaのパフォーマンスをさらに向上させるために、低ランク適応戦略がクロスモーダルアダプタとして利用され、拡張された入力空間と出力空間を一致させることが提案されています。ウィンドウレベルのQ-FormerとLoRAのクロスモーダルプレトレーニングおよび指示調整フェーズでは、多くの音声、音声、音楽の課題が使用されます。結果として得られるマルチモーダルLLMはクロスモーダルの新たなスキルをほとんど持たず、指示調整で使用される特定のタスクに制約を受けることがあります。このタスク過適合問題と呼ばれるものです。トレーニング中に気付かれないクロスモーダルタスクを実行する能力は、本研究ではクロスモーダルの新興スキルと呼ばれています。これらの能力は、指示を調整する過程で失われるLLMの新興能力です。

訓練タスクの重大な忘却を緩和するために、彼らはSALMONNのレパートリーにいくつかの追加のフューショットアクティベーションチューニングステージを追加することを提案しています。 SALMONNの認知的聴覚能力は、さまざまな音声、音声イベント、音楽の基準を使用して評価されます。タスクには3つのレベルがあります。最初の2つのレベルでは未訓練のアクティビティがテストされ、最初のレベルでは音声キャプショニング、翻訳、音声認識などの指導チューニングで教えられる8つのタスクがベンチマークとして利用されます。2番目のレベルでは、スロット埋め込みや未訓練の言語への翻訳など、5つの音声ベースの自然言語処理(NLP)タスクが含まれます。これらのタスクには、音声とテキストトークン間の多言語および高品質のアラインメントが必要です。

非音声の音響情報を理解することは、最後の一連のアクティビティに必要です。例えば、音声ベースのナラティブや音声と音声の共同推論です。実験の結果、SALMONNはこれらすべてのタスクを完了し、単一のモデルとして産業ベンチマークで競争力のあるパフォーマンスを発揮することができることが示されました。これは、音声、音声イベント、音楽を含むさまざまな音声入力を「聞く」ことができ、理解することが可能な人工知能を作成することができる可能性を示しています。

この論文の主な貢献は次の通りです。

• 清華大学と字節跳动の研究者は、音声、音声イベント、音楽を含む一般的な音声入力を認識し理解することができる初のマルチモーダルLLMである「SALMONN」を提供しています。

• LoRAのスケーリングファクターを変更することで、クロスモーダルの新興スキルの存在を調査しました。その後、これらの能力を活性化し、トレーニング中に遭遇したタスクに対する重大な忘却を軽減する追加のトレーニングステップとして、低コストのアクティベーションチューニング技術を提案しています。

・オーディオベースのストーリーテリングと音声ベースの共同推論などの2つの新しいタスクを提供し、さまざまな認識スキルを代表するさまざまなタスクでSALMONNを評価しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

GoogleのAIスタジオ:ジェミニの創造的な宇宙への入り口!

Googleは、AI Studioの発売を通じて、開発者向けの画期的な革新を実現しました。このWebベースのプラットフォームは、Gemini ...

データサイエンス

AIがリードジェネレーションにどのように役立つのか?

あなたのサービスや製品が優れていてもユニークであったとしても、効果的にマーケティングできなければ重要ではありません。...

機械学習

このAIニュースレターはあなたが必要とするものです#76

今週、私たちはトランスフォーマーや大規模な言語モデル(LLM)の領域を超えた重要なAIの進展に焦点を当てました最近の新しい...

AI研究

「サリー大学の研究者が開発した新しいソフトウェアは、AIが実際にどれだけの情報を知っているかを検証することができます」

ここ数年、人工知能(AI)のドメインでいくつかの技術的なブレークスルーがあり、いくつかの産業やセクターに深い影響を与え...

AI研究

「自己教師あり学習とトランスフォーマー? - DINO論文の解説」

「一部の人々は、Transformerのアーキテクチャを愛し、それをコンピュータビジョンの領域に歓迎しています他の人々は、新しい...

機械学習

中国における大量生産自動運転の課題

自律走行は、世界でも最も困難な運転の一つが既に存在する中国では、特に難しい課題です主に3つの要因が関係しています:動的...