AIの聴覚スキルを革命化する:清華大学とバイトダンスが、高度なオーディオ処理のための画期的なマルチモーダルニューラルネットワーク「SALMONN」を発表

「AIの聴覚スキルを革命化! 清華大学とバイトダンスが、画期的なマルチモーダルニューラルネットワーク『SALMONN』を発表」

さまざまな自然言語処理アプリケーションでは、テキストベースの大規模言語モデルが印象的であり、人間に近いパフォーマンスを示しています。一方、ユーザーの指示と参照応答のペアとしてデータが配置される「指示調整」というLLMトレーニングパラダイムは、LLMが制約のないユーザーの命令に従うことを可能にするように進化しています。研究者たちは、LLMにマルチモーダル感覚スキルを備えさせることに興味を持っています。現在の研究は、LLMを1つ以上の入力型(画像、無音動画、音声イベント、スピーチなど)のエンコーダにリンクさせること、または多くの入力種別のエンコーダと組み合わせることに焦点を当てています。

エンコーダの出力空間をLLMの入力空間と整列させるためには、クロスモーダルプレトレーニングと指示調整を通じて教えられることがしばしばあり、コネクションモジュールとLLMアダプタを利用することができます。この研究で提案されている音声音楽オープンニューラルネットワーク(SALMONN)は、音声、音声イベント、音楽の3つの主要な音のカテゴリを認識し理解できる単一のオーディオテキストマルチモーダルLLMです。 SALMONNは、Whisper音声モデルの音声エンコーダとWhisper音声モデルの音声エンコーダからなるデュアルエンコーダフレームワークを採用して、音声および非音声のオーディオアプリケーションのパフォーマンスを向上させることを目指しています。

Vicunaのパフォーマンスをさらに向上させるために、低ランク適応戦略がクロスモーダルアダプタとして利用され、拡張された入力空間と出力空間を一致させることが提案されています。ウィンドウレベルのQ-FormerとLoRAのクロスモーダルプレトレーニングおよび指示調整フェーズでは、多くの音声、音声、音楽の課題が使用されます。結果として得られるマルチモーダルLLMはクロスモーダルの新たなスキルをほとんど持たず、指示調整で使用される特定のタスクに制約を受けることがあります。このタスク過適合問題と呼ばれるものです。トレーニング中に気付かれないクロスモーダルタスクを実行する能力は、本研究ではクロスモーダルの新興スキルと呼ばれています。これらの能力は、指示を調整する過程で失われるLLMの新興能力です。

訓練タスクの重大な忘却を緩和するために、彼らはSALMONNのレパートリーにいくつかの追加のフューショットアクティベーションチューニングステージを追加することを提案しています。 SALMONNの認知的聴覚能力は、さまざまな音声、音声イベント、音楽の基準を使用して評価されます。タスクには3つのレベルがあります。最初の2つのレベルでは未訓練のアクティビティがテストされ、最初のレベルでは音声キャプショニング、翻訳、音声認識などの指導チューニングで教えられる8つのタスクがベンチマークとして利用されます。2番目のレベルでは、スロット埋め込みや未訓練の言語への翻訳など、5つの音声ベースの自然言語処理(NLP)タスクが含まれます。これらのタスクには、音声とテキストトークン間の多言語および高品質のアラインメントが必要です。

非音声の音響情報を理解することは、最後の一連のアクティビティに必要です。例えば、音声ベースのナラティブや音声と音声の共同推論です。実験の結果、SALMONNはこれらすべてのタスクを完了し、単一のモデルとして産業ベンチマークで競争力のあるパフォーマンスを発揮することができることが示されました。これは、音声、音声イベント、音楽を含むさまざまな音声入力を「聞く」ことができ、理解することが可能な人工知能を作成することができる可能性を示しています。

この論文の主な貢献は次の通りです。

• 清華大学と字節跳动の研究者は、音声、音声イベント、音楽を含む一般的な音声入力を認識し理解することができる初のマルチモーダルLLMである「SALMONN」を提供しています。

• LoRAのスケーリングファクターを変更することで、クロスモーダルの新興スキルの存在を調査しました。その後、これらの能力を活性化し、トレーニング中に遭遇したタスクに対する重大な忘却を軽減する追加のトレーニングステップとして、低コストのアクティベーションチューニング技術を提案しています。

・オーディオベースのストーリーテリングと音声ベースの共同推論などの2つの新しいタスクを提供し、さまざまな認識スキルを代表するさまざまなタスクでSALMONNを評価しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

TensorFlowを使用して責任あるAIを構築する方法は?

イントロダクション 人工知能(AI)は、今週リリースされる新しいAIアプリ、機能、プラットフォームが数百あるほど、前例のな...

機械学習

がん診断の革命:ディープラーニングが正確に識別し再分類することで、肝臓がんの組み合わせを強化された治療判断につながります

“` 肝臓癌は、肝細胞癌(HCC)と肝内胆管癌(ICCA)を含む原発性肝癌は、それぞれ異なる特徴を持つため、重要な課題を...

AI研究

マイクロソフトAI研究は、分子システムの平衡分布を予測するためにDistributional Graphormer(DiG)という新しいディープラーニングフレームワークを紹介しました

分子の構造はその性質と機能を決定します。そのため、構造予測は分子科学における重要な問題です。アミノ酸配列からタンパク...

AIテクノロジー

「FinTech API管理におけるAIの力を解き放つ:製品マネージャーのための包括的なガイド」

この包括的なガイドでは、AIが金融技術のAPI管理に果たす変革的な役割を探求し、各セクションごとに実世界の例を提供していま...

機械学習

Deep learning論文の数学をPyTorchで効率的に実装する:SimCLR コントラスティブロス

PyTorch / TensorFlow のコードに深層学習論文の数学を実装することは、深層学習モデルの数学的な理解を深め、高度なプログラ...

人工知能

RAPIDS:簡単にMLモデルを加速するためにGPUを使用する

はじめに 人工知能(AI)がますます成長するにつれて、より高速かつ効率的な計算能力の需要が高まっています。機械学習(ML)...