AIの聴覚スキルを革命化する:清華大学とバイトダンスが、高度なオーディオ処理のための画期的なマルチモーダルニューラルネットワーク「SALMONN」を発表

「AIの聴覚スキルを革命化! 清華大学とバイトダンスが、画期的なマルチモーダルニューラルネットワーク『SALMONN』を発表」

さまざまな自然言語処理アプリケーションでは、テキストベースの大規模言語モデルが印象的であり、人間に近いパフォーマンスを示しています。一方、ユーザーの指示と参照応答のペアとしてデータが配置される「指示調整」というLLMトレーニングパラダイムは、LLMが制約のないユーザーの命令に従うことを可能にするように進化しています。研究者たちは、LLMにマルチモーダル感覚スキルを備えさせることに興味を持っています。現在の研究は、LLMを1つ以上の入力型(画像、無音動画、音声イベント、スピーチなど)のエンコーダにリンクさせること、または多くの入力種別のエンコーダと組み合わせることに焦点を当てています。

エンコーダの出力空間をLLMの入力空間と整列させるためには、クロスモーダルプレトレーニングと指示調整を通じて教えられることがしばしばあり、コネクションモジュールとLLMアダプタを利用することができます。この研究で提案されている音声音楽オープンニューラルネットワーク(SALMONN)は、音声、音声イベント、音楽の3つの主要な音のカテゴリを認識し理解できる単一のオーディオテキストマルチモーダルLLMです。 SALMONNは、Whisper音声モデルの音声エンコーダとWhisper音声モデルの音声エンコーダからなるデュアルエンコーダフレームワークを採用して、音声および非音声のオーディオアプリケーションのパフォーマンスを向上させることを目指しています。

Vicunaのパフォーマンスをさらに向上させるために、低ランク適応戦略がクロスモーダルアダプタとして利用され、拡張された入力空間と出力空間を一致させることが提案されています。ウィンドウレベルのQ-FormerとLoRAのクロスモーダルプレトレーニングおよび指示調整フェーズでは、多くの音声、音声、音楽の課題が使用されます。結果として得られるマルチモーダルLLMはクロスモーダルの新たなスキルをほとんど持たず、指示調整で使用される特定のタスクに制約を受けることがあります。このタスク過適合問題と呼ばれるものです。トレーニング中に気付かれないクロスモーダルタスクを実行する能力は、本研究ではクロスモーダルの新興スキルと呼ばれています。これらの能力は、指示を調整する過程で失われるLLMの新興能力です。

訓練タスクの重大な忘却を緩和するために、彼らはSALMONNのレパートリーにいくつかの追加のフューショットアクティベーションチューニングステージを追加することを提案しています。 SALMONNの認知的聴覚能力は、さまざまな音声、音声イベント、音楽の基準を使用して評価されます。タスクには3つのレベルがあります。最初の2つのレベルでは未訓練のアクティビティがテストされ、最初のレベルでは音声キャプショニング、翻訳、音声認識などの指導チューニングで教えられる8つのタスクがベンチマークとして利用されます。2番目のレベルでは、スロット埋め込みや未訓練の言語への翻訳など、5つの音声ベースの自然言語処理(NLP)タスクが含まれます。これらのタスクには、音声とテキストトークン間の多言語および高品質のアラインメントが必要です。

非音声の音響情報を理解することは、最後の一連のアクティビティに必要です。例えば、音声ベースのナラティブや音声と音声の共同推論です。実験の結果、SALMONNはこれらすべてのタスクを完了し、単一のモデルとして産業ベンチマークで競争力のあるパフォーマンスを発揮することができることが示されました。これは、音声、音声イベント、音楽を含むさまざまな音声入力を「聞く」ことができ、理解することが可能な人工知能を作成することができる可能性を示しています。

この論文の主な貢献は次の通りです。

• 清華大学と字節跳动の研究者は、音声、音声イベント、音楽を含む一般的な音声入力を認識し理解することができる初のマルチモーダルLLMである「SALMONN」を提供しています。

• LoRAのスケーリングファクターを変更することで、クロスモーダルの新興スキルの存在を調査しました。その後、これらの能力を活性化し、トレーニング中に遭遇したタスクに対する重大な忘却を軽減する追加のトレーニングステップとして、低コストのアクティベーションチューニング技術を提案しています。

・オーディオベースのストーリーテリングと音声ベースの共同推論などの2つの新しいタスクを提供し、さまざまな認識スキルを代表するさまざまなタスクでSALMONNを評価しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

AutoML - 機械学習モデルを構築するための No Code ソリューション

はじめに AutoMLは自動機械学習としても知られています。2018年、GoogleはクラウドAutoMLを発表し、大きな関心を集め、機械学...

機械学習

「機械学習モデルを展開する」とはどういう意味ですか?

データサイエンスは、ますます多くの企業を引き付け続ける有望な分野ですが、産業化プロセスに統合されるのに苦労しています...

AIニュース

気候変動との戦いをリードする6人の女性

「私たちは気候科学の先駆者であるユニス・ニュートン・フートと、より持続可能な未来を築く6人の女性主導のGoogle.orgの助成...

AI研究

複雑なAIモデルの解読:パデュー大学の研究者が、ディープラーニングの予測を位相マップに変換

複雑な予測モデルの高度なパラメータ化の性質により、予測戦略の説明と解釈が困難です。研究者たちは、この問題を解決するた...

AIニュース

「AIによるPaytmによるインド経済の保護:金融セキュリティの革新」

インドの金融セクターの景観を再定義する画期的な動きとして、Paytmという有名ブランドの親会社であるOne 97 Communications ...