AIの聴覚スキルを革命化する:清華大学とバイトダンスが、高度なオーディオ処理のための画期的なマルチモーダルニューラルネットワーク「SALMONN」を発表

「AIの聴覚スキルを革命化! 清華大学とバイトダンスが、画期的なマルチモーダルニューラルネットワーク『SALMONN』を発表」

さまざまな自然言語処理アプリケーションでは、テキストベースの大規模言語モデルが印象的であり、人間に近いパフォーマンスを示しています。一方、ユーザーの指示と参照応答のペアとしてデータが配置される「指示調整」というLLMトレーニングパラダイムは、LLMが制約のないユーザーの命令に従うことを可能にするように進化しています。研究者たちは、LLMにマルチモーダル感覚スキルを備えさせることに興味を持っています。現在の研究は、LLMを1つ以上の入力型(画像、無音動画、音声イベント、スピーチなど)のエンコーダにリンクさせること、または多くの入力種別のエンコーダと組み合わせることに焦点を当てています。

エンコーダの出力空間をLLMの入力空間と整列させるためには、クロスモーダルプレトレーニングと指示調整を通じて教えられることがしばしばあり、コネクションモジュールとLLMアダプタを利用することができます。この研究で提案されている音声音楽オープンニューラルネットワーク(SALMONN)は、音声、音声イベント、音楽の3つの主要な音のカテゴリを認識し理解できる単一のオーディオテキストマルチモーダルLLMです。 SALMONNは、Whisper音声モデルの音声エンコーダとWhisper音声モデルの音声エンコーダからなるデュアルエンコーダフレームワークを採用して、音声および非音声のオーディオアプリケーションのパフォーマンスを向上させることを目指しています。

Vicunaのパフォーマンスをさらに向上させるために、低ランク適応戦略がクロスモーダルアダプタとして利用され、拡張された入力空間と出力空間を一致させることが提案されています。ウィンドウレベルのQ-FormerとLoRAのクロスモーダルプレトレーニングおよび指示調整フェーズでは、多くの音声、音声、音楽の課題が使用されます。結果として得られるマルチモーダルLLMはクロスモーダルの新たなスキルをほとんど持たず、指示調整で使用される特定のタスクに制約を受けることがあります。このタスク過適合問題と呼ばれるものです。トレーニング中に気付かれないクロスモーダルタスクを実行する能力は、本研究ではクロスモーダルの新興スキルと呼ばれています。これらの能力は、指示を調整する過程で失われるLLMの新興能力です。

訓練タスクの重大な忘却を緩和するために、彼らはSALMONNのレパートリーにいくつかの追加のフューショットアクティベーションチューニングステージを追加することを提案しています。 SALMONNの認知的聴覚能力は、さまざまな音声、音声イベント、音楽の基準を使用して評価されます。タスクには3つのレベルがあります。最初の2つのレベルでは未訓練のアクティビティがテストされ、最初のレベルでは音声キャプショニング、翻訳、音声認識などの指導チューニングで教えられる8つのタスクがベンチマークとして利用されます。2番目のレベルでは、スロット埋め込みや未訓練の言語への翻訳など、5つの音声ベースの自然言語処理(NLP)タスクが含まれます。これらのタスクには、音声とテキストトークン間の多言語および高品質のアラインメントが必要です。

非音声の音響情報を理解することは、最後の一連のアクティビティに必要です。例えば、音声ベースのナラティブや音声と音声の共同推論です。実験の結果、SALMONNはこれらすべてのタスクを完了し、単一のモデルとして産業ベンチマークで競争力のあるパフォーマンスを発揮することができることが示されました。これは、音声、音声イベント、音楽を含むさまざまな音声入力を「聞く」ことができ、理解することが可能な人工知能を作成することができる可能性を示しています。

この論文の主な貢献は次の通りです。

• 清華大学と字節跳动の研究者は、音声、音声イベント、音楽を含む一般的な音声入力を認識し理解することができる初のマルチモーダルLLMである「SALMONN」を提供しています。

• LoRAのスケーリングファクターを変更することで、クロスモーダルの新興スキルの存在を調査しました。その後、これらの能力を活性化し、トレーニング中に遭遇したタスクに対する重大な忘却を軽減する追加のトレーニングステップとして、低コストのアクティベーションチューニング技術を提案しています。

・オーディオベースのストーリーテリングと音声ベースの共同推論などの2つの新しいタスクを提供し、さまざまな認識スキルを代表するさまざまなタスクでSALMONNを評価しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「世界中のさらに多くの人々に生成型AIを検索にもたらす」

「我々は、より多くの人々にSearch(SGE)での生成的AI機能を提供し、Search Labsをインドと日本で利用可能にしています」

AIニュース

このAIニュースレターはあなたが必要なすべてです #72

今週、AIニュースはOpenAIのDevdayと多くの新しいモデルや機能の発売で主導権を握り、それによってエロン・マスクがLLMレース...

機械学習

カリフォルニア州での山火事との戦いにAIが役立つ方法

カリフォルニア州は、州を壊滅させた山火事に対抗する新たな武器、AIを手に入れました。 NVIDIAのGPUで訓練されたAIによって...

データサイエンス

自然言語処理のための高度なガイド

イントロダクション 自然言語処理(NLP)の変革的な世界へようこそ。ここでは、人間の言語の優雅さが機械の知能の正確さと出...

データサイエンス

「Apple M1とM2のパフォーマンス- SSLモデルのトレーニングにおいて」

新しいAppleチップを使用してMLモデルをトレーニングするためのベンチマークの数はまだ少ないですさらに、ほとんどの結果は、...

データサイエンス

「表形式データの進化:分析からAIへ」

「表形式データ」とは、行と列に整理されたデータを指しますこれにはCSVファイルやスプレッドシート、関係データベースなどが...