「サーモン大規模な言語モデルのための一般的な聴覚能力へ」

「美容とファッションの魅力的な世界へ－サーモンが新たな大規模言語モデルの一般的な聴覚能力を探求する－」

AIエージェントが現実世界の環境で重要な役割を果たすのは、一般的な聴覚情報の知覚と理解である。この聴覚情報には、音楽、音声イベント、およびスピーチという3つの主要な音のタイプが含まれる。最近、テキストベースの大規模言語モデル（LLM）フレームワークは、自然言語処理（NLP）タスクの幅広い範囲で人間レベルのパフォーマンスを達成するなど、驚異的な能力を示しています。さらに、リファレンス応答とユーザープロンプトのペアを使用したトレーニング方法である instruction tuning が人気を集めています。このアプローチは、大規模な言語モデルが開放的なユーザー指示により効果的に従うようにトレーニングするものです。ただし、現在の研究では、大規模な言語モデルに多モーダルコンテンツを知覚できる能力を向上させることに焦点が当てられています。

それを踏まえ、本記事では、Speech Audio Language Music Open Neural Network（SALMONN）について説明します。これは、音声とオーディオのエンコーダーをテキストベースの大規模言語モデルに組み込んだ単一のオーディオテキストマルチモーダルモデルです。SALMONNモデルは、大規模言語モデルが一般的なオーディオ入力を直接理解して処理することができ、オーディオと音声のタスクを含む幅広い領域で競争力のあるパフォーマンスを発揮します。SALMONNフレームワークの仕組み、アーキテクチャ、およびNLPの幅広い範囲での結果について、詳しく調査していきます。それでは、始めましょう。

SALMONN：単一オーディオテキストマルチモーダル大規模言語モデルの紹介

SALMONNは、Speech Audio Language Music Open Neural Networkの略称であり、音声、オーディオイベント、音楽などの3つの基本的なオーディオまたは音のタイプを認識し理解することができる単一のオーディオテキストマルチモーダル大規模言語モデルフレームワークです。SALMONNモデルは、大規模言語モデルが一般的なオーディオ入力を直接理解して処理し、幅広いオーディオと音声のタスクで競争力のあるパフォーマンスを提供します。

SALMONNフレームワークは、音のタスクの両方での性能向上のために、BEATsオーディオエンコーダとWhisper音声モデルから抽出された音声エンコーダの2つのエンコーダ構造を使用しています。さらに、SALMONNフレームワークでは、窓レベルのQ-Formerまたはクエリトランスフォーマーを接続モジュールとして使用し、可変長エンコーダの出力シーケンスを可変長オーディオトークンへ効果的に変換し、オーディオとテキストのアラインメントに高い時間的解像度を実現します。さらに、クロスモーダルアダプタであるLoRA（Low Rank Adaptation）アプローチを使用して、Vicunaフレームワークの出力空間を拡張された入力空間に整列させ、さらなるパフォーマンス向上を図っています。SALMONNフレームワークでは、トレーニングフェーズ中には目に見えないクロスモーダルタスクを実行する能力があり、これがSALMONNフレームワークがLLMフレームワークの一般的な新興能力を取り戻すために追加のフューションステージを実装する主要な理由となっています。

さらに、フレームワークは多モードの認知聴取能力を評価するために、多様な音声イベント、音楽基準、および音声基準を使用し、ベンチマークを3つのレベルに分けています。最初のベンチマークレベルでは、翻訳、音声キャプション、音声認識を含む8つのタスクを指示トレーニングでトレーニングします。他の2つのベンチマークレベルは未訓練のタスクで、第2レベルベンチマークでは、スロット埋め込みや未訓練言語への翻訳など、音声ベースの自然言語処理タスクがあり、テキストと音声トークンの高品質な多言語アライメントに依存します。最後のレベルのベンチマークタスクは、音声と非音声の聴覚情報を理解し、音声オーディオの推論とオーディオベースのストーリーテリングを行います。

要約すると、SALMONNフレームワークは以下のようなものです。

最大限の能力で音楽、音声、音楽など一般的なオーディオ入力を理解することができる最初のマルチモーダル大規模言語モデル。
LoRAスケーリングファクタの実装とトレーニング中の追加の予算友好なアクティベーションステージを使用してフレームワークのクロスモーダル新興能力を分析する試み。

SALMONN：アーキテクチャと方法論

このセクションでは、SALMONNフレームワークのアーキテクチャ、トレーニング方法、および実験セットアップについて見ていきます。

モデルアーキテクチャ

SALMONNフレームワークのアーキテクチャの中心には、2つの音声エンコーダからの出力を同期し組み合わせる機能があります。このフレームワークでは、Q-Formerをフレームレベルで接続モジュールとして実装します。 Q-Formerによって生成された出力シーケンスは、テキストの指示プロンプトとマージされ、必要な応答を生成するためにLoRA適応アプローチに入力されます。

音声エンコーダ

SALMONNフレームワークでは、非音声の高レベルオーディオセマンティクスを抽出するために、非音声のBEATsオーディオエンコーダとOpenAIのWhisperフレームワークから取得した音声エンコーダの2つを使用します。 BEATsオーディオエンコーダは、自己教師あり反復学習アプローチを使用してトレーニングされ、音声エンコーダは音声認識および音声翻訳のタスクに対して弱く教師付きデータを使用してトレーニングされます。エンコーダの出力特徴は、背景ノイズと音声情報を含めることができます。モデルはまず入力オーディオをトークン化し、トレーニング中にマスキングと予測を行います。これら2つのエンコーダのオーディトリフィーチャは、音声と非音声の情報の両方に適しています。

ウィンドウレベルのQ-Former

Q-Formerの構造を実装することは、LLMフレームワークで一般的に使用されるアプローチであり、画像エンコーダの出力をテキスト入力トークンに変換するためには、異なる長さのオーディオトークンを扱う場合にはいくつかの修正が必要です。より具体的には、フレームワークは、入力画像のエンコーダ出力を連結されたエンコーダ出力シーケンスとして扱い、Q-Formerは固定数のトレーニング可能なクエリを使用して、スタックされたQ-Formerブロックを使用してエンコーダ出力シーケンスをテキストトークンに変換します。スタックされたQ-Formerブロックは、セルフアテンションレイヤーにおけるカジュアルマスクの削除および初期ブロックでの固定数のトレーニング可能な静的クエリの使用を除いて、Transformerデコーダーブロックに似ています。

LoRAとLLM

SALMONNフレームワークでは、正確性と効果性が向上するようにファインチューニングされたVicuna LLMをデプロイします。 LoRAフレームワークは、パラメータ効率のファインチューニングに使用される一般的な方法であり、SALMONNフレームワークにおいて重み行列を評価し、セルフアテンションレイヤーのクエリに適応させるために使用されます。

トレーニング方法

SALMONNフレームワークでは、3つのステージからなるクロスモーダルトレーニングアプローチが使用されます。トレーニングステージには、ほとんどのビジュアルLLMフレームワークに含まれている事前トレーニングステージと指示微調整ステージが含まれており、オーディオキャプションや音声認識のタスク中に遭遇する過剰適合の問題を解決するために、追加のアクティベーション調整ステージが実装されています。

事前トレーニングステージ

エンコーダ＆LLMを含む事前トレーニングパラメータとアダプタ＆接続モジュールを含むランダムに初期化されたパラメータとの間のギャップを縮小するために、SALMONNフレームワークでは、オーディオキャプションと音声認識のデータを大量に使用してLoRAおよびQ-Formerコンポーネントを事前トレーニングします。これらのタスクには、音声および非音声の主要なオーディオイベントの重要な音声情報が含まれており、テキストとオーディオ情報の間のアラインメントを学ぶために複雑な理解や推論は必要ありません。

指示微調整ステージ

SALMONNフレームワークで実装された指示微調整ステージは、NLPおよびビジュアルLLMフレームワークで実装されたものに似ています。音声イベント、音楽タスク、音声イベントのリストを使用して、オーディオテキストの指示を微調整します。タスクは、電話認識、重なり合う音声認識、および音楽キャプションなどのさまざまなテストでの重要性に基づいて優先順位が付けられます。さらに、オーディオデータとペアになったテキスト情報は、指示プロンプトの生成の基礎となります。

タスクの過剰適合

最初の2つのトレーニングステージのみを実装しても、SALMONNフレームワークは指示調整タスクに対して競争力のある結果を提供しますが、クロスモーダルタスク、特にクロスモーダルの共同推論能力を必要とするタスクでは、パフォーマンスが十分ではありません。具体的には、モデルは時折、指示プロンプトを違反して関連性のないまたは正確でない応答を生成することがあり、これをSALMONNフレームワークのタスクの過剰適合と呼び、過剰適合の問題を解決するために、アクティベーション調整ステージが実装されます。

活性調整ステージ

オーバーフィッティングの問題を解決するための効果的なアプローチは、ストーリーテリングや音声情報に基づく質問応答など、より長く多様な応答を使用して内在的な条件付き言語モデルを正規化することです。このフレームワークは、テキストと音声または音声キャプションをペアリングし、そのようなタスクのためのペアトレーニングデータを生成します。

タスク仕様

SALMONNのゼロショットクロスモーダルの新興能力を評価するために、開発者は15の音声、オーディオ、音楽タスクを3つのレベルに分けて含めました。

レベル1

最初のレベルでは、タスクは調整のために使用されます。そのため、SALMONNフレームワークが実行する一連のタスクは最も簡単です。

レベル2

第2レベルは未学習のタスクから成り、レベル1のタスクと比較して複雑度が高くなります。レベル2では、音声を使用して特定のキーワードを抽出する際のフレームワークの正確性を評価する音声キーワード抽出などの自然言語処理タスク、音声質問を使用してフレームワークが抽出する常識的な知識を評価するSQQAまたは音声クエリベースの質問応答、スロット値の正確性を評価する音声ベースのスロット埋め込みタスク（SF）、最後に、英語からドイツ語への変換と英語から日本語への変換の2つのASTタスクが含まれます。

レベル3

レベル3のタスクの複雑さは、他の2つのレベルと比較して最大であり、SACまたは音声オーディオの推論、およびオーディオベースのストーリーテリングタスクを含みます。SACタスクでは、SALMONNフレームワークにモデルに送られる音声クリップに含まれる質問を理解し、背景の音声イベントや音楽を使用して補強的な証拠を見つけ、最終的に質問に答える適切な理由を生成する必要があります。オーディオベースのストーリーテリングタスクでは、モデルは一般的なオーディオ入力からの聴覚情報に基づいて意味のあるストーリーを生成する必要があります。

結果

レベル1のタスク

以下の表は、レベル1のタスクの結果を示しており、SALMONNフレームワークは、活性調整の有無に関係なく、レベル1のタスクで競争力のある結果を返します。

レベル2および3のタスク

SALMONNフレームワークは、活性化を伴わない場合、レベル1のタスクでも競争力のある結果を返しますが、レベル2およびレベル3のタスクでは同じことは言えません。活性化を行わないと、SALMONNフレームワークはタスクに対して過学習の問題が重く影響を受けます。特に、マルチモーダルなインタラクションに重点を置いたSQQA、SAC、およびストーリーテリングタスクでは、SALMONNフレームワークは活性化調整なしでは指示を正しく追うのに苦労します。しかし、活性化調整を行うことで、結果はかなり改善されます。以下のイメージに結果が含まれています。

LoRAスケーリングファクターの割引

LoRAスケーリングファクターの割引は、タスクの過学習の最小化のために時間ベースの割引を使用することの影響を評価します。次の図で確認できるように、LoRAスケーリングファクターを2.0に減らすと、ASR＆PRタスク、SQQAタスク、ストーリーテリングタスク、およびSACタスクにおけるSALMONNフレームワークのクロスモーダル推論能力が向上します。

タスクの過学習の評価

アクティベーションチューニングを強調するために、SALMONNフレームワークは3つのトレーニングステージ中の困惑度の変化を分析します。以下の画像でわかるように、AACおよびASRタスクの困惑度は第1のトレーニングステージ後に小さい最終値を持ちます。これは、モデルがクロスモーダルな整列を学習していることを示しています。

さらに、PRタスクの困惑度もLoRAコンポーネントに頼って出力トークンを学習するため、インストラクションチューニング後に低下します。また、ストーリーテリングとSACタスクの困惑度はインストラクションチューニングによって減少するものの、追加のアクティベーションステージの追加またはLoRAコンポーネントの削除がない限り、タスクを成功させるにはまだ十分なギャップがあります。

アクティベーションチューニング

SALMONNフレームワークは、長い回答を持つテキストベースのQAタスクペアでモデルをトレーニングしたり、オーディオベースの長い文章の物語を使用したり、ASRタスクでは長いスピーチの転写を使用したりと、さまざまなアクティベーション方法を探求します。Q-FormerコンポーネントとLoRAコンポーネントの両方をこれらの3つの方法で微調整します。さらに、フレームワークは、オーディオとQ-Formerの入力を無視し、適応的なテキストベースの大規模言語モデルとしてLoRAとVicunaコンポーネントを微調整することを試みます。その結果は以下の画像で示されており、ASR（長いラベルを使用したASRのトレーニング）、ストーリーまたはテキストベースのトレーニングによるLoRAコンポーネントのトレーニングによってモデルをアクティベートすることはできません。

最終的な考え

この記事では、SALMONN（Speech Audio Language Music Open Neural Network）と呼ばれる、音声、音声イベント、音楽の3つの基本的なオーディオまたはサウンドタイプを認識および理解できる単一のオーディオテキストマルチモーダル大規模言語モデルフレームワークについて話しました。SALMONNモデルは、大規模言語モデルが一般的なオーディオ入力を直接理解・処理し、様々なオーディオ・音声タスクで競争力のあるパフォーマンスを発揮することができます。

SALMONNフレームワークは、オーディオキャプショニング、音声翻訳・認識などの様々なトレーニング済みタスクで競争力のあるパフォーマンスを提供し、トレーニングされていない言語に対するキーワード抽出やトレーニングされていない言語への音声翻訳など、未知の理解タスクにも汎化する能力を持っています。その能力から、SALMONNフレームワークは大規模言語モデルの一般的な聴覚能力を向上するための次のステップと見なされることがあります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

hearingLLMSalmonn

Was this article helpful?

93 out of 132 found this helpful

「サーモン大規模な言語モデルのための一般的な聴覚能力へ」

SALMONN：単一オーディオテキストマルチモーダル大規模言語モデルの紹介