「LLaSMと出会う:音声と言語の指示に従うクロスモーダルな対話能力を持つエンドツーエンドで訓練された大規模なマルチモーダル音声言語モデル」

Large-scale multimodal speech and language model trained end-to-end with cross-modal dialogue capabilities Introducing LLaSM.

音声はトーンなどの意味論的およびパラ言語的情報を含むため、書き込みよりも多くの情報を伝えます。さらに、話すことは人々がAIとのコミュニケーションを行うためのより実践的で有機的な方法です。そのため、一般的な目的のアシスタントを作成する際には、音声と言語のガイドラインに従うことが重要です。しかし、多くの大規模言語モデルはテキスト入力のみを受け付けるため、その潜在能力は制限されます。マルチモーダルなビジョンと言語のモデルにより、一般的な人工知能(AGI)の進歩が可能になりましたが、人間がテキストの指示を入力することは依然として手間がかかります。

音声認識(ASR)モデルは、カスケードパラダイムアプローチで使用され、音声入力をテキスト入力に変換し、モデルがジョブを処理するために使用できます。声からテキストへのモーダルの移行は、情報の消費を引き起こし、ASRシステムのエラーを導入する可能性があります。最近では、音声言語のマルチモーダルモデルが大規模言語モデルを使用して音声とテキストを理解し、生成することができるようになりました。音声信号は異なるトークンに分割され、LLMの語彙に拡張されます。この意味では、LLMは広範なマルチモーダルデータと強力な計算リソースを再トレーニングする必要があります。

LinkSoul.AI、北京大学、01.aiの著者らは、この研究で音声と言語の相互作用を理解し、話された命令に従う能力を持つ大規模な音声と言語のモデルLLaSMを提案しています。彼らは、LLaVAと同様に、訓練済みの音声モーダルエンコーダとLLMを使用しており、これによりLLaSMはリソースを節約できます。彼らは特に、音声エンコーダとしてWhisperを使用し、音声信号を組み込みます。大規模言語モデルの入力テキスト埋め込みは、モーダルアダプタを使用して音声埋め込みと一致させます。音声とテキストの埋め込みを組み合わせて、交互になったシーケンスを作成します。交互になったシーケンスは、監督付きの微調整のためにLLMに供給されます。

トレーニング手順には2つのフェーズがあります。初期段階では、パブリックのASRデータセットを使用してモーダルアダプタの事前トレーニングを行います。モーダルアダプタのみがトレーニングされ、音声エンコーダとLLMはロックされます。この段階では、モーダルアダプタの一部のパラメータが導入されるため、モデルのパラメータの大部分はまだ修正が必要ですが、リソースを消費することはありません。2番目のステップでは、クロスモーダルな指示データを使用して、モデルがマルチモーダルな指示を処理し、クロスモーダルな相互作用を分析できるようにします。クロスモーダル教育のために言語モデルとモーダルアダプタの設定が変更される間、音声エンコーダは固定されます。

重要なことは、オープンソースの音声テキストクロスモーダル指示フォローのデータセットはほとんど存在しないということです。したがって、彼らはLLaSM-Audio-Instructionsデータセットを作成し、公開しました。このデータセットは、GPT4-LLM、ShareGPT、WizardLMからの会話を慎重に選び、テキスト読み上げ技術を使用して大量の会話音声データを作成しています。彼らの知る限り、これは最大の中国語と英語の音声テキストクロスモーダル指示フォローのデータセットであり、199,000の対話、80,000の中国語の音声サンプル、428,000の英語の音声サンプルを含んでいます。

彼らの研究は以下の貢献をしています:

• 音声と言語を理解し、音声と言語のコマンドを実行できる音声言語のマルチモーダルモデルを作成しました。これにより、人々が人工知能とコミュニケーションを取るためのより実践的で有機的な方法が提供されます。

• 中国語と英語の音声とテキストを組み合わせたクロスモーダルな指示フォローの大規模データセットLLaSM-Audio-Instructionsを作成し、公開しました。

• デモはHuggingFaceのオンラインで、コードはGitHubで閲覧できます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

あなたのリスニングプレイリストに追加するためのトップ8のAIポッドキャスト

機械学習と人工知能の急速な進展する世界では、専門家や愛好家にとって最新の開発や見解にアップデートされることは重要です...

人工知能

「先延ばしハック:ChatGPTを使ってプロジェクトをビデオゲームに変える」

「あなたのやるべきことリストを、ドーパミンが絶えず放出されるワクワクするビデオゲームに変えましょう」

AI研究

『このAI研究は、IFPおよびリポソーム蓄積を予測するための物理ベースの深層学習を発表します』

がん治療の精緻化を追求する中、研究者たちは、腫瘍のダイナミクスを飛躍的に向上させる画期的な解決策を導入しました。この...

人工知能

関数呼び出し:GPTチャットボットを何にでも統合する

OpenAIのGPTの新しい関数呼び出し機能を探索し、チャットボットが外部ツールやAPIと対話できるようにしますAIパワーを活用し...

データサイエンス

AIがリードジェネレーションにどのように役立つのか?

あなたのサービスや製品が優れていてもユニークであったとしても、効果的にマーケティングできなければ重要ではありません。...

AIニュース

「GPT-4が怠け者です:OpenAIが認める」

OpenAIは、GPT-4が予期せぬ動作を示し、一部のユーザーから「怠惰」と評される中で懸念が浮上しています。最新のGPT-4に関す...