「LLaSMと出会う:音声と言語の指示に従うクロスモーダルな対話能力を持つエンドツーエンドで訓練された大規模なマルチモーダル音声言語モデル」

Large-scale multimodal speech and language model trained end-to-end with cross-modal dialogue capabilities Introducing LLaSM.

音声はトーンなどの意味論的およびパラ言語的情報を含むため、書き込みよりも多くの情報を伝えます。さらに、話すことは人々がAIとのコミュニケーションを行うためのより実践的で有機的な方法です。そのため、一般的な目的のアシスタントを作成する際には、音声と言語のガイドラインに従うことが重要です。しかし、多くの大規模言語モデルはテキスト入力のみを受け付けるため、その潜在能力は制限されます。マルチモーダルなビジョンと言語のモデルにより、一般的な人工知能(AGI)の進歩が可能になりましたが、人間がテキストの指示を入力することは依然として手間がかかります。

音声認識(ASR)モデルは、カスケードパラダイムアプローチで使用され、音声入力をテキスト入力に変換し、モデルがジョブを処理するために使用できます。声からテキストへのモーダルの移行は、情報の消費を引き起こし、ASRシステムのエラーを導入する可能性があります。最近では、音声言語のマルチモーダルモデルが大規模言語モデルを使用して音声とテキストを理解し、生成することができるようになりました。音声信号は異なるトークンに分割され、LLMの語彙に拡張されます。この意味では、LLMは広範なマルチモーダルデータと強力な計算リソースを再トレーニングする必要があります。

LinkSoul.AI、北京大学、01.aiの著者らは、この研究で音声と言語の相互作用を理解し、話された命令に従う能力を持つ大規模な音声と言語のモデルLLaSMを提案しています。彼らは、LLaVAと同様に、訓練済みの音声モーダルエンコーダとLLMを使用しており、これによりLLaSMはリソースを節約できます。彼らは特に、音声エンコーダとしてWhisperを使用し、音声信号を組み込みます。大規模言語モデルの入力テキスト埋め込みは、モーダルアダプタを使用して音声埋め込みと一致させます。音声とテキストの埋め込みを組み合わせて、交互になったシーケンスを作成します。交互になったシーケンスは、監督付きの微調整のためにLLMに供給されます。

トレーニング手順には2つのフェーズがあります。初期段階では、パブリックのASRデータセットを使用してモーダルアダプタの事前トレーニングを行います。モーダルアダプタのみがトレーニングされ、音声エンコーダとLLMはロックされます。この段階では、モーダルアダプタの一部のパラメータが導入されるため、モデルのパラメータの大部分はまだ修正が必要ですが、リソースを消費することはありません。2番目のステップでは、クロスモーダルな指示データを使用して、モデルがマルチモーダルな指示を処理し、クロスモーダルな相互作用を分析できるようにします。クロスモーダル教育のために言語モデルとモーダルアダプタの設定が変更される間、音声エンコーダは固定されます。

重要なことは、オープンソースの音声テキストクロスモーダル指示フォローのデータセットはほとんど存在しないということです。したがって、彼らはLLaSM-Audio-Instructionsデータセットを作成し、公開しました。このデータセットは、GPT4-LLM、ShareGPT、WizardLMからの会話を慎重に選び、テキスト読み上げ技術を使用して大量の会話音声データを作成しています。彼らの知る限り、これは最大の中国語と英語の音声テキストクロスモーダル指示フォローのデータセットであり、199,000の対話、80,000の中国語の音声サンプル、428,000の英語の音声サンプルを含んでいます。

彼らの研究は以下の貢献をしています:

• 音声と言語を理解し、音声と言語のコマンドを実行できる音声言語のマルチモーダルモデルを作成しました。これにより、人々が人工知能とコミュニケーションを取るためのより実践的で有機的な方法が提供されます。

• 中国語と英語の音声とテキストを組み合わせたクロスモーダルな指示フォローの大規模データセットLLaSM-Audio-Instructionsを作成し、公開しました。

• デモはHuggingFaceのオンラインで、コードはGitHubで閲覧できます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

検索における生成AIが120以上の新しい国と地域に拡大します

「Generative AI in Search」または「Search Generative Experience(SGE)」は、世界中で拡大し、4つの新しい言語が追加され...

人工知能

「自律AIエージェントを使用してタスクを自動化するための10の方法」

はじめに テクノロジーのダイナミックな風景の中で、自律型AIエージェントは変革的な存在として登場し、データと人工知能との...

データサイエンス

「ベクターデータベースを使用してLLMアプリを作成する方法」

イントロダクション 人工知能の領域では、OpenAIのGPT-4、AnthropicのClaude 2、MetaのLlama、Falcon、GoogleのPalmなど、Lar...

データサイエンス

十年生のためのニューラルネットワークの簡略化

複雑なニューラルネットワークの概念を、コスト関数、ニューロン、バックプロパゲーション、重みとバイアスを非技術的で楽し...

機械学習

「セマンティックカーネルへのPythonistaのイントロ」

ChatGPTのリリース以来、大規模言語モデル(LLM)は産業界とメディアの両方で非常に注目されており、これによりLLMを活用しよ...

データサイエンス

「関係深層学習ベンチマーク(RelBench)に出会ってください:関係データベース上の機械学習のためのリアルな、大規模で多様なベンチマークデータセットのコレクション」

人工知能(AI)と機械学習(ML)の急速な進歩の分野において、効果的で自動化され、適応性のある手法を見つけることは非常に...