アリババの研究者らがQwen-Audioシリーズを発表 ユニバーサルな音声理解能力を備えた大規模な音声言語モデルのセット

「アリババの研究者がQwen-Audioシリーズを発表!ユニバーサルな音声理解能力を備えた大規模な音声言語モデルのセット」

アリババグループの研究チームは、さまざまなタスクに対する事前学習済みオーディオモデルの限定的な課題に対処するQwen-Audioを紹介しました。階層型のタグベースのマルチタスクフレームワークは、共同トレーニングからの干渉問題を避けるために設計されています。Qwen-Audioは、タスク固有の調整なしでベンチマークのタスク全体で素晴らしいパフォーマンスを発揮します。Qwen-Audio-Chatは、Qwen-Audioをベースに作成され、マルチターンの対話とさまざまなオーディオ中心シナリオをサポートし、その普遍的なオーディオ理解能力を示しています。

Qwen-Audioは、従来のオーディオ言語モデルの制限を乗り越え、さまざまなオーディオタイプとタスクに対応します。以前の音声に関する作品とは異なり、Qwen-Audioは人間の話し声、自然音、音楽、歌を組み入れることで、異なる粒度のデータセットでの共同トレーニングを可能にします。このモデルは、タスク固有の変更なしで音声認識タスクなどで優れた成績を収めます。Qwen-Audio-Chatは、これらの機能を拡張し、人間の意図との整合性を図り、オーディオとテキストの入力からのマルチリンガルなマルチターンの対話をサポートし、堅牢かつ包括的なオーディオ理解を示します。

LLM(Language Language Models)は一般的な人工知能に優れていますが、オーディオの理解力に欠けます。Qwen-Audioは、30のタスクとさまざまなオーディオタイプをカバーするように事前学習のスケーリングを行い、干渉を軽減するマルチタスクフレームワークを利用します。Qwen-Audioは、タスク固有の調整なしでベンチマーク全体で印象的なパフォーマンスを発揮します。Qwen-Audio-Chatは、マルチターンの対話とさまざまなオーディオ中心のシナリオをサポートし、LLMの包括的なオーディオインタラクション能力を示しています。

Qwen-AudioとQwen-Audio-Chatは、普遍的なオーディオ理解と柔軟なヒューマンインタラクションのためのモデルです。Qwen-Audioは、オーディオエンコーダを最適化するマルチタスクの事前学習アプローチを採用し、同時に言語モデルの重みを固定します。一方、Qwen-Audio-Chatは、音声エンコーダの重みを固定しながら、言語モデルを最適化する教師ありの微調整を使用します。トレーニングプロセスには、マルチタスクの事前学習と教師付きの微調整が含まれます。Qwen-Audio-Chatは、多言語、マルチターンの対話をオーディオとテキストの入力からサポートする多目的なヒューマンインタラクションを実現し、その適応性と包括的なオーディオ理解を示しています。

Qwen-Audioは、ベンチマークのさまざまなタスクで驚異的なパフォーマンスを発揮し、タスク固有の調整なしでは先行研究を大幅に上回ります。AAC、SWRT ASC、SER、AQA、VSC、およびMNAのようなジョブでは、ベースラインを大幅に上回る結果を一貫して出します。このモデルは、CochlScene、ClothoAQA、VocalSoundで最新の成果を達成し、堅牢なオーディオ理解能力を示しています。さまざまな分析におけるQwen-Audioの優れたパフォーマンスは、チャレンジングなオーディオタスクの最新の成果を達成する能力と有能性を強調しています。

Qwen-Audioシリーズは、さまざまなオーディオタイプとタスクにわたる普遍的な理解を備えた大規模なオーディオ言語モデルを紹介します。これらのモデルは、マルチタスクトレーニングフレームワークを通じて開発され、異なるデータセットのさまざまなテキストラベルからの干渉を乗り越え、知識の共有を促進します。タスク固有の調整なしでベンチマーク全体で印象的なパフォーマンスを実現するQwen-Audioは、先行研究を上回ります。Qwen-Audio-Chatは、これらの機能を拡張し、マルチターンの対話を可能にし、さまざまなオーディオシナリオをサポートし、人間の意図との堅牢な整合性を示し、多言語の相互作用を促進します。

Qwen-Audioの将来の探索には、さまざまなオーディオタイプ、言語、および特定のタスクの能力を拡大することが含まれます。マルチタスクフレームワークの改良や、共同トレーニングにおける干渉問題に対処するための代替の知識共有アプローチの検討が可能です。タスク固有の微調整の調査はパフォーマンスを向上させることができます。新しいベンチマーク、データセット、およびユーザーフィードバックに基づいた継続的な更新は、普遍的なオーディオ理解を向上させることを目指しています。Qwen-Audio-Chatは、人間の意図との整合性を高め、多言語の相互作用をサポートし、動的なマルチターンの対話を可能にするために改良されます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「DISCOに会おう:人間のダンス生成のための革新的なAI技術」

生成AIは、コンピュータビジョンのコミュニティで大きな関心を集めています。テキストに基づく画像およびビデオ合成の最近の...

データサイエンス

ML プレゼンテーションに PowerPoint を使うのをやめて、代わりにこれを試してみてください

悪いパワーポイントは、注意散漫な聴衆を生み出します(彼らはカメラをオフにし、複数のタスクを同時に行います)また、その...

コンピュータサイエンス

「それはすでに人間ができることを遥かに超えている」:AIは建築家を一掃するのか?

「それは建物の革命を起こしていますが、AIは一つの職業を絶滅させる可能性がありますか?」

機械学習

このAI論文は、'リラックス:エンドツーエンドの動的機械学習ワークロードの最適化のためのコンパイラの抽象化'を紹介しています

動的な形状を持つ機械学習モデルの最適化は、より優れたパフォーマンスと柔軟性を実現するために重要です。動的な形状とは、...

AI研究

UCバークレーとMeta AIの研究者らは、トラックレット上で3Dポーズとコンテキスト化された外観を融合することにより、ラグランジュアクション認識モデルを提案しています

流体力学では、ラグランジュ流体場形式とオイラー流体場形式を区別することが慣習となっています。Wikipediaによると、「流体...