メタAIとケンブリッジ大学の研究者は、大規模言語モデル(LLM)が音声認識能力でプロンプトされる方法を調査しました
MetaAI and researchers from the University of Cambridge investigated how large language models (LLMs) can be prompted for speech recognition capabilities.
大規模言語モデル(Large Language Models)は、有名なChatGPTの導入により新しいトレンドとなっています。OpenAIによって開発されたこのチャットボットは、質問に正確に答えたり、長いテキストデータの要約をしたり、コードの断片を補完したり、テキストを異なる言語に翻訳したりするなど、あらゆることができます。LLMsは人間の模倣能力を持ち、自然言語処理、自然言語理解、自然言語生成、コンピュータビジョンなどの人工知能のサブフィールドに基づいています。
明示的な監督なしで、LLMsは膨大な量のテキストデータで次の単語を予測することによって訓練されます。その結果、彼らは自分たちのニューラルネットワークの制約の中で外界に関する大量の知識をエンコードする能力を発展させ、さまざまな下流のタスクに役立つようになります。LLMsはさまざまな分野で優れたパフォーマンスを示していますが、最近の研究ではモデルに小さな音声エンコーダを組み込むことで、音声認識を可能にするというLLMsの能力を一段と拡張しています。
この手順では、既存のテキストトークンエンベッディングに音声データの表現などの一連の音声エンベッディングを直接組み込むことが含まれます。これにより、LLMは統合された表現のおかげで、テキストベースの相当するものと同様に自動音声認識(ASR)タスクを行うことができます。また、口頭でのコミュニケーションを印刷されたテキストに翻訳することもできます。研究チームは、デコーダのみの大規模言語モデルが多言語音声認識を行い、オーディオシーケンスで訓練された場合、教師ありの単一言語トレーニングのベースラインを上回ることを共有しています。オーディオエンコーダモデルのサイズやフレームレート、LLMパラメータの低ランク適応、テキストトークンのマスキング、使用される大規模言語モデルのタイプなど、研究は認識精度を向上させるために検討するいくつかの変数を検討しています。
- 「CMUの研究者たちは、TIDEEを提案します:明示的な指示なしで、これまで見たことのない部屋を整理することができる具現化エージェント」
- USCの研究者は、新しい共有知識生涯学習(SKILL)チャレンジを提案しましたこのチャレンジでは、分散型のLLエージェントの集団が展開され、各エージェントが個別に異なるタスクを順次学習し、全てのエージェントが独立かつ並行して動作します
- この脳AIの研究では、安定した拡散を用いて脳波から画像を再現します
オーディオエンコーダの出力を分析することにより、音声エンベッディングが対応するテキストトークンと正確に一致することを示し、音声情報とテキスト情報の効果的な融合を実証しています。評価には、Multilingual LibriSpeech(MLS)データセットを使用して、この戦略の効果を評価しています。オープンソースのLLaMA-7Bは、コンフォーマーエンコーダ(音声処理に特化した一種のニューラルネットワーク)を組み込んだ大規模言語モデルです。結果は、この調整により、LLMが単一言語のベースラインよりも音声認識タスクで18%優れたパフォーマンスを発揮することが可能になりました。主に英語テキストで訓練されたLLaMA-7Bは、多言語音声認識に優れています。
主な実験に加えて、研究では拡張されたLLMのパフォーマンスの他の側面も調査されています。LLMのパラメータを変更せずにトレーニング中にLLMを凍結できるかどうかを調べるために、抜粋試験が行われました。これにより、LLMが凍結されている間でも依然として優れた多言語ASRを実行できることが示されています。
研究チームはまた、オーディオエンコーダのスケーリングアップ、オーディオエンコーダストライド(オーディオが分割されるパラメータ)、およびより少ない音声エンベッディングの生成の影響についても調査しています。これらのテストを通じて、ASRシステムの効果と効率を向上させることを目指しています。結論として、結果は、LLMsが大きな音声エンコーダや長いストライドでも多言語ASRの実行が可能であることを示しており、LLMsが長い形式の音声入力を処理する能力を持っていることを示唆しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「UBCカナダの研究者が、都市ドライバーに最も安全な経路をマッピングする新しいAIアルゴリズムを紹介」
- 「AIの画像をどのように保存すべきか?Googleの研究者がスコアベースの生成モデルを使用した画像圧縮方法を提案」
- 研究者たちは、ビデオ記録を使用して、鳥の姿勢を3Dで追跡するための新しいマーカーレスAIメソッドを開発しました
- スタンフォード大学の研究者が、言語モデルの事前トレーニングのための拡張可能な二次最適化手法であるSophiaを紹介しました
- このPythonライブラリ「Imitation」は、PyTorchでの模倣と報酬学習アルゴリズムのオープンソース実装を提供します
- 「Ph.D.学生や研究者向けの無料オンラインコース10選」
- サムスンのAI研究者が、ニューラルヘアカットを紹介しましたこれは、ビデオや画像から人間の髪の毛のストランドベースのジオメトリを再構築するための新しいAI手法です