メタAIとケンブリッジ大学の研究者は、大規模言語モデル（LLM）が音声認識能力でプロンプトされる方法を調査しました

MetaAI and researchers from the University of Cambridge investigated how large language models (LLMs) can be prompted for speech recognition capabilities.

大規模言語モデル（Large Language Models）は、有名なChatGPTの導入により新しいトレンドとなっています。OpenAIによって開発されたこのチャットボットは、質問に正確に答えたり、長いテキストデータの要約をしたり、コードの断片を補完したり、テキストを異なる言語に翻訳したりするなど、あらゆることができます。LLMsは人間の模倣能力を持ち、自然言語処理、自然言語理解、自然言語生成、コンピュータビジョンなどの人工知能のサブフィールドに基づいています。

明示的な監督なしで、LLMsは膨大な量のテキストデータで次の単語を予測することによって訓練されます。その結果、彼らは自分たちのニューラルネットワークの制約の中で外界に関する大量の知識をエンコードする能力を発展させ、さまざまな下流のタスクに役立つようになります。LLMsはさまざまな分野で優れたパフォーマンスを示していますが、最近の研究ではモデルに小さな音声エンコーダを組み込むことで、音声認識を可能にするというLLMsの能力を一段と拡張しています。

この手順では、既存のテキストトークンエンベッディングに音声データの表現などの一連の音声エンベッディングを直接組み込むことが含まれます。これにより、LLMは統合された表現のおかげで、テキストベースの相当するものと同様に自動音声認識（ASR）タスクを行うことができます。また、口頭でのコミュニケーションを印刷されたテキストに翻訳することもできます。研究チームは、デコーダのみの大規模言語モデルが多言語音声認識を行い、オーディオシーケンスで訓練された場合、教師ありの単一言語トレーニングのベースラインを上回ることを共有しています。オーディオエンコーダモデルのサイズやフレームレート、LLMパラメータの低ランク適応、テキストトークンのマスキング、使用される大規模言語モデルのタイプなど、研究は認識精度を向上させるために検討するいくつかの変数を検討しています。

オーディオエンコーダの出力を分析することにより、音声エンベッディングが対応するテキストトークンと正確に一致することを示し、音声情報とテキスト情報の効果的な融合を実証しています。評価には、Multilingual LibriSpeech（MLS）データセットを使用して、この戦略の効果を評価しています。オープンソースのLLaMA-7Bは、コンフォーマーエンコーダ（音声処理に特化した一種のニューラルネットワーク）を組み込んだ大規模言語モデルです。結果は、この調整により、LLMが単一言語のベースラインよりも音声認識タスクで18％優れたパフォーマンスを発揮することが可能になりました。主に英語テキストで訓練されたLLaMA-7Bは、多言語音声認識に優れています。

主な実験に加えて、研究では拡張されたLLMのパフォーマンスの他の側面も調査されています。LLMのパラメータを変更せずにトレーニング中にLLMを凍結できるかどうかを調べるために、抜粋試験が行われました。これにより、LLMが凍結されている間でも依然として優れた多言語ASRを実行できることが示されています。

研究チームはまた、オーディオエンコーダのスケーリングアップ、オーディオエンコーダストライド（オーディオが分割されるパラメータ）、およびより少ない音声エンベッディングの生成の影響についても調査しています。これらのテストを通じて、ASRシステムの効果と効率を向上させることを目指しています。結論として、結果は、LLMsが大きな音声エンコーダや長いストライドでも多言語ASRの実行が可能であることを示しており、LLMsが長い形式の音声入力を処理する能力を持っていることを示唆しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceEditors PickLanguage modelLarge Language ModelMachine learningStaffTech NewsTechnology

Was this article helpful?

93 out of 132 found this helpful

メタAIとケンブリッジ大学の研究者は、大規模言語モデル（LLM）が音声認識能力でプロンプトされる方法を調査しました

Was this article helpful?

「エヴァ・マリー・ミュラー＝シュトゥーラ博士による、倫理的なAIとデータサイエンスの実践の重要性について」

スポティファイはAIを取り入れる：個人に合わせたプレイリストからオーディオ広告まで

AI研究

Google DeepMindとYouTubeの研究者は、Lyriaという高度なAI音楽生成モデルを発表しました

パーシステントシステムは、Amazon CodeWhispererと共にソフトウェアエンジニアリングの未来を形作っています

「Data Enthusiasts向けにエキサイティングな新機能を解放するChatGPT Plus」

「GPTクローラーに会ってください：サイトをクロールし、知識ファイルを生成し、1つまたは複数のURLからカスタムGPTを作成できるAIツール」

「LLMsを使用して、ロボットの新しいタスクをコーディングする」

メタとUNC-Chapel Hillの研究者は、「Branch-Solve-Merge」という革新的なプログラムを導入しました：複雑な言語課題における大規模言語モデルの性能を向上させるプログラム