Google研究者がAudioPaLMを導入:音声技術における革新者 – 聞き、話し、そして前例のない精度で翻訳する新しい大規模言語モデル

Google researchers introduce AudioPaLM an innovative large-scale language model for speech technology to listen, speak, and translate with unprecedented accuracy.

大規模言語モデル(LLM)が数ヶ月間注目を集めています。人工知能の分野で最も優れた進歩の1つであり、これらのモデルは人間と機械の相互作用の方法を変革しています。すべての業界がこれらのモデルを採用しているため、これらはAIが世界を支配する最良の例です。LLMは、複雑な相互作用や知識の取得を必要とするタスクに対してテキストを生成することで優れており、その最良の例は、GPT 3.5とGPT 4のTransformerアーキテクチャに基づくOpenAIが開発した有名なチャットボットであるChatGPTです。テキストの生成だけでなく、CLIP(コントラスティブ言語-画像事前トレーニング)のようなモデルも画像生成のために開発されており、画像の内容に応じてテキストを作成することができます。

音声生成と理解の進展を目指して、Googleの研究者チームは、音声理解と生成のタスクに対応できる大規模言語モデルであるAudioPaLMを紹介しました。AudioPaLMは、PaLM-2モデルとAudioLMモデルの2つの既存のモデルの利点を組み合わせて、テキストと音声の両方を処理および生成できる統一されたマルチモーダルアーキテクチャを生成します。これにより、AudioPaLMは音声認識から音声-to-テキスト変換までのさまざまなアプリケーションを処理できます。

AudioLMは話者のアイデンティティやトーンなどの並列言語情報を維持することに優れていますが、テキストベースの言語モデルであるPaLM-2は、テキスト固有の言語知識に特化しています。これら2つのモデルを組み合わせることで、AudioPaLMはPaLM-2の言語的専門知識とAudioLMの並列言語情報の保存を活用し、テキストと音声のより徹底的な理解と生成を実現します。

AudioPaLMは、限られた数の離散トークンを使用して音声とテキストの両方を表すことができる共通の語彙を使用しています。この共通の語彙をマークアップタスクの説明と組み合わせることで、さまざまな音声およびテキストベースのタスクに対して単一のデコーダーのみのモデルをトレーニングすることができます。従来は別々のモデルが対処していた音声認識、テキスト-to-スピーチ合成、音声-to-音声翻訳などのタスクが、単一のアーキテクチャとトレーニングプロセスに統合されるようになりました。

評価の結果、AudioPaLMは音声翻訳の既存システムを大幅に上回りました。未知の言語の組み合わせに対してゼロショット音声-to-テキスト翻訳を実行できるため、より広範な言語サポートの可能性を開くことができます。また、AudioPaLMは短い音声プロンプトに基づいて言語間で声を転送でき、異なる言語で特定の声を捕捉して再生することができるため、声の変換と適応が可能になります。

チームが言及した主な貢献は次のとおりです。

  1. AudioPaLMは、テキストのみの事前トレーニングからPaLMとPaLM-2sの能力を利用しています。
  1. 自動音声翻訳および音声-to-音声翻訳のベンチマークでSOTAの結果を達成し、自動音声認識のベンチマークでも競争力のあるパフォーマンスを発揮しています。
  1. モデルは、見たことのないスピーカーの声転送で音声-to-音声翻訳を実行し、音声品質と声の保存において既存の方法を超えています。
  1. AudioPaLMは、見たことのない言語の組み合わせで自動音声翻訳を実行することにより、ゼロショットの機能を実証しています。

結論として、AudioPaLMは、テキストベースのLLMの能力を利用し、オーディオプロンプティング技術を組み合わせて、音声とテキストの両方を処理する統一されたLLMであり、LLMのリストに有望な追加です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

スタンフォード大学とGoogleからのこのAI論文は、生成エージェントを紹介しています生成エージェントは、人間の振る舞いをシミュレートするインタラクティブな計算エージェントです

明らかに、AIボットは高品質かつ流暢な自然言語を生成することができます。長い間、研究者や実践者は、異なる種類の相互作用...

AI研究

UCバークレーの研究者たちは、「RLIF」という強化学習方法を導入しましたこの方法は、対話型の模倣学習に非常に近い環境での介入から学ぶものです

UCバークレーの研究者たちは、ユーザーの介入シグナルをリインフォースメントラーニング(RL)と統合した学習ベースの制御問...

AI研究

AIを使って若返る方法:新しい抗加齢薬が発見される

AIアルゴリズムが突破口を開き、老化や年齢関連疾患と戦う可能性のある潜在的な薬剤を特定するのに重要な役割を果たしました...

データサイエンス

評価から啓示へ:クロスバリデーションにおける外部サンプル予測の探求

クロスバリデーションの理解と実践における適用は、すべてのデータサイエンティストにとって必須のスキルですクロスバリデー...

データサイエンス

ランダムウォークタスクにおける時差0(Temporal-Difference(0))と定数αモンテカルロ法の比較

モンテカルロ(MC)法と時間差分(TD)法は、強化学習の分野での基本的な手法です経験に基づいて予測問題を解決します

機械学習

「生成的なAIアプリケーションと3D仮想世界の構築方法」

成長し成功するためには、組織は特に生成AIや3D仮想世界のような急速に進化する技術領域において、技術スキルの開発に継続的...