Google AIがSpectronを導入:スペクトログラムを入力および出力として直接処理する、最初のスポークンランゲージAIモデルとしてエンドツーエンドでトレーニングされたものです

Google AIがSpectronを導入:リアルタイムのスペクトログラム処理を可能にする最初のスポークンランゲージAIモデル、エンドツーエンドでトレーニングされました

音声継続および質疑応答型のLLMsは、さまざまなタスクや産業に適用できる多才なツールであり、生産性の向上、ユーザーエクスペリエンスの向上、およびさまざまな分野の研究開発の推進に貢献しています。主なこれらのLLMsの例には、GPT-3とその後継機があり、テキストの理解および生成において優れたパフォーマンスを発揮し、注目を集めています。

これらのLLMsは、通常、深層学習アーキテクチャ上に構築されます。彼らは膨大なテキストデータで事前トレーニングされており、統計的なパターンとテキストベースの自然言語の構造を捉えることにより、文脈に即した関連性のあるテキストを理解し生成することができます。

Google ResearchとVerily AIのチームは、スペクトログラムとしての入力と出力の両方を直接処理する新しいスポークンランゲージモデル「Spectron」を発表しました。スペクトログラムは、信号の周波数スペクトルの時間とともに変化する様子を視覚的に表現したものです。このモデルは、事前にトレーニングされた音声エンコーダのオーディオ機能を活用するための中間投影層を使用しています。このモデルは、通常事前トレーニングされたエンコーダとデコーダで生じる帰納的なバイアスを排除するだけでなく、再現性の保持も妨げることなくこれを行います。

この言語モデルは、テキストの継続を転写し生成し、オーディオ生成にさらに応える「中間の書き読み台帳」として機能します。グラウンドトゥルースの導関数は、信号の形状についての豊富な情報を表現します。チームは、この事実を利用して、スペクトログラム回帰を使用してグラウンドトゥルースの高次の時間および特徴の変化をモデルに対応させます。

モデルのアーキテクチャは、事前にトレーニングされた音声エンコーダと事前にトレーニングされた言語デコーダで初期化されます。エンコーダは音声発話をプロンプトとして入力し、それらを言語的特徴にエンコードします。特徴は、デコーダへのプレフィックスとして入力され、全体のエンコーダ-デコーダは、交差エントロピーを最小化するために最適化されます。この方法では、音声の音声プロンプトを提供し、エンコードされ、デコードされてテキストと音声の継続を提供します。

研究者たちは、中間テキストとスペクトログラムのデコードに同じアーキテクチャを使用しました。これには2つの利点があります。まず第一に、テキスト領域でLMの事前トレーニングを行い、音声を合成する前にプロンプトをテキスト領域で継続することです。第二に、予測されたテキストは、テキストベースの言語モデルの改善に伴い、合成された音声の品質を高めるための中間的推論を担当します。

ただし、この作業は時間と空間の複雑さが高く、複数のスペクトログラムフレームの生成が必要です。これには時間がかかりますので、長い音声発話の生成は不可能です。また、モデルはテキストとスペクトログラムのデコードプロセスを並行して実行することができません。将来的には、チームは並列化されたデコーディングアルゴリズムの開発に注力する予定です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

このAI論文では、「Lightning Cat」というスマート契約の脆弱性検出ツールを紹介していますこれは、深層学習をベースにしたツールです

スマートコントラクトは、分散型アプリケーションの開発においてブロックチェーン技術で重要な役割を果たしています。スマー...

データサイエンス

「ベクターデータベースを使用してLLMアプリを作成する方法」

イントロダクション 人工知能の領域では、OpenAIのGPT-4、AnthropicのClaude 2、MetaのLlama、Falcon、GoogleのPalmなど、Lar...

データサイエンス

「ChatGPTのようなLLMの背後にある概念についての直感を構築する-パート1-ニューラルネットワーク、トランスフォーマ、事前学習、およびファインチューニング」

「たぶん私だけじゃないと思いますが、1月のツイートで明らかになっていなかったとしても、私は最初にChatGPTに出会ったとき...

AIニュース

KubernetesでのGenAIアプリケーションの展開:ステップバイステップガイド

このガイドは、高い可用性のためにKubernetes上でGenAIアプリケーションを展開するための包括的で詳細な手順を提供します

機械学習

自己対戦を通じて単純なゲームをマスターするエージェントのトレーニング

「完全情報ゲームで優れるために必要なすべてがゲームのルールにすべて見えるというのはすごいことですね残念ながら、私のよ...