Google AIがSpectronを導入:スペクトログラムを入力および出力として直接処理する、最初のスポークンランゲージAIモデルとしてエンドツーエンドでトレーニングされたものです

Google AIがSpectronを導入:リアルタイムのスペクトログラム処理を可能にする最初のスポークンランゲージAIモデル、エンドツーエンドでトレーニングされました

音声継続および質疑応答型のLLMsは、さまざまなタスクや産業に適用できる多才なツールであり、生産性の向上、ユーザーエクスペリエンスの向上、およびさまざまな分野の研究開発の推進に貢献しています。主なこれらのLLMsの例には、GPT-3とその後継機があり、テキストの理解および生成において優れたパフォーマンスを発揮し、注目を集めています。

これらのLLMsは、通常、深層学習アーキテクチャ上に構築されます。彼らは膨大なテキストデータで事前トレーニングされており、統計的なパターンとテキストベースの自然言語の構造を捉えることにより、文脈に即した関連性のあるテキストを理解し生成することができます。

Google ResearchとVerily AIのチームは、スペクトログラムとしての入力と出力の両方を直接処理する新しいスポークンランゲージモデル「Spectron」を発表しました。スペクトログラムは、信号の周波数スペクトルの時間とともに変化する様子を視覚的に表現したものです。このモデルは、事前にトレーニングされた音声エンコーダのオーディオ機能を活用するための中間投影層を使用しています。このモデルは、通常事前トレーニングされたエンコーダとデコーダで生じる帰納的なバイアスを排除するだけでなく、再現性の保持も妨げることなくこれを行います。

この言語モデルは、テキストの継続を転写し生成し、オーディオ生成にさらに応える「中間の書き読み台帳」として機能します。グラウンドトゥルースの導関数は、信号の形状についての豊富な情報を表現します。チームは、この事実を利用して、スペクトログラム回帰を使用してグラウンドトゥルースの高次の時間および特徴の変化をモデルに対応させます。

モデルのアーキテクチャは、事前にトレーニングされた音声エンコーダと事前にトレーニングされた言語デコーダで初期化されます。エンコーダは音声発話をプロンプトとして入力し、それらを言語的特徴にエンコードします。特徴は、デコーダへのプレフィックスとして入力され、全体のエンコーダ-デコーダは、交差エントロピーを最小化するために最適化されます。この方法では、音声の音声プロンプトを提供し、エンコードされ、デコードされてテキストと音声の継続を提供します。

研究者たちは、中間テキストとスペクトログラムのデコードに同じアーキテクチャを使用しました。これには2つの利点があります。まず第一に、テキスト領域でLMの事前トレーニングを行い、音声を合成する前にプロンプトをテキスト領域で継続することです。第二に、予測されたテキストは、テキストベースの言語モデルの改善に伴い、合成された音声の品質を高めるための中間的推論を担当します。

ただし、この作業は時間と空間の複雑さが高く、複数のスペクトログラムフレームの生成が必要です。これには時間がかかりますので、長い音声発話の生成は不可能です。また、モデルはテキストとスペクトログラムのデコードプロセスを並行して実行することができません。将来的には、チームは並列化されたデコーディングアルゴリズムの開発に注力する予定です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

カールスルーエ工科大学(KIT)の研究者たちは、深層学習を用いた降水マッピングに取り組み、空間および時間の分解能向上に向けて進化させました

気候変動のため、特に激しい降水イベントがより頻繁に起こると予想されています。洪水や地滑りなどの多くの自然災害は、激し...

データサイエンス

機械はジェンAIを使用してお互いに英語で対話すべきでしょうか?

「私たちの機械に英語で会話することを教えることで、アプリケーションやデータの統合に関するまだ解決策の見えていない課題...

データサイエンス

SIGGRAPH特別講演:NVIDIAのCEOがLAショーに生成AIをもたらす

生成AIがますますデジタルでハイパーコネクテッドな世界に広がる中、NVIDIAの創設者兼CEOであるJensen Huang氏は、世界最高の...

人工知能

Relume AIによって生成されたワイヤーフレームとサイトマップ

もしウェブサイトをデザインする必要がある場合、Relumeを試さないのは愚かです

AIニュース

創造性とAIに関するレフィク・アナドールとの対話

Mira Lane は、先駆的なアーティスト Refik Anadol と共に、AIが創造力を強化している方法を探求しています

機械学習

T5 テキストからテキストへのトランスフォーマー(パート2)

BERT [5] の提案により、自然言語処理(NLP)のための転移学習手法の普及がもたらされましたインターネット上での未ラベル化...