Google AIがSpectronを導入:スペクトログラムを入力および出力として直接処理する、最初のスポークンランゲージAIモデルとしてエンドツーエンドでトレーニングされたものです

Google AIがSpectronを導入:リアルタイムのスペクトログラム処理を可能にする最初のスポークンランゲージAIモデル、エンドツーエンドでトレーニングされました

音声継続および質疑応答型のLLMsは、さまざまなタスクや産業に適用できる多才なツールであり、生産性の向上、ユーザーエクスペリエンスの向上、およびさまざまな分野の研究開発の推進に貢献しています。主なこれらのLLMsの例には、GPT-3とその後継機があり、テキストの理解および生成において優れたパフォーマンスを発揮し、注目を集めています。

これらのLLMsは、通常、深層学習アーキテクチャ上に構築されます。彼らは膨大なテキストデータで事前トレーニングされており、統計的なパターンとテキストベースの自然言語の構造を捉えることにより、文脈に即した関連性のあるテキストを理解し生成することができます。

Google ResearchとVerily AIのチームは、スペクトログラムとしての入力と出力の両方を直接処理する新しいスポークンランゲージモデル「Spectron」を発表しました。スペクトログラムは、信号の周波数スペクトルの時間とともに変化する様子を視覚的に表現したものです。このモデルは、事前にトレーニングされた音声エンコーダのオーディオ機能を活用するための中間投影層を使用しています。このモデルは、通常事前トレーニングされたエンコーダとデコーダで生じる帰納的なバイアスを排除するだけでなく、再現性の保持も妨げることなくこれを行います。

この言語モデルは、テキストの継続を転写し生成し、オーディオ生成にさらに応える「中間の書き読み台帳」として機能します。グラウンドトゥルースの導関数は、信号の形状についての豊富な情報を表現します。チームは、この事実を利用して、スペクトログラム回帰を使用してグラウンドトゥルースの高次の時間および特徴の変化をモデルに対応させます。

モデルのアーキテクチャは、事前にトレーニングされた音声エンコーダと事前にトレーニングされた言語デコーダで初期化されます。エンコーダは音声発話をプロンプトとして入力し、それらを言語的特徴にエンコードします。特徴は、デコーダへのプレフィックスとして入力され、全体のエンコーダ-デコーダは、交差エントロピーを最小化するために最適化されます。この方法では、音声の音声プロンプトを提供し、エンコードされ、デコードされてテキストと音声の継続を提供します。

研究者たちは、中間テキストとスペクトログラムのデコードに同じアーキテクチャを使用しました。これには2つの利点があります。まず第一に、テキスト領域でLMの事前トレーニングを行い、音声を合成する前にプロンプトをテキスト領域で継続することです。第二に、予測されたテキストは、テキストベースの言語モデルの改善に伴い、合成された音声の品質を高めるための中間的推論を担当します。

ただし、この作業は時間と空間の複雑さが高く、複数のスペクトログラムフレームの生成が必要です。これには時間がかかりますので、長い音声発話の生成は不可能です。また、モデルはテキストとスペクトログラムのデコードプロセスを並行して実行することができません。将来的には、チームは並列化されたデコーディングアルゴリズムの開発に注力する予定です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

「産業界が音声AIを活用して消費者の期待に応えている方法」

急速な技術の進歩のおかげで、消費者は前例のないほどの便利さと効率性に慣れてきました。 スマートフォンを使えば、商品を検...

機械学習

「トランスフォーマーの再定義:シンプルなフィードフォワードニューラルネットワークが効率的なシーケンス・トゥ・シーケンスのタスクにおいて注意機構を模倣する方法」

ETHチューリッヒの研究者は、標準の浅いフィードフォワードネットワークを利用してトランスフォーマーモデルの注意メカニズム...

データサイエンス

なぜハイプが重要なのか:AIについて現実的な考え方が必要

ELIZAはChatGPTにいくつかの類似点を持つ初期のチャットボットでしたなぜこの興奮が重要なのでしょうか?船を発明すると、船...

データサイエンス

「ソフトウェア開発におけるAIの活用:ソリューション戦略と実装」

この記事では、プロセス、ツールの選択、課題の克服について触れながら、ソフトウェア開発にAIをシームレスに統合するための...

機械学習

このAI論文は、柔軟なタスクシステムと手順的生成による強化学習を革新するNeural MMO 2.0を紹介しています

MIT、CarperAI、Parametrix.AIの研究者らは、Neural MMO 2.0を導入しました。これは、多様な目的と報酬信号を定義できる柔軟...

人工知能

Pythonを使用したビデオ内の深さに配慮したオブジェクトの挿入

「コンピュータビジョンの分野では、動画における深度とカメラの位置推定の一貫性が、より高度な操作、例えば動画への深度認...