Google AIがSpectronを導入:スペクトログラムを入力および出力として直接処理する、最初のスポークンランゲージAIモデルとしてエンドツーエンドでトレーニングされたものです

Google AIがSpectronを導入:リアルタイムのスペクトログラム処理を可能にする最初のスポークンランゲージAIモデル、エンドツーエンドでトレーニングされました

音声継続および質疑応答型のLLMsは、さまざまなタスクや産業に適用できる多才なツールであり、生産性の向上、ユーザーエクスペリエンスの向上、およびさまざまな分野の研究開発の推進に貢献しています。主なこれらのLLMsの例には、GPT-3とその後継機があり、テキストの理解および生成において優れたパフォーマンスを発揮し、注目を集めています。

これらのLLMsは、通常、深層学習アーキテクチャ上に構築されます。彼らは膨大なテキストデータで事前トレーニングされており、統計的なパターンとテキストベースの自然言語の構造を捉えることにより、文脈に即した関連性のあるテキストを理解し生成することができます。

Google ResearchとVerily AIのチームは、スペクトログラムとしての入力と出力の両方を直接処理する新しいスポークンランゲージモデル「Spectron」を発表しました。スペクトログラムは、信号の周波数スペクトルの時間とともに変化する様子を視覚的に表現したものです。このモデルは、事前にトレーニングされた音声エンコーダのオーディオ機能を活用するための中間投影層を使用しています。このモデルは、通常事前トレーニングされたエンコーダとデコーダで生じる帰納的なバイアスを排除するだけでなく、再現性の保持も妨げることなくこれを行います。

この言語モデルは、テキストの継続を転写し生成し、オーディオ生成にさらに応える「中間の書き読み台帳」として機能します。グラウンドトゥルースの導関数は、信号の形状についての豊富な情報を表現します。チームは、この事実を利用して、スペクトログラム回帰を使用してグラウンドトゥルースの高次の時間および特徴の変化をモデルに対応させます。

モデルのアーキテクチャは、事前にトレーニングされた音声エンコーダと事前にトレーニングされた言語デコーダで初期化されます。エンコーダは音声発話をプロンプトとして入力し、それらを言語的特徴にエンコードします。特徴は、デコーダへのプレフィックスとして入力され、全体のエンコーダ-デコーダは、交差エントロピーを最小化するために最適化されます。この方法では、音声の音声プロンプトを提供し、エンコードされ、デコードされてテキストと音声の継続を提供します。

研究者たちは、中間テキストとスペクトログラムのデコードに同じアーキテクチャを使用しました。これには2つの利点があります。まず第一に、テキスト領域でLMの事前トレーニングを行い、音声を合成する前にプロンプトをテキスト領域で継続することです。第二に、予測されたテキストは、テキストベースの言語モデルの改善に伴い、合成された音声の品質を高めるための中間的推論を担当します。

ただし、この作業は時間と空間の複雑さが高く、複数のスペクトログラムフレームの生成が必要です。これには時間がかかりますので、長い音声発話の生成は不可能です。また、モデルはテキストとスペクトログラムのデコードプロセスを並行して実行することができません。将来的には、チームは並列化されたデコーディングアルゴリズムの開発に注力する予定です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

シカゴ大学と東京大学との量子コンピューティングパートナーシップ

東京大学、シカゴ大学、そしてGoogleは、量子情報科学とエンジニアリングに関する戦略的パートナーシップを確立しました

データサイエンス

スタンフォード大学の研究は、PointOdysseyを紹介します:長期ポイント追跡のための大規模な合成データセット

大規模な注釈付きデータセットは、さまざまなコンピュータビジョンタスクで正確なモデルを作成するためのハイウェイとして機...

機械学習

Google AIは、アクティブノイズキャンセリング(ANC)ヘッドフォンのための人工知能搭載の革新的な心臓モニタリングモダリティである音響脈波計(APG)を導入します

コンシューマーエレクトロニクスと健康技術の分野において、活発なノイズキャンセリング(ANC)ウェアラブルに健康モニタリン...

データサイエンス

AIはETLの再発明に時間を浪費する必要はない

「AIコミュニティはデータ統合を再発明しようとしていますが、現在のETLプラットフォームは既にこの問題を解決していますなぜ...

データサイエンス

「生成AIの組織化:データサイエンスチームから得た5つの教訓」

「経営陣が曖昧な約束をした後、新しいGen AIの機能が組織全体に組み込まれることを利害関係者に約束した後、あなたのタイガ...

AIニュース

検索で創発的AIにインスピレーションを受ける新たな方法

「私たちは、アイデアを具現化するイメージを作るための新しい方法や、出発点となる文章の下書きのようなものを作成するため...