音から視覚へ:音声から画像を合成するAudioTokenについて

AudioToken Synthesizing Images from Sound

ニューラル生成モデルは、私たちがデジタルコンテンツを消費する方法を変え、さまざまな側面を革命化しています。彼らは高品質の画像を生成し、長いテキストスパンでの一貫性を確保し、音声やオーディオを生成する能力を持っています。異なるアプローチの中でも、拡散ベースの生成モデルは注目を集め、さまざまなタスクで有望な結果を示しています。

拡散プロセス中、モデルは定義済みのノイズ分布を目標データ分布にマップする方法を学習します。各ステップで、モデルはノイズを予測し、目標分布から信号を生成します。拡散モデルは、生の入力や潜在表現など、さまざまな形式のデータ表現で動作できます。

Stable Diffusion、DALLE、Midjourneyなどの最先端のモデルは、テキストから画像合成のタスクに対して開発されています。最近ではX-to-Y生成に対する関心が高まっていますが、オーディオから画像へのモデルはまだ深く探究されていません。

テキストプロンプトではなくオーディオ信号を使用する理由は、動画のコンテキストでの画像と音声の相互接続にあります。一方、テキストベースの生成モデルは優れた画像を生成できますが、テキストの説明は画像と本質的に関連していません。つまり、テキストの説明は通常手動で追加されます。また、オーディオ信号には、同じ楽器の異なるバリエーション(例:クラシックギター、アコースティックギター、エレキギターなど)や、同一のオブジェクトの異なる視点(例:スタジオで録音されたクラシックギターとライブショーでのクラシックギター)など、複雑なシーンやオブジェクトを表す能力があります。異なるオブジェクトのこのような詳細な情報の手動注釈は労力がかかり、拡張性が低下するため、スケーラビリティに課題があります。

以前の研究では、主にGANを使用してオーディオ録音に基づいて画像を生成することに焦点を当てた方法が提案されています。ただし、彼らの作業と提案された方法の間には顕著な違いがあります。一部の方法では、MNIST数字の生成にのみ焦点を当て、一般的なオーディオサウンドを包括するアプローチには拡張しませんでした。その他の方法では、一般的なオーディオから画像を生成しましたが、低品質の画像に結果が出たものもありました。

これらの研究の制限を克服するために、オーディオから画像を生成するためのDLモデルが提案されました。その概要は、以下の図に示されています。

このアプローチは、事前にトレーニングされたテキストから画像を生成するモデルと、事前にトレーニングされたオーディオ表現モデルを活用して、それらの出力と入力の間の適応層マッピングを学習することを含みます。最近のテキスト反転の研究から、専用のオーディオトークンが導入され、オーディオ表現が埋め込みベクトルにマップされます。このベクトルは、新しい単語埋め込みを反映する連続表現として、ネットワークに転送されます。

オーディオエンベッダーは、事前トレーニングされたオーディオ分類ネットワークを使用して、オーディオの表現をキャプチャします。通常、識別的ネットワークの最後の層が分類目的に使用されますが、識別的なタスクとは関係のない重要なオーディオの詳細を見落とすことがよくあります。そのため、このアプローチでは、最後の隠れ層と以前の層を組み合わせて、オーディオ信号の時間埋め込みを生成します。

提供されたモデルによって生成されたサンプル結果は、以下に報告されています。

これが、新しいオーディオから画像(A2I)合成モデルであるAudioTokenの概要でした。興味がある場合は、以下のリンクでこの技術についてもっと学ぶことができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

このAIニュースレターはあなたが必要とするものです#76

今週、私たちはトランスフォーマーや大規模な言語モデル(LLM)の領域を超えた重要なAIの進展に焦点を当てました最近の新しい...

機械学習

なぜGPUはAIに適しているのか

GPUは人工知能の希少な地球の金属、さらには金そのものとも呼ばれています。それは、今日の生成的AI時代において基盤となる存...

AIニュース

「OpenAIがGPT-6およびGPT-7の立ち上げ準備を進める:中国で商標申請」

人工知能(AI)の推進に対するコミットメントを示す戦略的な動きとして、OpenAIは最近、中国でGPT-6とGPT-7の商標を申請しま...

人工知能

ワンダーダイナミックスの使い方:自分自身を3Dキャラクターに変身させる方法

ボタンをクリックするだけで、自分自身を3Dアニメーションキャラクターに変身させることができます

機械学習

「PDF、txt、そしてウェブページとして、あなたのドキュメントと話しましょう」

LLMsを使用してPDF、TXT、さらにはウェブページなどのドキュメントに質問をすることができるウェブと知能を作成するための完...

データサイエンス

ジェネラティブAIを活用したシフトレフトテストの推進

「ジェネラティブAIがシフトレフトテストを向上させ、優れたソフトウェア開発のためのテストケースの自動生成と予測的なバグ...