「WavJourney:オーディオストーリーライン生成の世界への旅」

WavJourney Journey into the world of audio storyline generation

 

はじめに

 

大規模言語モデルの登場により、世界は大いに変わりました。今や、想像力こそが限界です。今日、WavJourneyは物語作成の自動化を行うことができます。単一のプロンプトを与えるだけで、WavJourneyはLLMの力を活用して、正確なストーリーライン、生き生きとした人間の声、魅力的なバックグラウンド音楽を備えた引き込まれるオーディオスクリプトを生成します。

オーディオ生成の力を正しく理解するために、次のシナリオを考えてみましょう。単純な指示を与えるだけで、シナリオと場面設定を説明し、モデルが元の指示との関連性を最大限に活かした引き込まれるオーディオスクリプトを生成します。

指示: サイエンスフィクションのテーマでオーディオを生成してください:火星ニュースが人類がアルファケンタウリへの光速プローブを送ったことを報告しています。ニュースアンカーから始まり、このプローブを建造した組織の主任エンジニアへのレポーターのインタビュー、そして再びニュースアンカーで終わります。

生成されたオーディオ:https://audio-agi.github.io/WavJourney_demopage/sci-fi/sci-fi%20news.mp4

この驚異の内部機能を正しく理解するために、生成プロセスの方法論と実装の詳細について深く掘り下げましょう。

 

生成プロセス

 

以下の画像は、シンプルなフローチャートで完全なプロセスをまとめています。

   

エンドツーエンドのオーディオ生成プロセスは、複数のサブモジュールから構成され、完全なテキストからオーディオモデルに対して順次実行されます。

 

オーディオスクリプト生成

 

WavJourneyは、事前定義されたプロンプトテンプレートを使用してGPT-4モデルを利用してスクリプトを生成します。プロンプトテンプレートは、出力を簡単なJSON形式に制限し、後でコンピュータプログラムによって簡単に解析できるようにします。各スクリプトには、上記の画像に示すように、3つの異なるオーディオタイプがあります:スピーチ、効果音、音楽。各オーディオタイプは、前景オーディオとして実行したり、他のオーディオの背景音効としてオーバーレイしたりすることができます。コンテンツの説明、長さ、キャラクターなどの他の属性は、スクリプト生成のための十分な属性です。

 

スクリプトの解析

 

出力スクリプトは、プリセットされたJSONスクリプト形式から関連情報を解析するコンピュータプログラムを通過します。このプロセスにより、テキストから音声、音楽、および効果音の追加など、オーディオ生成プロセスが個別のステップに分解されるのに役立ちます。

 

オーディオ生成

 

解析されたスクリプトは、Pythonプログラムとして実行されます。前景のスピーチが最初に生成され、その上に背景音楽と効果音が重ねられます。スピーチ生成には、事前学習されたBarkモデルとVoiceFixerリストアモデルが使用され、オーディオの品質が向上します。効果音と音楽の重ね合わせには、AudioLDMモデルとMusicGenモデルが使用されます。すべてのモデルの出力は、最終的なオーディオ出力のために組み合わされます。

 

人間と機械の共創

 

このプロセスは、生成されたスクリプトの文脈を維持し、GPTモデルと同様にプロンプトできます。人間のフィードバックとGPTモデルのチャット機能を使用して、生成されたスクリプトを簡単に修正することができます。

特定の詳細や効果音を追加または変更することは、これほど簡単ではありませんでした。以下のフローチャートは、生成されたスクリプトの特定の詳細を追加または変更する方法を示しています。

 

 

結論

 

オーディオ生成モデルは、エンターテイメント業界において画期的な変革をもたらす可能性があります。このプロセスは、教育やエンターテイメントの目的で利用できる魅力的なナラティブやストーリーを生成する能力を持ち、面倒な声のオーバーとビデオの生成プロセスを自動化することができます。

詳細な理解のために、こちらで論文を概観してください。コードはGitHubで近日中に利用可能になります。Muhammad Arhamは、コンピュータビジョンと自然言語処理の分野で働くディープラーニングエンジニアです。彼は、Vyro.AIで世界的なトップチャートに到達したいくつかの生成型AIアプリケーションの展開と最適化に取り組んできました。彼は、インテリジェントシステムのための機械学習モデルの構築と最適化に興味を持ち、持続的な改善を信じています。  

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

スタビリティAIの危機 - CEOの論争の中で主要メンバーが辞任!

ロンドンを拠点とするスタートアップ企業であるStability AI Ltd. はかつて画期的なStable Diffusion AIモデルでテック界を驚...

データサイエンス

Deep Learningのマスタリング:Piecewise推定による非線形近似の技術 パート2

皆さん、こんにちは!「マスタリング深層学習シリーズ」の第2回目へようこそこの記事は、第1回目の続編であり、タイトルは『...

AI研究

オープンAIのCEOであるサム・アルトマン氏が解任されました

驚きの展開となり、AI研究のリーディングカンパニーであるOpenAIは、共同創設者兼CEOのサム・オールトマン氏の解任を発表しま...

データサイエンス

テキストから音声へ - 大規模な言語モデルのトレーニング

はじめに 音楽家の声コマンドをAIが受け取り、美しいメロディックなギターサウンドに変換する世界を想像してみてください。こ...

AIニュース

生成AIにおけるプロンプトエンジニアリングの基本原則

導入 この記事では、生成型AIにおけるChatGPTプロンプトエンジニアリングについて説明します。ChatGPTは2022年11月以来、技術...

AI研究

CMUとUCサンタバーバラの研究者は、心理療法における認知の歪み検出のための革新的なAIベースの「思考の診断」を提案しています

世界中で、約8人に1人が精神の問題を抱えています。しかし、精神保健障害は、心の専門家の不足、劣悪な治療法、高額な費用、...