「WavJourney:オーディオストーリーライン生成の世界への旅」

WavJourney Journey into the world of audio storyline generation

 

はじめに

 

大規模言語モデルの登場により、世界は大いに変わりました。今や、想像力こそが限界です。今日、WavJourneyは物語作成の自動化を行うことができます。単一のプロンプトを与えるだけで、WavJourneyはLLMの力を活用して、正確なストーリーライン、生き生きとした人間の声、魅力的なバックグラウンド音楽を備えた引き込まれるオーディオスクリプトを生成します。

オーディオ生成の力を正しく理解するために、次のシナリオを考えてみましょう。単純な指示を与えるだけで、シナリオと場面設定を説明し、モデルが元の指示との関連性を最大限に活かした引き込まれるオーディオスクリプトを生成します。

指示: サイエンスフィクションのテーマでオーディオを生成してください:火星ニュースが人類がアルファケンタウリへの光速プローブを送ったことを報告しています。ニュースアンカーから始まり、このプローブを建造した組織の主任エンジニアへのレポーターのインタビュー、そして再びニュースアンカーで終わります。

生成されたオーディオ:https://audio-agi.github.io/WavJourney_demopage/sci-fi/sci-fi%20news.mp4

この驚異の内部機能を正しく理解するために、生成プロセスの方法論と実装の詳細について深く掘り下げましょう。

 

生成プロセス

 

以下の画像は、シンプルなフローチャートで完全なプロセスをまとめています。

   

エンドツーエンドのオーディオ生成プロセスは、複数のサブモジュールから構成され、完全なテキストからオーディオモデルに対して順次実行されます。

 

オーディオスクリプト生成

 

WavJourneyは、事前定義されたプロンプトテンプレートを使用してGPT-4モデルを利用してスクリプトを生成します。プロンプトテンプレートは、出力を簡単なJSON形式に制限し、後でコンピュータプログラムによって簡単に解析できるようにします。各スクリプトには、上記の画像に示すように、3つの異なるオーディオタイプがあります:スピーチ、効果音、音楽。各オーディオタイプは、前景オーディオとして実行したり、他のオーディオの背景音効としてオーバーレイしたりすることができます。コンテンツの説明、長さ、キャラクターなどの他の属性は、スクリプト生成のための十分な属性です。

 

スクリプトの解析

 

出力スクリプトは、プリセットされたJSONスクリプト形式から関連情報を解析するコンピュータプログラムを通過します。このプロセスにより、テキストから音声、音楽、および効果音の追加など、オーディオ生成プロセスが個別のステップに分解されるのに役立ちます。

 

オーディオ生成

 

解析されたスクリプトは、Pythonプログラムとして実行されます。前景のスピーチが最初に生成され、その上に背景音楽と効果音が重ねられます。スピーチ生成には、事前学習されたBarkモデルとVoiceFixerリストアモデルが使用され、オーディオの品質が向上します。効果音と音楽の重ね合わせには、AudioLDMモデルとMusicGenモデルが使用されます。すべてのモデルの出力は、最終的なオーディオ出力のために組み合わされます。

 

人間と機械の共創

 

このプロセスは、生成されたスクリプトの文脈を維持し、GPTモデルと同様にプロンプトできます。人間のフィードバックとGPTモデルのチャット機能を使用して、生成されたスクリプトを簡単に修正することができます。

特定の詳細や効果音を追加または変更することは、これほど簡単ではありませんでした。以下のフローチャートは、生成されたスクリプトの特定の詳細を追加または変更する方法を示しています。

 

 

結論

 

オーディオ生成モデルは、エンターテイメント業界において画期的な変革をもたらす可能性があります。このプロセスは、教育やエンターテイメントの目的で利用できる魅力的なナラティブやストーリーを生成する能力を持ち、面倒な声のオーバーとビデオの生成プロセスを自動化することができます。

詳細な理解のために、こちらで論文を概観してください。コードはGitHubで近日中に利用可能になります。Muhammad Arhamは、コンピュータビジョンと自然言語処理の分野で働くディープラーニングエンジニアです。彼は、Vyro.AIで世界的なトップチャートに到達したいくつかの生成型AIアプリケーションの展開と最適化に取り組んできました。彼は、インテリジェントシステムのための機械学習モデルの構築と最適化に興味を持ち、持続的な改善を信じています。  

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「ソフトウェアテストの革命化」

AIが自動ソフトウェアテストに与える深遠な影響を掘り下げ、その能力、利点、およびSQAの将来における持つ可能性について探求...

人工知能

チャットGPT vs Gemini:AIアリーナでのタイタン同士の激突

はじめに 人工知能の世界では、GoogleのGemini AIとOpenAIのChatGPTの2つの巨人の間で魅惑的な一戦が繰り広げられています。C...

機械学習

OpenAIのモデレーションAPIを使用してコンテンツのモデレーションを強化する

プロンプトエンジニアリングの台頭や、言語モデルの大規模な成果により、私たちの問いに対する応答を生成する際の大変な成果...

データサイエンス

「PandasAIを用いたデータ分析における生成型AIの活用」

「生成モデルを適用することで、PandasAIは人間のようなクエリを理解し、応答することができ、複雑なデータの操作を実行し、...

データサイエンス

「ニューラルネットワークとディープラーニングの基礎の理解」

この記事は、ニューラルネットワークとディープラーニングの基礎について詳細な概要を提供することを目的としています

データサイエンス

「ZoomがAIトレーニングのために顧客データを使用することで法的ジレンマに直面」

新たな出来事の展開により、人気のあるビデオ会議プラットフォームであるZoomが、顧客データを人工知能(AI)モデルのトレー...