「WavJourney:オーディオストーリーライン生成の世界への旅」

WavJourney Journey into the world of audio storyline generation

 

はじめに

 

大規模言語モデルの登場により、世界は大いに変わりました。今や、想像力こそが限界です。今日、WavJourneyは物語作成の自動化を行うことができます。単一のプロンプトを与えるだけで、WavJourneyはLLMの力を活用して、正確なストーリーライン、生き生きとした人間の声、魅力的なバックグラウンド音楽を備えた引き込まれるオーディオスクリプトを生成します。

オーディオ生成の力を正しく理解するために、次のシナリオを考えてみましょう。単純な指示を与えるだけで、シナリオと場面設定を説明し、モデルが元の指示との関連性を最大限に活かした引き込まれるオーディオスクリプトを生成します。

指示: サイエンスフィクションのテーマでオーディオを生成してください:火星ニュースが人類がアルファケンタウリへの光速プローブを送ったことを報告しています。ニュースアンカーから始まり、このプローブを建造した組織の主任エンジニアへのレポーターのインタビュー、そして再びニュースアンカーで終わります。

生成されたオーディオ:https://audio-agi.github.io/WavJourney_demopage/sci-fi/sci-fi%20news.mp4

この驚異の内部機能を正しく理解するために、生成プロセスの方法論と実装の詳細について深く掘り下げましょう。

 

生成プロセス

 

以下の画像は、シンプルなフローチャートで完全なプロセスをまとめています。

   

エンドツーエンドのオーディオ生成プロセスは、複数のサブモジュールから構成され、完全なテキストからオーディオモデルに対して順次実行されます。

 

オーディオスクリプト生成

 

WavJourneyは、事前定義されたプロンプトテンプレートを使用してGPT-4モデルを利用してスクリプトを生成します。プロンプトテンプレートは、出力を簡単なJSON形式に制限し、後でコンピュータプログラムによって簡単に解析できるようにします。各スクリプトには、上記の画像に示すように、3つの異なるオーディオタイプがあります:スピーチ、効果音、音楽。各オーディオタイプは、前景オーディオとして実行したり、他のオーディオの背景音効としてオーバーレイしたりすることができます。コンテンツの説明、長さ、キャラクターなどの他の属性は、スクリプト生成のための十分な属性です。

 

スクリプトの解析

 

出力スクリプトは、プリセットされたJSONスクリプト形式から関連情報を解析するコンピュータプログラムを通過します。このプロセスにより、テキストから音声、音楽、および効果音の追加など、オーディオ生成プロセスが個別のステップに分解されるのに役立ちます。

 

オーディオ生成

 

解析されたスクリプトは、Pythonプログラムとして実行されます。前景のスピーチが最初に生成され、その上に背景音楽と効果音が重ねられます。スピーチ生成には、事前学習されたBarkモデルとVoiceFixerリストアモデルが使用され、オーディオの品質が向上します。効果音と音楽の重ね合わせには、AudioLDMモデルとMusicGenモデルが使用されます。すべてのモデルの出力は、最終的なオーディオ出力のために組み合わされます。

 

人間と機械の共創

 

このプロセスは、生成されたスクリプトの文脈を維持し、GPTモデルと同様にプロンプトできます。人間のフィードバックとGPTモデルのチャット機能を使用して、生成されたスクリプトを簡単に修正することができます。

特定の詳細や効果音を追加または変更することは、これほど簡単ではありませんでした。以下のフローチャートは、生成されたスクリプトの特定の詳細を追加または変更する方法を示しています。

 

 

結論

 

オーディオ生成モデルは、エンターテイメント業界において画期的な変革をもたらす可能性があります。このプロセスは、教育やエンターテイメントの目的で利用できる魅力的なナラティブやストーリーを生成する能力を持ち、面倒な声のオーバーとビデオの生成プロセスを自動化することができます。

詳細な理解のために、こちらで論文を概観してください。コードはGitHubで近日中に利用可能になります。Muhammad Arhamは、コンピュータビジョンと自然言語処理の分野で働くディープラーニングエンジニアです。彼は、Vyro.AIで世界的なトップチャートに到達したいくつかの生成型AIアプリケーションの展開と最適化に取り組んできました。彼は、インテリジェントシステムのための機械学習モデルの構築と最適化に興味を持ち、持続的な改善を信じています。  

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「データサイエンスプロジェクトを変革する:YAMLファイルに変数を保存する利点を見つけよう」

このブログ投稿では、データサイエンスプロジェクトで変数、パラメータ、ハイパーパラメータを保存するための中心的なリポジ...

機械学習

「PDF、txt、そしてウェブページとして、あなたのドキュメントと話しましょう」

LLMsを使用してPDF、TXT、さらにはウェブページなどのドキュメントに質問をすることができるウェブと知能を作成するための完...

機械学習

ビジネスにおけるAIの潜在的なリスクの理解と軽減

「この技術を導入する際に遭遇する可能性のあるAIのリスクを学びましょうビジネスオーナーとして、そのようなリスクを避ける...

AI研究

ジュネーブ大学の研究者は、多剤耐性(MDR)腸内細菌感染の入院リスクを予測するためのグラフベースの機械学習モデルを調査しています

マシンラーニングは、医療で非常に重要なツールとして登場し、業界のさまざまな側面を革新しています。その主な応用の一つは...

AIニュース

「FacebookとInstagramにて、Metaが新しいAI機能を発表」

人工知能において注目すべき進展が詰まった2022年において、Metaは革新的な進歩を遂げ、確実にリードを取っています。仮想ア...

機械学習

「企業におけるAIの倫理とESGへの貢献の探求」

全世界がAIで賑わっている中で、これらの技術によってもたらされる重要な課題には、倫理的な影響とESGへの関心があります”