「WavJourney:オーディオストーリーライン生成の世界への旅」

WavJourney Journey into the world of audio storyline generation

 

はじめに

 

大規模言語モデルの登場により、世界は大いに変わりました。今や、想像力こそが限界です。今日、WavJourneyは物語作成の自動化を行うことができます。単一のプロンプトを与えるだけで、WavJourneyはLLMの力を活用して、正確なストーリーライン、生き生きとした人間の声、魅力的なバックグラウンド音楽を備えた引き込まれるオーディオスクリプトを生成します。

オーディオ生成の力を正しく理解するために、次のシナリオを考えてみましょう。単純な指示を与えるだけで、シナリオと場面設定を説明し、モデルが元の指示との関連性を最大限に活かした引き込まれるオーディオスクリプトを生成します。

指示: サイエンスフィクションのテーマでオーディオを生成してください:火星ニュースが人類がアルファケンタウリへの光速プローブを送ったことを報告しています。ニュースアンカーから始まり、このプローブを建造した組織の主任エンジニアへのレポーターのインタビュー、そして再びニュースアンカーで終わります。

生成されたオーディオ:https://audio-agi.github.io/WavJourney_demopage/sci-fi/sci-fi%20news.mp4

この驚異の内部機能を正しく理解するために、生成プロセスの方法論と実装の詳細について深く掘り下げましょう。

 

生成プロセス

 

以下の画像は、シンプルなフローチャートで完全なプロセスをまとめています。

   

エンドツーエンドのオーディオ生成プロセスは、複数のサブモジュールから構成され、完全なテキストからオーディオモデルに対して順次実行されます。

 

オーディオスクリプト生成

 

WavJourneyは、事前定義されたプロンプトテンプレートを使用してGPT-4モデルを利用してスクリプトを生成します。プロンプトテンプレートは、出力を簡単なJSON形式に制限し、後でコンピュータプログラムによって簡単に解析できるようにします。各スクリプトには、上記の画像に示すように、3つの異なるオーディオタイプがあります:スピーチ、効果音、音楽。各オーディオタイプは、前景オーディオとして実行したり、他のオーディオの背景音効としてオーバーレイしたりすることができます。コンテンツの説明、長さ、キャラクターなどの他の属性は、スクリプト生成のための十分な属性です。

 

スクリプトの解析

 

出力スクリプトは、プリセットされたJSONスクリプト形式から関連情報を解析するコンピュータプログラムを通過します。このプロセスにより、テキストから音声、音楽、および効果音の追加など、オーディオ生成プロセスが個別のステップに分解されるのに役立ちます。

 

オーディオ生成

 

解析されたスクリプトは、Pythonプログラムとして実行されます。前景のスピーチが最初に生成され、その上に背景音楽と効果音が重ねられます。スピーチ生成には、事前学習されたBarkモデルとVoiceFixerリストアモデルが使用され、オーディオの品質が向上します。効果音と音楽の重ね合わせには、AudioLDMモデルとMusicGenモデルが使用されます。すべてのモデルの出力は、最終的なオーディオ出力のために組み合わされます。

 

人間と機械の共創

 

このプロセスは、生成されたスクリプトの文脈を維持し、GPTモデルと同様にプロンプトできます。人間のフィードバックとGPTモデルのチャット機能を使用して、生成されたスクリプトを簡単に修正することができます。

特定の詳細や効果音を追加または変更することは、これほど簡単ではありませんでした。以下のフローチャートは、生成されたスクリプトの特定の詳細を追加または変更する方法を示しています。

 

 

結論

 

オーディオ生成モデルは、エンターテイメント業界において画期的な変革をもたらす可能性があります。このプロセスは、教育やエンターテイメントの目的で利用できる魅力的なナラティブやストーリーを生成する能力を持ち、面倒な声のオーバーとビデオの生成プロセスを自動化することができます。

詳細な理解のために、こちらで論文を概観してください。コードはGitHubで近日中に利用可能になります。Muhammad Arhamは、コンピュータビジョンと自然言語処理の分野で働くディープラーニングエンジニアです。彼は、Vyro.AIで世界的なトップチャートに到達したいくつかの生成型AIアプリケーションの展開と最適化に取り組んできました。彼は、インテリジェントシステムのための機械学習モデルの構築と最適化に興味を持ち、持続的な改善を信じています。  

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

データから真実を解読する:大きな言語モデルが真実をモデル化するためにパーソナを使用する方法

大型言語モデル(LLM)の導入により、人工知能のサブフィールドである自然言語処理(NLP)は大幅に進化し改善されています。...

AI研究

メタスの新しいテキストから画像へのモデル - CM3leon論文の説明

メタは最近、Stable-Diffusion [2]、Midjourney、またはDALLE [3]のような拡散に基づかない最新のテキストから画像へのモデル...

データサイエンス

「ビルドしてプレイ!LLM搭載のあなた自身のV&Lモデル!」

大型言語モデル(LLM)はますますその価値を示しています画像をLLMに組み込むことで、ビジョン言語モデルとしてさらに有用に...

人工知能

「オープンソースツールを使用して、プロのように音声をクローンし、リップシンク動画を作る方法」

紹介 AI音声クローンはソーシャルメディアで大流行しています。これにより、創造的な可能性が広がりました。ソーシャルメディ...

AIニュース

「ビルドの学び方 — Towards AI コミュニティ ニュースレター第2号」

「最近の数日間、OpenAIのドラマを追っていないと見逃しているよ信じられないことが起こったんだ多くの従業員がOpenAIの理事...

機械学習

IIoTとAI:工業の風景を変革するシナジスティックなシンフォニー

IIoTとAIが融合し、変革的なシナジーを生み出し、リアルタイムデータ、予測能力、そして比類のない効率性を通じて産業を最適...