「WavJourney:オーディオストーリーライン生成の世界への旅」
WavJourney Journey into the world of audio storyline generation
はじめに
大規模言語モデルの登場により、世界は大いに変わりました。今や、想像力こそが限界です。今日、WavJourneyは物語作成の自動化を行うことができます。単一のプロンプトを与えるだけで、WavJourneyはLLMの力を活用して、正確なストーリーライン、生き生きとした人間の声、魅力的なバックグラウンド音楽を備えた引き込まれるオーディオスクリプトを生成します。
オーディオ生成の力を正しく理解するために、次のシナリオを考えてみましょう。単純な指示を与えるだけで、シナリオと場面設定を説明し、モデルが元の指示との関連性を最大限に活かした引き込まれるオーディオスクリプトを生成します。
- 「ChatGPTをより優れたソフトウェア開発者にする:SoTaNaはソフトウェア開発のためのオープンソースAIアシスタントです」
- 「第一の汎用ビジュアルと言語のAI LLaVA」
- 機械学習なしで最初の自動修正を作成する
指示: サイエンスフィクションのテーマでオーディオを生成してください:火星ニュースが人類がアルファケンタウリへの光速プローブを送ったことを報告しています。ニュースアンカーから始まり、このプローブを建造した組織の主任エンジニアへのレポーターのインタビュー、そして再びニュースアンカーで終わります。
生成されたオーディオ:https://audio-agi.github.io/WavJourney_demopage/sci-fi/sci-fi%20news.mp4
この驚異の内部機能を正しく理解するために、生成プロセスの方法論と実装の詳細について深く掘り下げましょう。
生成プロセス
以下の画像は、シンプルなフローチャートで完全なプロセスをまとめています。
エンドツーエンドのオーディオ生成プロセスは、複数のサブモジュールから構成され、完全なテキストからオーディオモデルに対して順次実行されます。
オーディオスクリプト生成
WavJourneyは、事前定義されたプロンプトテンプレートを使用してGPT-4モデルを利用してスクリプトを生成します。プロンプトテンプレートは、出力を簡単なJSON形式に制限し、後でコンピュータプログラムによって簡単に解析できるようにします。各スクリプトには、上記の画像に示すように、3つの異なるオーディオタイプがあります:スピーチ、効果音、音楽。各オーディオタイプは、前景オーディオとして実行したり、他のオーディオの背景音効としてオーバーレイしたりすることができます。コンテンツの説明、長さ、キャラクターなどの他の属性は、スクリプト生成のための十分な属性です。
スクリプトの解析
出力スクリプトは、プリセットされたJSONスクリプト形式から関連情報を解析するコンピュータプログラムを通過します。このプロセスにより、テキストから音声、音楽、および効果音の追加など、オーディオ生成プロセスが個別のステップに分解されるのに役立ちます。
オーディオ生成
解析されたスクリプトは、Pythonプログラムとして実行されます。前景のスピーチが最初に生成され、その上に背景音楽と効果音が重ねられます。スピーチ生成には、事前学習されたBarkモデルとVoiceFixerリストアモデルが使用され、オーディオの品質が向上します。効果音と音楽の重ね合わせには、AudioLDMモデルとMusicGenモデルが使用されます。すべてのモデルの出力は、最終的なオーディオ出力のために組み合わされます。
人間と機械の共創
このプロセスは、生成されたスクリプトの文脈を維持し、GPTモデルと同様にプロンプトできます。人間のフィードバックとGPTモデルのチャット機能を使用して、生成されたスクリプトを簡単に修正することができます。
特定の詳細や効果音を追加または変更することは、これほど簡単ではありませんでした。以下のフローチャートは、生成されたスクリプトの特定の詳細を追加または変更する方法を示しています。
結論
オーディオ生成モデルは、エンターテイメント業界において画期的な変革をもたらす可能性があります。このプロセスは、教育やエンターテイメントの目的で利用できる魅力的なナラティブやストーリーを生成する能力を持ち、面倒な声のオーバーとビデオの生成プロセスを自動化することができます。
詳細な理解のために、こちらで論文を概観してください。コードはGitHubで近日中に利用可能になります。Muhammad Arhamは、コンピュータビジョンと自然言語処理の分野で働くディープラーニングエンジニアです。彼は、Vyro.AIで世界的なトップチャートに到達したいくつかの生成型AIアプリケーションの展開と最適化に取り組んできました。彼は、インテリジェントシステムのための機械学習モデルの構築と最適化に興味を持ち、持続的な改善を信じています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 効率的なディープラーニング:モデルの圧縮のパワーを解き放つ
- このAI論文では、Complexity-Impacted Reasoning Score(CIRS)を紹介していますこれは、大規模な言語モデルの推論能力を向上させるためのコードの複雑さの役割を評価するものです
- 「脳に触発された学習アルゴリズムにより、人工およびスパイキングニューラルネットワークにメタプラスティシティを可能にする」
- メタAIのコンピュータビジョンにおける公平性のための2つの新しい取り組み:DINOv2のためのライセンス導入とFACETのリリースの紹介
- 『AnomalyGPTとは:産業異常を検出するための大規模ビジョン言語モデル(LVLM)に基づく新しいIADアプローチ』
- 「セマンティックカーネルへのPythonistaのイントロ」
- 「PyTorchのネステロフモーメンタムの実装は間違っていますか?」