フェイブルスタジオは、TV番組の完全に新しいエピソードを書き、制作し、監督し、アニメーション化し、さらには声を担当できるAIプラットフォームであるSHOW-1をリリースしました

Fable Studio has released SHOW-1, an AI platform that can write, produce, direct, animate, and even provide voice for completely new episodes of TV programs.

自分が実生活で演技をしたことがなくても、お気に入りの番組で自分自身を見ることができることを想像できますか?また、始まりと終わりを好きなように変えることは可能ですか?

サンフランシスコのスタートアップ、Fable Studiosは、新しいエピソードを完全に書き、制作し、監督し、アニメーション化し、さらには声を出すことができるSHOW-1 AIテクノロジーをリリースしました。Fable Studiosは、異なる拡散モデルを使用してこれを実現しました。これらは時間の経過に伴ってデータからランダムなノイズを追加したり削除したりする単純な方法で、出力を生成し再構築することができます。ランダムなノイズとして画像を使用し、徐々に必要な出力に変換することができます。

Fable Studiosは、テレビ番組『サウスパーク』からの1200人のキャラクターと600枚の背景画像からなるデータセットを使用して、拡散モデルをトレーニングしました。最初のモデルのタスクは、背景色に対して単一のキャラクターを生成することでした。個々の特徴的な外見、執筆スタイル、声に基づいて、自律的なキャラクターを生成することができます。キャラクターの拡散モデルを使用すると、画像から画像への安定した拡散により、自分自身の外見に基づいてサウスパークのキャラクターを作成することができます。

2番目のモデルのタスクは、キャラクターが相互作用できるようなステージとなるクリーンな背景を生成することでした。ただし、このモデルの制限は、低解像度の画像を生成することでした。チームは、画像の品質を向上させるためにAIのアップスケーリング技術を使用してこれに対処しました。拡大縮小しても解像度が失われないベクトルベースのグラフィックスを生成します。

Fable Studiosは、特定の場所と実行時間のダイアログのシーケンスを変更してオリジナルのエピソードの長さに合わせてテレビ番組のエピソードを再定義しました。シミュレーションデータをプロンプトチェインとして使用することで、ショーランナーのシステムと並行して実行されるストーリーシステムを構築し、アクションとダイアログのシーケンスを監視して視聴者を引きつけます。各キャラクターの声は事前にクローンされ、新しいダイアログごとに音声クリップが生成されます。

シミュレーションによって生成されるデータは、最初のプロンプトを書く個人と生成されるストーリーシステムの両方にとって創造的な辞書となります。経験豊富なストーリーライターでもダイアログの執筆に行き詰まることがよくありますが、シミュレーションはプロンプトチェインを開始する前に文脈やデータポイントを提供するため、このような問題を克服することができます。

ストーリー生成プロセスは、ユーザー、シミュレーション、GPT-4の割合で共有されます。シミュレーションはキャラクターの過去のコンテキスト、感情、イベントなどの基礎的な文脈を生成します。これは最初の創造的な文脈となります。GPT 4は、ユーザーやシミュレーションからのプロンプトに基づいてシーンと対話を統合する主要な生成エンジンとして機能します。

最後に、シミュレーション、ユーザー、AIモデルの強みを統合することで、よりインタラクティブで魅力的なストーリーテリング体験が生まれます。逆に、番組の個別化は雇用の減少につながるでしょう。AIのパワーを持ったツールは、かつて人間の専門家が行っていたビデオ編集や音楽作成などの作業を行うことができるため、エンターテイメント業界の将来に関する懸念が生じます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「このAI論文は、初めて軽量な基礎モデルを宇宙空間に展開します」

宇宙技術は日々進化しています。異なる研究グループからは、宇宙研究に影響を与える機械学習と人工知能モデルを宇宙で構築す...

機械学習

ChatGPT APIへの適切な方法での通話の作り方

「LLMsは今や至る所に存在していますが、特にChatGPTはその中でも非常に多くのアプリケーションが構築されていますもしまだ試...

機械学習

「テキストゥアをご紹介します:3Dメッシュのテキストゥアリングのための新しい人工知能(AI)フレームワーク」

テキストから画像を生成することは、人工知能(AI)の分野における新しい興味深い研究領域であり、テキストの説明に基づいて...

AI研究

MITの研究者が新しいAIツール「PhotoGuard」を導入し、不正な画像の操作を防止すると発表しました

AIパワードのテクノロジーが現実と製作物の境界をぼやかす画像を作り出す世界において、誤用のリスクが迫っています。DALL-E...

機械学習

大規模言語モデルは、ビデオからの長期行動予測に役立ちますか?AntGPTをご紹介します:ビデオベースの長期行動予測タスクにおいて大規模言語モデルを組み込むためのAIフレームワークです

ビデオの観察から、研究はLTAタスク(長期アクション予測)に焦点を当てています。一般的に長期的な時間軸を超えて興味のある...

コンピュータサイエンス

オラクルクラウドインフラストラクチャは、新たなNVIDIA GPUアクセラレートされたコンピュートインスタンスを提供しています

生成的AIと大規模な言語モデル(LLM)による画期的なイノベーションを実現するために、トレーニングと推論の計算上の要求が急速...