南開大学と字節跳動の研究者らが『ChatAnything』を導入:LLM強化された人物像生成に特化した革新的なAIフレームワーク

南開大学と字節跳動の研究者らが、『ChatAnything』導入:LLM強化された人物像生成に特化した革新的なAIフレームワークの紹介

南開大学と字節跳動の研究者チームが、オンラインで大規模な言語モデル(LLM)ベースのキャラクターのための人間らしさのあるパーソナリティを生成するための新しい枠組みである「ChatAnything」を導入しました。その目的は、テキストの説明だけで、ビジュアルの外見、パーソナリティ、トーンに基づいたカスタマイズされたパーソナリティを作成することです。研究者たちは、LLMのコンテキスト学習能力を活用して、注意深く設計されたシステムプロンプトを使用してパーソナリティを生成します。彼らは、多様な声と外見の生成のための革新的な概念である「声の混合(MoV)」と「拡散分散の混合(MoD)」を提案しています。

MoVは、テキストに基づいて最もマッチするものをユーザーが提供するテキストの説明に基づいて選択する、事前に定義された音調を持つテキスト読み上げ(TTS)アルゴリズムを使用します。MoDは、テキストから画像生成の技術と話者の頭のアルゴリズムを組み合わせて、話すオブジェクトの生成プロセスを合理化します。しかし、現在のモデルによって生成される人間のようなオブジェクトは、事前訓練された顔のランドマーク検出器によってしばしば検出できないという課題があり、顔の動きの生成に失敗することがあります。これに対処するために、彼らは画像生成中にピクセルレベルのガイダンスを組み込んでヒューマンフェイスのランドマークを注入します。このピクセルレベルの注入により、顔のランドマーク検出率が大幅に向上し、生成された音声コンテンツに基づく自動顔アニメーションが可能になります。

本稿では、大規模な言語モデル(LLM)とそのコンテキスト学習能力の最近の進展について議論し、それらを学術的な議論の最前線に位置づけています。研究者たちは、カスタマイズされたパーソナリティ、声、ビジュアルの外観を持つLLM強化パーソナリティを生成するための枠組みの必要性を強調しています。パーソナリティ生成において、彼らはLLMのコンテキスト学習能力を活用し、テキスト読み上げ(TTS)APIを使用してボイスモジュールのプールを作成します。声の混合(MoV)モジュールは、ユーザーのテキスト入力に基づいて音調を選択します。

音声駆動の話し手の動きや表情の視覚的な外見は、最近の話し手の頭のアルゴリズムを使用して取り組まれています。しかし、拡散モデルによって生成された画像を話し手の頭のモデルの入力として使用する際に課題があります。最先端の話し手の頭のモデルでは、画像のうちわずか30%しか検出できないということを示しており、データの分布の不整合があることを示しています。このギャップを埋めるために、研究者たちはゼロショットの方法を提案し、画像生成のフェーズで顔のランドマークを注入します。

提案されたChatAnythingの枠組みは、LLMベースの制御モジュール、ポートレート初期化子、テキスト読み上げモジュールの混合、および動き生成モジュールの4つの主要なブロックで構成されています。研究者たちは、拡散モデル、声の変換、構造制御を組み合わせて、モジュラーかつ柔軟なシステムを作成しました。ガイドされた拡散の効果を検証するために、研究者たちはさまざまなカテゴリのプロンプトを含む検証データセットを作成しました。彼らは事前訓練された顔のキーポイント検出器を使用して顔のランドマーク検出率を評価し、彼らの提案した方法の影響を示しています。

この研究者たちは、人間らしい特徴を持つLLM強化のパーソナリティを生成するための包括的なChatAnythingの枠組みを紹介しています。彼らは顔のランドマークの検出に関する課題に対処し、革新的な解決策を提案し、検証データセットで有望な結果を示しています。この研究は、生成モデルと話し手の頭のアルゴリズムを統合する未来の研究やデータ分布の整合性の向上の可能性を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

MLOpsとは何ですか

MLOpsは、機械学習(ML)モデルを信頼性と効率を持って本番環境に展開し、保守するための一連の手法と技術ですしたがって、ML...

機械学習

「40以上のクールなAIツール(2023年7月)をチェックしてください」

DeepSwap DeepSwapは、説得力のあるディープフェイクのビデオや画像を作成したい人向けのAIベースのツールです。ビデオ、写真...

AI研究

「新しいAI研究が、PanGu-Coder2モデルとRRTFフレームワークを提案し、コード生成のための事前学習済み大規模言語モデルを効果的に向上させる」というものです

大規模言語モデル(LLM)は、最近の数ヶ月で非常に注目を集めています。これらのモデルは、関連する質問に答えることや、正確...

機械学習

5つのステップでScikit-learnを始める

このチュートリアルでは、Scikit-learnを使用した機械学習の包括的なハンズオンの手順を提供します読者は、データの前処理、...

機械学習

MPT-7Bをご紹介します MosaicMLによってキュレーションされた1Tトークンのテキストとコードでトレーニングされた新しいオープンソースの大規模言語モデルです

MosaicMLは最近、予測分析と意思決定のアプローチを変革する画期的なツール、MPT-7Bを発表しました。この新しいツールは、最...

データサイエンス

「機械学習におけるデータの重要性:AI革命の推進力」

マシンラーニングの進歩やAI革命を促進する上でデータの重要な役割を探求し、その意義を明らかにします