南開大学と字節跳動の研究者らが『ChatAnything』を導入:LLM強化された人物像生成に特化した革新的なAIフレームワーク

南開大学と字節跳動の研究者らが、『ChatAnything』導入:LLM強化された人物像生成に特化した革新的なAIフレームワークの紹介

南開大学と字節跳動の研究者チームが、オンラインで大規模な言語モデル(LLM)ベースのキャラクターのための人間らしさのあるパーソナリティを生成するための新しい枠組みである「ChatAnything」を導入しました。その目的は、テキストの説明だけで、ビジュアルの外見、パーソナリティ、トーンに基づいたカスタマイズされたパーソナリティを作成することです。研究者たちは、LLMのコンテキスト学習能力を活用して、注意深く設計されたシステムプロンプトを使用してパーソナリティを生成します。彼らは、多様な声と外見の生成のための革新的な概念である「声の混合(MoV)」と「拡散分散の混合(MoD)」を提案しています。

MoVは、テキストに基づいて最もマッチするものをユーザーが提供するテキストの説明に基づいて選択する、事前に定義された音調を持つテキスト読み上げ(TTS)アルゴリズムを使用します。MoDは、テキストから画像生成の技術と話者の頭のアルゴリズムを組み合わせて、話すオブジェクトの生成プロセスを合理化します。しかし、現在のモデルによって生成される人間のようなオブジェクトは、事前訓練された顔のランドマーク検出器によってしばしば検出できないという課題があり、顔の動きの生成に失敗することがあります。これに対処するために、彼らは画像生成中にピクセルレベルのガイダンスを組み込んでヒューマンフェイスのランドマークを注入します。このピクセルレベルの注入により、顔のランドマーク検出率が大幅に向上し、生成された音声コンテンツに基づく自動顔アニメーションが可能になります。

本稿では、大規模な言語モデル(LLM)とそのコンテキスト学習能力の最近の進展について議論し、それらを学術的な議論の最前線に位置づけています。研究者たちは、カスタマイズされたパーソナリティ、声、ビジュアルの外観を持つLLM強化パーソナリティを生成するための枠組みの必要性を強調しています。パーソナリティ生成において、彼らはLLMのコンテキスト学習能力を活用し、テキスト読み上げ(TTS)APIを使用してボイスモジュールのプールを作成します。声の混合(MoV)モジュールは、ユーザーのテキスト入力に基づいて音調を選択します。

音声駆動の話し手の動きや表情の視覚的な外見は、最近の話し手の頭のアルゴリズムを使用して取り組まれています。しかし、拡散モデルによって生成された画像を話し手の頭のモデルの入力として使用する際に課題があります。最先端の話し手の頭のモデルでは、画像のうちわずか30%しか検出できないということを示しており、データの分布の不整合があることを示しています。このギャップを埋めるために、研究者たちはゼロショットの方法を提案し、画像生成のフェーズで顔のランドマークを注入します。

提案されたChatAnythingの枠組みは、LLMベースの制御モジュール、ポートレート初期化子、テキスト読み上げモジュールの混合、および動き生成モジュールの4つの主要なブロックで構成されています。研究者たちは、拡散モデル、声の変換、構造制御を組み合わせて、モジュラーかつ柔軟なシステムを作成しました。ガイドされた拡散の効果を検証するために、研究者たちはさまざまなカテゴリのプロンプトを含む検証データセットを作成しました。彼らは事前訓練された顔のキーポイント検出器を使用して顔のランドマーク検出率を評価し、彼らの提案した方法の影響を示しています。

この研究者たちは、人間らしい特徴を持つLLM強化のパーソナリティを生成するための包括的なChatAnythingの枠組みを紹介しています。彼らは顔のランドマークの検出に関する課題に対処し、革新的な解決策を提案し、検証データセットで有望な結果を示しています。この研究は、生成モデルと話し手の頭のアルゴリズムを統合する未来の研究やデータ分布の整合性の向上の可能性を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

ネゲヴのベン・グリオン大学の研究者たちは、社会的規範の違反を特定するAIシステムを設計しました

社会心理学辞典によれば、社会的規範は特定の社会的文脈内で典型的かつ適切な行動を示す社会的に決定された基準です。これら...

機械学習

Google AIは、アーキテクチャシミュレータにさまざまな種類の検索アルゴリズムを接続するための、マシンラーニングのためのオープンソースのジム「ArchGym」を紹介しました

コンピュータアーキテクチャの研究は、コンピュータシステムの設計を評価および影響するためのシミュレータやツールを生み出...

機械学習

「大規模言語モデルのダークサイドの理解:セキュリティの脅威と脆弱性に関する包括的なガイド」

LLM(言語モデル)は、近年自然言語処理(NLP)のコミュニティでますます人気が高まっています。ニューラルネットワークベー...

機械学習

vLLMについて HuggingFace Transformersの推論とサービングを加速化するオープンソースLLM推論ライブラリで、最大24倍高速化します

大規模言語モデル、略してLLMは、人工知能(AI)の分野において画期的な進歩として登場しました。GPT-3などのこのようなモデル...

AIニュース

中国の強力なNvidia AIチップの隠れた市場

深圳華強北電子區的繁華街道之中,一個高端 Nvidia AI 芯片的地下市場悄然興起。這個隱蔽的世界在出口限制和對這些尖端處理器...

機械学習

「ワンダー3Dに会おう:単一視点画像から高品質のテクスチャメッシュを効率的に生成する革新的な人工知能手法」

シングルビュー画像からの3Dジオメトリの再構築は、コンピュータグラフィックスと3Dコンピュータビジョンの領域での基本的な...