南開大学と字節跳動の研究者らが『ChatAnything』を導入:LLM強化された人物像生成に特化した革新的なAIフレームワーク

南開大学と字節跳動の研究者らが、『ChatAnything』導入:LLM強化された人物像生成に特化した革新的なAIフレームワークの紹介

南開大学と字節跳動の研究者チームが、オンラインで大規模な言語モデル(LLM)ベースのキャラクターのための人間らしさのあるパーソナリティを生成するための新しい枠組みである「ChatAnything」を導入しました。その目的は、テキストの説明だけで、ビジュアルの外見、パーソナリティ、トーンに基づいたカスタマイズされたパーソナリティを作成することです。研究者たちは、LLMのコンテキスト学習能力を活用して、注意深く設計されたシステムプロンプトを使用してパーソナリティを生成します。彼らは、多様な声と外見の生成のための革新的な概念である「声の混合(MoV)」と「拡散分散の混合(MoD)」を提案しています。

MoVは、テキストに基づいて最もマッチするものをユーザーが提供するテキストの説明に基づいて選択する、事前に定義された音調を持つテキスト読み上げ(TTS)アルゴリズムを使用します。MoDは、テキストから画像生成の技術と話者の頭のアルゴリズムを組み合わせて、話すオブジェクトの生成プロセスを合理化します。しかし、現在のモデルによって生成される人間のようなオブジェクトは、事前訓練された顔のランドマーク検出器によってしばしば検出できないという課題があり、顔の動きの生成に失敗することがあります。これに対処するために、彼らは画像生成中にピクセルレベルのガイダンスを組み込んでヒューマンフェイスのランドマークを注入します。このピクセルレベルの注入により、顔のランドマーク検出率が大幅に向上し、生成された音声コンテンツに基づく自動顔アニメーションが可能になります。

本稿では、大規模な言語モデル(LLM)とそのコンテキスト学習能力の最近の進展について議論し、それらを学術的な議論の最前線に位置づけています。研究者たちは、カスタマイズされたパーソナリティ、声、ビジュアルの外観を持つLLM強化パーソナリティを生成するための枠組みの必要性を強調しています。パーソナリティ生成において、彼らはLLMのコンテキスト学習能力を活用し、テキスト読み上げ(TTS)APIを使用してボイスモジュールのプールを作成します。声の混合(MoV)モジュールは、ユーザーのテキスト入力に基づいて音調を選択します。

音声駆動の話し手の動きや表情の視覚的な外見は、最近の話し手の頭のアルゴリズムを使用して取り組まれています。しかし、拡散モデルによって生成された画像を話し手の頭のモデルの入力として使用する際に課題があります。最先端の話し手の頭のモデルでは、画像のうちわずか30%しか検出できないということを示しており、データの分布の不整合があることを示しています。このギャップを埋めるために、研究者たちはゼロショットの方法を提案し、画像生成のフェーズで顔のランドマークを注入します。

提案されたChatAnythingの枠組みは、LLMベースの制御モジュール、ポートレート初期化子、テキスト読み上げモジュールの混合、および動き生成モジュールの4つの主要なブロックで構成されています。研究者たちは、拡散モデル、声の変換、構造制御を組み合わせて、モジュラーかつ柔軟なシステムを作成しました。ガイドされた拡散の効果を検証するために、研究者たちはさまざまなカテゴリのプロンプトを含む検証データセットを作成しました。彼らは事前訓練された顔のキーポイント検出器を使用して顔のランドマーク検出率を評価し、彼らの提案した方法の影響を示しています。

この研究者たちは、人間らしい特徴を持つLLM強化のパーソナリティを生成するための包括的なChatAnythingの枠組みを紹介しています。彼らは顔のランドマークの検出に関する課題に対処し、革新的な解決策を提案し、検証データセットで有望な結果を示しています。この研究は、生成モデルと話し手の頭のアルゴリズムを統合する未来の研究やデータ分布の整合性の向上の可能性を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「Google AIの新しいパラダイムは、多段階の機械学習MLアルゴリズムの組成コストを削減して、強化されたユーティリティを実現する方法は何ですか」

今日のデータ駆動型の環境では、機械学習やデータ分析アルゴリズムの有用性を最大化しながらプライバシーを確保することが重...

機械学習

「機械学習を学ぶにはどれくらいの時間がかかりますか?」

はじめに 急速に成長している機械学習の分野は、多くの向上心ある人々の関心を引いています。しかし、機械学習を学ぶのにかか...

AIニュース

「生成AIにおけるニューラル微分方程式の探索」

はじめに 生成AIは大きく進化し、新しい多様なデータを生成するためのさまざまな技術が含まれるようになりました。GANやVAEな...

機械学習

類似検索、パート5:局所性鋭敏ハッシュ(LSH)

類似度検索とは、クエリが与えられたときに、データベース内のすべてのドキュメントの中から、それに最も類似したドキュメン...

機械学習

「隠れマルコフモデルの力を解読する」

はじめに スマートフォンの音声認識や天気予報の複雑さについて考えたことはありますか?もしそうなら、Hidden Markov Models...

AI研究

「NTUとSenseTimeの研究者が提案するSHERF:単一の入力画像からアニメーション可能な3D人間モデルを復元するための汎用的なHuman NeRFモデル」

人工知能(AI)およびディープラーニングの分野は、常に急速に進化しています。自然言語処理に基づく大規模な言語モデルから...