南開大学と字節跳動の研究者らが『ChatAnything』を導入:LLM強化された人物像生成に特化した革新的なAIフレームワーク

南開大学と字節跳動の研究者らが、『ChatAnything』導入:LLM強化された人物像生成に特化した革新的なAIフレームワークの紹介

南開大学と字節跳動の研究者チームが、オンラインで大規模な言語モデル(LLM)ベースのキャラクターのための人間らしさのあるパーソナリティを生成するための新しい枠組みである「ChatAnything」を導入しました。その目的は、テキストの説明だけで、ビジュアルの外見、パーソナリティ、トーンに基づいたカスタマイズされたパーソナリティを作成することです。研究者たちは、LLMのコンテキスト学習能力を活用して、注意深く設計されたシステムプロンプトを使用してパーソナリティを生成します。彼らは、多様な声と外見の生成のための革新的な概念である「声の混合(MoV)」と「拡散分散の混合(MoD)」を提案しています。

MoVは、テキストに基づいて最もマッチするものをユーザーが提供するテキストの説明に基づいて選択する、事前に定義された音調を持つテキスト読み上げ(TTS)アルゴリズムを使用します。MoDは、テキストから画像生成の技術と話者の頭のアルゴリズムを組み合わせて、話すオブジェクトの生成プロセスを合理化します。しかし、現在のモデルによって生成される人間のようなオブジェクトは、事前訓練された顔のランドマーク検出器によってしばしば検出できないという課題があり、顔の動きの生成に失敗することがあります。これに対処するために、彼らは画像生成中にピクセルレベルのガイダンスを組み込んでヒューマンフェイスのランドマークを注入します。このピクセルレベルの注入により、顔のランドマーク検出率が大幅に向上し、生成された音声コンテンツに基づく自動顔アニメーションが可能になります。

本稿では、大規模な言語モデル(LLM)とそのコンテキスト学習能力の最近の進展について議論し、それらを学術的な議論の最前線に位置づけています。研究者たちは、カスタマイズされたパーソナリティ、声、ビジュアルの外観を持つLLM強化パーソナリティを生成するための枠組みの必要性を強調しています。パーソナリティ生成において、彼らはLLMのコンテキスト学習能力を活用し、テキスト読み上げ(TTS)APIを使用してボイスモジュールのプールを作成します。声の混合(MoV)モジュールは、ユーザーのテキスト入力に基づいて音調を選択します。

音声駆動の話し手の動きや表情の視覚的な外見は、最近の話し手の頭のアルゴリズムを使用して取り組まれています。しかし、拡散モデルによって生成された画像を話し手の頭のモデルの入力として使用する際に課題があります。最先端の話し手の頭のモデルでは、画像のうちわずか30%しか検出できないということを示しており、データの分布の不整合があることを示しています。このギャップを埋めるために、研究者たちはゼロショットの方法を提案し、画像生成のフェーズで顔のランドマークを注入します。

提案されたChatAnythingの枠組みは、LLMベースの制御モジュール、ポートレート初期化子、テキスト読み上げモジュールの混合、および動き生成モジュールの4つの主要なブロックで構成されています。研究者たちは、拡散モデル、声の変換、構造制御を組み合わせて、モジュラーかつ柔軟なシステムを作成しました。ガイドされた拡散の効果を検証するために、研究者たちはさまざまなカテゴリのプロンプトを含む検証データセットを作成しました。彼らは事前訓練された顔のキーポイント検出器を使用して顔のランドマーク検出率を評価し、彼らの提案した方法の影響を示しています。

この研究者たちは、人間らしい特徴を持つLLM強化のパーソナリティを生成するための包括的なChatAnythingの枠組みを紹介しています。彼らは顔のランドマークの検出に関する課題に対処し、革新的な解決策を提案し、検証データセットで有望な結果を示しています。この研究は、生成モデルと話し手の頭のアルゴリズムを統合する未来の研究やデータ分布の整合性の向上の可能性を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

中国のSJTUの研究者たちは、大規模なLiDARオドメトリ用のウィンドウベースのマスキングされたポイントトランスフォーマーフレームワーク、TransLOを紹介しました

上海交通大学と中国矿业大学の研究者たちはTransLOを開発しました。このLiDARオドメトリネットワークは、セルフアテンション...

データサイエンス

3つの季節性のタイプとその検出方法

季節性は、時系列を構成する主要な要素の1つです季節性は、一定の期間で繰り返され、似た強度で発生する系統的な動きを指しま...

AI研究

大規模な言語モデルは本当に行動し思考できるのか?イリノイ大学アーバナ・シャンペーン校の研究者が意思決定の向上のためにLATSを導入

LLMは、推論や意思決定のタスクにおいて価値のある存在となっています。複雑な問題を連続したステップに分解することで優れた...

人工知能

10 ChatGPT プロジェクト チートシート

VoAGI' 最新のチートシートでは、ML、NLP、およびフルスタック開発を含むデータサイエンスのワークフローを強化するための10...

コンピュータサイエンス

「AIロボットが介護施設での仲間としての役割を果たす可能性がある」

「将来、人工知能を搭載したソーシャルロボットが病気や高齢者のケアを支援することができるかもしれません」

機械学習

このAI論文は、さまざまなディープラーニングと機械学習のアルゴリズムを用いた行動および生理学的スマートフォン認証の人気のあるダイナミクスとそのパフォーマンスを識別します

年月が経つにつれて、モバイルデバイスは機能性と人気の面で大きな進化を遂げてきましたが、セキュリティ対策はそれに追いつ...