ヘリオットワット大学とAlana AIの研究者は、大規模言語モデルに基づく新しい具現化対話エージェント「FurChat」を提案しています
Researchers from Heriot-Watt University and Alana AI propose a new embodied conversational agent FurChat based on a large-scale language model.
大規模言語モデル(LLMs)は、技術が飛躍的に進歩する世界で中心的な役割を果たしています。これらのLLMsは、非常に洗練されたコンピュータプログラムであり、驚くほど自然な方法で人間の言語を理解し、生成し、相互作用することができます。最近の研究では、FurChatとして知られる革新的な具現化対話エージェントが公開されました。GPT-3.5のようなLLMsは、自然言語処理において可能なことの境界を em>押し広げています。それらは文脈を理解し、質問に答え、通常の人間が書いたかのように感じるテキストを生成することさえできます。この強力な機能により、ロボティクスなどのさまざまな領域で無数の機会が開かれています。
Heriot-Watt大学とAlana AIの研究者たちは、受付係として機能し、ダイナミックな会話を行い、表情を介して感情を伝える革命的なシステムであるFurChatを提案しています。National RobotariumでのFurChatの展開は、その変革の可能性を象徴しており、訪問者との自然な会話を促し、施設、ニュース、研究、および今後のイベントに関するさまざまな情報を提供しています。
人間の顔に非常に似た3Dマスクを持ち、そのマスクにアニメーションされた表情を投影するためにマイクロプロジェクタを使用しているヒューマノイドロボットバストのFurhatロボット。ロボットは、頭部を動かしてうなずくことができるように監視されたプラットフォームに取り付けられており、リアルな相互作用を向上させています。コミュニケーションを容易にするために、Furhatはマイクロフォンアレイとスピーカーを備えており、人間の話し言葉を認識して応答することができます。
- テルアビブとコペンハーゲン大学からの新しいAI研究は、識別信号を使用して、テキストから画像への拡散モデルを迅速に微調整するための「プラグアンドプレイ」アプローチを紹介しています
- 「UCIとハーバードの研究者が、ユーザーに機械学習モデルを説明するTalkToModelを紹介する」
- マイクロソフトリサーチがBatteryMLを紹介:バッテリー劣化における機械学習のためのオープンソースツール
システムは、シームレスなアプリケーションのために設計されています。対話管理には、NLU、DM、およびカスタムデータベースの3つの主要なコンポーネントが関与しています。NLUは、着信テキストを分析し、意図を分類し、信頼性を評価します。DMは、会話の流れを維持し、LLMsにプロンプトを送信し、応答を処理します。カスタムデータベースは、Nation Robotariumのウェブサイトをウェブスクレイピングして作成され、ユーザーの意図に関連するデータを提供します。プロンプトエンジニアリングは、LLMから自然な応答を生成するために、フューショットラーニングとプロンプトラーニングのテクニックを組み合わせています。ジェスチャーパーシングは、Furhat SDKの顔の動作とLLMのテキストからの感情認識を活用し、話し言葉と顔の表情を同期させることで、没入型のインタラクションを作り出しています。テキストから音声への変換にはAmazon Pollyが使用されており、FurhatOSで利用できます。
将来、研究者たちはその能力を拡張する準備を進めています。彼らは、受付ロボットの分野での活発な研究領域である多人数の相互作用を可能にすることを目指しています。さらに、言語モデルの幻覚による問題に取り組むために、言語モデルの微調整や直接的な会話生成といった戦略を探求する予定です。研究者にとっての重要なマイルストーンは、SigdialカンファレンスでのFurChatのデモンストレーションです。これは、システムの能力をより広範な同僚や専門家の視聴者に示すプラットフォームとなります。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「ポーズマッピング技術によって、脳性麻痺の患者を遠隔で評価することができます」
- マイクロソフトの研究者が「InstructDiffusion:コンピュータビジョンタスクを人間の指示に合わせるための包括的かつ汎用的なAIフレームワーク」というタイトルで発表しました
- 大規模な言語モデルは本当に数学をできるのか?この人工知能AIの研究はMathGLMを紹介します:計算機なしで数学問題を解くための頑健なモデル
- 「量子ブースト:cuQuantumとPennyLaneによるスーパーコンピュータ上でのシミュレーション」
- 「研究者たちが、数千の変形可能な結び目を発見」
- 百度のAI研究者がVideoGenを紹介:高フレーム精度で高解像度のビデオを生成できる新しいテキストからビデオを生成する手法
- 「Google DeepMindの研究者たちは、PROmptingによる最適化(OPRO)を提案する:大規模言語モデルを最適化器として」