ヘリオットワット大学とAlana AIの研究者は、大規模言語モデルに基づく新しい具現化対話エージェント「FurChat」を提案しています

Researchers from Heriot-Watt University and Alana AI propose a new embodied conversational agent FurChat based on a large-scale language model.

大規模言語モデル(LLMs)は、技術が飛躍的に進歩する世界で中心的な役割を果たしています。これらのLLMsは、非常に洗練されたコンピュータプログラムであり、驚くほど自然な方法で人間の言語を理解し、生成し、相互作用することができます。最近の研究では、FurChatとして知られる革新的な具現化対話エージェントが公開されました。GPT-3.5のようなLLMsは、自然言語処理において可能なことの境界を em>押し広げています。それらは文脈を理解し、質問に答え、通常の人間が書いたかのように感じるテキストを生成することさえできます。この強力な機能により、ロボティクスなどのさまざまな領域で無数の機会が開かれています。

Heriot-Watt大学とAlana AIの研究者たちは、受付係として機能し、ダイナミックな会話を行い、表情を介して感情を伝える革命的なシステムであるFurChatを提案しています。National RobotariumでのFurChatの展開は、その変革の可能性を象徴しており、訪問者との自然な会話を促し、施設、ニュース、研究、および今後のイベントに関するさまざまな情報を提供しています。

人間の顔に非常に似た3Dマスクを持ち、そのマスクにアニメーションされた表情を投影するためにマイクロプロジェクタを使用しているヒューマノイドロボットバストのFurhatロボット。ロボットは、頭部を動かしてうなずくことができるように監視されたプラットフォームに取り付けられており、リアルな相互作用を向上させています。コミュニケーションを容易にするために、Furhatはマイクロフォンアレイとスピーカーを備えており、人間の話し言葉を認識して応答することができます。

システムは、シームレスなアプリケーションのために設計されています。対話管理には、NLU、DM、およびカスタムデータベースの3つの主要なコンポーネントが関与しています。NLUは、着信テキストを分析し、意図を分類し、信頼性を評価します。DMは、会話の流れを維持し、LLMsにプロンプトを送信し、応答を処理します。カスタムデータベースは、Nation Robotariumのウェブサイトをウェブスクレイピングして作成され、ユーザーの意図に関連するデータを提供します。プロンプトエンジニアリングは、LLMから自然な応答を生成するために、フューショットラーニングとプロンプトラーニングのテクニックを組み合わせています。ジェスチャーパーシングは、Furhat SDKの顔の動作とLLMのテキストからの感情認識を活用し、話し言葉と顔の表情を同期させることで、没入型のインタラクションを作り出しています。テキストから音声への変換にはAmazon Pollyが使用されており、FurhatOSで利用できます。

将来、研究者たちはその能力を拡張する準備を進めています。彼らは、受付ロボットの分野での活発な研究領域である多人数の相互作用を可能にすることを目指しています。さらに、言語モデルの幻覚による問題に取り組むために、言語モデルの微調整や直接的な会話生成といった戦略を探求する予定です。研究者にとっての重要なマイルストーンは、SigdialカンファレンスでのFurChatのデモンストレーションです。これは、システムの能力をより広範な同僚や専門家の視聴者に示すプラットフォームとなります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「オーディオソース分離のマスターキー:AudioSepを紹介して、あなたが説明するものを分離します」

Computational Auditory Scene Analysis(CASA)は、複雑な聴覚環境で個別の音源を分離し理解することに焦点を当てた音声信号...

機械学習

「GPT-4V(ビジョン)のコンセプトを理解する:新しい人工知能のトレンド」

OpenAIはAIの最新の進歩において、GPTやDALLEといった非常に優れたモデルを有しています。GPT-3のリリースは、テキストの要約...

AI研究

MITの研究者が、生成プロセスの改善のために「リスタートサンプリング」を導入

微分方程式ベースの深層生成モデルは、最近、画像合成から生物学までのさまざまな分野で、高次元データのモデリングにおいて...

データサイエンス

Novo Nordiskは、AIとライフサイエンスの交差点で働くMITのポストドクトラルフェローを支援する予定です

MIT-ノボ・ノルディスク人工知能ポスドクフェローシッププログラムは、5年間で年間最大10名のポスドクをサポートします

機械学習

「Javaアプリケーションのレイテンシー削減」

この記事では、大規模なプロダクションアプリケーションのメモリ解析に関連する課題と、それを乗り越える方法について取り上...

データサイエンス

イメージセグメンテーション:詳細ガイド

画像セグメンテーションとは、コンピュータ(またはより正確にはコンピュータに保存されたモデル)が画像を取り込み、画像内...