ChatGPTがロボットの世界に足を踏み入れる:ボストン・ダイナミクスの最新メカニカルマーベルが今度は会話する

ChatGPTが美容とファッション界に彩りを添える:最新のメカニカルマーベル「ボストン・ダイナミクス」が会話能力を備える

画期的な開発が行われ、エンジニアリング会社であるボストン・ダイナミクスは、OpenAIが開発した洗練された言語モデルであるChatGPTを、その驚異的なロボットSpotの1つに統合しました。この犬のようなコンパニオンは、建物のガイド付きツアーを提供し、途中の展示物ごとに洞察に富んだ解説を行うことができるようになりました。

Spotは驚異的な変化を遂げ、特色ある個性の選択肢を持つようになりました。選択されたパーソナリティに応じて、ロボットの声、トーン、個人的な発言が適応します。

周囲の状況を認識するため、SpotはVisual Question Answering(VQA)モデルを利用し、画像のキャプションを生成し、それに関する簡潔な応答を提供することができます。この視覚データは約1秒ごとに更新され、テキストプロンプトとしてシステムに伝えられます。

Spotのコミュニケーション機能は、Respeaker V2スピーカー用の特別に作られた振動耐性マウントを追加することで強化されています。この革新的なハードウェアは、LEDが付いたリングアレイマイクロフォンで飾られたSpotのEAP 2ペイロードとUSBでシームレスに統合されます。

ロボットの制御は、デスクトップPCまたはノートパソコンのオフボードコンピュータによって管理され、そのコンピュータはSpotとの通信にはソフトウェア開発キット(SDK)を利用しています。EAP 2とのオーディオコミュニケーションを容易にするために、簡単なSpot SDKサービスが実装されています。

口頭応答に関しては、SpotはElevenLabsのテキスト読み上げサービスを利用しています。応答時間を最適化するため、エンジニアはテキストを「フレーズ」として並行してツールにストリーミングし、生成されたオーディオを直列で再生するシステムを考案しました。

個性を付加するため、Spotは今や身体の言語能力も持っています。移動するオブジェクトを識別し追跡することができ、最も近くの人物の位置を判断し、腕をその方向に向けることができます。愉快な演出の一環として、発話にはローパスフィルターが適用され、パペットの口の動きを模倣しています。この効果は、グリッパーにおかしな衣装を付けたり、くりくりした目をつけたりすることでさらに引き立てられます。

この実験の最も興味深い側面の1つは、AIの固有の論理ですが、最小限の微調整が必要でした。例えば、「親」という言葉について質問されたとき、Spotは驚くべきことに、それまでのモデルが存在する場所に自動的に移動し、おかしくもそれらを「先輩」と称しました。これは、モデルが意識を意味せずに概念間の統計的な関連性を確立する能力を示すものです。

ただし、デモンストレーションにはいくつかの制約があります。Spotも他の言語モデルと同様に、時折幻覚を経験することがあり、架空の情報を生成することがあります。この現象の興味深い例は、AIエージェントが集まるSimsにインスパイアされた町についての記事に見ることができます。さらに、応答にはわずかな遅延があり、ユーザーは約6秒待つことがあります。

これらのわずかな妨げにもかかわらず、このプロジェクトは、ロボティクスとAIの交差点での研究における重要な進歩を表しています。ボストン・ダイナミクスは、人間中心の環境でロボットのパフォーマンスを向上させることを目的として、この技術の融合をさらに探求することを約束しています。この有望な試みは、機械との相互作用の方法を革新し、知的なコンパニオンシップの新たな時代を築く可能性を秘めています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

コンテンツクリエーターに必要不可欠なChatGPTプラグイン

「CodeGenius、StoryWeaver、およびFactFinderなどの必須のChatGPTプラグインを見つけて、コンテンツ作成プロセスを向上させ...

AI研究

「CMUの研究者がBUTD-DETRを導入:言語発話に直接依存し、発話で言及されるすべてのオブジェクトを検出する人工知能(AI)モデル」

画像内のすべての「オブジェクト」を見つけることは、コンピュータビジョンの基礎です。カテゴリの語彙を作成し、この語彙の...

機械学習

「Jupyter AIに会おう:マジックコマンドとチャットインターフェースでジェネラティブ人工知能をJupyterノートブックにもたらす新しいオープンソースプロジェクト」

Jupyter AIは、Project Jupyterの公式サブプロジェクトであり、Jupyterノートブックに生成型人工知能をもたらします。ユーザ...

AI研究

マイクロソフトの研究者が「InstructDiffusion:コンピュータビジョンタスクを人間の指示に合わせるための包括的かつ汎用的なAIフレームワーク」というタイトルで発表しました

マイクロソフトリサーチアジアの研究者たちは、適応性のある汎用的なビジョンモデルに向けた画期的な進展であるInstructDiffu...

AI研究

HuggingFace Researchが紹介するLEDITS:DDPM Inversionと強化された意味的なガイダンスを活用したリアルイメージ編集の次なる進化

テキストガイド拡散モデルを利用した写真生成の現実感と多様性の向上により、関心が大幅に高まっています。大規模モデルの導...

AI研究

UCバークレーの研究者たちは、LLMCompilerを紹介しました:LLMの並列関数呼び出しパフォーマンスを最適化するLLMコンパイラ

以下は、UCバークレー、ICSI、およびLBNLの研究チームが開発したLLMCompilerというフレームワークです。このフレームワークは...