ChatGPTがロボットの世界に足を踏み入れる:ボストン・ダイナミクスの最新メカニカルマーベルが今度は会話する

ChatGPTが美容とファッション界に彩りを添える:最新のメカニカルマーベル「ボストン・ダイナミクス」が会話能力を備える

画期的な開発が行われ、エンジニアリング会社であるボストン・ダイナミクスは、OpenAIが開発した洗練された言語モデルであるChatGPTを、その驚異的なロボットSpotの1つに統合しました。この犬のようなコンパニオンは、建物のガイド付きツアーを提供し、途中の展示物ごとに洞察に富んだ解説を行うことができるようになりました。

Spotは驚異的な変化を遂げ、特色ある個性の選択肢を持つようになりました。選択されたパーソナリティに応じて、ロボットの声、トーン、個人的な発言が適応します。

周囲の状況を認識するため、SpotはVisual Question Answering(VQA)モデルを利用し、画像のキャプションを生成し、それに関する簡潔な応答を提供することができます。この視覚データは約1秒ごとに更新され、テキストプロンプトとしてシステムに伝えられます。

Spotのコミュニケーション機能は、Respeaker V2スピーカー用の特別に作られた振動耐性マウントを追加することで強化されています。この革新的なハードウェアは、LEDが付いたリングアレイマイクロフォンで飾られたSpotのEAP 2ペイロードとUSBでシームレスに統合されます。

ロボットの制御は、デスクトップPCまたはノートパソコンのオフボードコンピュータによって管理され、そのコンピュータはSpotとの通信にはソフトウェア開発キット(SDK)を利用しています。EAP 2とのオーディオコミュニケーションを容易にするために、簡単なSpot SDKサービスが実装されています。

口頭応答に関しては、SpotはElevenLabsのテキスト読み上げサービスを利用しています。応答時間を最適化するため、エンジニアはテキストを「フレーズ」として並行してツールにストリーミングし、生成されたオーディオを直列で再生するシステムを考案しました。

個性を付加するため、Spotは今や身体の言語能力も持っています。移動するオブジェクトを識別し追跡することができ、最も近くの人物の位置を判断し、腕をその方向に向けることができます。愉快な演出の一環として、発話にはローパスフィルターが適用され、パペットの口の動きを模倣しています。この効果は、グリッパーにおかしな衣装を付けたり、くりくりした目をつけたりすることでさらに引き立てられます。

この実験の最も興味深い側面の1つは、AIの固有の論理ですが、最小限の微調整が必要でした。例えば、「親」という言葉について質問されたとき、Spotは驚くべきことに、それまでのモデルが存在する場所に自動的に移動し、おかしくもそれらを「先輩」と称しました。これは、モデルが意識を意味せずに概念間の統計的な関連性を確立する能力を示すものです。

ただし、デモンストレーションにはいくつかの制約があります。Spotも他の言語モデルと同様に、時折幻覚を経験することがあり、架空の情報を生成することがあります。この現象の興味深い例は、AIエージェントが集まるSimsにインスパイアされた町についての記事に見ることができます。さらに、応答にはわずかな遅延があり、ユーザーは約6秒待つことがあります。

これらのわずかな妨げにもかかわらず、このプロジェクトは、ロボティクスとAIの交差点での研究における重要な進歩を表しています。ボストン・ダイナミクスは、人間中心の環境でロボットのパフォーマンスを向上させることを目的として、この技術の融合をさらに探求することを約束しています。この有望な試みは、機械との相互作用の方法を革新し、知的なコンパニオンシップの新たな時代を築く可能性を秘めています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

ハギングフェイスがSafeCoderを導入:エンタープライズ向けに構築されたコードアシスタントソリューション

コードアシスタントソリューションは、開発者がコードを書くときや編集するときに支援するツールやソフトウェアアプリケーシ...

AIニュース

トップ40+の生成AIツール(2023年10月)

ChatGPT – GPT-4 GPT-4はOpenAIの最新のLLMであり、これまでの前任者よりも革新的かつ正確で安全です。 また、画像、PDF、CSV...

機械学習

Google AIは、MediaPipe Diffusionプラグインを導入しましたこれにより、デバイス上で制御可能なテキストから画像生成が可能になります

最近、拡散モデルはテキストから画像を生成する際に非常に成功を収め、画像の品質、推論のパフォーマンス、および創造的な可...

人工知能

AIをトレーニングするために雇われた人々が、AIに仕事を外注している…

これは、既にエラーが多いモデルにさらにエラーを導入する可能性のある実践です

AIニュース

「Rosalynがオンライン試験の不正行為に立ち向かうためのStableSight AIを公開」

オンライン教育における学術的不正行為の複雑さが増す中、RosalynはStableSightを導入し、オンライン試験中の生成AIと組織化...