ChatGPTがロボットの世界に足を踏み入れる:ボストン・ダイナミクスの最新メカニカルマーベルが今度は会話する

ChatGPTが美容とファッション界に彩りを添える:最新のメカニカルマーベル「ボストン・ダイナミクス」が会話能力を備える

画期的な開発が行われ、エンジニアリング会社であるボストン・ダイナミクスは、OpenAIが開発した洗練された言語モデルであるChatGPTを、その驚異的なロボットSpotの1つに統合しました。この犬のようなコンパニオンは、建物のガイド付きツアーを提供し、途中の展示物ごとに洞察に富んだ解説を行うことができるようになりました。

Spotは驚異的な変化を遂げ、特色ある個性の選択肢を持つようになりました。選択されたパーソナリティに応じて、ロボットの声、トーン、個人的な発言が適応します。

周囲の状況を認識するため、SpotはVisual Question Answering(VQA)モデルを利用し、画像のキャプションを生成し、それに関する簡潔な応答を提供することができます。この視覚データは約1秒ごとに更新され、テキストプロンプトとしてシステムに伝えられます。

Spotのコミュニケーション機能は、Respeaker V2スピーカー用の特別に作られた振動耐性マウントを追加することで強化されています。この革新的なハードウェアは、LEDが付いたリングアレイマイクロフォンで飾られたSpotのEAP 2ペイロードとUSBでシームレスに統合されます。

ロボットの制御は、デスクトップPCまたはノートパソコンのオフボードコンピュータによって管理され、そのコンピュータはSpotとの通信にはソフトウェア開発キット(SDK)を利用しています。EAP 2とのオーディオコミュニケーションを容易にするために、簡単なSpot SDKサービスが実装されています。

口頭応答に関しては、SpotはElevenLabsのテキスト読み上げサービスを利用しています。応答時間を最適化するため、エンジニアはテキストを「フレーズ」として並行してツールにストリーミングし、生成されたオーディオを直列で再生するシステムを考案しました。

個性を付加するため、Spotは今や身体の言語能力も持っています。移動するオブジェクトを識別し追跡することができ、最も近くの人物の位置を判断し、腕をその方向に向けることができます。愉快な演出の一環として、発話にはローパスフィルターが適用され、パペットの口の動きを模倣しています。この効果は、グリッパーにおかしな衣装を付けたり、くりくりした目をつけたりすることでさらに引き立てられます。

この実験の最も興味深い側面の1つは、AIの固有の論理ですが、最小限の微調整が必要でした。例えば、「親」という言葉について質問されたとき、Spotは驚くべきことに、それまでのモデルが存在する場所に自動的に移動し、おかしくもそれらを「先輩」と称しました。これは、モデルが意識を意味せずに概念間の統計的な関連性を確立する能力を示すものです。

ただし、デモンストレーションにはいくつかの制約があります。Spotも他の言語モデルと同様に、時折幻覚を経験することがあり、架空の情報を生成することがあります。この現象の興味深い例は、AIエージェントが集まるSimsにインスパイアされた町についての記事に見ることができます。さらに、応答にはわずかな遅延があり、ユーザーは約6秒待つことがあります。

これらのわずかな妨げにもかかわらず、このプロジェクトは、ロボティクスとAIの交差点での研究における重要な進歩を表しています。ボストン・ダイナミクスは、人間中心の環境でロボットのパフォーマンスを向上させることを目的として、この技術の融合をさらに探求することを約束しています。この有望な試みは、機械との相互作用の方法を革新し、知的なコンパニオンシップの新たな時代を築く可能性を秘めています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

AIモデルは、患者のがんがどこで発生したかを判断するのに役立つことができます

OncoNPCモデルからの予測により、医師は難治性の腫瘍に対してターゲット治療を選択することが可能になる可能性があります

機械学習

機械学習によるマルチビューオプティカルイリュージョンの作成:ダイナミックな画像変換のためのゼロショット手法の探索

アナグラムは、異なる角度から見るか、ひっくり返すことで外観が変化するイメージです。これらの魅力的な多角的視覚錯覚を生...

データサイエンス

「3歳のロボットの子育て」

カーネギーメロン大学とMeta AIの研究者によって開発されたオープンソースのAIエージェントは、ロボットに3歳の子供と同等の...

機械学習

「AnyLocによる最新のビジュアル位置認識(VPR)の汎用方法について紹介します」

人工知能の分野は常に進化しており、ロボット工学などのさまざまな用途に取り入れられています。ビジュアルプレースリコグニ...

機械学習

TaatikNet(ターティクネット):ヘブライ語の翻字のためのシーケンス・トゥ・シーケンス学習

この記事では、TaatikNetとseq2seqモデルの簡単な実装方法について説明していますコードとドキュメントについては、TaatikNet...

機械学習

Google AIが簡単なエンドツーエンドの拡散ベースのテキスト読み上げE3-TTSを提案します:拡散に基づくシンプルで効率的なエンドツーエンドのテキスト読み上げモデルに基づくものです

機械学習において、拡散モデルは画像や音声生成のタスクによく使われる生成モデルです。拡散モデルは、複雑なデータ分布をよ...