「テキストから具体的なものへ:3D-LLMが言語モデルを3D世界に解き放つ」

Text to Concrete 3D-LLM unleashes language models into the 3D world.

最初の3D-LLMの概要

元記事はlouisbouchard.aiで公開され、私のブログでは2日前に読めます!

ビデオを視聴する

大規模な言語モデルを見てきました。テキストやコード、画像と一緒に動作させることもありますが、それらが私たちの世界での動作に欠けているものがあります。それは、私たちが見るように私たちの世界を理解する能力です。テキストと画像だけでは、私たちの世界を説明するための2つの具体的な方法に過ぎません。さて、今日は、3D-LLMによって大きな進歩を遂げます。

3D-LLMの結果の例。論文からの画像。

3D-LLMは、私たちの世界を理解することができる新しいモデルです。それはまだ全体の一部ですが、私たちの生活で経験するものの非常に重要な部分である3次元とテキストを理解することができます。上記および下記の例で見るように、環境に関連する任意の質問をすることができ、通常のLLMに備わっている非常に優れた常識的な推論に基づいて回答します。もちろん、完璧ではありませんが、ChatGPTから知っているように、感動的です。世界を見て質問に答えるだけでなく、見える世界と対話したり、特定の部屋やオブジェクトへの経路を探したりするように依頼することもできます。特定のオブジェクトについて尋ねたり、物事を指したりすることができます。これは、私の知る限りでは、私たちが生活する世界と実際に対話する最初のLLMです。かなりクールですね。

3D-LLMの結果の例。論文からの画像。

見ての通り、その世界はかなり醜いです。これは、モデルがポイントクラウドと言語の理解しかできないためです。ポイントクラウドは、物体や環境の空間座標を表す3Dデータポイントの集合です。AIにおける3Dシーンでは、ポイントクラウドは効率的なデータ表現として使用されます。自動運転、ロボティクス、または拡張現実などで頻繁に使用され、AIモデルが認識や対話を行うことが可能になります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

新しい研究論文が、化学の論文がChatbot ChatGPTを使用して書かれた時に簡単に見分けることができる機械学習ツールを紹介しています

AIの進歩が支配的な時代において、特に科学論文における人間とAIによるコンテンツの区別はますます重要になっています。この...

データサイエンス

「JAXにおけるディープ強化学習の優しい入門」

最近の強化学習(RL)の進歩、例えばWaymoの自律タクシーやDeepMindの人間を超えたチェスプレイヤーエージェントなどは、ニュ...

データサイエンス

「量子もつれ測定の革命:限られたデータで深層学習が従来の方法を上回る方法」

系統の量子もつれの程度は、系統のランダム性や量子もつれの係数など、さまざまな要素に依存します。この系統の特性は、機械...

機械学習

プロンプトエンジニアリングへの紹介

イントロダクション 自然言語処理は、基盤となる技術や手法を使用した実装の豊かな領域であります。近年、特に2022年の始まり...

データサイエンス

Deep Learningモデルのトレーニングをスーパーチャージ

90%に到達すると精度が初めのほうでは簡単に向上しますが、それ以上の改善を得るためには非常に力を入れなければならないとい...

人工知能

2023年のトップ10 AI QRコードジェネレーター

QRコードは、特に支払いの便利さから広く人気があります。金融の応用にとどまらず、QRコードはさまざまなデータタイプを包括...