「テキストから具体的なものへ:3D-LLMが言語モデルを3D世界に解き放つ」

Text to Concrete 3D-LLM unleashes language models into the 3D world.

最初の3D-LLMの概要

元記事はlouisbouchard.aiで公開され、私のブログでは2日前に読めます!

ビデオを視聴する

大規模な言語モデルを見てきました。テキストやコード、画像と一緒に動作させることもありますが、それらが私たちの世界での動作に欠けているものがあります。それは、私たちが見るように私たちの世界を理解する能力です。テキストと画像だけでは、私たちの世界を説明するための2つの具体的な方法に過ぎません。さて、今日は、3D-LLMによって大きな進歩を遂げます。

3D-LLMの結果の例。論文からの画像。

3D-LLMは、私たちの世界を理解することができる新しいモデルです。それはまだ全体の一部ですが、私たちの生活で経験するものの非常に重要な部分である3次元とテキストを理解することができます。上記および下記の例で見るように、環境に関連する任意の質問をすることができ、通常のLLMに備わっている非常に優れた常識的な推論に基づいて回答します。もちろん、完璧ではありませんが、ChatGPTから知っているように、感動的です。世界を見て質問に答えるだけでなく、見える世界と対話したり、特定の部屋やオブジェクトへの経路を探したりするように依頼することもできます。特定のオブジェクトについて尋ねたり、物事を指したりすることができます。これは、私の知る限りでは、私たちが生活する世界と実際に対話する最初のLLMです。かなりクールですね。

3D-LLMの結果の例。論文からの画像。

見ての通り、その世界はかなり醜いです。これは、モデルがポイントクラウドと言語の理解しかできないためです。ポイントクラウドは、物体や環境の空間座標を表す3Dデータポイントの集合です。AIにおける3Dシーンでは、ポイントクラウドは効率的なデータ表現として使用されます。自動運転、ロボティクス、または拡張現実などで頻繁に使用され、AIモデルが認識や対話を行うことが可能になります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「vLLMに会ってください:高速LLM推論とサービスのためのオープンソース機械学習ライブラリ」

大規模な言語モデル(LLM)は、プログラミングアシスタントやユニバーサルチャットボットなどの新しいアプリケーションを可能...

機械学習

「生成AIの10年からの教訓」

「生成AIの未来を理解するためには、それがどこから来たのか、そして技術とともに進化する課題と機会を見ることが役立ちます」

データサイエンス

テキストと画像の検索を行うNodeJS AIアプリを構築する

チュートリアル:stargate-mongooseとJSON APIを使用して、DataStax Astra DB(およびベクトル検索)をサポートするNodeJSア...

データサイエンス

「埋め込みモデルでコーパス内の意味関係を探索する」

最近、私はいくつかの仲間の学生や学者と話をしてきましたが、彼らは自由形式のテキストの分析に関心を持っていました残念な...

データサイエンス

AIの導入障壁:主要な課題と克服方法

人工知能(AI)がビジネスを革新し、効率を高め、生産性を向上させる方法を発見してくださいAI導入の障壁について議論します

人工知能

「仕事の未来:スキルアップしないと取り残される」

AIの仕事への二重の影響、再スキル化の重要性、および労働者、企業、政府などに関連する倫理的な課題を探求してください