Learn more about Search Results RT-2

Google DeepMindの研究者たちは、RT-2という新しいビジョン・言語・行動(VLA)モデルを紹介しましたこのモデルは、ウェブデータとロボットデータの両方から学習し、それを行動に変えます

大規模な言語モデルは、流暢なテキスト生成、新たな問題解決、文章やコードの創造的な生成を可能にします。対照的に、ビジョン・ランゲージモデルは、開放的な語彙の視覚的認識を可能にし、画像中のオブジェクト-エージェントの相互作用について複雑な推論さえ行うことができます。ロボットが新しいスキルを学ぶ最適な方法は明確にする必要があります。ウェブ上で最も高度な言語モデルとビジョン・ランゲージモデルを訓練するために使用される数十億のトークンと写真に比べて、ロボットから収集されるデータ量は同等ではないでしょう。しかし、これらのモデルを即座にロボットの活動に適応することも困難です。なぜなら、これらのモデルは意味、ラベル、およびテキストのプロンプトについて推論を行う一方、ロボットはカルテシアンエンドエフェクタを使用したなどの低レベルのアクションを指示される必要があります。 Google DeepMindの研究は、ビジョン・ランゲージモデルを直接エンドツーエンドのロボット制御に組み込むことで一般化を改善し、新たな意味論的推論を可能にすることを目指しています。ウェブベースの言語データとビジョン・ランゲージデータの助けを借りて、ロボットの観測結果をアクションにリンクするために一つの包括的に訓練されたモデルを作成することを目指しています。彼らはロボットの軌跡データとインターネット上で行われる大規模な視覚的な質問応答演習のデータを使用して、最先端のビジョン・ランゲージモデルを共同でファインチューニングすることを提案しています。他の手法とは異なり、彼らは簡単で汎用的な手法を提案しています。つまり、ロボットのアクションをテキストトークンとして表現し、それらを自然言語トークンとしてモデルの訓練セットに直接組み込むことです。研究者はビジョン・ランゲージ・アクションモデル(VLA)を研究し、RT-2はそのようなモデルの一つです。厳格なテスト(6,000回の評価試行)を通じて、RT-2がインターネットスケールの訓練によってさまざまな新たなスキルを獲得し、パフォーマンスの高いロボットポリシーを実現することが分かりました。 Google DeepMindは、ロボットの操作を直接実行できるウェブソースのテキストと画像で訓練されたTransformerベースのモデルであるRT-2を公開しました。これは、Robotics Transformerモデル1の後継として開発されました。ロボットのアクションをテキストトークンとして表現し、オンラインで利用可能な大規模なビジョン・ランゲージデータセットと一緒に教えることができます。推論では、テキストトークンをロボットの振る舞いに変換し、フィードバックループを介して制御することができます。これにより、ビジョン・ランゲージモデルの一般化、意味理解、推論の一部をロボットポリシーの学習に活用することができます。プロジェクトのウェブサイト(https://robotics-transformer2.github.io/)では、RT-2の使用例のライブデモンストレーションを提供しています。 このモデルは、ロボットデータで見つかる分布に一致する方法で物理的なスキルを展開する能力を保持しています。しかし、ウェブから収集された知識を使用して、新しい文脈でこれらのスキルを使用することも学習します。ロボットデータには正確な数値やアイコンなどの意味的な手がかりは含まれていませんが、このモデルは学習したピックアンドプレイスのスキルを再利用することができます。ロボットデモではそのような関係は提供されませんでしたが、このモデルは正しいオブジェクトを選び、正しい位置に配置することができました。さらに、コマンドに思考プロンプトのようなチェーンを補完することで、モデルはより複雑な意味的な推論を行うこともできます。例えば、岩が自作のハンマーの最良の選択肢であることや、疲れている人にとってエナジードリンクが最良の選択肢であることを知っている場合です。 Google DeepMindの主な貢献は、ロボットデータを使用して前処理されたビジョン・ランゲージモデルをファインチューニングすることで、一般化が可能で意味論的に意識したロボットルールとなるモデル群であるRT-2です。55兆のパラメータを持つモデルを公開データから学習し、ロボットの動作コマンドで注釈付けされました。6,000回のロボット評価を通じて、RT-2はオブジェクト、シーン、および命令の一般化においてかなりの進歩を実証し、ウェブスケールのビジョン・ランゲージプリトレーニングの副産物としてさまざまな新たな能力を示すことを示しました。 主な特徴 RT-2の推論、シンボルの解釈、人間の識別能力は、さまざまな実用的なシナリオで活用することができます。 RT-2の結果は、ロボットデータを使用してVLMを事前学習することで、ロボットを直接制御できる強力なビジョン・ランゲージ・アクション(VLA)モデルに変えることができることを示しています。 RT-2のように、現実世界で様々な活動を完了するための情報の解釈や問題解決、思考能力を持つ汎用的な物理ロボットを構築するための有望な方向性です。 RT-2は、言語とビジュアルのトレーニングデータからロボットの動きへの情報の移行を処理する能力と効率性を持っています。 制約事項 RT-2は一般化の性質が励ましいものの、いくつかの欠点があります。ウェブスケールの事前学習をVLMを通じて組み込むことが、意味的および視覚的な概念の一般化を改善するという研究結果もあるものの、これによってロボットが動作を行う能力に新たな能力が付与されるわけではありません。モデルは、ロボットデータで見つかった物理的な能力のみを新しい方法で使用することができますが、それらの能力をより良く活用することを学習します。これは、競争力の次元でサンプルの多様性が必要であるとされます。人間の映像などの新しいデータ収集パラダイムは、新しいスキルを獲得するための将来的な研究の興味深い機会となります。 まとめると、Google DeepMindの研究者は、大規模なVLAモデルをリアルタイムで実行できることを示しましたが、これはかなりの計算負荷を要します。これらの手法が高頻度制御を必要とする状況に適用される際には、リアルタイム推論のリスクが重要なボトルネックとなります。このようなモデルがより速く、またはより安価なハードウェア上で動作できるようにする量子化および蒸留手法は、将来の研究の魅力的な領域です。また、RT-2の開発には比較的少数のVLMモデルしか利用できないという既存の制約も関連しています。 Google DeepMindの研究者は、ビジョン・ランゲージ・アクション(VLA)モデルのトレーニングプロセスを、事前学習とビジョン・ランゲージモデル(VLM)とロボットからのデータの統合によって要約しました。それから、VLAs(RT-2-PaLM-EおよびRT-2-PaLI-X)の2つのバリアントを紹介しました。これらのモデルは、ロボットの軌跡データで微調整され、テキストとしてトークン化されたロボットのアクションを生成します。さらに重要なことに、彼らはこの技術が一般化性能とウェブスケールのビジョン・ランゲージ事前学習から受け継がれた新しい能力を向上させることを示し、非常に効果的なロボットポリシーを導くと述べています。Google DeepMindによれば、ロボット学習の分野はこの簡単で普遍的な方法論によって他の分野の改善から戦略的に利益を得ることができるようになりました。

「GoogleのRT-2 AIモデルに会いましょう – 人間のように学ぶロボット」

「ニューラルネットワークは人間の脳の動作に触発されていますが、完全に同じではありませんしかし、Googleの新しいRT-2モデルが約束どおりに機能すれば、人間のようなAIへの重要な一歩となるかもしれませんGoogleのDeepMindが紹介したこのモデルは、ウェブと...」

RT-2 新しいモデルは、ビジョンと言語をアクションに変換します

ロボティックトランスフォーマー2(RT-2)をご紹介しますこれは、ウェブとロボティクスのデータの両方から学習し、その知識をロボット制御の一般化された指示に翻訳する画期的なビジョン・言語・行動(VLA)モデルですが、同時にウェブスケールの機能を保持していますこの研究は、ロボティックトランスフォーマー1(RT-1)に基づいており、ロボティクスのデータで見られるタスクとオブジェクトの組み合わせを学習できるマルチタスクデモンストレーションでトレーニングされたモデルですRT-2は、ロボティックデータに露出された範囲を超えた、改善された一般化能力と意味的・視覚的理解力を示していますこれには、新しい命令の解釈や、オブジェクトのカテゴリや高レベルの説明についての推論など、初歩的な推論を行うことによるユーザー命令への応答が含まれます

「2023年、オープンLLMの年」

2023年には、大型言語モデル(Large Language Models、LLMs)への公衆の関心が急増しました。これにより、多くの人々がLLMsの定義と可能性を理解し始めたため、オープンソースとクローズドソースの議論も広範な聴衆に届くようになりました。Hugging Faceでは、オープンモデルに大いに興味を持っており、オープンモデルは研究の再現性を可能にし、コミュニティがAIモデルの開発に参加できるようにし、モデルのバイアスや制約をより簡単に評価できるようにし、チェックポイントの再利用によってフィールド全体の炭素排出量を低減するなど、多くの利点があります(その他の利点もあります)。 では、オープンLLMsの今年を振り返ってみましょう! 文章が長くなりすぎないようにするために、コードモデルには触れません。 Pretrained Large Language Modelの作り方 まず、大型言語モデルはどのようにして作られるのでしょうか?(もし既に知っている場合は、このセクションをスキップしてもかまいません) モデルのアーキテクチャ(コード)は、特定の実装と数学的な形状を示しています。モデルのすべてのパラメータと、それらが入力とどのように相互作用するかがリストとして表されます。現時点では、大部分の高性能なLLMsは「デコーダーのみ」トランスフォーマーアーキテクチャのバリエーションです(詳細は元のトランスフォーマーペーパーをご覧ください)。訓練データセットには、モデルが訓練された(つまり、パラメータが学習された)すべての例と文書が含まれています。したがって、具体的には学習されたパターンが含まれます。ほとんどの場合、これらの文書にはテキストが含まれており、自然言語(例:フランス語、英語、中国語)、プログラミング言語(例:Python、C)またはテキストとして表現できる構造化データ(例:MarkdownやLaTeXの表、方程式など)のいずれかです。トークナイザは、訓練データセットからテキストを数値に変換する方法を定義します(モデルは数学的な関数であり、したがって入力として数値が必要です)。トークン化は、テキストを「トークン」と呼ばれるサブユニットに変換することによって行われます(トークン化方法によっては単語、サブワード、または文字になる場合があります)。トークナイザの語彙サイズは、トークナイザが知っている異なるトークンの数を示しますが、一般的には32kから200kの間です。データセットのサイズは、これらの個々の「原子論的」単位のシーケンスに分割された後のトークンの数としてよく測定されます。最近のデータセットのサイズは、数千億から数兆のトークンに及ぶことがあります!訓練ハイパーパラメータは、モデルの訓練方法を定義します。新しい例ごとにパラメータをどれだけ変更すべきですか?モデルの更新速度はどのくらいですか? これらのパラメータが選択されたら、モデルを訓練するためには1)大量の計算パワーが必要であり、2)有能な(そして優しい)人々が訓練を実行し監視する必要があります。訓練自体は、アーキテクチャのインスタンス化(訓練用のハードウェア上での行列の作成)および上記のハイパーパラメータを使用して訓練データセット上の訓練アルゴリズムの実行からなります。その結果、モデルの重みが得られます。これらは学習後のモデルパラメータであり、オープンな事前学習モデルへのアクセスに関して多くの人々が話す内容です。これらの重みは、推論(つまり、新しい入力の予測やテキストの生成など)に使用することができます。 事前学習済みLLMsは、重みが公開されると特定のタスクに特化または適応することもあります。それらは、「ファインチューニング」と呼ばれるプロセスを介して、ユースケースやアプリケーションの出発点として使用されます。ファインチューニングでは、異なる(通常はより専門化された小規模な)データセット上でモデルに追加の訓練ステップを適用して、特定のアプリケーションに最適化します。このステップには、計算パワーのコストがかかりますが、モデルをゼロから訓練するよりも財政的および環境的にはるかにコストがかかりません。これは、高品質のオープンソースの事前学習モデルが非常に興味深い理由の一つです。コミュニティが限られたコンピューティング予算しか利用できない場合でも、自由に使用し、拡張することができます。 2022年 – サイズの競争からデータの競争へ 2023年以前、コミュニティで利用可能だったオープンモデルはありましたか? 2022年初頭まで、機械学習のトレンドは、モデルが大きければ(つまり、パラメータが多ければ)、性能が良くなるというものでした。特に、特定のサイズの閾値を超えるモデルは能力が向上するという考えがあり、これらの概念はemergent abilitiesとscaling lawsと呼ばれました。2022年に公開されたオープンソースの事前学習モデルは、主にこのパラダイムに従っていました。 BLOOM(BigScience Large Open-science…

「MongoDBの時系列コレクションとAmazon SageMaker Canvasで洞察力の向上を加速する」

これは、MongoDBのBabu Srinivasanと共同執筆したゲスト投稿です現在の急速に変化するビジネスの風景では、リアルタイムの予測を行う能力の欠如は、正確かつタイムリーな洞察に重要な依存をする産業にとって、重要な課題をもたらしますさまざまな産業におけるリアルタイムの予測の欠如は、意思決定に重要な影響を与える切迫したビジネスの課題を提起します

高度なRAGテクニック:イラスト入り概要

この投稿の目標は、利用可能なRAGアルゴリズムとテクニックの概要と説明をすることなので、コードの実装の詳細には立ち入らず、参照のみ行い、それについては放置します

自然言語処理:AIを通じて人間のコミュニケーションの力を解き放つ

この記事では、NLPの理解と進化について取り上げますAIがコミュニケーションの世界にどのように貢献できるかを学びましょう

Pythonの地図を使って貿易流をビジュアライズする – 第1部:双方向貿易流マップ

商品やサービスの交換は、それらの対応する価値と引き換えに私たちの日常生活の重要な一部です同様に、国々はさまざまな種類の貿易関係を築いています

なぜ私たちはニューラルネットワークを持っているのか?

最近、私は現代のニューラルネットワークのキープロセスについて解説する連載記事を執筆していますニューラルネットワークが非常に強力で人気がある理由の一つは、それらが展示する能力です

「Langchainの使い方:ステップバイステップガイド」

LangChain(ラングチェーン)は、プログラマーが大きな言語モデルを使用してアプリケーションを開発するための人工知能フレームワークです。LangChainの使用方法について詳しく見ていきましょう。 ステップ1: セットアップ LangChainを始める前に、適切に構成された開発環境があることを確認してください。PythonまたはJavaScriptなどの必要な依存関係をインストールしてください。LangChainは両方の言語に対応しており、開発者に柔軟性を提供します。 pip install langchain conda install langchain -c conda-forge ステップ2: LLM(Language Models) LangChainを効果的に使用するためには、モデルプロバイダーやデータストア、APIなどのさまざまなコンポーネントと統合することがしばしば必要です。ここでは、LangChainをOpenAIのモデルAPIと統合します。また、Hugging Faceを使用しても同様に行うことができます。 !pip install openaiimport osos.environ["OPENAI_API_KEY"] ="YOUR_OPENAI_TOKEN" from langchain.llms…

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us