Learn more about Search Results Go - Page 13
- You may be interested
- Hugging Faceがフランスのデータ保護機関...
- 「プロジェクト管理のための最高のAIツー...
- 「04/12から10/12までの週のトップ重要なL...
- 「AIがITサービス管理を変革する方法」
- 「GoogleのDeblur AI:画像をシャープにす...
- 「Amazon SageMaker Data Wranglerを使用...
- 「LoRAアダプターにダイブ」
- このAI論文は、概念関連伝播(CRP)を用い...
- エイリアシング:あなたのタイムシリーズ...
- 抽象生成(特定語)- 直感的で徹底的に説...
- 「AIの責任ある適用を促進するための社会...
- 「Rのapply()関数を理解するためのシンプ...
- ランチェーン101:パート2c PEFT、LORA、...
- 「ジェンAIの時代:新たな始まり」
- チャットテンプレート:静かなパフォーマ...
「Googleが最新のVertex AI検索を発表:医療プロバイダに革新をもたらすゲームチェンジャー」
HLTH 2023において画期的な発表がありました。Googleは、健康産業およびライフサイエンスプロバイダー向けに特化したVertex AIの検索機能を導入することにより、医療業界の革命の舞台を設けました。この革新は、患者データへのアクセス方法や医療クエリの回答方法を変革することを約束しています。詳細について探ってみましょう。 医療の検索における新時代 GoogleのVertex AIプラットフォームがこの技術的飛躍の最前線に立ちます。これは、健康産業およびライフサイエンス企業が効率的に患者データを検索できる強力な生成型AI機能を備えています。これには、FHIRデータや臨床ノートなどの重要な臨床情報源も含まれます。また、この革新はGoogleの大規模な医療言語モデル、Med-PaLM 2との統合により、他の革新とは一線を画しています。 【関連記事】GoogleのMed-PaLM 2は最先端の医療AIになるでしょう Vertex AIとMed-PaLMの解説 Vertex AIはカスタマイズ可能な検索エンジンであり、生成型AI対応の検索エンジンの作成を組織に可能にする革新的な技術です。これは、特に医療分野での顧客の検索体験を設計する柔軟性を提供します。 一方、Med-PaLM 2は、Googleの大規模言語モデル(LLMs)の力を活用した生成型AI技術です。このデジタルの驚異は複雑な医療質問に答えることができ、正確かつ効率的な医療ソリューションにとって貴重な資産となります。 【詳細はこちら】医療における生成型AI ホリスティックな医療クエリのアプローチ Vertex AI SearchとMed-PaLM 2の融合により、医療提供者が回答を求める方法にパラダイムシフトがもたらされました。患者特定の医療問い合わせや一般的な医療質問に対して、このダイナミックなデュオがカバーしています。 効率とケアの品質の向上 Google CloudのクラウドAIおよび業界ソリューションのVP兼GMであるBurak…
GoogleとJohns Hopkins Universityの研究者は、テキストから画像生成のためのより速く効率的な蒸留方法を明らかにします:拡散モデルの制限を克服する
高品質で多様な効果を生み出すことにより、大規模データで訓練されたテキストから画像への変換モデルは、生成タスクを大幅に支配しています。最近のトレンドでは、画像の変形、エンハンス、またはスーパーレゾリューションなどの典型的な画像変換タスクは、事前訓練されたテキストから画像への生成モデルを用いて、外部画像条件によって生成された結果によってガイドされます。事前訓練モデルによって導入された拡散先は、さまざまな変換手順における条件付き画像生成の視覚的品質を著しく向上させることが証明されています。一方、拡散モデルは頻繁に多くの反復を必要とする反復的な洗練プロセスに大いに依存しており、効果的に完了するには時間がかかることがあります。 解像度の高い画像合成への依存度はさらに高まります。たとえば、高度なサンプリング技術を使用しても、最新のテキストから画像への潜在拡散モデルでは、20〜200のサンプルステップがしばしば必要とされます。遅いサンプリング期間は、上記の条件付き拡散モデルの実用的な適用範囲を制限しています。最近の拡散サンプリングの高速化の試みは、蒸留技術を使用しています。これらの技術により、サンプリングを大幅に高速化し、4〜8ステップで終了させることができますが、生成パフォーマンスにほとんど影響を与えません。最近の研究では、これらの技術は既に訓練された大規模なテキストから画像への拡散モデルを凝縮するためにも使用できることを示しています。 図1は、我々の手法が非条件付きモデルを即座に条件付き拡散モデルに変換する様子を示しています。 彼らは提案されたアプローチの様々な条件付きタスクにおける蒸留モデルの出力を提供し、拡散先を凝縮したサンプリング期間で再現する能力を示しています。 これらの蒸留方法に基づいて、条件付き拡散モデルを蒸留するためには、蒸留最初または条件付きチューニング最初の2つのステージ蒸留プロセスを利用することができます。同じサンプリング期間が与えられた場合、これらの2つの手法は通常、蒸留されていない条件付き拡散モデルよりも優れた結果を提供します。ただし、クロスタスクの柔軟性と学習の難易度に関して異なる利点があります。本研究では、既に訓練された非条件付き拡散モデルから条件付き拡散モデルを抽出するための新しい蒸留方法を提案します。彼らのアプローチは、伝統的な2段階の蒸留技術とは異なり、非条件付け事前訓練から始まり、蒸留された条件付き拡散モデルで終了する単一のステージを特徴としています。 図1は、与えられた視覚的設定からの手がかりを活用することで、彼らの蒸留モデルがわずか1/4のサンプリングステップで高品質な結果を予測できることを示しています。このシンプルな学習により、元のテキストから画像へのデータは必要ありません。以前の蒸留プロセスでは必要であったものです。また、最初のステージでのファインチューニング手法を使用する場合によくある誤りである事前訓練モデルの拡散先の犠牲を避けます。広範な実験データによると、同じサンプル時間が与えられた場合、彼らの蒸留モデルは視覚的品質と定量的パフォーマンスの両方で従来の蒸留技術よりも優れた結果を示します。 条件付き生成のためのパラメータ効率の高い蒸留技術に関する研究がさらに必要な分野です。彼らは、パラメータ効率の高い新しい蒸留メカニズムを提供するアプローチを示しています。追加の学習可能なパラメータをいくつか追加することで、非条件付き拡散モデルを条件付きタスクに対応させることができます。特に、彼らの公式は、T2I-AdapterやControlNetなど、既に使用されているパラメータ効率の高い調整技術との統合を可能にします。条件付きアダプタの追加された学習可能なパラメータと元の拡散モデルの固定パラメータの両方を使用することで、彼らの蒸留技術は反復的な修正を最小限に抑えつつ、依存タスクのための拡散先を再現することを学習します。この新しいパラダイムにより、いくつかの条件付きタスクの有用性が大幅に向上しました。
「Googleの研究者が球面上でのディープラーニングのためのJAX向けのオープンソースライブラリを紹介します」
ディープラーニングは、入力から複雑な表現を自動的に学習する機械学習の一部です。その応用は、言語処理のための画像と音声認識、オブジェクト検出、医療画像診断など、多くの分野で使用されています。金融業界ではアルゴリズム取引や詐欺検出、自動車ではリアルタイムの意思決定のための畳み込みニューラルネットワークを使用し、推薦システムではパーソナライズされたコンテンツを提供しています。 畳み込みニューラルネットワーク(CNN)とビジョン変換(ViT)は、コンピュータビジョンのためのディープラーニングモデルの二つの例であり、平面的な領域を仮定してシグナルを分析します。例えば、デジタル写真は平面の表面上のピクセルのグリッドとして表現されます。しかし、これは科学的な応用で遭遇する多様なデータの一部に過ぎません。 しかし、球面上のシグナルを平面的なアプローチで処理することで、いくつかの問題を改善することができます。まず、球面上の均一なグリッドを定義することは不可能であり、これは畳み込みニューラルネットワークやビジョン変換に必要ですが、歪曲が生じます。また、回転はしばしば球面上のシグナルや局所的なパターンを混乱させます。モデルが特徴を正確に学習するためには、3D回転に対する同変性が必要です。その結果、モデルのパラメータを効果的に使用し、少量のデータでの訓練が可能となります。 直感的には、分子の特性予測と気候予測の問題の両方が球面上のCNNから恩恵を受けるべきです。分子の本質的な特性は、3D構造(原子の位置)の回転に対して不変であるため、回転変換に対応した表現はこの対称性をエンコードする自然な方法を提供します。 そのため、研究者たちは球面上のディープラーニングのためのJAXのオープンソースライブラリを作成しました。これは分子の特性予測や天気予測といったベンチマークで従来のトランスフォーマーやグラフニューラルネットワークに比べて優れた結果を示しています。 研究者たちは、これによりサンプリングと回転に対する頑健性の問題の両方を解決できると強調しています。これは球面畳み込みと相互相関操作を活用しています。球面CNNは医療研究と気候分析の二つの重要な領域で有望な応用を提供し、社会の変革的な進歩を促す可能性があります。 球面CNNは、化学的な特性の予測や気候状態の理解に関連する課題に対処するために理論的な利点を持っています。大気データは自然に球面上に表示されるため、球面CNNはこのタスクに適しています。また、このようなデータのさまざまな場所と向きでの繰り返しパターンを効果的に管理することができます。 研究者たちは、従来のCNNに基づくニューラル気象モデルと比較して、彼らのモデルが気象予測のいくつかのベンチマークで優れた性能を発揮することを示しました。このモデルは大気変数の値を6時間先まで予測し、テスト環境での結果が以下に示されています。その後、モデルは訓練中に5日先まで評価され、3日先まで予測を行います。 さらに、これらのモデルは様々な気象予測シナリオで優れた性能を発揮し、球面CNNの効果を地理的に証明する画期的な業績です。この研究は、球面CNNの拡張方法についての最良の戦略を説明し、これらの特定の応用分野での適用性をサポートする実データを提供しています。
Mistral-7B-v0.1をご紹介します:新しい大型言語モデルの登場’ (Misutoraru 7B v0.1 wo goshōkai shimasu Atarashii ōgata gengo moderu no tōjō)
“`html Mistral-7B-v0.1は、大規模な言語モデル(LLM)の人工知能(AI)の最新の進歩の一つです。Mistral AIの最新のLLMは、このモデルタイプの中で最も大きく、最も強力な例の一つで、70億のパラメータを誇っています。 Mistral-7B-v0.1はトランスフォーマーモデルであり、特にNLPアプリケーションに有用なタイプのニューラルネットワークです。テキストの生成、言語の翻訳、さまざまな形式のクリエイティブなコンテンツの作成、問いに対する具体的な回答などの能力は、大規模なテキストとコードでのトレーニングによって可能となりました。 同じサイズの他のLLMと比較して、Mistral-7B-v0.1はいくつかのベンチマークでより優れたパフォーマンスを発揮します。これにはGLUE、SQuAD、SuperGLUEなどが含まれます。これは、おそらく現在利用可能な最も先進的で強力なLLMの一つであることを示しています。 Mistral-7B-v0.1トランスフォーマーモデルの作成には、以下のアーキテクチャオプションが使用されました。 グループ化された質問処理 絶えず変化するフォーカス バイトフォールバックを持つBPEトークナイザー Mistral-7B-v0.1が有用な例をいくつか紹介します。 Mistral-7B-v0.1は、機械翻訳、テキスト要約、質問応答などのさまざまな自然言語処理(NLP)アプリケーションに有用です。 詩、コード、脚本、楽曲、メール、手紙など、クリエイティブライティング用に設計されたプログラムであるMistral-7B-v0.1を使用して生成することができます。 Mistral-7B-v0.1は、さまざまな言語でのコード生成に使用できます。 Mistral-7B-v0.1を使って、生徒たちに個別の授業を提供するために教室で利用することができます。 カスタマーケアツールとして、Mistral-7B-v0.1はチャットボットやその他の支援アプリケーションの開発に使用できます。 詳細はこちらをご覧ください。 Mistral-7B-v0.1はまだ開発中ですが、コンピュータや外の世界の利用方法を変革する可能性を既に持っています。Mistral-7B-v0.1は、ポジティブな変化のための巨大な潜在能力を持つ先進的なツールです。開発はまだ初期段階ですが、これまで良好な成果を上げています。Mistral-7B-v0.1は、AIの進化における大きな前進です。この開発により、コンピュータと私たちの周りの環境の利用方法が完全に変わる可能性があります。 “`
GoogleのDeepMindがロボット技術の革新を遂げています
GoogleのDeepmindと33の学術研究所との協力により、ロボット技術の世界に風穴が開くかもしれませんこの共同事業の目標は、特定のタスクに特化したデータセットの固定的なパラダイムからロボット技術を解放することです彼らのブログによると、成功すれば、「Open X-Embodiment...」
新しいAI論文で、CMUとGoogleの研究者が言語モデルの出力を再定義します:応答を一時停止トークンで遅延させることが、QAや推論のタスクでのパフォーマンスを向上させる方法
トークンは、トランスフォーマーに基づく因果言語モデルを使用して、高速に生成されます。このモデルは、K個の前のトークンを受け取り、各隠れ層でK個の中間ベクトルを反復的に計算して(K + 1)番目のトークンを生成します。モジュールは前のレイヤーの出力ベクトルに作用し、各ベクトルはそれ自体がモジュールの出力です。全体の手順の複雑さにもかかわらず、次のトークンを決定するために必要な操作の数は、すでに表示されたトークンの数で制約されなければなりません。 カーネギーメロン大学とGoogleによる最近の研究では、デコーダのみのモデルの入力に偽のトークンを追加して出力を遅らせる戦略を調査しました。この研究では、(学習可能な)一時停止トークンを選択し、それを一度以上の連続したシーケンスで入力に追加することにしました。最後のトークンが表示された後のモデルの答えを得るために、それまでの一致する出力は単純に無視します。 重要なのは、研究者たちは、このような遅延を推論時およびダウンストリームの組織微調整および事前学習時に挿入することを考えています。この表面上小さな調整が現実世界でどのような効果をもたらすかは現時点ではわかりません。遅延は、トランスフォーマーが利用できる「広い」計算チャネルを作成します。より単純な結果としては、モデルがトークンによる遅延の能力を無視し、実行を継続する可能性があります。トークン自体も、単一のトークンを埋め込むことによって導入されるわずかな新しいパラメータの数も、トレーニングデータから追加の情報をエンコードするのに適切ではありません。これらの意味のないトークンは、有用な信号を不明確にし、モデルを弱体化させる可能性があります。 チームは、すべてのトレーニングおよび推論フェーズで(追加)遅延を導入した場合の結果を理解するために実証的な評価を行いました。彼らは、C4 (Raffel et al., 2019) で初めにトレーニングされ、抽出型質問回答、推論、一般的な理解、事実の回想をカバーする9つのダウンストリームタスクで微調整された10億パラメータのデコーダのみモデルに休止トレーニングを行った。最も重要なことは、この方法により、SQuAD抽出型質問回答タスクで1Bモデルの完全一致スコアが18%向上しました。同様に、CommonSense QAの一般的な理解タスクで8%の向上と、GSM8kの推論タスクで標準モデルの正確さ7.5%に対する1%の精度向上が観察されました。 一方、トークンが最終的な微調整段階のみで導入される場合(ベースラインの事前学習モデルを使用)、改善はごく一部のケースで見られます。チームはまた、以下の重要な欠点を含む一連の実験も行いました: トークンを追加することが一般的に前置することよりも優れていることを発見しました。 任意のダウンストリームタスクに対して最適なトークンの数があることを発見しました。 推論時のトークン数を減らすことが、優雅なパフォーマンスの低下につながることを発見しました。 チームは、通常の事前学習モデルで遅延を直接役立たせる方法の開発が、次の重要なステップであると考えています。彼らは、遅延次のトークン予測のパラダイムを拡張することで、新たな理論的および応用研究の方向性が開かれると予想しています。
Google DeepMindは、直接報酬微調整(DRaFT)を導入しました:微分可能な報酬関数を最大化するための効果的な人工知能手法における拡散モデルの微調整
拡散モデルは、さまざまなデータタイプでの生成モデリングを革新しました。ただし、テキストの説明から見た目の良い画像を生成するなどの実際のアプリケーションでは、微調整がしばしば必要です。テキストから画像への拡散モデルは、分類器フリーガイダンスやLAIONエステティックなどのキュレーションされたデータセットの技術を用いて、整列と画像の品質を向上させるための手法を採用しています。 研究では、勾配ベースのリワード微調整に対する明解で効率的な方法を提示しています。これには、拡散サンプリングプロセスを通じて微分を行うという概念を導入しています。彼らは直接リワード微調整(DRaFT)という概念を紹介し、通常50ステップの展開計算グラフとして表されるサンプリングチェーン全体に対して逆伝播を行います。効果的なメモリ管理と計算コストのために、彼らは勾配チェックポイント技術を利用し、全体のモデルパラメータを変更する代わりにLoRAウェイトを最適化します。 上記の画像は、人間の好みのリワードモデルを使用したDRaFTを示しています。さらに、著者はDRaFTメソッドの効率とパフォーマンスを向上させるための改良を紹介しています。まず、彼らはDRaFT-Kというバリエーションを提案しています。これは、微調整の勾配を計算する際にサンプリングの最後のKステップのみに逆伝播を制限するものです。実証結果は、この切り詰められた勾配アプローチが、同じトレーニングステップ数でのフル逆伝播よりも優れたパフォーマンスを発揮することを示しています。フル逆伝播は勾配の爆発という問題を引き起こすことがあるためです。 さらに、著者はDRaFT-LVという、複数のノイズサンプルを平均化して低分散勾配推定を計算するDRaFT-1の変形を導入して、アプローチの効率をさらに向上させます。 研究の著者は、DRaFTを安定拡散1.4に適用し、さまざまなリワード関数とプロンプトセットを使用して評価を行いました。彼らの勾配を活用した手法は、RLベースの微調整ベースラインと比較して、著しく効率的な利点を示しました。たとえば、LAIONエステティッククラシファイアからスコアを最大化する場合、RLアルゴリズムと比較して200倍以上の高速化が実現しました。 彼らが提案したバリエーションの1つであるDRaFT-LVは、従来の勾配ベースの微調整手法であるReFLよりも約2倍の速さで学習するという優れた効率を示しました。さらに、DRaFTモデルと事前学習モデルを組み合わせたり、ミキシングやスケーリングを通じてLoRAウェイトを調整することで、DRaFTの汎用性を示しています。 まとめると、微分可能なリワードによる拡散モデルの直接微調整は、画像、テキストなどの応用範囲において生成モデリング技術の改善に有望な手法です。その効率性、汎用性、効果性が、機械学習および生成モデリングの研究者や実践者のツールキットにおける貴重な追加要素となります。
「Google DeepMindの研究者が『プロンプトブリーダー』を紹介:与えられたドメイン内で自己言及的かつ自己向上型AIシステムで、効果的なドメイン固有のプロンプトを自動的に進化させることができます」というものです
大型言語モデル(LLMs)は、人間の模倣特性により注目されています。これらのモデルは、質問に答える、コンテンツを生成する、長いテキストのパラグラフを要約するなど、さまざまな能力を持っています。GPT-3.5やGPT-4などのLLMの性能を向上させるためには、プロンプトは重要です。プロンプトの作成方法は、推論、多モーダル処理、ツールの使用など、様々な領域でLLMの能力に大きな影響を与えることができます。研究者が設計したこれらの技術は、モデルの蒸留やエージェントの振る舞いシミュレーションといったタスクで有望な結果を示しています。 プロンプトの手動エンジニアリングによって、この手順が自動化できるかという疑問が生じます。Automatic Prompt Engineer(APE)は、データセットの入出力インスタンスに基づいてプロンプトのセットを生成することによって、この問題に取り組んだ試みを行いましたが、APEはプロンプトの品質の低下に伴う収益の減少を示しました。研究者は、LLL向けのプロンプト作成で収益の低下を克服するための多様性を保ちながら進化するアルゴリズムに基づく方法を提案しています。 LLMは、重み行列を変更して性能を向上させるように、プロンプトを変更することができます。この比較によれば、LLMは自身の能力と能力向上のプロセスの両方を向上させるために作成され、それにより人工知能は無限に向上し続けることが可能になります。これらの考えに応えて、Google DeepMindの研究チームは最近の研究でPromptBreeder(PB)を導入しました。これは、LLMが自己言及的な方法で自己を改善するための技術です。 PBでは、特定のドメインに対する問題の説明、変異プロンプトを変更するための指示である初期変異プロンプトのセット、およびテキスト形式の一般的な認知ヒューリスティクスである思考スタイルが必要です。PBは、LLMの変異演算子としての能力を利用して、異なるタスクのプロンプトと変異プロンプトを生成します。これら進化したタスクプロンプトの適合性は、トレーニングセットで評価され、タスクプロンプトとそれに関連する変異プロンプトからなる進化ユニットのサブセットが将来の世代に選択されます。 研究チームは、PromptBreederが数世代にわたって特定のドメインに合わせてプロンプトが調整されることを共有しています。例えば、数学の分野で数学的な問題を解くための明示的な指示を含むタスクプロンプトをPBが開発しました。一般常識の推論、算術、倫理などを含むさまざまなベンチマークタスクで、PBは最先端のプロンプト技術を上回るパフォーマンスを発揮します。PBは自己言及的な自己改善のためのパラメータ更新は必要とせず、さらに広範かつ能力のあるLLLがこの戦略に利益を得る未来が示唆されています。 PromptBreederの作業プロセスは以下のように要約できます: タスクプロンプトの変異:タスクプロンプトは、特定のタスクやドメインのために作成されるプロンプトです。PromptBreederは、これらのプロンプトの集団から始めます。タスクプロンプトは変異を受けてバリアントが生成されます。 適応評価:変更されたタスクプロンプトの適合性が、トレーニングデータセットを使用して評価されます。この評価では、LLMがこれらのバリエーションへの応答の良さが測定されます。 継続的進化:生物学的進化と同様に、変異と評価のプロセスは複数世代にわたって繰り返されます。 まとめると、PromptBreederは、LLLのためにプロンプトを自律的に進化させるためのユニークかつ成功した技術として大いに賞賛されています。PromptBreederは、タスクプロンプトと変異プロンプトの両方を反復的に改善することにより、マニュアルプロンプトメソッドを上回る性能を発揮します。
「Googleバードを効果的に使用する5つの方法」
Google Bardで生産性を最大限に引き出すための5つの戦略をご紹介しますGoogle Bardはワークフローの再構築、意思決定の向上、そして成功を導く手段となっています
Google DeepMindは、1M以上の軌跡データと汎用AIモデル(𝗥𝗧-X)を含むロボットデータセットであるOpen X-Embodimentをリリースし、ロボットが新しいスキルを学ぶ方法を進化させるための支援を行います
人工知能と機械学習の最新の進展は、多様で広範なデータセットからの大規模な学習能力を示し、非常に効果的なAIシステムの開発が可能であることを示しています。最良の例は、一般的なプリトレーニングモデルの作成であり、タスク固有の小規模なデータにトレーニングされた狭義の専門モデルよりも頻繁に優れた性能を示しています。オープンボキャブラリーの画像クラシファイアや大規模言語モデルは、専門化され制約のあるデータに基づいてトレーニングされたモデルと比較して、より優れたパフォーマンスを示しています。 しかし、ロボティクスのための比較可能なデータセットの収集は、コンピュータビジョンや自然言語処理(NLP)とは対照的に困難です。これらの分野では、大規模なデータセットがインターネットから簡単にアクセスできます。一方、ロボットインタラクションのためのデータセットは、ビジョンとNLPのベンチマークと比較してはるかに小さく、多様性に欠けるものです。これらのデータセットは、特定の場所、アイテム、または制限されたグループのタスクに集中することがよくあります。 ロボティクスの障壁を乗り越え、他の分野で効果を上げた大規模ビジョンや言語モデルに刺激を受けた大規模ロボット方針の開発に向け、研究チームが提案した解決策があります。チームはX具現トレーニングと呼ばれる手法を共有しています。この手法では、多くのロボットプラットフォームからのデータを利用して、汎用性のあるロボット方針を開発することが必要です。 チームはOpen X-Embodiment (OXE) リポジトリを公開しました。これには、21の機関から22の異なるロボット具現を特集したデータセットと、X具現モデルに関する研究を促進するためのオープンソースツールが含まれています。このデータセットには、50万以上のエピソードで500以上のスキルと15万以上のタスクが示されています。主な目的は、異なるロボットと環境のデータを使用して学習されたポリシーが、1つの特定の評価セットアップのデータのみを使用して学習されたポリシーよりも利益を上げることを示すことです。 研究者たちは、このデータセットで高容量モデルRT-Xをトレーニングしました。彼らの研究の主な発見は、RT-Xがポジティブな転移を示すということです。さまざまなロボットプラットフォームから学んだ知識を利用することで、この広範なデータセットのトレーニングにより、複数のロボットの能力を向上させることができます。この発見は、柔軟で効果的な一般的なロボットルールを、さまざまなロボットの文脈で実現することができる可能性を示唆しています。 チームは、幅広いロボットデータセットを使用して2つのモデルをトレーニングしました。大規模なビジョン言語モデルRT-2と効果的なトランスフォーマーベースのモデルRT-1は、位置、方向、グリッパー関連のデータを表す7次元ベクトル形式でロボットのアクションを生成するためにトレーニングされました。これらのモデルは、ロボットがオブジェクトを扱い操作するのを容易にするために作られています。さらに、これらはより幅広い範囲のロボットアプリケーションとシナリオにおけるより良い一般化を可能にするかもしれません。 まとめると、この研究は、NLPやコンピュータビジョンが成功してきたように、ロボティクスにおいてもプリトレーニングモデルを組み合わせるアイデアについて議論しています。実験結果は、ロボティクスの操作の文脈で、これらの一般的なX-ロボット戦略の可能性と効果を示しています。
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.