Search Results これ

mPLUG-Owl2をご紹介しますこれは、モダリティの協力によってマルチモーダルな大規模言語モデル（MLLMs）を変換するマルチモーダルファウンデーションモデルです

大型言語モデルは、人間の能力を模倣する能力により人工知能コミュニティを魅了しています。優れたテキスト理解と生成能力を持つGPT-3、LLaMA、GPT-4、およびPaLMなどのモデルは、多くの注目と人気を集めています。最近発売されたOpenAIのモデルであるGPT-4は、マルチモーダルの能力を持つため、ビジョンと言語の応用の融合に対する関心を集めています。その結果、ビジュアルの問題解決能力を追加することで、MLLM（マルチモーダル大規模言語モデル）が開発されました。MLLMは、ビジュアルとテキストのタスクのパフォーマンスを向上させる目的で導入されました。研究者は、マルチモーダル学習に焦点を当てており、前の研究では、複数のモダリティが同時にテキストとマルチモーダルタスクのパフォーマンスを向上させることがわかっています。クロスモーダルアライメントモジュールなどの現在存在するソリューションは、モダリティの協力の潜在能力を制限してしまいます。マルチモーダル指導中に大規模言語モデルを微調整することにより、テキストタスクのパフォーマンスが妥協されるという大きな課題が生じます。これらの課題に対応するため、アリババグループの研究者チームはmPLUG-Owl2という新しいマルチモーダル基盤モデルを提案しました。mPLUG-Owl2のモジュール化されたネットワークアーキテクチャは、干渉とモダリティの協力を考慮しています。このモデルは、クロスモーダルの協力を促進するために共通の機能モジュールと、さまざまなモダリティ間のシームレスな推移のためのモダリティ適応モジュールを組み合わせています。これにより、ユニバーサルインターフェースとして言語デコーダを活用しています。このモダリティ適応モジュールは、言語とビジュアルのモダリティを共通の意味空間に投影し、モダリティ固有の特性を保持しながら、両モダリティ間の協力を保証します。チームはmPLUG-Owl2のための二段階のトレーニングパラダイムを提示しました。それは、ビジョン-言語の指導チューニングとビジョン-言語の事前トレーニングで構成されています。このパラダイムの助けを借りて、ビジョンエンコーダはより効率的に高レベルと低レベルの意味的な視覚情報を収集するようになりました。チームはさまざまな評価を実施し、mPLUG-Owl2がテキストの問題やマルチモーダルの活動にも一般化する能力を示しました。このモデルは、様々なタスクで最先端のパフォーマンスを達成する単一の汎用モデルとしての柔軟性を示しています。研究では、mPLUG-Owl2が純粋なテキストと複数のモダリティを含むシナリオでのモダリティの協力を示す最初のMLLMモデルであることが示されています。結論として、mPLUG-Owl2は、マルチモーダル大規模言語モデルの領域において、重要な進歩と大きな前進です。従来のアプローチが主にマルチモーダルスキルの向上に焦点を当てていたのに対して、mPLUG-Owl2は、モダリティ間のシナジーを強調し、さまざまなタスクのパフォーマンスを向上させることを重視しています。このモデルは、言語デコーダが各モダリティを制御するための汎用インターフェースとして機能するモジュール化されたネットワークアーキテクチャを利用しています。

GoogleのプロジェクトOpen Se Curaをご紹介しますこれは、セキュアでスケーラブル、透明性の高い、効率的なAIシステムの開発を加速するためのオープンソースフレームワークです

AIの成長とともに、それは生活のあらゆる側面で使用されています。その応用はあらゆる分野に広がり、さまざまな分野への取り組み方を変革する上で重要な役割を果たしています。その有用性は、医療、教育、交通、製造、小売り、金融など、さまざまなセクターに広がっています。しかし、人工知能（AI）が私たちの日常生活にますます統合されるにつれて、確実かつ安全なAI体験のために、強力で効果的なコンピューティングシステムを構築することが必要です。しかし、問題があります：ハードウェアの革新は、機械学習（ML）モデルとソフトウェア開発の進化に追いつく必要があります。このバランスの乱れが、完全で安全なフルスタックシステムの構築を困難にしています。さらに、バッテリー技術が進歩しているにもかかわらず、小型デバイス市場はこれらの進歩に追いつくことができず、AIシステムの潜在的な強さと使用を制限しています。その結果、Googleは「Project Open Se Cura」を発表しました。これは、安全でスケーラブルで透明で効率的なAIシステムの開発を加速させるためのオープンソースフレームワークです。これは以前はGoogle内で「Project Sparrow」として知られていました。「Project Open Se Cura」は、Googleのオープンソース開発への取り組みを強調しています。このイニシアチブは、オープンソースの設計ツールと知的財産（IP）ライブラリを作成することを含み、MLワークロードを処理するフルスタックシステムの成長を加速させることを目指して協力的な共同設計と開発プロセスに取り組んでいます。セキュリティ、効率性、スケーラビリティに焦点を当てたシステム設計の強化を目指し、次世代のAI体験を支えることを重視しています。このプロジェクトはVeriSilicon、Antmicro、lowRISCなどの重要なパートナーとの緊密な協力のもとで開発されました。研究者たちは、各パートナーが開発プロセスに不可欠な知識とリソースを提供してくれたと強調しています。例えば、lowRISCはプロジェクトに安全な信頼のルートと開発・統合ツールを提供し、安全な基盤を保証しました。AntmicroはオープンソースのシステムレベルソフトウェアとRenodeを使用したシステムシミュレーションの専門知識を提供しました。VeriSiliconは商品化、BSP（Board Support Package）開発、IPデザイン、シリコンデザインの専門知識を提供しました。これらのツールにより、安全な機械学習機能をIPライブラリに追加することで、省電力AIシステムのコンセプト実証の開発が可能となりました。研究者たちは、Open Se Curaのさらなる強化と開発に向けて協力的に取り組む予定です。彼らは、CHERI革新のためにケンブリッジ大学と、省電力および生成的AIのためにミシガン大学などの機関とのさらなる提携を積極的に求めています。 Googleは、これらの新しいツールを用いた可能性の探求に興奮し、広範なオープンソースコミュニティに参加し、貢献することを奨励しています。共同の取り組みは、革新を促進し、安全でスケーラブルかつ非常に効率的なAI体験を生み出すことを目指しています。研究者たちは、オープンソースコミュニティとの協力がAIの進歩の新たな時代を切り拓くことになると期待しています。投稿元：【速報】Googleの「Project Open Se Cura」：安全でスケーラブルで透明で効率的なAIシステムの開発を加速するためのオープンソースフレームワーク

この人工知能論文は、大規模なマルチモーダルモデル（GLaMM）を導入していますこれは、画像と領域の両方の入力を処理する柔軟性を備えた、エンドツーエンドトレーニングされた大規模なマルチモーダルモデルで、ビジュアルグラウンディング能力を提供します

大型マルチモーダルモデル（LMM）は、生成型AIの波によって推進され、言語とビジュアルタスクの間のギャップを埋める重要な存在になりました。LLaVa、miniGPT4、Otter、InstructBLIP、LLaMA-Adapter v2、およびmPLUGOWLは、入力された写真に応じて効率的なテキストの回答を示す早期バージョンの例です。これらのモデルは洗練されていますが、その決定は視覚環境に基づかなければなりません。地域限定のコンテンツの変更、対話型の具現エージェント、深いビジュアル理解などの高度な応用では、このアンカリングが必要です。最近の研究では、この制約を克服するために、モデル内でバウンディングボックスを使用してユーザー定義のゾーンを分析する作業が始まっています。最近の研究では、根付いたテキスト応答生成が注目されていますが、ピクセルレベルの正確な根付けを提供していません。さらに、関連するセグメンテーションの文献では、自然な写真におけるテキストの説明をアンカリングする試みが行われています。しかし、それらは単一のアイテムをアンカリングするだけであり、実際の一貫した会話を行うことはできません。これにより、書かれた情報や視覚的な材料の徹底的な理解を必要とする対話型の仕事での有用性が制限されます。本論文では、深層学習戦略（図1）を介して、詳細な領域認識、ピクセルレベルの根付け、および会話の能力を同時に提供するGrounding LMM（GLaMM）を提案します。図1：GLaMMベースのGrounded Conversation Generation マルチモーダル対話モデルを使用すると、入力画像のピクセルレベルに根ざした自然言語の応答を生成することができます。オブジェクトの属性（白い家、赤い屋根、きれいに手入れされた芝生）やオブジェクトの関係（芝生が歩道に広がり、建物の上には空が広がる）といったさまざまなレベルの詳細が、出力の根づけに代表されています。例えば、物（建物、木）、もの（芝生、空、歩道）、およびオブジェクトの部分（屋根は建物の一部）などです。彼らは、視覚的に根付いた対話の基準の不足に対処するために、Grounded Conversation Generation（GCG）というユニークな仕事を提供しています。GCGの目標は、自然言語の応答と交互に配置されたオブジェクトのセグメンテーションマスクを生成することです。この困難な課題では、フレーズの根付け、画像と領域レベルのキャプション付け、参照表現のセグメンテーション、ビジョン言語の相互作用など、通常は別々に処理されるさまざまなコンピュータビジョンのタスクが組み合わさっています。そのため、組み合わせモデルと提案された事前訓練データセットは、会話型のQA、領域レベルのキャプション付け、画像キャプション付け、および表現セグメンテーションなどのさまざまなダウンストリームタスクで成功裏に使用することができます。モハメドビンザイードAI大学、オーストラリア国立大学、Aalto大学、カーネギーメロン大学、カリフォルニア大学メルセド、リンシェーピング大学、およびGoogle Researchの研究者は、この困難な課題に特化して作成された最初のモデルであるGLaMMを紹介しています。従来の取り組みとは異なり、GLaMMはテキストとビジュアルの提案と視覚的に根付いた結果を使用して、多様なユーザーエクスペリエンスを提供します。領域レベルでの詳細な理解のために、領域ごとの包括的なアノテーションを収集する煩雑な作業が必要です。彼らは、労力のかかる手作業のラベリングプロセスを削減するために、包括的なGrounding-anything Dataset（GranD）の自動ワークフローを提案しています。GranDは、特定の検証プロセスを持つコンピュータ化されたパイプラインを使用し、セグメンテーションマスクを伴う810百万の領域にアンカーされた750万の異なるアイデアを持っています。このデータセットは、先進的なビジョンと言語モデルを利用して、マルチレベル階層的手法を使用してSAMの写真にアノテーションを付けています。GranDは、1100万枚の写真と33,000万枚の根付いたキャプション、8400万の参照用語などの特性を持つことで包括性を再定義しています。彼らは、根付いた会話や自動生成されたGCGデータセットのために、以前に手動でアノテーションされたデータセットをGPT-4を用いたインコンテキスト学習を使用して再定義しました。彼らは、大規模な自動生成データをGranDpとし、高品質なデータセットをGranDfと指定しており、フィネチューニングに適しています。GLaMMは、GranDfとGranDpを使用してプリトレーニング-フィネチューニングのフェーズでトレーニングされます。結論として、彼らの研究は主に3つの貢献があります: • Grounding Large Multimodal Model（GLaMM）の導入: これは、オブジェクトセグメンテーションマスクとスムーズに組み合わされた自然言語の応答を提供する初めてのモデルです。現行のモデルとは異なり、GLaMMは視覚的な手がかりとテキストの両方をサポートしており、マルチモーダルなユーザーエンゲージメントが向上しています。 • 新しいタスクと評価基準:…

これがP-Hackingの解決策ですか？

科学研究において、データの操作や結果の覗き見は、その分野が存在して以来の問題となっています研究者はしばしば、出版されるために有意なp値を目指します...

「エンタープライズAIの堀はRAG +ファインチューニングです- これが理由です」

LLM（リライト・マニュピュレイション・リモデル）に対する話題は前例のないものですが、それには理由がありますAIによるバレンシアガで身を包んだポープのイメージや、鼓動のないカスタマーサポートエージェントなど、生成AIには…

Google AIは、『AltUp（Alternating Updates）』というアートフィシャルインテリジェンスの手法を導入しましたこれは、トランスフォーマーネットワークのスケールの拡大を利用するための手法であり、計算コストを増やさずに行われます

ディープラーニングにおいて、トランスフォーマーニューラルネットワークは、自然言語処理やコンピュータビジョン、ロボティクス、自動運転などの新興アプリケーションを含め、さまざまなドメインでの有効性に対して注目を集めています。ただし、パフォーマンスの向上に伴い、これらのモデルの規模がますます拡大することで、計算コストと推論遅延が大幅に増加します。大規模なモデルの利点を享受する際に、実用上の計算負荷をもたらさないような困難が存在します。特にトランスフォーマーモデルを含むディープラーニングモデルの現在の状況は、さまざまな領域で著しい進歩を示しています。ただし、増加した計算要件により、これらのモデルのスケーラビリティを向上させる必要がある場合があります。従来の取り組みは、Switch Transformer、Expert Choice、V-MoEなど、スパース混合専門家モデルによって示されるように、ネットワークパラメータの効率的なスケーリングや入力あたりの計算の増加を軽減することに主に焦点を当ててきました。ただし、トークン表現の次元自体のスケーリングに関する研究上の課題が存在します。ここで、この課題を解決するために導入された新しい方法であるAltUpが登場します。 AltUpは、計算のオーバーヘッドを増やさずにトークン表現を拡張する方法を提供することで際立っています。この方法では、拡張された表現ベクトルを等しいサイズのブロックに分割し、各層で1つのブロックのみを処理します。AltUpの有効性の核心は、処理されていないブロックの推論を可能にする予測-訂正メカニズムにあります。直接的な拡張に伴う計算量の二次的な増加を回避することで、モデルの次元を維持しながら、AltUpは、より大きなTransformerネットワークによってもたらされる計算上の課題に対する有望な解決策として浮上しています。 AltUpのメカニズムは、トークン埋め込みの複雑さに深く入り込み、計算の複雑さを増やさずにトークン表現を拡張する方法を検討しています。この方法は以下の手順で行われます: ブロックの1x幅トランスフォーマーレイヤーを呼び出します。「アクティブ」ブロックと呼ばれます。同時に軽量な予測子を使用します。この予測子は、すべての入力ブロックの重み付き組み合わせを計算し、予測値と活性化されたブロックの計算値は、軽量な修正子を介して修正されます。この修正メカニズムにより、非活性なブロックは活性化されたブロックに基づいて更新されます。重要なのは、予測と修正のステップの両方が、通常のトランスフォーマーレイヤーよりもはるかに高速なベクトルの加算と乗算を必要としないということです。 T5モデルに対するAltUpの評価は、同じ精度で密なモデルを上回る一貫した能力を示しています。特に、AltUpで拡張されたT5ラージモデルは、GLUE、SuperGLUE、SQuAD、Trivia-QAの各ベンチマークで、それぞれ27%、39%、87%、29%の著しいスピードアップを実現しています。AltUpの相対的な性能向上は、モデルのサイズが大きくなるにつれてより顕著になり、スケーラビリティと向上した効果を強調しています。 AltUpは、Transformerニューラルネットワークの効率的なスケーリングアップの長年の課題に対する注目すべき解決策として浮上しています。計算コストの比例的な増加を伴わずにトークン表現を拡張する能力は、さまざまなアプリケーションにおいて重要な約束を持っています。AltUpの革新的なアプローチは、分割と予測-訂正メカニズムを特徴とし、大きなモデルの利点を活用するための現実的な方法を提供します。計算要求に適しています。研究者たちによるAltUpの拡張であるRecycled-AltUpは、提案された手法の適応性をさらに示しています。初期トークンの埋め込みを広げる代わりに、再現埋め込みによってRecycled-AltUpは、認識可能な遅延を引き起こすことなく、事前学習パフォーマンスの厳格な改善を示しています。AltUpとMoEのような他のテクニックとのシームレスな統合を伴うこの二重アプローチは、その多様性を具現化し、トレーニングとモデルのパフォーマンスのダイナミクスを探求するための将来的な研究の可能性を開いています。 AltUpは、Transformerネットワークの効率的なスケーリングの追求における画期的なものであり、モデルのサイズと計算効率のトレードオフに対する魅力的な解決策を提供しています。この論文で述べられているように、研究チームの貢献は、大規模なTransformerモデルをさまざまな応用によりアクセス可能で実用的なものにするための重要な一歩です。

このAI研究では、LSS Transformerを発表しましたこれは、Transformerにおける効率的な長いシーケンスの学習を革新的なAIアプローチで実現します

新しいAI研究では、Long Short-Sequence Transformer (LSS Transformer)という効率的な分散学習手法が紹介されました。この手法は、長いシーケンスをGPU間でセグメント化し、各GPUが部分的なセルフアテンション計算を処理します。 LSS Transformerは統合通信とユニークなダブル勾配平均技術を採用し、伝送オーバーヘッドを最小限に抑え、驚異的な高速化とメモリ削減を実現し、他のシーケンス並列手法を凌駕しています。Wikipedia enwik8データセットでの性能評価では、LSS Transformerは複数のGPUでより高速な学習と改善されたメモリ効率を実現し、Nvidiaのシーケンス並列処理を上回りました。セルフアテンションメカニズムで知られるトランスフォーマーは、自然言語処理や画像処理で使用される強力なニューラルネットワークアーキテクチャです。より長いシーケンスでトランスフォーマーを訓練することは、文脈情報の把握と予測精度を高める一方で、メモリと計算量の要求を増加させます。この課題に対応するために、階層的な訓練、アテンションの近似、および分散シーケンス並列処理など、さまざまなアプローチが試されています。 LSS Transformerは、Wikipedia enwik8データセットで144台のNvidia V100 GPUを使用して、従来のシーケンス並列処理を超える、学習速度を5.6倍向上させ、メモリ効率を10.2倍向上させました。さらに、3,456台のGPUで極端なシーケンス長（50,112）を処理し、161%の超線形並列効率と32ペタフロップの高いスループットを達成しました。LSS Transformerは、他のシーケンス並列手法と比較して、大規模なモデル実験（108台のGPUを使用）で高いスケーリング効率とベースライン並列処理との比較における小さなメモリフットプリントを維持しました。LSS Transformerは、144ノードでの50,112のシーケンス長に対して8ペタフロップの計算スループットを提供し、速度とスケーラビリティの面でベースラインのシーケンス並列処理を凌駕しました。 LSS Transformerは、長いシーケンスでトランスフォーマーモデルを訓練する課題に対する画期的な解決策を提供し、通信オーバーヘッドを最小限に抑えながら、驚異的な高速化とメモリ効率を実現する分散学習手法です。この手法はシーケンスをGPU間でセグメント化し、統合通信とダブル勾配平均を利用します。LSS Transformerの超長シーケンストレーニングを促進する能力は、DNAシーケンス解析、長文要約、および画像処理など、多くのトークンの依存性を必要とするアプリケーションにとって貴重なアセットとなります。この研究にはいくつかの制約があります。まず、Nvidiaのシーケンス並列処理に焦点を当て、長いシーケンストレーニングの既存の方法と比較する必要があります。次に、LSS Transformerによって実現される精度と効率のトレードオフを詳しく調査する必要があります。さらに、潜在的な実世界の実装上の課題に対処する必要があります。また、LSS Transformerの性能に対するハイパーパラメータやアーキテクチャの変更の影響を探ることはありません。最後に、計算とメモリ使用の削減に対する近似ベースのアプローチとの包括的な比較がありません。 LSS…

デューク大学の研究者たちは、ポリシーステッチングを提案していますこれは、ロボットとタスクの新しい組み合わせにおけるロボットの転送学習を容易にする、画期的なAIフレームワークです

ロボット工学では、環境の変化やロボット構造の変更に敏感なスキルをロボットに教えるために、強化学習（RL）を使用する際に研究者は課題に直面しています。現在の方法は、ロボットとタスクの新しい組み合わせに対して一般化するための支援が必要であり、アーキテクチャの複雑さと強力な正則化のために複雑な現実のタスクを処理することができません。この問題に対処するために、デューク大学と空軍研究所の研究者らはポリシーステッチング（PS）を導入しました。この手法は、別々に訓練されたロボットとタスクモジュールを組み合わせて迅速な適応のための新しいポリシーを作成することを可能にします。3D操作タスクを含むシミュレーションおよび実世界の実験は、PSの非常に優れたゼロショットおよびフューショットの転移学習能力を示しています。異なる環境条件や新しいタスクに対してロボットポリシーを転送する際には、課題が残っています。これまでの研究は、価値関数、報酬、経験サンプル、ポリシー、パラメータ、および特徴などのRLフレームワーク内の特定のコンポーネント移動に主に集中してきました。メタ学習は、新しいタスクへの迅速な適応を可能にする解決策として登場し、改良されたパラメータの初期化と新しいデータの迅速な統合を提供するためのメモリを拡張したニューラルネットワークを提供します。ゼロショットの転移学習、マルチタスク学習、ライフロングラーニングに適用されるコンポジショナルRLは有望な結果を示しています。このフレームワーク内の訓練済みモジュールは、大規模なモジュラーシステム内での使用に制限されており、新しいモジュールとシームレスに統合することはできません。ロボットシステムは、過去の知識に基づいて新しいスキルを継続的に習得する人間とは対照的に、学習経験を新しいタスクやボディ構成に転送する際に課題があります。モデルベースのロボット学習は、さまざまなタスクに対してロボットの運動学と動力学の予測モデルを構築することを目指しています。一方、モデルフリーRLはエンドツーエンドでポリシーを訓練しますが、転移学習の性能はしばしば制限されます。現在のマルチタスクRLのアプローチでは、タスクの数に比例してポリシーネットワークの容量が指数関数的に拡大するため、困難に直面します。 PSは、モジュラーポリシーデザインと転送可能な表現を活用して、異なるタスクとロボット構成間での知識転送を容易にします。このフレームワークは、モデルフリーRLアルゴリズムの幅広い適用に適応します。本研究では、教師あり学習からモデルフリーRLへの相対表現の概念を拡張し、中間表現を共通の潜在座標系に整列させることで、変換不変性の促進に焦点を当てています。 PSはゼロショットおよびフューショットの転移学習能力において、既存の方法を上回り、シミュレーションおよび実世界のシナリオで優れた成果を収めています。ゼロショットの転送では、PSは100%の成功率でタッチし、40%の総合成功率を達成し、実用的な実世界の設定で効果的に一般化する能力を示しています。潜在表現の整列により、ステッチポリシー内の高次元の潜在状態間のペアワイズ距離が大幅に縮小されることが示されており、PSの転送可能な表現の学習における成功を裏付けています。実験は、物理的なロボットセットアップ内でのPSの実世界での適用可能性に関する実践的な洞察を提供し、非効果的なPSでのモーバイル表現を提供しています。結論として、PSはモジュラーポリシーデザインと潜在空間の整列の利点を示しつつ、ロボット学習ポリシーを新しいロボットタスクの組み合わせにシームレスに転送する効果を証明しています。この手法は、特に高次元の状態表現や微調整の必要性に関する現在の制約を克服することを目指しています。研究では、アンカー選択における自己教師付きテクニックを探求し、アンカー状態に頼らないネットワークモジュールの整列方法の代替手段を調査するなど、将来の研究方向を示しています。この研究は、PSの多様な形態を持つロボットプラットフォームへの展開の可能性を強調しています。

デジタルワーカーやAIエージェントのレベルを定義する時が来ましたこれは自動運転車と同様のものですIDWAがプロセスをスタートします

AIの急速な発展は、ますます多くのデジタルワーカー、AIエージェント、およびAIエージェントプラットフォームの出現をもたらし、これらは自己のタスクの実行、意思決定、および行動が可能となっています。自動運転車の文脈において、自動車技術者協会（SAE）は、レベル0からレベル5までの6段階の自律性レベルを定義するためのスケールを開発しました。このスケールでは、レベル0では人間のドライバーが完全に制御し、レベル5では車両が完全に自律的に動作し、どんな環境でも運行できるとされています。同様のスケールがデジタルワーカー/ AIエージェント向けに開発され、必要とされるべきです。これにより、ユーザーと開発者の期待を明確にすることができ、このエコシステムのより迅速かつ持続可能な開発のための業界標準を定義する可能性があります。IDWA（International Digital Workers Association）は、デジタルワーカー（デジタルエンプロイ）自律性レベルの草案を11月8日にシリコンバレーで開催されるIDWA-Forumで提案します。 AIエージェントの自律性レベルを定義することのいくつかの主な利点は次のとおりです：透明性の向上：AIエージェントができること、できないことを明確にすることで、ユーザー間の信頼構築に役立ちます。安全性の向上：AIエージェントの能力を明確に定義することで、安全かつ責任ある使用が実現されるようになります。責任の縮小：AIの開発に対する明確なガイドラインの確立により、AI開発者の責任リスクを減らすことができます。しかし、これは容易な課題ではありません。いくつかの課題には次のようなものがあります： AIの複雑さ：AIエージェントは理解し予測するのが難しい複雑なシステムです。これにより、自律性の異なるレベル間の明確な境界を定義することが難しくなります。 AIの急速な発展：AIの分野は常に進化しており、自律性レベルの定義を定期的に更新する必要があります。 IDWAはこの課題に取り組み、デジタルワーカーやAIエージェントの自律性レベルを定義するためのプロセスを開始するために、レベル0（タスクの自動化なし）、レベル4（自律的なタスク管理）からレベル8（リーダーシップ）までの8段階の草案を提案しています。 IDWA-ForumはKuzma Frostが制作しています。 IDWAはDavid YangとMichael Engelに率いられています。投稿: 自動運転車と同様にデジタルワーカーとAIエージェントの自律性レベルを定義する時が来た：IDWAがプロセスを開始元の記事: MarkTechPost

これは本当のマルチモーダル学習ですか？-ImageBindについて説明します

「画像からテキストへの変換や音声からテキストへの変換、それが昨年のマルチモーダル学習です！Meta AIのImageBind [1]これこそが本当のマルチモーダル学習です！ImageBindは複数のモダリティを1つに統合します...」

Learn more about Search Results これ - Page 3