Search Results ML

「SPHINXをご紹介します：トレーニングタスク、データドメイン、および視覚的なエンベッディングをミキシングした多目的なマルチモーダル大規模言語モデル（MLLM）」

マルチモーダル言語モデルでは、複雑なビジュアル指示に対処し、多様なタスクをシームレスに実行するための既存のモデルの限界が明確になってきています。問題の中心は、従来の枠組みを超え、複雑なビジュアルクエリを理解し、参照表現の理解から人間のポーズ推定、微妙なオブジェクト検出までの広範なタスクを実行できるモデルを求めることです。現在のビジョン言語理解では、主流の方法ではさまざまなタスクで堅牢なパフォーマンスを実現するためにサポートを必要とすることが多いです。SPHINXは、既存の制約に対処するために専門の研究チームが考案した革新的な解決策です。このマルチモーダル大規模言語モデル（MLLM）は、独自の三重のミキシング戦略を採用することで大幅に進化します。従来の手法とは異なり、SPHINXは、事前にトレーニングされた大規模な言語モデルの重みをシームレスに統合し、実世界と合成データの適切なブレンドを用いた多様なチューニングタスクを実施し、異なるビジョンバックボーンからの視覚埋め込みを結合します。この組み合わせにより、SPHINXは、これまでにないモデルとして、困難なビジョン言語タスクで優れた性能を発揮するようになりました。 SPHINXの方法の複雑な仕組みについて探究すると、モデルの重み、チューニングタスク、視覚埋め込みの洗練された統合が明らかになります。特筆すべき機能は、モデルが高解像度画像を処理する能力であり、細部にわたる視覚理解の時代を開幕させました。SPHINXは、言語によるセグメンテーションのためのSAMや画像編集のためのStable Diffusionなど他の視覚基盤モデルとの協力により、能力を高め、ビジョン言語理解の複雑さに取り組んでいます。包括的な性能評価により、SPHINXは参照表現の理解から人間のポーズ推定、オブジェクト検出まで、さまざまなタスクで優れた能力を発揮することが確認されました。特に、ヒントと異常検出を通じた改善されたオブジェクト検出のSPHINXの力強さは、その多機能性と多様な課題への適応性を示し、マルチモーダル言語モデルの活発な分野において先駆者としての地位を確立しています。この結果、研究者たちはSPHINXの画期的な導入により、ビジョン言語モデルの既存の制約に対処することに成功しました。三重のミキシング戦略は、SPHINXを確立されたベンチマークの枠組みを超えて推進し、その競争力を視覚の根拠として示しました。確立されたタスクを超えて新たなタスクを乗り越え、新たなクロスタスクの能力を示すモデルは、未来が探究とイノベーションに満ちた可能性を示唆しています。本記事の結果は、現在の課題への解決策を提示するだけでなく、将来の探求とイノベーションの可能性を呼び覚まします。研究チームがSPHINXで分野を前進させるにつれ、広範な科学コミュニティはこの革新的なアプローチの変革的な影響を熱望しています。SPHINXが初期の問題声明を超えてタスクをナビゲートする成功は、ビジョン言語理解の進化する分野への開拓的な貢献として位置づけられ、マルチモーダル言語モデルの未知の進歩を約束しています。

mPLUG-Owl2をご紹介しますこれは、モダリティの協力によってマルチモーダルな大規模言語モデル（MLLMs）を変換するマルチモーダルファウンデーションモデルです

大型言語モデルは、人間の能力を模倣する能力により人工知能コミュニティを魅了しています。優れたテキスト理解と生成能力を持つGPT-3、LLaMA、GPT-4、およびPaLMなどのモデルは、多くの注目と人気を集めています。最近発売されたOpenAIのモデルであるGPT-4は、マルチモーダルの能力を持つため、ビジョンと言語の応用の融合に対する関心を集めています。その結果、ビジュアルの問題解決能力を追加することで、MLLM（マルチモーダル大規模言語モデル）が開発されました。MLLMは、ビジュアルとテキストのタスクのパフォーマンスを向上させる目的で導入されました。研究者は、マルチモーダル学習に焦点を当てており、前の研究では、複数のモダリティが同時にテキストとマルチモーダルタスクのパフォーマンスを向上させることがわかっています。クロスモーダルアライメントモジュールなどの現在存在するソリューションは、モダリティの協力の潜在能力を制限してしまいます。マルチモーダル指導中に大規模言語モデルを微調整することにより、テキストタスクのパフォーマンスが妥協されるという大きな課題が生じます。これらの課題に対応するため、アリババグループの研究者チームはmPLUG-Owl2という新しいマルチモーダル基盤モデルを提案しました。mPLUG-Owl2のモジュール化されたネットワークアーキテクチャは、干渉とモダリティの協力を考慮しています。このモデルは、クロスモーダルの協力を促進するために共通の機能モジュールと、さまざまなモダリティ間のシームレスな推移のためのモダリティ適応モジュールを組み合わせています。これにより、ユニバーサルインターフェースとして言語デコーダを活用しています。このモダリティ適応モジュールは、言語とビジュアルのモダリティを共通の意味空間に投影し、モダリティ固有の特性を保持しながら、両モダリティ間の協力を保証します。チームはmPLUG-Owl2のための二段階のトレーニングパラダイムを提示しました。それは、ビジョン-言語の指導チューニングとビジョン-言語の事前トレーニングで構成されています。このパラダイムの助けを借りて、ビジョンエンコーダはより効率的に高レベルと低レベルの意味的な視覚情報を収集するようになりました。チームはさまざまな評価を実施し、mPLUG-Owl2がテキストの問題やマルチモーダルの活動にも一般化する能力を示しました。このモデルは、様々なタスクで最先端のパフォーマンスを達成する単一の汎用モデルとしての柔軟性を示しています。研究では、mPLUG-Owl2が純粋なテキストと複数のモダリティを含むシナリオでのモダリティの協力を示す最初のMLLMモデルであることが示されています。結論として、mPLUG-Owl2は、マルチモーダル大規模言語モデルの領域において、重要な進歩と大きな前進です。従来のアプローチが主にマルチモーダルスキルの向上に焦点を当てていたのに対して、mPLUG-Owl2は、モダリティ間のシナジーを強調し、さまざまなタスクのパフォーマンスを向上させることを重視しています。このモデルは、言語デコーダが各モダリティを制御するための汎用インターフェースとして機能するモジュール化されたネットワークアーキテクチャを利用しています。

AI/MLを活用した観測性の向上

「AIOpsの世界でのパフォーマンス分析の変革について詳しく学び、AI/MLとAIOpsの融合が観測性の新時代をもたらした方法についてさらに知る」

フィリップスは、Amazon SageMakerをベースにしたMLOpsプラットフォームでAI対応のヘルスケアソリューションの開発を加速しています

これはAWSとフィリップスの共同ブログですフィリップスは意義あるイノベーションを通じて人々の生活を改善することに焦点を当てたヘルステクノロジーカンパニーです同社は2014年以来、顧客にPhilips HealthSuite Platformを提供しており、これは医療およびライフサイエンス企業が患者ケアを向上させるために使用する数十のAWSサービスを統合しています

Amazon SageMakerの自動モデルチューニングを使用して、事前に選択されたアルゴリズムを使用してカスタムのAutoMLジョブを実装します

AutoMLは、機械学習（ML）プロジェクトのライフサイクルの初めに、データから迅速かつ一般的な洞察を得ることができます前もって最適な前処理テクニックやアルゴリズムの種類を理解することで、適切なモデルの開発、トレーニング、展開にかかる時間を短縮できますこれは、すべてのモデルの開発プロセスで重要な役割を果たします[...]

MLOpsへの重要な出発点：その必要な要素を探索する

「初心者にとって、特にMLOpsのような多面的かつ複雑な概念を学ぶのはいつも面倒です私自身、MLOpsの初心者であり、明確で...」

テストに合格する：NVIDIAがMLPerfベンチマークでジェネラティブAIのトレーニングをターボチャージします

NVIDIAのAIプラットフォームは、最新のMLPerf業界ベンチマークにおいて、AIトレーニングとハイパフォーマンスコンピューティングの基準を引き上げました。多くの新記録やマイルストーンの中で、ジェネラティブAIの分野で特に注目されているのは、NVIDIA Eosです。これは、驚異的な10752基のNVIDIA H100 Tensor Core GPUとNVIDIA Quantum-2 InfiniBandネットワーキングを搭載したAIスーパーコンピュータで、GPT-3モデルに基づいた1750億個のパラメータを持つ1億トークンのトレーニングベンチマークをたったの3.9分で完了しました。これは、約3倍の速さで、NVIDIAがわずか6か月前に記録した10.9分を大幅に上回るものです。このベンチマークは、人気のChatGPTサービスのフルGPT-3データセットの一部を使用しており、推定によれば、Eosはたった8日間でトレーニングを完了させることができます。これは、512基のA100 GPUを使用した従来の最先端システムに比べて73倍高速です。トレーニング時間の短縮は、コスト削減、エネルギー節約、およびマーケット投入までの時間短縮につながります。大規模な言語モデルを広く利用できるようにする重要な取り組みであり、NVIDIA NeMoといったツールを使用して、すべての企業がカスタマイズ可能なLLMを採用できるようにしています。今回の新しいジェネラティブAIのテストでは、1024基のNVIDIA HopperアーキテクチャGPUが、2.5分でStable Diffusion text-to-imageモデルに基づいたトレーニングベンチマークを完了し、この新たなワークロードにおいてハイバーな成績を収めました。これらの二つのテストを採用することで、MLPerfはAIのパフォーマンスを測定する業界の標準としてのリーダーシップを強化しており、ジェネラティブAIが現在の私たちの時代で最も変革的な技術であることを裏付けています。システムの拡張が飛躍今回の最新の結果は、MLPerfベンチマークに適用されたアクセラレータがこれまでで最も多く使用されたことによるものです。10752基のH100 GPUは、今年6月のAIトレーニングでNVIDIAが使用した3584基のHopper GPUを大幅に上回りました。 GPU数の3倍のスケーリングが、パフォーマンスの2.8倍のスケーリングをもたらしたことで、ソフトウェアの最適化にも一部助けられ、93%の効率率を実現しました。…

MLモデルのDocker化：デプロイメントガイド

この包括的なML愛好家向けガイドは、Dockerを使用してMLモデルのパッケージ化と実行についての旅に連れて行きます

この中国のAI研究は、マルチモーダルな大規模言語モデル（MLLMs）の幻覚を修正するために設計された革新的な人工知能フレームワークである「ウッドペッカー」を紹介します

中国の研究者たちは、マルチモーダルな大規模言語モデル（MLLM）における幻覚の問題に対処するために、Woodpeckerという新しい補正AIフレームワークを紹介しました。これらのモデルはテキストと画像処理を組み合わせており、しばしば提供された画像の内容を正確に反映していないテキストの説明を生成します。このような不正確さは、存在しないオブジェクトに関わる物体レベルの幻覚と、オブジェクト属性の不正確な説明による属性レベルの幻覚として分類されます。幻覚を軽減するための現在のアプローチは、通常、特定のデータでMLLMを再トレーニングすることを含みます。これらの命令ベースのメソッドはデータ集約型であり、計算量が多く必要です。これに対し、Woodpeckerはトレーニング不要の代替手法を提供し、異なる段階での解釈力を向上させることができます。 Woodpeckerは、次の5つのキープロセスからなります： 1. キーコンセプトの抽出：この段階では、生成されたテキストで言及されている主要なオブジェクトを特定します。 2. 質問の形成：抽出したオブジェクトに関連する質問を診断するために形成します。 3. ビジュアル知識の検証：これらの質問には、オブジェクトレベルのクエリに対するオブジェクト検出などの専門モデル、および属性レベルの質問に対するビジュアル質問応答（VQA）モデルなどが使用されます。 4. ビジュアルクレームの生成：質問-応答ペアは、オブジェクトレベルと属性レベルの両方のクレームを含む構造化されたビジュアル知識ベースに変換されます。 5. 幻覚の修正：ビジュアル知識ベースを使用して、システムはMLLMにガイドを与え、生成されたテキスト内の幻覚を修正し、明確さと解釈可能性を保証するために境界ボックスを付けます。このフレームワークは透明性と解釈可能性を重視しており、MLLMにおける幻覚の理解と修正に貴重なツールです。研究者たちはWoodpeckerをPOPE、MME、およびLLaVA-QA90の3つのベンチマークデータセットで評価しました。POPEベンチマークでは、WoodpeckerはベースラインモデルであるMiniGPT-4とmPLUG-Owlよりも明確性を改善し、それぞれ30.66％と24.33％の精度向上を達成しました。このフレームワークは、ランダム、人気、および敵対的なシナリオを含むさまざまな設定で一貫性を示しました。 MMEベンチマークでは、Woodpeckerは特に件数に関連するクエリにおいて、MiniGPT-4を101.66ポイント上回る驚異的な改善を示しました。属性レベルのクエリでは、Woodpeckerはベースラインモデルの性能を向上させ、属性レベルの幻覚に効果的に対処しました。 LLaVA-QA90データセットでは、Woodpeckerは一貫して精度と詳細性の指標を向上させ、MLLMが生成する応答の幻覚を修正し、説明の内容を豊かにする能力を示しました。まとめると、Woodpeckerフレームワークは、マルチモーダルな大規模言語モデルにおける幻覚に取り組むための有望な補正手法を提供しています。再トレーニングではなく解釈と修正に焦点を当てることで、MLLMが生成する説明の信頼性と正確性を向上させ、テキストと画像処理を含むさまざまなアプリケーションに潜在的な利益をもたらす貴重なツールです。

「Amazon SageMaker Canvasで構築されたMLモデルをAmazon SageMakerリアルタイムエンドポイントに展開します」

『Amazon SageMaker Canvasは、機械学習（ML）モデルをリアルタイム推論エンドポイントにデプロイできるようになりましたこれにより、MLモデルを本番環境に持ち込み、MLによる洞察に基づいたアクションを推進することができますSageMaker Canvasは、アナリストや市民データサイエンティストがビジネスニーズに合わせた正確なML予測を生成できるノーコードのワークスペースですこれまでのところ、SageMaker Canvas […]』

Learn more about Search Results ML - Page 5