Learn more about Search Results ML - Page 265

ImageBind-LLMにおけるマルチモーダリティ指示応答モデリングの進展

研究者は、マルチモダリティの指示に従うモデルの進化における重要なマイルストーンであるImageBind-LLMを紹介しますこのLLMの特徴は、多様な指示をシームレスに統合し、応答する能力ですそれにより、データサイエンティストやAI分野の専門家にとって貴重な資産となりますこの新しいモデルは、...から提供されています

「CMUの研究者たちは、スロット中心のモデル(Slot-TTA)を用いたテスト時の適応を提案していますこれは、シーンを共通してセグメント化し、再構築するスロット中心のボトルネックを備えた半教師付きモデルです」

コンピュータビジョンの最も困難で重要なタスクの1つは、インスタンスセグメンテーションです。画像や3Dポイントクラウド内のオブジェクトを正確に区別し、カテゴリ分けする能力は、自律走行から医療画像解析までさまざまなアプリケーションに基盤となるものです。これらの最先端のインスタンスセグメンテーションモデルの開発においては、長年にわたって著しい進歩が達成されてきました。しかし、これらのモデルは、しばしばトレーニング分布から逸脱した多様な現実のシナリオとデータセットに対して助けが必要です。セグメンテーションモデルをこれらの分布外(OOD)シナリオに適応させるというこの課題は、革新的な研究を促しています。そのような画期的なアプローチの1つであるSlot-TTA(テスト時適応)は、非常に注目されています。 計算機ビジョンの急速な進化の中で、インスタンスセグメンテーションモデルは顕著な進歩を遂げ、画像や3Dポイントクラウド内のオブジェクトを認識し、正確にセグメント化することが可能となりました。これらのモデルは、医療画像解析から自動運転車まで、さまざまなアプリケーションの基盤となっています。しかし、それらは共通の困難な敵に直面しています。それは、トレーニングデータを超える多様な現実のシナリオとデータセットに適応することです。異なるドメイン間でシームレスに移行することのできなさは、これらのモデルを効果的に展開するための重要な障壁となっています。 カーネギーメロン大学、Google Deepmind、Google Researchの研究者たちは、この課題に対処する画期的なソリューションであるSlot-TTAを発表しました。この新しいアプローチは、インスタンスセグメンテーションのテスト時適応(TTA)に設計されています。Slot-TTAは、スロット中心の画像とポイントクラウドレンダリングコンポーネントの能力と最先端のセグメンテーション技術を結びつけています。Slot-TTAの核となるアイデアは、インスタンスセグメンテーションモデルがOODシナリオに動的に適応できるようにすることであり、これにより精度と汎用性が大幅に向上します。 Slot-TTAは、その主なセグメンテーション評価指標として調整済みランド指数(ARI)の基礎に基づいて動作します。Slot-TTAは、マルチビューの姿勢付きRGB画像、単一ビューのRGB画像、複雑な3Dポイントクラウドなど、さまざまなデータセットで厳密なトレーニングと評価を行います。Slot-TTAの特徴的な特徴は、テスト時適応のための再構成フィードバックを活用する能力です。このイノベーションは、以前に見たことのない視点とデータセットに対してセグメンテーションとレンダリングの品質を反復的に改善することを含みます。 マルチビューの姿勢付きRGB画像において、Slot-TTAは強力な競合相手として浮上します。その適応性は、MultiShapeNetHard(MSN)データセットの包括的な評価によって示されます。このデータセットには、リアルワールドのHDR背景に対して注意深くレンダリングされた51,000以上のShapeNetオブジェクトが含まれています。MSNデータセットの各シーンには、Slot-TTAのトレーニングとテストのために入力ビューとターゲットビューに戦略的に分割された9つの姿勢付きRGBレンダリング画像があります。研究者たちは、トレーニングセットとテストセットの間のオブジェクトインスタンスとシーン中のオブジェクトの数に重なりがないように特別な配慮をしています。この厳格なデータセットの構築は、Slot-TTAの堅牢性を評価するために重要です。 評価では、Slot-TTAはMask2Former、Mask2Former-BYOL、Mask2Former-Recon、Semantic-NeRFなどのいくつかのベースラインと対決します。これらのベースラインは、Slot-TTAのパフォーマンスをトレーニング分布内外で比較するためのベンチマークです。その結果は驚くべきものです。 まず最初に、OODシーンにおいて特にMask2Formerと比較して、Slot-TTA with TTAは優れた性能を発揮します。これは、Slot-TTAが多様な現実のシナリオに適応する能力の優れていることを示しています。 次に、Mask2Former-BYOLにおけるBartlerらの自己教師あり損失の追加は、改善をもたらさないことが明らかになります。これは、すべてのTTA手法が同じくらい効果的ではないことを強調しています。 さらに、セグメンテーション監督なしのSlot-TTAは、OSRT(Sajjadi et al., 2022a)のようなクロスビュー画像合成にのみトレーニングされたバリアントと比較して、Mask2Formerのような監督セグメンターに比べて大幅に性能が低下します。この観察結果は、効果的なTTAのためには訓練中のセグメンテーション監督の必要性を強調しています。 Slot-TTAの能力は、新しい、以前に見たことのないRGB画像ビューの合成と分解にも広がります。前述のデータセットとトレーニングとテストの分割を使用して、研究者はSlot-TTAのピクセル単位の再構成品質とセグメンテーションARIの精度を、5つの新しい、以前に見たことのない視点について評価します。この評価には、TTAのトレーニング中に見られなかったビューも含まれます。その結果は驚くべきものです。 Slot-TTA(Slot-centric Temporal Test-time Adaptation)による未知の視点におけるレンダリングの品質は、テスト時の適応によって大幅に向上し、新しいシナリオでのセグメンテーションとレンダリングの品質を向上させる能力を示しています。これに対し、強力な競合であるSemantic-NeRFは、これらの未知の視点への一般化に苦労しており、Slot-TTAの適応性と潜在能力を示しています。 結論として、Slot-TTAはコンピュータビジョンの分野における重要な進歩を表しており、多様な現実世界のシナリオにセグメンテーションモデルを適応させるという課題に取り組んでいます。スロット中心のレンダリング技術、高度なセグメンテーション手法、およびテスト時の適応を組み合わせることで、Slot-TTAはセグメンテーションの精度と汎用性の両方で顕著な改善を提供します。この研究は、モデルの制約を明らかにするだけでなく、コンピュータビジョンの将来のイノベーションへの道を開拓します。Slot-TTAは、コンピュータビジョンの絶えず進化する領域で、インスタンスセグメンテーションモデルの適応性を向上させることを約束します。

メディアでの顔のぼかしの力を解き放つ:包括的な探索とモデルの比較

現代のデータ駆動型の世界において、個人のプライバシーと匿名性を確保することは非常に重要です個人のアイデンティティを保護したり、GDPRなどの厳しい規制に準拠したりすることから、...

「ソフトウェアテストの革命化」

AIが自動ソフトウェアテストに与える深遠な影響を掘り下げ、その能力、利点、およびSQAの将来における持つ可能性について探求してください

「トランスフォーマーとサポートベクターマシンの関係は何ですか? トランスフォーマーアーキテクチャにおける暗黙のバイアスと最適化ジオメトリを明らかにする」

自己注意機構により、自然言語処理(NLP)は革新を遂げました。自己注意機構は、入力シーケンス内の複雑な関連を認識するためのトランスフォーマーデザインの主要な要素であり、関連トークンの関連性を評価することで、入力シーケンスのさまざまな側面に優先度を与えます。この他の技術は、強化学習、コンピュータビジョン、およびNLPアプリケーションにとって重要な長距離の関係を捉えるのに非常に優れていることが示されています。自己注意機構とトランスフォーマーは、GPT4、Bard、LLaMA、ChatGPTなどの複雑な言語モデルの作成を可能にし、驚異的な成功を収めています。 トランスフォーマーと最適化の風景におけるトランスフォーマーの暗黙のバイアスを説明できますか?勾配降下法で訓練された場合、注意層はどのトークンを選択し、組み合わせますか?ペンシルベニア大学、カリフォルニア大学、ブリティッシュコロンビア大学、ミシガン大学の研究者たちは、注意層の最適化ジオメトリを(Att-SVM)ハードマックスマージンSVM問題と結びつけることで、これらの問題に答えています。この問題では、各入力シーケンスから最良のトークンを分離して選択します。実験結果は、この形式が以前の研究に基づいて構築され、実際的に重要であり、自己注意のニュアンスを明らかにすることを示しています。 定理 1 以下では、入力シーケンスX、Z ∈ RT×d(長さT、埋め込み次元d)を使用して、基本的なクロスアテンションと自己注意モデルを調査しています。ここで、訓練可能なキー、クエリ、バリューマトリックスは、K、Q ∈ Rd×m、およびV ∈ Rd×vです。S( . )は、行ごとに適用されるソフトマックス非線形性を示しています。XQK⊤X⊤に対して適用されます。Z ← Xと設定することで、自己注意(1b)はクロスアテンション(1a)の特別なケースであることがわかります。メジャーな発見を明らかにするために、予測のためにZの初期トークンを使用することを検討します。ここで、zで表されます。 具体的には、次のように表される減少する損失関数l(): R Rによる経験的リスク最小化を扱っています。ラベルYi ∈ {−1, 1}および入力Xi ∈ RT×d、zi ∈…

テスト自動化のためのトップ5のAIパワードツール

テスト自動化のためのトップ5のAIパワードツール:Perfecto Scriptless Mobile、Applitools、Functionize、AccelQ、TestimAIツールの利点と欠点について詳しく読んでください

富士通とLinux Foundationは、富士通の自動機械学習とAIの公平性技術を発表:透明性、倫理、アクセシビリティの先駆者

人工知能(AI)技術の急速な進展を特徴とする時代において、透明性、倫理性、アクセシビリティの問題が中心になっています。AIのソリューションは確かにこの分野を前進させていますが、公正性とアクセシビリティに関連する問題に対処する必要が依然としてあります。この緊急性を認識し、日本のAI技術の主要な開発者である富士通は、Linux Foundationとの協力のもと、オープンソースのAIに対する画期的な取り組みを開始しました。このイニシアチブはこれらの課題に対応し、より幅広い範囲の開発者や産業に利益をもたらすアクセス可能なソリューションを提供することを目指しています。 既存のAIソリューションは確かにこの分野で進歩を促進してきましたが、公正性とアクセシビリティに関連する問題にはしばしば短所があります。富士通はLinux Foundationとの最新の取り組みを通じて、これらのギャップを埋め、開発者や産業の両方に力を与える実用的なソリューションを提供することを目指しています。 このイニシアチブの基礎の一つは、SapientMLとして知られる自動機械学習プロジェクトです。この革新的なプロジェクトは、企業固有のデータに対して迅速に高効率な機械学習モデルとカスタムアルゴリズムを作成する能力を提供します。開発プロセスの迅速化と正確なモデルの微調整を容易にすることにより、SapientMLはAI分野の進歩を加速する重要な役割を果たしています。AIソリューションの市場投入までの時間を大幅に短縮し、企業が革新をより迅速かつ効果的に世界に提供することができます。 2番目のプロジェクトである交差的公正性は、AIシステム内のバイアスを軽減するというAI開発の重要な側面に取り組んでいます。この技術は、性別、年齢、人種などの属性の交差点で生じる微妙なバイアスを識別する能力に優れています。これらしばしば見過ごされるバイアスを克服することは、多様な人口に公正かつ倫理的なAIシステムを作る上で重要です。交差的公正性技術は社会的な価値と倫理基準に合致し、AIシステムが包括的で公平であることを保証します。 これらのソリューションの有効性は、それらの能力の具体的な証拠を提供するメトリクスによってさらに強調されています。SapientMLの最適化された機械学習モデルとカスタムコードを迅速に生成する能力は、AI開発に革新的な影響を与え、産業で競争力を持たせます。一方、交差的公正性技術は隠れたバイアスを特定するだけでなく、それらを積極的に排除することにも貢献し、技術的に先進的で倫理的に優れたAIシステムの創造を促進します。 まとめると、富士通のLinux FoundationとのオープンソースAIへの確固たる取り組みは、AI技術の発展における新たな時代を告げています。このイニシアチブは単に透明性と公正性の問題に対処するだけでなく、先端のAI技術へのアクセスを民主的に開放しています。AIが私たちの現代社会を形作る中で、共同のオープンソースの取り組みは、厳格な倫理基準に従いながら、AIが世界的なイノベーションのツールとなるという巨大な潜在能力を具体化しています。AIの未来は包括性、アクセシビリティ、公正性を全て含んでおり、富士通のイニシアチブはこの明るい未来への道を切り開いています。

自己対戦を通じてエージェントをトレーニングして、三目並べをマスターする

あぁ!小学校!これは私たちが識字、算数、そして最適な○×ゲームのプレイなど、貴重なスキルを学んだ時期です友達と○×ゲームをプレイする時、相手に勝たれずに…

「ビルドしてプレイ!LLM搭載のあなた自身のV&Lモデル!」

大型言語モデル(LLM)はますますその価値を示しています画像をLLMに組み込むことで、ビジョン言語モデルとしてさらに有用になりますこの記事では、...

成績を超えて:AIを使用して学生のパフォーマンスを予測し説明する

「機械学習(ML)は、データから学習し、意思決定を行うことで、さまざまな産業を大きく変革してきました電子商取引サイトでの商品の推薦から診断まで…」

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us