Search Results ImageNet

「PIXART-αに会ってください：画像生成の品質が最先端の画像生成器と競争するTransformerベースのT2I拡散モデル」

テキストから画像への変換（T2I）生成モデルであるDALLE 2、Imagen、Stable Diffusionの開発により、フォトリアルな画像合成の新時代が始まりました。これは、写真編集、ビデオ制作、3Dアセットの作成などを含む多くの下流アプリケーションに大きな影響を与えています。ただし、これらの洗練されたモデルは大きな処理能力を要求します。たとえば、SDv1.5のトレーニングには6K A100 GPU日が必要で、コストは約$320,000です。より最新の大きなモデルであるRAPHAELの場合、さらに60K A100 GPU日が必要であり、コストは約$3,080,000です。また、トレーニングにより環境に負荷がかかるため、大量のCO2排出物を生み出します。たとえば、RAPHAELのトレーニングでは35トンのCO2排出物が生じます。これは、図1に示すように、一人が7年間に排出するCO2量と同じです。図1： T2Iの生産者間でのCO2排出量とトレーニングコストの比較がここで示されています。PIXART-αのトレーニングには驚異的な$26,000がかかります。ただし、私たちのCO2排出量とトレーニング費用はRAPHAELよりもわずかに1.1％と0.85％少ないです。このような高価格は、研究コミュニティや企業の両方におけるこれらのモデルの入手に大きな制約をもたらし、AIGCコミュニティの重要な進展を大幅に妨げています。このような困難に関して重要な問いが提起されています：リソース使用を管理可能なレベルにおいて、高品質の画像生成器を作成できるのでしょうか？華為ノアズアークラボ、大連理工大学、香港大学、香港科技大学の研究者は、PIXART-αを提案しました。それは、最新の最先端画像生成器と競争力のある画像生成品質を保ちながら、トレーニングの計算要件を劇的に低減します。それには、次の3つの主な設計が含まれます：自然画像のピクセルの分布を学習することテキストと画像の整合性を学習すること画像の美的魅力を向上させること彼らは、最初のサブタスクであるピクセルの分布の学習コストを著しく低減するために、T2Iモデルを低コストのクラス条件モデルで初期化することを提案しています。彼らは、2番目と3番目のサブタスクのための事前トレーニングと微調整で構成されるトレーニングパラダイムを提供します。高い情報密度を持つテキスト-イメージペアデータでの事前トレーニングに続いて、より美的品質の高いデータでの微調整を行い、トレーニングの効果を高めます。その他、T2Iトランスフォーマーという効率的なモデルの提供。彼らは、テキスト条件を注入するためにクロスアテンションモジュールを使用し、計算の要求が高いクラス条件ブランチの単純化をDiffusion Transformer（DiT）に基づいて行います。さらに、変更したテキストから画像へのモデルにオリジナルのクラス条件モデルのパラメータを直接インポートできる再パラメータ化方法を提案しています。これにより、T2Iトランスフォーマーには受け入れ可能な初期化が可能になり、トレーニングを加速するためにImageNetの自然な画像分布の過去の知識が活用されます。高品質な情報。彼らの研究では、既存のテキスト-イメージペアデータセットに重要な欠陥があることが明らかになっています（例：LAION）。テキストのキャプションは、非常に低頻度で数多くの名詞が現れる重いロングテール効果や、画像内のオブジェクトの一部しか記述していない情報の欠如などの問題を抱えています。これらの欠点は、T2Iモデルのトレーニングの効果を大幅に低下させ、信頼性のあるテキスト-イメージの整合性を得るために何百万回もの反復が必要とされます。彼らは、これらの問題を克服するために、最も先進的なビジョン言語モデルを使用して自動ラベリングパイプラインを提案しています。 SAMデータセットは大きく多様なオブジェクトのコレクションを持つという利点があり、情報密度の高いテキスト-イメージのペアを生成するための理想的なソースです。彼らの巧妙な機能により、モデルのトレーニングは非常に効率的に行われ、675 A100 GPU日と$26,000のみで済みます。図1は、彼らの手法がImagenよりも少ないトレーニングデータ量（0.2％ vs Imagen）とトレーニング時間（2％ vs RAPHAEL）を使用し、RAPHAELの1％程度のトレーニング費用（$3,080,000の代わりに$26,000）を削減する方法を示しています。世代品質に関しては、PIXART-αは現在のSOTA…

「AI天気モデルのためのベンチマークデータセット」

「ベンチマークデータセットは、機械学習研究において基礎的な要素ですWeatherBenchは、AI気候および天気モデルのためのベンチマークを提供します」

「Apple M1とM2のパフォーマンス- SSLモデルのトレーニングにおいて」

新しいAppleチップを使用してMLモデルをトレーニングするためのベンチマークの数はまだ少ないですさらに、ほとんどの結果は、M1チップと以前のソフトウェアバージョンを比較しているだけであり、それらが適切でなかった可能性もあります...

マイクロソフトの研究者が「SpaceEvo」を紹介：現実世界のデバイスに対して超効率的で量子化されたニューラルネットワークを設計する画期的なゲームチェンジャー

ディープラーニングの領域では、高性能と最小の遅延を組み合わせた効率的なディープニューラルネットワーク（DNN）モデルを、さまざまなデバイスで開発するという課題が残っています。既存のアプローチでは、特定のハードウェアセットアップに対してモデル設計を自動化するために、ハードウェアに対応したニューラルアーキテクチャサーチ（NAS）が使用されており、あらかじめ定義されたサーチスペースとサーチアルゴリズムが含まれています。しかし、このアプローチではサーチスペースの最適化を見落としてしまう傾向があります。この課題に対応するため、研究チームは「SpaceEvo」という新しい手法を導入しました。この手法は、特定のハードウェアプラットフォームで効率的なINT8推論を実現するために、専用のサーチスペースを自動的に作成するものです。SpaceEvoの特徴は、この設計プロセスを自動的に行う能力であり、ハードウェア固有の、量子化に適したNASのサーチスペースを実現します。 SpaceEvoの軽量な設計は実用的で、ハードウェア固有のソリューションを作成するためにわずか25時間のGPU時間しか必要としません。これはコスト効果的です。この専用のサーチスペースは、ハードウェアに適したオペレータと構成を持ち、低いINT8遅延を持つより効率的なモデルの探索を可能にし、既存の代替手法を常に上回ります。研究者たちは、広く使用されている2つのデバイス上でINT8量子化された遅延要因について詳細な分析を行い、オペレータの種類と構成の選択がINT8遅延に大きく影響することを明らかにしました。SpaceEvoはこれらの結果を考慮に入れ、サーチスペース内で正確かつINT8遅延に優れたアーキテクチャの多様な集団を作成します。進化的なサーチアルゴリズム、メトリックとしてのQ-Tスコア、再設計されたサーチアルゴリズム、ブロック単位のサーチスペース量子化スキームを組み込んでいます。 2段階のNASプロセスにより、候補モデルは個別の微調整や量子化なしにも比較可能な量子化精度を達成することができます。現実世界のエッジデバイスとImageNetでの幅広い実験により、SpaceEvoは手動で設計されたサーチスペースを常に上回り、INT8量子化の精度と遅延のトレードオフにおいて新たな基準を設定します。まとめると、SpaceEvoは多様な現実世界のエッジデバイス向け効率的なディープラーニングモデルの追求において、重要な進展を示しています。量子化に適したサーチスペースの自動設計は、エッジコンピューティングソリューションの持続可能性を向上させる可能性があります。研究者たちは、これらの手法を変換器などのさまざまなモデルアーキテクチャに適応し、ディープラーニングモデルの設計と効率的な展開の役割をさらに拡大する予定です。

Uncategorized

「専門家から汎用アシスタントへ：ビジョンと言語のマルチモーダル基盤モデルの進化についての詳細な探究」

コンピュータビジョンコミュニティはさまざまな課題に直面しています。事前トレーニング時代には、多目的な視覚ツールを紹介する包括的なフレームワークを確立するために、数多くの講演論文が議論されました。この時期には、問題に関連する大量のデータでモデルを事前トレーニングし、その後、同じ問題タイプに関連するさまざまな実世界のシナリオにそれらを転送するアプローチが一般的でした。これには、しばしばゼロショットまたはフューショットテクニックが使用されます。最近のマイクロソフトの研究では、ビジョンとビジョン言語の能力を持つ多モーダルな基礎モデルの歴史と開発について、詳細な調査結果を提供しています。特に、専門的なヘルパーから汎用的なヘルパーへの移行を重点的に取り上げています。彼らの論文によると、主に以下の3つの主要な教育戦略のカテゴリが議論されています。ラベル付き教育: ラベル付き教育は、モデルをトレーニングするために以前にラベル付けされた例を使用します。ImageNetなどのデータセットを使用することで、この方法の効果を証明しています。インターネット、画像、人間が作成したラベルから大量のノイズのあるデータセットにアクセスできます。「言語監督」とも呼ばれるこの戦略は、最も頻繁に画像 – テキストのペアで無監督のテキスト信号を使用します。CLIPとALIGNは、コントラスティブロスを使用して画像 – テキストのペアを比較するための事前トレーニングモデルの例です。画像のみの自己教育学習: この技術は、視覚情報のみを監督信号のソースとしています。マスク画像モデリング、非コントラスティブ、およびコントラストベースの学習は、いずれも有効なオプションです。研究者は、画像キャプショニング、ビジュアル質問応答、領域レベルの基礎トレーニング、セグメンテーションのためのピクセルレベルの基礎トレーニングなど、視覚理解に対するいくつかのアプローチがどのように統合されて最良の結果を得ることができるかを調査しました。マルチモーダル基礎モデルテキストと画像などの複数のモダリティで提示されるデータを理解し解釈する能力が、マルチモーダルの基礎モデルの特徴です。これによって、大量のデータ収集と合成が必要なさまざまなタスクが可能になります。重要な多モーダルの概念的フレームワークには、以下が含まれます。 CLIP（コントラスティブ言語画像事前トレーニング）は、共通の画像とテキストの埋め込み空間を発見する革新的な技術です。画像テキストの検索やゼロショットの分類などが可能です。 BEiT（ビジョンのBERT）は、視覚ドメインでのBERTのマスク画像モデリング技術を適応させています。マスク画像のトークンを予測することで、画像変換モデルは他のタスクに進むことができます。 CoCa（コントラスティブおよびキャプショニング事前トレーニング）は、対照的な学習とキャプション損失を組み合わせて画像エンコーダを事前トレーニングするための手法です。パラフレーズ画像キャプショニングシステムのおかげで、多モーダルタスクの完了を観察することが現実的になりました。 UniCL（統一コントラスティブ学習）は、CLIPのコントラスティブ学習を画像ラベルデータに拡張することで、画像テキストと画像ラベルのペアに対する統一コントラスティブ事前トレーニングを可能にします。 MVP（マスク画像モデリングビジョン事前トレーニング）は、マスク画像と高レベルの特徴目標を使用してビジョントランスフォーマーを事前トレーニングする方法です。 MIMの精度を向上させるため、EVA（Vision-Text Alignmentの活用）は、CLIPなどのモデルからの画像特徴をターゲット特徴として使用します。 BEiTv2は、DINOのような自己蒸留損失を取り入れることで、学習中にグローバルな視覚表現の獲得を促進するようにBEiTを改良します。これらのマルチモーダルの基礎モデルにより、コンピュータビジョンと自然言語処理のアプリケーションは、洞察力と処理の向上に大いに恩恵を受けています。…

イメージセグメンテーション：詳細ガイド

画像セグメンテーションとは、コンピュータ（またはより正確にはコンピュータに保存されたモデル）が画像を取り込み、画像内の各ピクセルを対応するカテゴリに割り当てる能力を指します例えば、それは...

多種多様なロボットタイプ間での学習のスケーリングアップ

私たちは、様々なロボットタイプや具現化における総合ロボット学習のための新しいリソースセットをリリースします34の学術研究所のパートナーと共に、22種類の異なるロボットタイプのデータをまとめ集め、オープンなX-具現化データセットを作成しましたまた、RT-1から派生したロボティクストランスフォーマー（RT）モデルであるRT-1-Xもリリースしますこのモデルは、私たちのデータセットで訓練され、多くのロボット具現化間でスキルの移転を示します

research

「もし私たちが複雑過ぎるモデルを簡単に説明できるとしたらどうだろう？」

この記事は次の記事に基づいています：https//www.sciencedirect.com/science/article/abs/pii/S0377221723006598 これを読んでいるのであれば、人工知能（AI）がいかに重要かご存知かもしれません...

「DINO — コンピュータビジョンのための基盤モデル」

「コンピュータビジョンにとっては、エキサイティングな10年です自然言語の分野での大成功がビジョンの領域にも移されており、ViT（ビジョントランスフォーマー）の導入などが含まれています...」(Konpyūta bijon ni totte wa, ekisaitinguna jūnen desu. Shizen gengo no bunya de no daiseikō ga bijon no ryōiki ni mo utsusarete ori, ViT…

このAI論文は、RetNetとTransformerの融合であるRMTを紹介し、コンピュータビジョンの効率と精度の新しい時代を開拓しています

NLPにデビューした後、Transformerはコンピュータビジョンの領域に移され、特に効果的であることが証明されました。それに対して、NLPコミュニティでは最近、Transformerの代わりになりうるデザインであるRetentive Network（RetNet）に非常に興味を持っています。中国の研究者は、RetNetのコンセプトをビジョンに適用することによって同様に印象的なパフォーマンスが得られるのか疑問に思っています。この問題を解決するために、彼らはRetNetとTransformerのハイブリッドであるRMTを提案しています。RetNetの影響を受けたRMTは、ビジョンバックボーンに明示的な減衰を追加し、ビジョンモデルが空間距離に関する以前の知識を使用できるようにします。この距離に関連した空間事前知識により、各トークンの知覚帯域を正確に調整することが可能です。また、モデリングプロセスを画像の2つの座標軸に沿って分解することで、グローバルモデリングの計算コストを低下させる助けとなります。広範な実験により、RMTがさまざまなコンピュータビジョンのタスクで優れた成果を上げていることが示されました。たとえば、4.5G FLOPSのみで、RMTはImageNet-1kで84.1％のTop1-accを達成します。モデルがほぼ同じサイズであり、同じ技術を使用してトレーニングされている場合、RMTは常に最高のTop1-accを生み出します。オブジェクト検出、インスタンスセグメンテーション、意味論的セグメンテーションなどの下流のタスクでは、RMTは既存のビジョンバックボーンを大幅に上回ります。提案された戦略が機能することを示す広範な実験が行われており、研究者は主張を裏付けています。RMTは、最先端のモデルに比べて画像分類タスクで劇的に優れた結果を収めます。モデルは、オブジェクト検出やインスタンスセグメンテーションなどのさまざまなタスクで競合モデルを上回っています。以下の人々が貢献しています：研究者は、ビジョンモデルに距離に関する空間事前知識を取り入れ、Retentive Networkの主要プロセスである保持を2次元の設定にもたらしています。Retentive SelfAttention（ReSA）という名前の新しいメカニズムです。計算を簡素化するため、研究者はReSAを2つの画像軸に沿って分解しています。この分解戦略により、必要な計算努力を効率的に削減することができます。広範なテストにより、RMTの優れたパフォーマンスが証明されています。RMTは特にオブジェクト検出やインスタンスセグメンテーションなどの下流タスクで大きな利点を示しています。要するに、研究者たちはRetentive NetworkとVision Transformerを組み合わせたビジョンバックボーンであるRMTを提案しています。RMTでは、空間事前知識が距離に関連した明示的な減衰の形で視覚モデルに導入されます。頭字語ReSAは、改良されたメモリ保持の新しいプロセスを説明しています。RMTはまた、モデルを簡素化するためにReSAを2つの軸に分解する技術を使用しています。広範な実験により、RMTの効率性が確認されており、特にRMTはオブジェクト検出などの下流タスクで注目すべき利点を示しています。

Learn more about Search Results ImageNet - Page 5