Learn more about Search Results ImageNet - Page 8

「Transformerベースの拡散モデルによる画像生成の革新的なアーキテクチャイノベーションを実現するDiffusion Transformers(DiTs)」

機械学習の領域は、トランスフォーマーベースのアーキテクチャの出現により、自然言語処理、コンピュータビジョンなどの各種タスクを革新的に変革しました。しかし、画像レベルの生成モデルである拡散モデルには、依然として注目すべきギャップが存在し、これらのモデルは主に畳み込みU-Netアーキテクチャに従っています。 他のドメインがトランスフォーマーを採用しているのに対し、拡散モデルはまだこれらの強力なアーキテクチャを統合していません。この問題に取り組むため、ニューヨーク大学の研究者はDiffusion Transformers(DiTs)という革新的なアプローチを導入しており、従来のU-Netバックボーンをトランスフォーマーの機能で置き換えることで、拡散モデルのアーキテクチャにおける既存の慣習に挑戦しています。 現在、拡散モデルは洗練された画像レベルの生成モデルとなっていますが、依然として畳み込みU-Netに依存しています。この研究では、Vision Transformers(ViTs)の原則に基づき、拡散モデルにトランスフォーマーを統合するという画期的なコンセプトを紹介しています。この移行により、U-Netデザインの制約を超えた構造変換が推進され、拡散モデルがより広範なアーキテクチャのトレンドに合致し、拡張性、堅牢性、効率性を向上させることが可能になりました。 DiTsはVision Transformers(ViTs)アーキテクチャに基づいており、拡散モデルの設計に新たなパラダイムを提供しています。このアーキテクチャには、空間入力をトークンシーケンスに変換する「パッチ」というキーコンポーネントが含まれています。DiT-SからDiT-XLまでのさまざまなモデルサイズとともに、条件付き情報を処理するDiTブロックのバリアント、および「インコンテキストコンディショニング」、「クロスアテンションブロック」、「適応的レイヤーノルム(adaLN)ブロック」、「adaLNゼロブロック」も含まれています。これらのブロックデザインとモデルサイズのバリエーションは、強力な拡散モデルの設計に対する柔軟なツールキットを構成しています。 https://arxiv.org/abs/2212.09748 実験フェーズでは、さまざまなDiTブロックデザインのパフォーマンスを評価しています。異なるブロックデザインを採用した4つのDiT-XL/2モデルが訓練され、FIDスコアを基準としてadaLN-zeroブロックデザインの一貫した優越性が示され、その計算効率性と条件付けメカニズムのモデル品質への重要な役割が示されました。この発見は、adaLN-zeroの初期化方法の効果を強調し、さらなるDiTモデルの探索におけるadaLN-zeroブロックの採用に影響を与えました。 https://arxiv.org/abs/2212.09748 さらなる探索では、モデルサイズとパッチサイズを操作してDiT構成をスケーリングします。視覚化により、計算能力の拡張によって達成された画質の大幅な向上が示されます。この拡張は、トランスフォーマーの次元を拡張するか、入力トークンを増やすことによって実行することができます。モデルのGflopsとFID-50Kスコアのロバストな相関関係は、計算リソースがDiTのパフォーマンス向上において重要であることを強調しています。ImageNetデータセットの256×256および512×512の解像度で既存の拡散モデルに対してDiTモデルをベンチマークテストすることにより、説得力のある結果が明らかになりました。DiT-XL/2モデルは、両方の解像度のFID-50Kスコアで既存の拡散モデルを一貫して上回り、その堅牢なパフォーマンスは、DiTモデルがさまざまなスケールでの拡張性と柔軟性を持っていることを強調しています。さらに、この研究はDiT-XL/2モデルの固有の計算効率性を強調し、現実世界のアプリケーションにおける実用的な適用性を示しています。 結論として、Diffusion Transformers(DiTs)を導入することは、生成モデルの革新的な時代を告げるものです。トランスフォーマーの力を拡散モデルと融合することにより、DiTsは従来のアーキテクチャの常識に挑戦し、研究と実世界の応用において有望な道を提供します。包括的な実験と結果は、DiTsが画像生成の領域を前進させる潜在能力を強調し、先駆的なアーキテクチャのイノベーションとしての位置を明確にします。DiTsが画像生成の領域を再構築し続ける中で、トランスフォーマーとの統合は、異なるモデルアーキテクチャを統一し、さまざまなドメインでのパフォーマンス向上に向けた注目すべき一歩となります。

Amazon SageMakerを使用して、オーバーヘッドイメージで自己教師ありビジョン変換モデルをトレーニングする

この記事では、Amazon SageMakerを使用して、オーバーヘッドのイメージに対して自己教師ありビジョン変換器をトレーニングする方法を示しますトラベラーズは、Amazon Machine Learning Solutions Lab(現在はGenerative AI Innovation Centerとして知られています)と協力して、このフレームワークを開発し、航空写真モデルのユースケースをサポートおよび強化しました

Google AIのAdaTapeは、Transformerベースのアーキテクチャを持つ新しいAIアプローチです

先週のブログ投稿で、Google Researchは新たなAIアプローチであるAdaTapeを紹介しましたAdaTapeはトランスフォーマベースのアーキテクチャを使用し、適応的な計算を活用しますAdaTapeは適応的な機能を使用して、計算予算を変調できる弾力性のある入力シーケンスを作成します関連する研究論文によると、AdaTapeは適応性を直接注入します...

「ビジョン・ランゲージの交差点でのブレイクスルー:オールシーイングプロジェクトの発表」

AIチャットボットの急速な台頭を支えるLLMは、話題の的です。ユーザーに合わせた自然言語処理機能において驚異的な能力を示していますが、視覚世界を理解する能力には欠けているようです。視覚と言語の世界のギャップを埋めるために、研究者たちはオールシーイング(AS)プロジェクトを提案しています。 ASプロジェクトは、オープンワールドのパノプティックな視覚認識と理解を目指し、人間の認知を模倣するビジョンシステムの構築を目指しています。”パノプティック”という用語は、一つの視点で見えるすべてを含むことを指します。 ASプロジェクトは以下の要素から構成されています: オールシーイング1B(AS-1B)データセットは、現実世界の広範で珍しい3.5百万の概念をカバーしており、これらの概念とその属性を説明する1322億のトークンを持っています。 オールシーイングモデル(ASM)は、統一された位置情報を考慮した画像テキストの基礎モデルです。このモデルは、位置情報を考慮した画像トークナイザとLLMベースのデコーダの2つの主要なコンポーネントで構成されています。 このデータセットには、意味的なタグ、位置、質問応答のペア、キャプションなど、さまざまな形式で1億以上の領域の注釈が含まれています。ImageNetやCOCOなどの従来の視覚認識データセット、Visual GenomeやLaion-5Bなどの視覚理解データセットと比較して、AS-1Bデータセットは、豊富で多様なインスタンスレベルの位置注釈と対応する詳細なオブジェクトの概念と説明があるため、際立っています。 ASモデルのアーキテクチャは、さまざまなレベルの統一されたフレームワークで構成されています。このモデルは、画像レベルと領域レベルの対比的なおよび生成的な画像テキストのタスクをサポートしています。事前学習されたLLMと強力なビジョン基盤モデル(VFM)を活用することで、このモデルは、画像テキストの検索やゼロ分類などの識別的なタスク、およびビジュアルクエスチョンアンサリング(VQA)、ビジュアルリーズニング、画像キャプショニング、領域キャプショニング/VQAなどの生成的なタスクにおいて、有望なパフォーマンスを示しています。さらに、研究者たちは、クラスに依存しない検出器の支援を受けてフレーズのグラウンディングや参照表現の理解などのタスクに潜在的な可能性を見出しています。 オールシーイングモデル(ASM)は、次の3つの主要な設計要素で構成されています: 位置情報を考慮した画像トークナイザは、画像とバウンディングボックスに基づいて画像レベルと領域レベルの特徴を抽出します。 訓練可能なタスクプロンプトは、ビジョンとテキストのトークンの先頭に組み込まれ、識別的なタスクと生成的なタスクを区別するためにモデルをガイドします。 LLMベースのデコーダは、識別的なタスクのためのビジョンとテキストの特徴を抽出し、生成的なタスクでは応答トークンを自己回帰的に生成するために使用されます。 ASMとCLIPベースのベースラインモデル(GPT-2および3のゼロショット機能を表示)および主要なマルチモダリティ大規模言語モデル(VLLM)を代表するビジョンタスク(ゼロショット領域認識、画像レベルキャプション、領域レベルキャプションなど)で分析および比較することにより、ASMの品質、スケーリング、多様性、および実験に関する包括的なデータ分析が行われました。その結果、当社のASMによる強力な領域レベルのテキスト生成能力が示され、また、全体の画像を理解する能力も示されました。人間の評価結果は、当社のASMによって生成されたキャプションがMiniGPT4やLLaVAよりも好まれることを示しています。 このモデルは、オープンエンドの言語プロンプトと位置情報でトレーニングされており、領域テキストの検索、領域認識、キャプション付け、質問応答など、ゼロショットのパフォーマンスを持つさまざまなビジョンと言語のタスクに汎化することができます。これにより、LLMに「全見の目」が与えられ、ビジョンと言語の交差点が革新されたと研究者は述べています。

「PUGに会ってください:メタAIによるアンリアルエンジンを使用したフォトリアルで意味的に制御可能なデータセットを用いた堅牢なモデル評価に関する新しいAI研究」

データの表現を学び、タスク間で応用できるようにすることは、機械学習における高い目標です。評価とトレーニングのための大量の制御可能な現実的なデータの入手は、この目標を達成し、進捗を監視するために不可欠です。これは、実用的な設定で使用されるモデルにとって、単なる正確さだけでなく、堅牢性と公正性も重要な要素です。しかし、プライバシー、偏見、著作権侵害への懸念があるため、そのような情報を得ることは困難です。一般に公開されている画像データベースのほとんどは、粗い画像の拡張を超えて編集することが困難で、詳細なメタデータが欠けています。 生成されたシーンに影響を与えるすべてのパラメータが正確に制御される合成画像データを使用することで、関連する豊富な因子のラベルを簡単に取得することができます。この方法により、訓練されたディープニューラルネットワークの完全な機能、堅牢性などを評価することができます。潜在的な可能性にもかかわらず、多くの既存の合成画像データセットは、現実的さが不足していたり、通常は限られた範囲しか持っていないため、一般的な画像表現学習の研究には向いていない場合があります。 この問題を解決するために、Meta AI (FAIR)、Mila-Quebec AI Institute、およびモントリオール大学の研究者らは、表現学習の研究コミュニティを念頭に置いて作成された新しい合成フォトリアリスティックアンリアルグラフィックス(PUG)データセットのコレクションを提供しています。これらのデータセットは、現在の公共ドメインで利用可能なものよりもはるかにリアルな画像を特徴としています。ビデオゲームやエンターテイメント業界で広く利用されているリアリズムの高さで評価されるUnreal Engine [EpicGames] を使用して環境を作成しました。また、TorchMultiverse Pythonパッケージも導入しており、静的な画像データセットの事前レンダリングに加えて、任意のPUG環境からの簡単な制御可能なデータセットの生成を可能にするシンプルなPythonインターフェースを提供しています。これらの方法を使用して、彼らは4つの追加のデータセットを追加し、それらがさまざまな研究分野に適用可能であることを示しています: 記号空間の研究とOOD汎化の文脈での基礎モデル研究のための動物。 ImageNetの背景、サイズ、テクスチャ、照明など、因子の変化の包括的なセットは、ImageNetの追加の堅牢性テストセットとして機能します。 言語ビジョンモデルのテストに使用するSPAR。これを使用して、人工データが既存のベンチマークの問題を回避する方法を示します。 PUG: SPARを補完するためのビジョン言語モデルの微調整のベンチマークであるPUG: AR4Tも導入します。  PUGデータセットは、人工的な画像データの制御と写実性の新たな基準を設定しています。

Google AIがAdaTapeを導入:トランスフォーマーベースのアーキテクチャを持ち、適応的なテープトークンを通じてニューラルネットワークでの動的な計算を可能にする新しいAIアプローチ

人間は、さまざまな状況や条件に応じて思考や反応を適応させる能力を持っていますが、ニューラルネットワークは固定された関数と入力に制約されています。それらは提示されたサンプルの性質や複雑さに関わらず、常に同じ関数を実行します。 この問題に対処するため、研究者たちは適応性を利用しています。適応性は、機械学習システムがシナリオや環境の変化に応じて振る舞いを調整する能力を指します。このパラダイムは、これらのモデルの下流の使用に柔軟性を与えるだけでなく、一部の難しい問題を解決するための強力な帰納的なバイアスとしても機能します。 従来のニューラルネットワークは固定された関数と計算能力を持っていますが、適応的で動的な計算を行うモデルは、入力の複雑さに応じて処理に割り当てる計算予算を変調します。ニューラルネットワークでの適応的な計算は2つの理由で魅力的です。第一に、異なる深さの階層をモデル化する必要がある算術問題を解決する際に、異なる数の計算ステップを可能にする帰納的なバイアスを提供します。第二に、動的な計算によって柔軟性が増し、推論のコストを調整する能力を促進します。これらのモデルは新しい入力に対してより多くのFLOPを処理するように調整することができます。 その結果、Googleの研究者たちは、適応的な計算を利用する新しいモデル、AdaTapeを提案しました。AdaTapeは、モデルの深さではなく入力シーケンスに適応性を直接注入するため非常に実装が簡単であり、また非常に正確です。AdaTapeは、入力の複雑さに基づいて各入力に追加されるさまざまなテープトークンを決定するために適応的なテープ読み取りメカニズムを使用します。 AdaTapeは、トランスフォーマベースのアーキテクチャであり、弾力性のある入力シーケンスを作成するために動的なトークンのセットを使用します。AdaTapeは適応関数を使用し、各入力を表すベクトル表現を使用して動的なサイズのテープトークンのシーケンスを選択します。 AdaTapeは「テープバンク」を使用して、モデルと相互作用するすべての候補テープトークンを保存します。テープバンクは、入力駆動型バンク(入力駆動型バンクは、生の入力を入力トークンのシーケンスにマッピングするために元のモデルトークナイザーとは異なるアプローチを使用して、入力からトークンのバンクを抽出します)と学習可能なバンク(学習可能なベクトルのセットをテープトークンとして使用してテープバンクを生成するより一般的な方法)の2つの異なる方法を使用して作成されます。 その後、テープトークンは元の入力に追加され、トランスフォーマに送られます。そして、2つのフィードフォワードネットワークが使用されます。1つは元の入力用で、もう1つはすべてのテープトークン用です。研究者たちは、入力とテープトークンに対して別々のフィードフォワードネットワークを使用することで、やや良い品質が得られることを観察しました。 研究者たちは、AdaTapeの有用性を多くのパラメータでテストしました。彼らは、入力選択メカニズム内での再帰を組み込んだすべてのベースラインを凌駕し、標準のトランスフォーマでは不可能なカウンタの暗黙の維持を可能にする帰納的なバイアスを提供することが分かりました。研究者たちはまた、AdaTapeを画像分類タスクで評価しました。彼らはImageNet-1KでAdaTapeをテストし、品質とコストのトレードオフの点で、AdaTapeが他の適応型トランスフォーマベースラインよりも優れていることが分かりました。

AdaTape 適応計算とダイナミックな読み書きを持つ基礎モデル

Googleの研究インターンであるFuzhao Xueと研究科学者であるMostafa Dehghaniによって投稿されました。 適応的計算とは、機械学習システムが環境の変化に応じてその動作を調整する能力を指します。従来のニューラルネットワークは固定の機能と計算能力を持っており、すべての入力に対して同じ数のFLOPを使用して処理します。一方、適応的かつ動的な計算を持つモデルは、入力の複雑さに応じて各入力の処理に割り当てる計算予算を変調します。 ニューラルネットワークにおける適応的計算は、2つの主要な理由で魅力的です。まず、適応性を導入するメカニズムは、いくつかの難解なタスクを解決する上で重要な役割を果たす帰納的バイアスを提供します。たとえば、異なる入力に対して異なる計算ステップ数を許可することは、異なる深さの階層をモデリングする必要がある算術問題の解決に重要です。次に、動的な計算によって提供される柔軟性によって、推論のコストを調整する能力が実践者に与えられます。これらのモデルは新しい入力の処理により多くのFLOPを使用するように調整できるためです。 ニューラルネットワークは、さまざまな入力に対して異なる関数または計算予算を使用することで適応的になります。ディープニューラルネットワークは、入力とパラメータに基づいて結果を出力する関数として考えることができます。適応的関数タイプを実装するために、一部のパラメータは入力に基づいて選択的に活性化されます。このプロセスは条件付き計算と呼ばれます。関数タイプに基づく適応性は、ミクスチャーオブエキスパートの研究で探求され、各入力サンプルの希薄に活性化されたパラメータはルーティングによって決定されます。 適応的計算の研究のもう一つの領域は、動的な計算予算です。T5、GPT-3、PaLM、ViTなどの標準的なニューラルネットワークとは異なり、最近の研究では、変動的な計算予算がトランスフォーマーの課題でのパフォーマンス向上につながることが示されています。これらの研究の多くは、トランスフォーマーレイヤーの数に基づいて計算予算を割り当てることによって適応性を実現しています。たとえば、Adaptive Computation Time(ACT)アルゴリズムは、リカレントニューラルネットワークに対して適応的な計算予算を提供するために提案されました。ユニバーサルトランスフォーマーは、ACTアルゴリズムをトランスフォーマーに拡張し、各入力例またはトークンに使用されるトランスフォーマーレイヤーの数に応じて計算予算を割り当てます。PonderNetなどの最近の研究は、同様のアプローチを採用しながら、動的な停止メカニズムを改善しています。 「Elastic Input Sequenceを使用した適応的計算」という論文では、適応的計算を利用する新しいモデル、AdaTapeを紹介しています。このモデルは、適応的計算の前のアプローチと比較して、独自の視点で柔軟な入力シーケンスを作成するためのトランスフォーマーベースのアーキテクチャです。AdaTapeは、入力の複雑さに基づいて追加される可変サイズのテープトークンのシーケンスを動的に選択するために、適応的なテープ読み取りメカニズムを使用します。AdaTapeは実装が非常に簡単であり、必要に応じて精度を向上させるための効果的なツマミを提供しますが、モデルの深さではなく入力シーケンスに適応性を直接注入するため、他の適応基準と比較して効率的です。最後に、AdaTapeはイメージ分類などの標準的なタスクだけでなく、アルゴリズムのタスクでも優れたパフォーマンスを提供し、品質とコストのトレードオフを維持します。 適応的計算トランスフォーマーと弾性入力シーケンス AdaTapeは、適応的な関数タイプと動的な計算予算の両方を使用します。具体的には、トークン化後の入力シーケンスのバッチ(たとえば、ビジョントランスフォーマーのイメージからの非重複パッチの線形射影)に対して、AdaTapeは各入力を表すベクトルを使用して可変サイズのテープトークンのシーケンスを動的に選択します。 AdaTapeは、「テープバンク」と呼ばれるトークンのバンクを使用して、モデルと適応的なテープ読み取りメカニズムを介して相互作用するすべての候補テープトークンを保存します。テープバンクを作成するための2つの異なる方法を探求しています:入力駆動型バンクと学習可能なバンク。 入力駆動型バンクの一般的なアイデアは、元のモデルのトークナイザーとは異なるアプローチを使用して、入力からトークンのバンクを抽出することです。これにより、異なる解像度の画像や異なる抽象度の情報など、異なる視点から入力からの情報への動的なオンデマンドアクセスが可能になります。 一部の場合、異なる抽象度のトークン化は不可能であり、入力駆動型テープバンクは実現不可能です。これに対処するために、AdaTapeは学習可能なベクトルセットを使用してテープバンクを生成するより一般的なアプローチを提供します。このアプローチは学習可能なバンクと呼ばれ、モデルは入力例の複雑さに基づいてトークンを動的に取得する埋め込み層と見なすことができます。学習可能なバンクにより、AdaTapeはより柔軟なテープバンクを生成し、各入力例の複雑さに基づいて計算予算を動的に調整する能力を提供します。つまり、より複雑な例はバンクからより多くのトークンを取得することができるため、モデルはバンクに格納された知識を利用するだけでなく、それを処理するためにより多くのFLOPを使用することができます。 最後に、選択されたテープトークンが元の入力に追加され、次のトランスフォーマーレイヤーに供給されます。各トランスフォーマーレイヤーでは、すべての入力トークンとテープトークンに対して同じマルチヘッドアテンションが使用されます。ただし、2つの異なるフィードフォワードネットワーク(FFN)が使用されます。1つは元の入力のすべてのトークン用であり、もう1つはすべてのテープトークン用です。入力トークンとテープトークン用に別々のフィードフォワードネットワークを使用することで、わずかに良い品質が得られることが観察されました。 AdaTapeの概要。異なるサンプルに対して、テープバンクから異なる数のトークンを選択します。テープバンクは、入力から追加の詳細情報を抽出することなどで駆動することができます。またはトレーニング可能なベクトルのセットであることもあります。適応的なテープ読み取りは、異なる入力に対して、可変長の異なるテープトークンのシーケンスを再帰的に選択するために使用されます。これらのトークンは、単純に入力に追加され、トランスフォーマーエンコーダに供給されます。 AdaTapeは有用な帰納バイアスを提供します AdaTapeを標準のトランスフォーマーと比較するために、標準のトランスフォーマーには解けない非カウンターフリーまたは周期的な正規言語であるパリティタスクを用いて、AdaTapeを評価します。パリティタスクでは、1と0、-1のシーケンスが与えられた場合、モデルはシーケンス内の1の数の奇数または偶数を予測する必要があります。パリティは最も単純な非カウンターフリーまたは周期的な正規言語ですが、標準のトランスフォーマーではこのタスクは解けません。 パリティタスクの評価。標準のトランスフォーマーとユニバーサルトランスフォーマーはこのタスクを実行できず、ランダムな推測ベースラインと同等のパフォーマンスを示しました。 短くてシンプルなシーケンスで評価されたにもかかわらず、標準のトランスフォーマーやユニバーサルトランスフォーマーはパリティタスクを実行できず、モデル内でカウンタを維持することができません。しかし、AdaTapeは、入力選択メカニズム内に軽量の再帰を組み込んでいるため、カウンタの暗黙的な維持を可能にする帰納バイアスを提供し、すべてのベースラインを上回ります。これは、標準のトランスフォーマーでは不可能です。 画像分類の評価…

「GPUを使用してAmazon SageMakerのマルチモデルエンドポイントで数千のモデルアンサンブルを展開し、ホスティングコストを最小限に抑えます」

「人工知能(AI)の導入は、さまざまな業界やユースケースで加速しています深層学習(DL)、大規模言語モデル(LLM)、生成型AIの最近の科学的な突破により、お客様はほぼ人間のような性能を持つ高度な最先端ソリューションを利用することができるようになりましたこれらの複雑なモデルでは、ハードウェアのアクセラレーションが必要とされることがありますなぜなら、それにより高速なトレーニングだけでなく、より速い推論も可能になるからです[…]」

大規模画像モデルのための最新のCNNカーネル

「OpenAIのChatGPTの驚異的な成功が大型言語モデルのブームを引き起こしたため、多くの人々が大型画像モデルにおける次のブレークスルーを予測していますこの領域では、ビジョンモデルは...」

data2vec 自己教師あり学習における画期的な進歩

「機械学習モデルは、訓練にラベル付きデータを大いに依存してきました従来の考え方では、ラベル付きデータでモデルを訓練することで正確な結果が得られますしかし、ラベル付きデータを使用する主なデメリットは、訓練データのサイズが増えるにつれて上昇する高い注釈コストです高い注釈コストは、[…]にとって大きなハードルとなります」

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us