Learn more about Search Results notice

マイクロソフトリサーチは、Florence-2という新しいビジョン基盤モデルを導入しましたこれは、さまざまなコンピュータビジョンやビジョン言語のタスクに対応する統一されたプロンプトベースの表現を持っています

人工一般知能(AGI)システムでは、タスクに関係なく利点を提供する事前トレーニング可能な適応的表現の使用に向けた noticeable な傾向が見られました。自然言語処理(NLP)は、この傾向の良い例です。洗練されたモデルは、明快な指示で複数のドメインとタスクをカバーする包括的な知識を持つ柔軟性を示します。NLPの人気は、コンピュータビジョンにおいて補完的な戦略を促しています。特徴やマスキングされた輪郭、オブジェクト配置など、コンピュータビジョンでは特徴的な視覚データの処理が必要です。コンピュータビジョンにおいて普遍的な表現を実現するためには、図1に示されるように、2次元に配置されたさまざまな厳しい課題を上手に処理する必要があります。 図1 空間の階層性:モデルは、細部のピクセル情報と画像レベルのアイデアを理解することで異なるサイズの空間情報を認識する必要があります。図に示したビジョンにおける複雑な空間の階層をサポートするためには、モデルはさまざまな粒度を管理できる能力を持たなければなりません。 意味的な粒度:コンピュータビジョンでは、普遍的な表現はさまざまな意味的な粒度をカバーする必要があります。抽象的なタイトルからより詳細な説明へのパラダイムの変化により、さまざまな使用方法に対する柔軟な理解が提供されます。 この追求は、特異性と重要な挑戦に特徴付けられます。主要な障害は、より多くのデータの必要性であり、空間の階層性と意味的な粒度の複雑なニュアンスを捉える基盤モデルの開発を妨げます。ImageNet、COCO、Flickr30k Entitiesなどの既存のデータセットは、特殊なアプリケーション向けに広範に人間によってラベル付けされています。この制約に対処するためには、より大規模なスケールで各画像の詳細な注釈を生成することが不可欠です。また、コンピュータビジョンで空間の階層性と意味的な粒度をシームレスに統合するモデルが存在しません。タスク固有のデザインにより、従来のモデルは、意味的セグメンテーション、オブジェクト識別、画像キャプションなどのタスクで優れたパフォーマンスを発揮します。ただし、異なるビジョンタスクに対してタスク非依存的な方法で適応できる完全で統一的なモデルを作成することは、重要です。 統一された事前トレーニングとネットワークデザインを通じて、このモデルは、コンピュータビジョンにおける空間、時間、多モーダルの特徴の統合を先駆的に行っています。最初の進化的イテレーションは、ノイズのあるテキスト-イメージのペアリングでの事前トレーニングとカスタマイズされたアダプタを使用したタスク固有の微調整を通じて転送学習に優れています。ただし、大規模なタスク固有のデータセットとアダプタへの依存は、上記の2つの主要な問題に取り組む際にギャップを生じさせる原因となります。この研究では、Azureの研究者が、豊富なビジュアル注釈を使用して獲得された普遍的なバックボーンを提供しています。これにより、不完全かつ包括的なデータと均一なアーキテクチャの不足を成功裏に解決できる、様々なビジョンタスクに対するプロンプトベースの統一された表現が実現されます。 多タスク学習には、大規模で高品質な注釈付きデータが必要です。時間のかかる人間の注釈に頼らずに、彼らのデータエンジンは、\fld という広範なビジュアルデータセットを作成します。このエンジンには2つの効果的な処理モジュールがあります。第1のモジュールでは、特化モデルを使用して写真に共同でおよび自律的に注釈を付けることにより、従来の単一および手動の注釈戦略から脱却します。集団の知恵理論に類似して、多くのモデルが協力して一致を作り出し、より公平で信頼性のある画像解釈を実現します。習得された基本モデルを使用して、第2のモジュールはこれらの自動注釈を反復的に洗練し、フィルタリングします。 彼らのモデルは、この大規模なデータセットを活用して、シーケンス対シーケンス(seq2seq)アーキテクチャを使用して、イメージエンコーダとマルチモダリティエンコーダ‐デコーダを統合しています。このアーキテクチャは、タスク固有のアーキテクチャの調整を必要とせずに、さまざまなビジョンタスクをサポートします。これは、NLPコミュニティの柔軟なモデル作成と統一された基盤の目標と一致しています。データセット内のすべての注釈は、一貫してテキストの出力に標準化されます。これにより、目標と同じ損失関数を使用して単一の多タスク学習戦略を一貫して最適化することが可能になります。その結果、統一されたパラメータを持つ単一のモデルの制御下で、オブジェクト認識、キャプション付け、およびグラウンディングを含むさまざまな機能を処理できる柔軟なビジョン基盤モデル、またはモデルが作成されます。大規模な言語モデル(LLM)が使用する方法と一致して、テキストをプロンプトとして活用することにより、タスクを活性化させます。 彼らの方法は、一般的な表現を達成し、多くの視覚的タスクで広範な利用が可能です。主な見つかりとしては以下のとおりです: モデルは柔軟なビジョン基礎モデルであり、RefCOCOでの参照表現の理解、Flick30kでの視覚的根拠、およびCOCOでのキャプション作成などのタスクにおいて、新しい最先端のゼロショット性能を提供します。 モデルは小さなサイズにもかかわらず、公開された人間によるアノテーションデータを使用して微調整した後、より専門化されたモデルと競合します。特に、改良されたモデルはRefCOCOで新しいベンチマークの最先端スコアを設定しています。 事前に学習されたバックボーンは、下流のタスクであるCOCOオブジェクト検出、インスタンスセグメンテーション、およびADE20K意味セグメンテーションにおいて、教師付きおよび自己教師付きモデルを上回ります。彼らのモデルは、Mask-RCNN、DINO、およびUperNetフレームワークを使用しており、COCOおよびADE20Kデータセットに対してそれぞれ6.9、5.5、および5.9ポイントの大幅な向上をもたらし、またImageNetでの事前学習モデルのトレーニング効率を4倍にしています。

「PostgreSQLとOpenAI埋め込みを使用した意味検索」

企業のデータベース内にセマンティック検索を実装することは困難であり、大きな努力が必要ですしかし、本当にそうでなければならないのでしょうか?この記事では、どのようにして活用できるかを示します…

「生成AIはその環境への足跡に値するのか?」

今日、生成AIは非常に注目されていますChatGPTには数億人ものユーザーがおり、同様の機能が多くのデジタル製品に組み込まれていると言われています…

フリーユーについて紹介します:追加のトレーニングや微調整なしで生成品質を向上させる新しいAIテクニック

確率的拡散モデルは、画像生成モデルの最新のカテゴリであり、特にコンピュータビジョンに関連するタスクにおいて研究の重要な焦点となっています。確率的拡散モデルは、Variational Autoencoder(VAE)、Generative Adversarial Networks(GAN)、およびベクトル量子化アプローチなど、他の画像生成モデルのクラスとは異なる新しい生成パラダイムを導入しています。これらのモデルは、潜在空間をマッピングするために固定マルコフ連鎖を使用し、データセット内の潜在的な構造的複雑さを捉える複雑なマッピングを可能にします。最近では、高い詳細レベルから生成される例の多様性までを含む印象的な生成能力により、画像合成、画像編集、画像から画像への変換、テキストからビデオへの変換など、さまざまなコンピュータビジョンの応用で突破的な進展が生まれています。 確率的拡散モデルは、拡散プロセスとノイズ除去プロセスの2つの主要なコンポーネントで構成されています。拡散プロセスでは、ガウスノイズが段階的に入力データに組み込まれ、徐々に純粋なガウスノイズに変換されます。対照的に、ノイズ除去プロセスは、学習された逆拡散操作のシーケンスを使用して、ノイズのある状態から元の入力データを復元することを目指します。通常、各ノイズ除去ステップごとにノイズの取り除きを予測するために、U-Netが使用されます。既存の研究は、主にダウンストリームの応用で事前学習された拡散U-Netの使用に焦点を当てており、拡散U-Netの内部特性の限られた探求を行っています。 S-Labと南洋理工大学の合同研究は、拡散モデルの従来の応用からの脱却を図り、拡散U-Netのノイズ除去プロセスにおける効果を調査しています。ノイズ除去プロセスのさらなる理解を得るため、研究者たちは、拡散モデルの生成プロセスを観察するためにフーリエドメインへのパラダイムシフトを導入しています。これは比較的未開拓の研究領域です。 上の図は、最上段における進行性のノイズ除去プロセスを示し、次に示される2つの行は、各ステップごとに対応する逆フーリエ変換後の低周波数および高周波数空間ドメイン情報を示しています。この図からは、低周波成分の漸進的な変調が示され、変調は緩やかな率で行われていることがわかります。一方、高周波成分は、ノイズ除去プロセス全体を通じてより顕著なダイナミクスを示しています。これらの結果は、直感的に説明することができます。低周波成分は、画像のグローバルな構造と特性を表しており、グローバルなレイアウトや滑らかな色を含んでいます。これらの成分に大きな変更を加えることは、画像の本質を根本的に変える可能性があるため、ノイズ除去プロセスでは一般的には適していません。一方、高周波成分は、エッジやテクスチャなどの画像の急速な変化を捉え、ノイズに非常に敏感です。ノイズ除去プロセスでは、これらの複雑なディテールを保持しながらノイズを除去する必要があります。 ノイズ除去時の低周波成分と高周波成分に関するこれらの観察を考慮すると、調査は拡散フレームワーク内のU-Netアーキテクチャの具体的な貢献を特定するために広がります。U-Netデコーダの各段階では、スキップコネクションとバックボーンからのスキップフィーチャーが組み合わされます。研究は、U-Netの主要なバックボーンがノイズ除去において重要な役割を果たしている一方、スキップコネクションはデコーダモジュールに高周波フィーチャーを導入し、微細なセマンティック情報の回復に役立っていることを明らかにしました。ただし、この高周波フィーチャーの伝播は、推論フェーズにおいてバックボーンの固有のノイズ除去能力を損なう可能性があり、異常な画像の詳細の生成につながることがあります(図1の最上段に示されています)。 この発見を踏まえ、研究者らは追加の計算コストの要求やトレーニング・ファインチューニングの必要性を伴わずに生成されたサンプルの品質を向上させる「FreeU」と呼ばれる新しいアプローチを提案しています。以下に、そのフレームワークの概要を報告します。 推論フェーズにおいて、U-Netアーキテクチャの主要なバックボーンとスキップ接続からの特徴の寄与のバランスを取るために、2つの専門的な変調因子が導入されます。最初の変数である「バックボーン特徴因子」は、主要なバックボーンの特徴マップを増幅させるために設計され、ノイズ除去プロセスを強化します。しかし、バックボーン特徴のスケーリング因子を含めることは、著しい改善をもたらす一方で、時折、望ましくないテクスチャのオーバースムージングを引き起こすことが観察されます。この懸念に対処するために、2つ目の因子である「スキップ特徴のスケーリング因子」が導入され、テクスチャのオーバースムージングの問題を軽減します。 FreeUフレームワークは、テキストから画像生成やテキストから動画生成などのアプリケーションを含む既存のディフュージョンモデルとシームレスに統合する柔軟性を示します。Stable Diffusion、DreamBooth、ReVersion、ModelScope、およびRerenderなどの基礎モデルを使用し、この手法の包括的な実験評価がベンチマーク比較において行われます。FreeUが推論フェーズで適用されると、これらのモデルは生成された出力の品質の noticeable な向上を示します。以下の図で示される視覚的な表現は、FreeUが生成された画像の細かいディテールと全体的なビジュアルの忠実度を著しく向上させる効果を証明しています。 これは、追加のトレーニングやファインチューニングを必要とせずに生成モデルの出力品質を向上させる新しいAIテクニックであるFreeUの概要でした。興味があり、さらに詳しく知りたい場合は、以下の引用リンクを参照してください。

ICAと現実のカクテルパーティの問題

「独立成分分析(ICA)は、1990年代以降の重要な発展¹以降、一般的に使用されるようになったデータ分解および前処理技術ですICAは、盲目的なソース...」

取りましょう NVIDIA NeMo SteerLMは、推論中にモデルの応答をカスタマイズすることができるようにします

開発者は、強力な大規模な言語モデル(LLMs)を自分たちの目的地に到達する際に、AIパワードステアリングホイールを利用して道路にしっかりと踏み入れることができます。 NVIDIA NeMo SteerLMは、会社がモデルの応答をプロダクション中にダイアルインするためにノブを定義することができるようにし、それを推論と呼ばれるプロセスとして実行できるようにします。LLMをカスタマイズするための現在の手法とは異なり、単一のトレーニングランは、何十も、または何百ものユースケースに対応できるモデルを作成し、時間とお金を節約することができます。 NVIDIAの研究者は、SteerLMを作成し、AIモデルにユーザーが関心を持つ内容、たとえば特定のユースケースや市場での従うべき道路標識やユーザー定義の属性を教えるために使用しました。これらの属性はほぼ何でも評価できます-例えば、モデルの応答の有用さやユーモアの程度などです。 1つのモデル、多岐にわたる用途 その結果、新たな柔軟性が生まれました。 SteerLMを使用すると、ユーザーは望む属性をすべて定義し、それらを1つのモデルに組み込むことができます。そして、モデルが実行されている間に、特定のユースケースに必要な組み合わせを選択することができます。 例えば、特定の会計、販売、またはエンジニアリング部門、または特定の市場の固有のニーズに合わせてカスタムモデルを調整することができます。 この方法は、継続的な改善サイクルも可能にします。カスタムモデルの応答は、将来のトレーニングランのデータとして使用でき、モデルをより有用なレベルに調整する際に役立ちます。 時間とお金の節約 これまで、特定のアプリケーションのニーズに合わせた生成型AIモデルの適合は、エンジンのトランスミッションを再構築するのと同等でした。開発者は、データセットに労力をかけてラベルを付け、たくさんの新しいコードを書き、ニューラルネットワークのパラメータを調整し、モデルを何度も再トレーニングする必要がありました。 SteerLMは、このような複雑で時間のかかるプロセスを次の3つの簡単なステップに置き換えます: 基本的なプロンプト、応答、および目的の属性を使用して、これらの属性のパフォーマンスを予測するAIモデルをカスタマイズする。 このモデルを使用してデータセットを自動生成する。 標準の監督付き微調整技術を使用してデータセットでモデルをトレーニングする。 多岐にわたる企業のユースケース 開発者は、SteerLMをテキスト生成を必要とするほとんどの企業のユースケースに適応させることができます。 SteerLMを使用することで、会社はリアルタイムに顧客の態度、人口統計情報、または状況に合わせて調整できる単一のチャットボットを作成することができます。さまざまな市場や地域で提供される顧客に合わせた独自の新しい体験を提供するためのツールとして、SteerLMはすぐれています。 SteerLMはまた、1つのLLMが企業全体の柔軟な執筆補助として機能することも可能にします。 例えば、法律関係者は、法的なコミュニケーションに対して公式なスタイルを採用するために、推論の間にモデルを変更することができます。また、マーケティングスタッフは、対象とする観客に対してより会話的なスタイルを選択することができます。 SteerLMでゲームをエンジョイ SteerLMの潜在能力を示すために、NVIDIAはそのクラシックアプリケーションの1つ、ゲームにおいてデモンストレーションを行いました(下記の映像をご覧ください)。 現在、いくつかのゲームには、プレーヤーが制御できないキャラクター、つまりユーザーや状況に関係なく機械的に事前録音されたテキストを繰り返す非プレイアブルキャラクターが数多く存在します。…

「AnimateDiffとは モデル特有の調整なしでパーソナライズされたテキストからイメージ(T2I)モデルをアニメーション生成器に拡張するための効果的なAIフレームワーク」

テキストから画像(T2I)生成モデルは、研究コミュニティ内外から前例のない注目を集めており、芸術家やアマチュアなどの非研究者ユーザーにとってはAI支援のコンテンツ作成への低い敷居を提供しています。DreamBoothやLoRAなどのいくつかの軽量な個人化技術は、RTX3080を搭載したノートパソコンのような消費者向けのデバイスで小規模データセットに対してこれらのモデルをカスタマイズすることを可能にし、その後、これらのモデルは noticeably improved quality でカスタマイズされたコンテンツを生成することができます。これらの技術は、既存のT2I生成モデルの創造性をさらに促すことを目指しています。 これにより、ユーザーは事前学習済みのT2Iモデルに簡単かつ手頃な価格で新しいアイデアや美学を追加することができるようになり、CivitAIやHuggingfaceなどのモデル共有ウェブサイトでプロやアマチュアによって作成されたカスタマイズモデルの増加につながっています。DreamBoothやLoRAを使用して開発されたカスタマイズされたテキストから画像へのモデルは、その優れた視覚的品質に対して称賛を受けていますが、静止画像のみを生成します。時間的な柔軟性の欠如が主な問題です。アニメーションの多様な使用を考慮して、現在のほとんどのカスタマイズされたT2Iモデルを元の視覚的品質を維持しながらアニメーション画像を生成するモデルに変換できるかどうかを知りたいと考えています。 最近の一般的なテキストから動画を生成する技術の推奨事項として、初期のT2Iモデルに時間的なモデリングを組み込み、ビデオデータセットを使用してモデルを微調整することが挙げられます。しかし、カスタマイズされたT2Iモデルでは、デリケートなハイパーパラメータの微調整、カスタマイズされたビデオの収集、要求の厳しい計算リソースのため、これは困難になります。本研究では、上海AI研究所、香港中文大学、スタンフォード大学の研究者が、AnimateDiffという一般的な技術を提案し、モデル固有の調整を必要とせずに、時間の経過に伴う美的な内容の一貫性を持つ任意のカスタマイズされたT2Iモデルでアニメーション画像を作成できるようにしています。 ほとんどのカスタマイズされたT2Iモデルが同じ基本モデル(例:stable diffusion)から派生していることや、各カスタマイズドメインの対応するビデオを収集することが困難であることを考慮し、彼らはモーションモデリングモジュールの設計に取り組みました。具体的には、ベースのT2Iモデルにモーションモデリングモジュールを追加し、大規模なビデオクリップで洗練され、適切なモーションプライオリティを学習します。なお、基本モデルのパラメータは変更されません。微調整の後、彼らは作成されたパーソナライズされたT2Iも、よく学習されたモーションプライオリティから利益を得ることができ、魅力的で流れるようなアニメーションを作成することを示しています。 モーションモデリングモジュールは、追加のデータ収集やカスタムトレーニングを必要とせずに、関連するすべてのカスタマイズされたT2Iモデルをアニメーション化することができます。彼らは、AnimateDiffを実際には様々な典型的なDreamBoothやLoRAモデルに適用し、リアルな画像やアニメ画像を含んでいます。特別な調整なしに、ほとんどのカスタマイズされたT2Iモデルは、熟練したモーションモデリングモジュールをインストールするだけで直接アニメーション化することができます。さらに、彼らは実践で、モーションモデリングモジュールが時間の次元に沿ったプレーンバニラアテンションのみで正しいモーションプライオリティを獲得できることを発見しました。また、彼らはモーションプライオリティが2Dアニメや3Dアニメーションなどのドメインでどのように使用できるかを示しています。これにより、AnimateDiffはカスタムエネルギーの簡単かつ効率的なベースラインを提供し、消費者がカスタマイズされた画像モデルの料金で簡単に特注のアニメーションを取得できるようにします。コードはGitHubで入手できます。

Apple SiliconでのCore MLを使用した安定した拡散を利用する

Appleのエンジニアのおかげで、Core MLを使用してApple SiliconでStable Diffusionを実行できるようになりました! このAppleのレポジトリは、🧨 Diffusersを基にした変換スクリプトと推論コードを提供しており、私たちはそれが大好きです!できるだけ簡単にするために、私たちは重みを変換し、モデルのCore MLバージョンをHugging Face Hubに保存しました。 更新:この投稿が書かれてから数週間後、私たちはネイティブのSwiftアプリを作成しました。これを使用して、自分自身のハードウェアでStable Diffusionを簡単に実行できます。私たちはMac App Storeにアプリをリリースし、他のプロジェクトがそれを使用できるようにソースコードも公開しました。 この投稿の残りの部分では、変換された重みを自分自身のコードで使用する方法や、追加の重みを変換する方法について説明します。 利用可能なチェックポイント 公式のStable Diffusionのチェックポイントはすでに変換されて使用できる状態です: Stable Diffusion v1.4:変換されたオリジナル Stable Diffusion v1.5:変換されたオリジナル Stable…

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us