Search Results 写真

ジョンズ・ホプキンス大学とUCサンタクルーズ校の研究者が、画像ベースのAI学習の画期的な進歩であるD-iGPTを発表しました

“` 自然言語処理（NLP）は、GPTシリーズなどの大規模言語モデル（LLMs）の導入により、さまざまな言語的なタスクに対して新たなパフォーマンス基準を確立する変革期に入りました。自己回帰前処理は、モデルにシーケンス内で最も可能性の高いトークンを予測することを教えることで、この驚異的な達成に影響を与える主要な要素の1つです。この基本的な技術により、モデルは構文と意味の複雑な相互作用を吸収し、人間のように言語を理解する卓越した能力を持つことができます。自己回帰前処理は、NLPに加えてコンピュータビジョンにも大きく貢献しています。コンピュータビジョンにおいて、自己回帰前処理は最初は成功しましたが、後続の開発によりBERTスタイルの前処理に有利な鮮明なパラダイム変化が示されました。この移行は特に注目に値しますが、最初のiGPTの結果からは、自己回帰およびBERTスタイルの前処理がさまざまなタスクで同様のパフォーマンスを発揮することが示されました。ただし、視覚表現学習における効果の高さから、その後の研究ではBERTスタイルの前処理が優先されるようになりました。例えば、MAEはランダムにマスクされたピクセルの値を予測するだけの視覚表現学習に対してスケーラブルなアプローチを示しています。本研究では、ジョンズ・ホプキンス大学とUCサンタクルーズの研究チームがiGPTを再検討し、自己回帰前処理が広範に適用された場合に高度な視覚学習者を生み出すことができるかどうかを問いました。その過程には2つの重要な変更が組み込まれています。まず、研究チームは画像が自然にノイズや冗長性を持つため、BEiTを使用して写真を意味的なトークンにトークン化します。この変更により、自己回帰予測の焦点がピクセルから意味的なトークンにシフトし、さまざまな画像領域の相互作用のより洗練された理解が可能になります。さらに、研究チームは生成デコーダに識別デコーダを追加し、次の意味的なトークンを自己回帰的に予測します。視覚領域内の意味的なトークンの予測は、この追加のコンポーネントの責任です。さらに興味深いことに、CLIPのように識別的にトレーニングされたモデルは、この前処理経路に最適な意味的な視覚トークンを提供します。研究チームはこの改良された方法をD-iGPTと呼んでいます。彼らの提案されたD-iGPTの効率性は、さまざまなデータセットとタスクで行われた包括的なテストによって確認されています。関連する唯一のデータセットとしてImageNet-1Kを使用し、彼らのベースサイズのモデルは、従来の最先端モデルを0.6%上回る86.2％のトップ-1分類精度を達成しました。さらに、彼らの大規模モデルは、3600万の公開データセットで89.5％のトップ-1分類精度を達成します。D-iGPTは、パブリックデータセットで以前の最先端トレーニングと同等のパフォーマンスを発揮しますが、トレーニングデータとモデルのサイズがはるかに少なくなります。同じ前処理とファインチューニングのデータセットを使用して、研究チームはD-iGPTをセマンティックセグメンテーションにも適用し、MAEと比較して優れたパフォーマンスを発揮することを明らかにしました。 “`

メタAIが効率的なSAMを紹介します：パラメータ数が20分の1でランタイムが20倍速いSAMの弟です

ビジョンにおいて、Segment Anything Model (SAM) は、ゼロショットオブジェクト提案生成、ゼロショットインスタンスセグメンテーション、エッジ検出など、数多くの画像セグメンテーションタスクで優れた成果を上げています。 SAMのビジョントランスフォーマ (ViT) モデルの基盤となるのは、SA-1Bビジュアルデータセットです。このデータセットには、１１００万枚の写真から１０億のマスクが含まれており、与えられた画像内の任意のアイテムをセグメント化することが可能です。Segment Anythingの能力を持つことから、SAMはビジョンにおける基盤モデルに留まらず、ビジョンの外でも活用されています。これらの利点にもかかわらず、特にViT-Hのような画像エンコーダのようなSAMアーキテクチャの高いコストは、効率の面での実用上の採用を妨げるものとなっています。この困難に対応するため、最近のいくつかの研究論文では、SAMをプロンプトベースのインスタンスセグメンテーションに利用する際の金銭的負担を軽減する解決策が提案されています。例えば、既存のデフォルトのViT-H画像エンコーダの専門知識の恩恵を、小さなViT画像エンコーダにも与えることができます。リアルタイムのCNNベースの設計は、Segment Anythingの処理コストを削減することができます。ViT-Tiny/-Smallのような十分にトレーニングされた軽量なViT画像エンコーダを、パフォーマンスを犠牲にすることなく利用することがこの論文では提案されています。新しいメタAIの研究では、SAMを活用したマスク画像関連の軽量な事前学習されたViTバックボーンを作成しています。このために、研究者たちはSAMモデルで有名なMAE事前学習手法を利用して高品質の事前学習済みViTエンコーダーを確立しました。具体的には、提案されたSAMIは、イメージパッチではなくSAMのViT-Hから特徴を再構築するためにマスク画像モデルをトレーニングし、SAMエンコーダであるViT-Hを使用して特徴埋め込みを提供します。これにより、画像のカテゴリ分類、オブジェクト識別、セグメンテーションなどの後続操作に利用できる一般的なViTバックボーンが生成されます。その後、事前学習済みの軽量エンコーダをSAMデコーダを利用してセグメンテーションやその他のタスクに適用するように調整されます。チームはまた、現実世界での実装における品質と効率のトレードオフを持つ軽量なSAMモデルであるEfficientSAMを提供しています。チームは、224×224の解像度を利用してImageNet上でモデルを再構成損失を用いて事前学習し、その後、対象のタスクで監督データを利用して微調整して、マスク画像事前学習の転移学習の文脈での戦略を評価しました。SAMIによって一般化可能な軽量エンコーダを学習することができます。SAMI事前学習を行ったImageNet-1Kでトレーニングされたモデルは、ViT-Tiny/-Small/-Baseのような一般化能力において優れた結果を示しました。ImageNet-1Kで100エポックで微調整された場合、ViT-Smallモデルでは82.7%のトップ1の正答率を達成し、その性能は他の最先端の画像事前学習ベースラインよりも優れています。オブジェクト検出、インスタンスセグメンテーション、意味セグメンテーションの領域では、チームは事前学習モデルをさらに改良しました。既存の事前学習ベースラインと比較して、彼らの戦略はこれらのタスクにおいてそれらを上回ります。さらに、小さなモデルでも大幅な改善が見られます。さらに、Segment Anythingのチャレンジもモデルの評価に利用されます。このモデルは、COCO/LVISのゼロショットインスタンスセグメンテーションにおいて、FastSAMや現在の軽量SAMアルゴリズムよりも4.1AP/5.2APの改善が見られます。

テンセントの研究者が「FaceStudio」を発表：アイデンティティ保持を重視したテキストから画像生成の革新的な人工知能アプローチ

テキストから画像への拡散モデルは、人工知能の研究分野で興味深い領域です。これらのモデルは、拡散モデルを利用して、テキストの説明に基づいた生き生きとした画像を作成することを目指しています。このプロセスでは、基本的な分布からサンプルを反復的に生成し、テキストの説明を考慮しながら目標の画像に似せるように徐々に変形させることが含まれています。複数のステップが関与し、生成された画像に進行性のノイズが加わります。現在のテキストから画像への拡散モデルは、既存の課題に直面しています：テキストの説明だけから主題を正確に描写することです。この制約は、特に人間の顔の特徴などの複雑な詳細を生成する必要がある場合に顕著に現れます。その結果、テキストの手がかりを超えたアイデンティティを保持するイメージ合成を探求する関心が高まっています。テンセントの研究者は、人間のイメージのためのアイデンティティを保持するイメージ合成に焦点を当てた新しいアプローチを紹介しました。彼らのモデルは、素早く効率的な画像生成のために複雑な微調整手続きを回避する直接のフィードフォワードアプローチを採用しています。テキストのプロンプトを利用し、スタイルとアイデンティティの画像から追加の情報を取り入れます。彼らの手法は、マルチアイデンティティのクロスアテンションメカニズムを含み、モデルが画像内の異なるヒト領域に各アイデンティティからの具体的なガイダンス詳細を関連付けることを可能にします。彼らのモデルを人間のイメージを含むデータセットで訓練し、アイデンティティの入力として顔の特徴を使用することで、モデルはアイデンティティの特徴を強調しながらヒトのイメージを再構築することを学びます。彼らのモデルは、主題のアイデンティティを忠実に保持しながらヒトのイメージを合成する一見すると素晴らしい能力を示します。さらに、ユーザーの顔の特徴をカートゥーンなどのさまざまなスタイルのイメージに重ねることを可能にし、アイデンティティを損なうことなくさまざまなスタイルで自分自身を視覚化することができます。さらに、対応する参照写真が提供された場合には、複数のアイデンティティを組み合わせたアイデアを生成することにも優れています。彼らのモデルは、シングルショットとマルチショットの両方のシナリオで優れたパフォーマンスを発揮し、アイデンティティを保持するための設計の効果を強調しています。基本的なイメージ再構築はおおよそイメージの内容を保持しますが、微細なアイデンティティ情報には苦労します。一方、彼らのモデルはアイデンティティガイダンス枝からアイデンティティ情報を成功裏に抽出し、顔の領域に対してより優れた結果をもたらします。ただし、このモデルの人間の顔を複製する能力は、特に冒涜的なまたは文化的に不適切なイメージを作成する可能性について倫理的な懸念を引き起こします。この技術の責任ある使用は重要であり、敏感な状況での不正な使用を防ぐためにガイドラインの策定が必要です。

Learn more about Search Results 写真 - Page 10

ジョンズ・ホプキンス大学とUCサンタクルーズ校の研究者が、画像ベースのAI学習の画期的な進歩であるD-iGPTを発表しました

メタAIが効率的なSAMを紹介します：パラメータ数が20分の1でランタイムが20倍速いSAMの弟です

テンセントの研究者が「FaceStudio」を発表：アイデンティティ保持を重視したテキストから画像生成の革新的な人工知能アプローチ

次元性の祝福？！（パート1）

ジェミニに会いましょう：Googleの最大かつ最もパワフルなAIモデル

「12年間のデータの旅の年末レポート」

「わかっている？人間と機械の知能」

「オンライン大規模な推薦のためのデュアル拡張二つのタワーモデル」

「部分情報分解とは何か、そして特徴がどのように相互作用するのか」

「SageMakerエンドポイントとしてカスタムMLモデルを展開する」

Find the right Blockchain Investment for you