Learn more about Search Results ImageNet - Page 10
- You may be interested
- ソートアルゴリズムの概要:マージソート
- 「包括的な革新:Amazon SageMakerでのHac...
- オープンソース大規模言語モデルの優しい紹介
- StableCodeについて知っておくべきこと:S...
- 「Matplotlib チュートリアル:あなたの国...
- 「脳損傷の修復に有望な3Dプリント方法」
- 「生成タスクを分類タスクに変換する」
- アマゾンの研究者は、深層学習を活用して...
- 「ChatGPTが連邦取引委員会によって潜在的...
- 基本に戻る ウィーク4:高度なトピックと展開
- 「AWSを基にしたカスケーディングデータパ...
- 「LLMに対する連鎖思考の促進」
- エネルギー省が新興技術を加速させます
- 「2023年のスポーツアナリティクスについ...
- 新しいAI論文で、CMUとGoogleの研究者が言...
メイヨークリニックのAI研究者たちは、拡散モデルを活用したマルチタスク脳腫瘍インペインティングアルゴリズムを構築するための機械学習ベースの手法を紹介しました
近年、医用画像に関連するAI、特に機械学習(ML)に関する出版物の数は急増しています。Meshキーワード「人工知能」と「放射線学」を使用して現在のPubMedの検索では、2021年には5,369件の論文が見つかりました。これは2011年の結果の5倍以上です。MLモデルは、分類から意味的セグメンテーション、物体検出、画像生成まで、医療の効率と結果を改善するために常に開発されています。例えば、診断放射線学の数多くの公開報告によれば、MLモデルは特定のタスク(例:異常検出や病理スクリーニング)で医療専門家と同等またはそれ以上のパフォーマンスを発揮することができると示されています。 したがって、AIを正しく使用すると、放射線科医の助けとなり、彼らの労働を大幅に削減できることは否定できません。医療画像のMLモデルの開発に対する関心の高まりにもかかわらず、実用上の課題がこれらのモデルの適用を制限したり、実質的なバイアスを生じさせる可能性があります。データの不足とデータの不均衡がそのうちの2つです。一方で、医療画像のデータセットは、ImageNetなどの自然な写真データセットよりもはるかに小さいことがよくあり、患者のプライバシーの問題から機関のデータセットを結集するか公開することが不可能な場合もあります。他方で、データサイエンティストがアクセスできる医療画像のデータセットでさえも、よりバランスが取れている可能性があります。 つまり、特定の病理を持つ患者の医療画像データの量は、一般的な病理または健康な人々のデータに比べて著しく低いです。不十分に大きなまたは不均衡なデータセットを使用して機械学習モデルをトレーニングまたは評価すると、モデルのパフォーマンスに系統的なバイアスが生じる可能性があります。データの不足とデータの不均衡に対抗するための主要な戦略の1つは、合成画像生成です。これには、匿名化された医療画像データセットの公開や、データ共有なしで複数の機関のデータセット上で機械学習(ML)モデルの開発を可能にするフェデレーテッドラーニングなどの戦略の推奨も含まれます。 生成モデルは、実際の患者に属さないリアルな医療画像データを学習し生成することができ、患者のプライバシーを危険にさらすことなく公開することができます。生成的対抗ネットワーク(GAN)が登場して以来、高品質な合成データを生成できるさまざまな生成モデルが紹介されてきました。これらのモデルの多くはラベル付けされていない画像データを生成するため、セルフスーパーバイズドやセミスーパーバイズドのダウンストリームモデルなど特定のアプリケーションに役立つ場合があります。さらに、他の一部のモデルは条件付き生成が可能であり、事前に定義された臨床的、テキスト的、または画像的変数に基づいて画像を生成することができます。 デノイジング拡散確率モデル(DDPM)は、合成画像の品質と出力の多様性においてGANを上回る新しいクラスの画像生成モデルです。この後者の生成モデルのクラスは、ラベル付きの合成データを生成することができ、機械学習の研究、医療画像の品質、患者のケアを進めることができます。合成医療画像データの生成において非常に成功しているにもかかわらず、GANは出力の多様性の欠如と不安定なトレーニングのためにしばしば批判されています。オートエンコーダの深層学習モデルは、GANよりもトレーニングが容易でより多様な出力を生成するような、より伝統的な代替手法です。ただし、彼らの合成結果はGANの画質には及びません。 マルコフ連鎖理論に基づく拡散モデルは、最初の画像にランダムなガウスノイズをパックして徐々にノイズを除去することで、合成出力を生成する方法を学習します。この反復的なノイズ除去プロセスにより、拡散モデルの推論実行は他の生成モデルと比較してかなり遅くなります。しかし、これにより、入力データからより表現的な特徴を抽出することができ、他のモデルを上回るパフォーマンスを発揮することができます。この方法論の論文では、マルチシーケンシャル脳磁気共鳴画像(MRI)研究におけるマルチタスク脳腫瘍インペインティングに使用できる拡散モデルを紹介しています。 彼らは、脳MRIのT1重み付け(T1)、造影T1重み付け(T1CE)、T2重み付け(T2)、またはFLAIRシーケンスの2次元(2D)軸スライスを受け取り、そのスライスのユーザー定義の切り取り領域に高品質な合成画像を生成することができる拡散モデルを作成しました。生成される画像は高度なグリオーマとその関連コンポーネント(周囲の浮腫など)または腫瘍のない(正常と思われる)脳組織のいずれかです。 高度なグリオーマの発生率は、アメリカでは100,000人あたり3.56であり、脳腫瘍に関する公開されているMRIデータセットはほんのわずかしかありません。彼らのモデルは、限られたデータの中で脳MRIスライス上の合成腫瘍または腫瘍のない組織を構成する機能を持つML研究者に編集(誘発または除去)を許可します。このツールはオンラインで公開されており、利用することができます。モデルはGitHubでドキュメントと共にオープンソース化されています。 この記事は、研究論文「DIFFUSION MODELSを用いたマルチタスク脳腫瘍インペイント法:方法論レポート」に基づいてMarktechpostスタッフがまとめた研究概要記事です。この研究に関する全てのクレジットは、このプロジェクトの研究者に帰属します。論文、コード、ツールをご覧ください。 当社のMLサブレディットに参加していただくことをお忘れなく Mayo ClinicのAI研究者たちは、拡散モデルを活用してマルチタスク脳腫瘍インペイントアルゴリズムを構築するための機械学習ベースの手法を紹介しました。詳細はMarkTechPostをご覧ください。
「FathomNetをご紹介します:人工知能と機械学習アルゴリズムを使用して、私たちの海洋とその生物の理解のために視覚データの遅れを処理するためのオープンソースの画像データベース」
海洋は前例のない速さで変化しており、膨大な海洋データを視覚的に監視しながら責任ある管理を維持することは困難です。必要なデータ収集の量と速さは、基準を求める研究コミュニティの能力を超えています。データの一貫性の欠如、不適切なフォーマット、大規模かつラベル付けされたデータセットへの要望は、機械学習の最近の進歩の限定的な成功に寄与しています。これらの進歩により、迅速かつより複雑な視覚データ分析が可能となりました。 この要件を満たすため、いくつかの研究機関がMBARIと協力して、人工知能と機械学習の能力を活用して海洋研究を加速させる取り組みを行いました。このパートナーシップの一つの成果がFathomNetです。FathomNetはオープンソースの画像データベースであり、先進的なデータ処理アルゴリズムを使用して、注意深くキュレーションされたラベル付きデータを標準化および集約します。チームは、人工知能と機械学習の利用こそが海洋の健康に関する重要な研究を加速し、水中映像の処理のボトルネックを解消する唯一の方法だと考えています。この新しい画像データベースの開発プロセスに関する詳細は、Scientific Reports誌の最新の研究論文に記載されています。 機械学習は、過去において視覚解析の分野を変革してきました。その一部には、膨大な数の注釈付きデータがあることが挙げられます。陸地の応用において、機械学習とコンピュータビジョンの研究者が注目するベンチマークデータセットはImageNetとMicrosoft COCOです。研究者に対して豊かで魅力的な基準を提供するために、チームはFathomNetを作成しました。フリーでアクセス可能な、高品質な水中画像トレーニングリソースを確立するために、FathomNetはさまざまなソースからの画像と記録を組み合わせています。 MBARIのビデオラボの研究員は、35年間にわたってMBARIが収集した約28,000時間の深海ビデオと100万枚以上の深海写真を代表するデータを注意深く注釈付けしました。MBARIのビデオライブラリには、動物、生態系、および物体の観察を記録した8,200万以上の注釈があります。国立地理学協会の探検技術ラボは、さまざまな海洋生息地や全ての海洋盆地にまたがる場所から、1,000時間以上のビデオデータを収集しました。これらの記録は、CVision AIが開発したクラウドベースの共同分析プラットフォームで使用され、ハワイ大学とOceansTurnの専門家によって注釈が付けられました。 さらに、2010年に、アメリカ国立海洋大気庁(NOAA)の海洋探査チームは、NOAA船オケアノスエクスプローラー号を使用してデュアルリモート操作機器システムを使ってビデオデータを収集しました。ビデオデータの注釈付けをより詳細に行うために、2015年から専門の分類学者に資金提供しています。最初は、ボランティアの科学者たちを通じて注釈付けをクラウドソーシングしていました。MBARIのデータセットの一部、および国立地理学協会とNOAAの資料がすべてFathomNetに含まれています。 FathomNetはオープンソースであるため、他の機関も容易に貢献し、視覚データの処理と分析において従来の方法よりも時間とリソースを節約することができます。さらに、MBARIはFathomNetのデータを学習した機械学習モデルを使用して、遠隔操作型の水中無人機(ROV)によって撮影されたビデオを分析するためのパイロットイニシアチブを開始しました。AIアルゴリズムの使用により、ラベリングの速度が10倍に向上し、人間の作業量が81%削減されました。FathomNetデータに基づく機械学習アルゴリズムは、海洋の探査と監視を革新する可能性があります。例えば、カメラと高度な機械学習アルゴリズムを搭載したロボット搭載車両を使用して、海洋生物やその他の水中のものを自動的に検索して監視することが挙げられます。 FathomNetには現在84,454枚の画像があり、81の異なるコレクションから175,875箇所のローカリゼーションを反映しています。このデータセットは、さまざまな位置やイメージング設定で200,000以上の動物種に対して1,000以上の独立した観察を取得した後、2億以上の観測を持つ予定です。4年前までは、注釈付きの写真の不足が何千時間もの海洋映像を機械学習で調査することを阻んでいました。FathomNetは、発見を解き放ち、探検家、科学者、一般の人々が海洋研究のペースを加速させるために利用できるツールを可能にすることで、このビジョンを現実化します。 FathomNetは、協力と共同科学が海洋の理解の向上にどのように貢献するかを示す素晴らしい例です。研究者たちは、MBARIと他の共同研究者からのデータを基盤として、データセットが海洋研究の加速に貢献することを期待しています。研究者たちはまた、FathomNetが海洋愛好家や様々なバックグラウンドを持つ探検家が知識と技術を共有するコミュニティとして機能することを強調しています。これは、広範な参加なしに達成できなかった海洋視覚データの問題に取り組むための飛躍台となります。視覚データの処理を高速化し、持続可能で健全な海洋を作り上げるために、FathomNetはコミュニティからのラベル付きデータをさらに含めるために常に改善されています。 この記事はMarktechpostスタッフによる研究概要記事として書かれたものであり、研究論文『FathomNet: 海洋での人工知能を可能にするためのグローバル画像データベース』に基づいています。この研究に関するすべてのクレジットは、このプロジェクトの研究者に帰属します。論文、ツール、参考記事もチェックしてください。また、最新のAI研究ニュース、素敵なAIプロジェクトなどを共有している26k+ ML SubReddit、Discordチャンネル、メールニュースレターにぜひ参加してください。 この投稿は、FathomNetというオープンソースの画像データベースについてです。このデータベースは、人工知能と機械学習アルゴリズムを使用して、私たちの海洋とその生物を理解するために視覚データのバックログを処理するのに役立ちます。 この投稿はMarkTechPostで最初に公開されました。
中国の最新のAI研究により、「OMMO」と呼ばれる大規模な屋外マルチモーダルデータセットと新しい視点合成および暗黙的なシーン再構築のためのベンチマークが紹介されました
最近の暗黙的な脳表現の進歩により、写真のような新しい視点の合成と高品質な表面再構築が可能になりました。残念ながら、現在使用されているアプローチのほとんどは、単一のアイテムや内部のシーンに重点を置いており、屋外の状況で使用すると合成のパフォーマンスが向上する可能性があります。現在の屋外シーンのデータセットは、仮想シーンをレンダリングしたり、基本的なシーンをいくつか収集することで、控えめな地理的スケールで作成されています。標準のベンチマークや大規模な屋外シーンのデータセットがないため、一部の最新のアプローチのパフォーマンスを評価することは不可能です。これらのアプローチは、大規模なシーンに適しており、この問題に取り組もうとしていますが、その効果を評価することができません。 BlendedMVSとUrbanScene3Dのコレクションには、本物のシーンとは異なるテクスチャや外観要素を持つ再構築または仮想シーンからのシーンの写真が含まれています。ImageNetやCOCOのようなインターネットからの画像収集は非常に効率的なデータセットを作成することができますが、シーンの常に変化するオブジェクトや照明条件のため、NeRFベースのジョブ評価には適していません。高精度な産業用レーザースキャナーによって撮影されたリアルな屋外の風景の基準として、Tanks and Templesが提供されています。ただし、そのシーンのスケールはまだ小さすぎます(平均463m2)し、単一の外部オブジェクトや構造にしか焦点を当てていません。 出典: https://arxiv.org/pdf/2301.06782.pdf 低照度で円形のカメラ軌跡を使用して撮影された都市のシーンのイラストです。カメラの軌跡、シーンの説明、およびマルチビューにキャリブレーションされた写真を表示します。私たちのデータセットはリアルで高品質なテクスチャの詳細を提供することができます。カラーボックス内のいくつかの特徴は、これを示すためにズームインされています。 彼らのデータ収集手法は、広範な現実世界の景色を記録するためにドローンのMega-NeRFを利用する方法に似ています。ただし、Mega-NeRFは2つの繰り返しシナリオのみを提供するため、一般的に受け入れられるベースラインとしては機能しません。したがって、屋外環境の大規模なNeRF研究は、単一のアイテムや内部のシーンに追いつく必要があります。彼らは、NeRFのベンチマーク用に開発された標準的でよく認識された大規模なシーンデータセットが存在しないという知識に基づいて、大規模な現実世界の屋外シーンデータセットの不足を解消するために、厳選されたフライビューマルチモーダルデータセットを提供します。上記の図に示されているように、データセットには33のシーンと迅速な注釈、タグ、および14Kのキャリブレーションされた写真が含まれています。上記の既存の手法とは異なり、彼らのシーンはインターネットや自分たちから獲得したものを含むさまざまなソースから取得されています。 また、網羅的で代表的な収集指標には、前のデータセットに含まれる必要があるさまざまなシーンの種類、シーンのサイズ、カメラの軌跡、照明条件、およびマルチモーダルデータが含まれています。彼らはまた、生成されたデータセットのNeRFに基づく視点合成、シーン表現、およびマルチモーダル合成の適合性とパフォーマンスを評価するための包括的なベンチマークを提供しています。さらに重要なことは、ドローンのオンラインビデオから現実世界のNeRFベースのデータを生成するための一般的なプロセスを提供し、コミュニティがデータセットを拡張することが簡単になることです。また、さまざまなシーンの種類、シーンのサイズ、カメラの軌跡、照明条件に応じた各タスクの細かい評価も含まれており、各アプローチの詳細な評価を提供しています。 まとめると、彼らの主な貢献は次のとおりです: • 大規模なNeRF研究を促進するために、現在利用可能な屋外データセットよりも豊富で多様なマルチモーダルデータを備えた屋外シーンデータセットを提供します。 • 一般的な屋外NeRFアプローチのためのいくつかのベンチマーク割り当てを提供し、統一されたベンチマーク基準を確立します。多くのテストにより、彼らのデータセットが典型的なNeRFベースのタスクをサポートし、次の研究のための迅速な注釈を提供できることが示されています。 • データセットを簡単にスケーラブルにするために、彼らはインターネットから自由にダウンロードできる映画をNeRF用のトレーニングデータに変換するための低コストのパイプラインを提供しています。
画像分類において、拡散モデルがGANより優れていることがAI研究で明らかになりましたこの研究では、BigBiGANなどの同等の生成的識別的手法に比べて、拡散モデルが分類タスクにおいて優れた性能を発揮することが示されました
統一された非教示学習視覚表現の学習は重要でありながらも困難な課題です。多くのコンピュータビジョンの問題は、識別または生成の2つの基本的なカテゴリに分類されます。個々の画像または画像のセクションにラベルを割り当てることができるモデルは、識別表現学習を通じて訓練されます。生成学習を使用する場合、画像を作成または変更し、修復、超解像などの関連する操作を実行するモデルを作成します。統一表現学習者は両方の目標を同時に追求し、最終モデルは識別し、固有の視覚的アーティファクトを作成することができます。このタイプの統一表現学習は困難です。 最初の両方の問題を同時に解決するディープラーニングの手法の1つはBigBiGANです。しかし、より最新の手法の分類および生成のパフォーマンスは、より専門化されたモデルを使用してBigBiGANを上回っています。BigBiGANの主な精度およびFIDの欠点に加えて、エンコーダーによる他の手法と比較してかなり高いトレーニング負荷があり、より遅く、より大きなGANです。 PatchVAEは、VAEのパフォーマンスを認識タスクにおいて改善するために、中間レベルのパッチ学習に集中します。残念ながら、その分類の改善はまだ教示的なアプローチに大きく遅れを取り、画像生成のパフォーマンスも大きく損なわれます。 最近の研究では、監督ありおよび監督なしの両方で生成および分類のパフォーマンスが良い結果を出しています。統一の自己教示学習表現学習は、自己教示画像表現学習の作業の数に比べてまだ探求されている領域です。一部の研究者は、識別モデルと生成モデルは本質的に異なり、それぞれが先行の欠陥のために他方に適した表現ではないと主張しています。生成モデルには、高品質の再構築と作成に低レベルのピクセルおよびテクスチャの特徴を捉える表現が必要です。 一方、識別モデルは、特定のピクセル値ではなく、画像の内容の意味に基づいて荒いレベルでオブジェクトを区別するために主に高レベルの情報に依存しています。しかし、彼らは、モデルが低レベルのピクセル情報に対して傾向を持たなければならないが、分類タスクにも優れたモデルを学習するMAEやMAGEのような現在の技術がBigBiGANの初期の成功を支持していると述べています。最新の拡散モデルも生成の目標を達成するのに非常に成功しています。ただし、その分類の可能性はほとんど活用されず、研究されていません。メリーランド大学の研究者は、ゼロから統一表現学習者を作成する代わりに、最先端の拡散モデル、強力な画像生成モデルが既に強力な分類能力を持っていると主張しています。 図1:アプローチと結果の概要。彼らは、拡散モデルが統一の自己教示画像表現を学習し、生成と分類の両方に優れたパフォーマンスを発揮できることを示唆しています。U-Netブロック番号と拡散ノイズのタイムステップに関する特徴抽出手順を調査します。さらに、さまざまな特徴マップのプーリングサイズについても調査します。線形(A)、多層パーセプトロン(B)、CNN(C)、およびアテンションベースのヘッド(D)など、いくつかの単純な特徴分類アーキテクチャも調査します。 ImageNet-50の凍結された特徴に対してトレーニングされた分類ヘッドの結果は、ブロック番号24およびノイズタイムステップ90で計算され、右側に表示されます。 図1は、これら2つの基本的に異なる課題における彼らの素晴らしい成功を示しています。BigBiGANと比較して、拡散モデルを使用した彼らの戦略は、はるかに優れた画像生成性能とより優れた画像分類性能を生み出します。その結果、拡散モデルは、分類と生成の両方を最適化するための最新の統一の自己教示表現学習者に非常に近いことを示しています。拡散モデルでの特徴の選択は、彼らの主な困難の1つです。ノイズステップと特徴ブロックを選択するのは非常に難しいため、彼らはさまざまな側面の適用可能性を調べ、比較します。これらの特徴マップは、チャンネルの深さと空間解像度に関してもかなり大きい場合があります。 彼らはまた、線形分類層を置き換えるためのいくつかの分類ヘッドを提供しており、これにより生成性能を犠牲にすることなく、またはより多くのパラメータを追加することなく分類結果を向上させることができます。彼らは、適切な特徴抽出を伴った優れた分類子として拡散モデルが分類問題に利用できることを示しています。そのため、彼らの手法は任意の事前学習済み拡散モデルに使用することができ、これらのモデルのサイズ、速度、および画像品質の今後の改善によって利益を得ることができます。拡散特徴の転移学習への有効性も検証され、他のアプローチとの特徴の直接比較も行われています。 彼らは、多くのFGVCデータセットにおけるデータの不足を示したため、ファイングレインドビジュアル分類(FGVC)を下流タスクとして選択し、教師なし特徴の使用を求めるものであり、拡散ベースのアプローチはFGVC転移コンテキストで教師なしアプローチを制限するとされる色不変性の種類に依存しないため、特に関連があります。彼らは、ResNetsとViTsからの特徴と比較するために、よく知られた中心化カーネルアラインメント(CKA)を使用して特徴を比較しています。 彼らの貢献は次のとおりです: • 無条件の画像生成において26.21 FID(BigBiGANに対して-12.37)とImageNet上の線形プロービングにおいて61.95%の精度(BigBiGANに対して+1.15%)を達成し、拡散モデルが統一表現学習として利用できることを示しています。 • 拡散プロセスから最も有用な特徴表現を得るための分析と蒸留のガイドラインを提供しています。 • 分類シナリオでの拡散表現の使用について、アテンションベースのヘッド、CNN、専門のMLPヘッドを標準的な線形プロービングと比較しています。 • さまざまな有名なデータセットを使用して、拡散モデルの転移学習特性をファイングレインドビジュアルカテゴリ化(FGVC)を下流タスクとして検証しています。 • 拡散モデルによって学習された多くの表現を、他のアーキテクチャや事前学習技術、さらには異なるレイヤーや拡散特徴と比較するためにCKAを使用しています。
「新しいAI研究は、3D構造に基づいたタンパク質表現学習のためのシンプルで効果的なエンコーダーを提案する」
細胞のエネルギーであるタンパク質は、材料や治療など、さまざまなアプリケーションに関与しています。タンパク質はアミノ酸鎖からなり、特定の形状に折りたたまれます。低コストのシーケンシング技術の発展により、最近では多くの新しいタンパク質配列が見つかっています。新しいタンパク質配列の機能注釈はまだ高コストで時間がかかるため、正確かつ効果的なインシリコタンパク質機能注釈方法が必要です。 多くのデータ駆動型のアプローチは、タンパク質構造の表現を学習することに依存しています。なぜなら、多くのタンパク質の機能は、折りたたまれ方によって制御されているからです。これらの表現は、タンパク質の設計、構造分類、モデルの品質評価、機能予測などのタスクに適用することができます。 実験的なタンパク質構造の同定が困難であるため、公開されたタンパク質構造の数は他の機械学習アプリケーション分野のデータセットの数に比べて桁違いに少ないです。たとえば、タンパク質データバンクには182,000個の実験的に確認された構造がありますが、Pfamには4,700万個のタンパク質配列、ImageNetには1,000万個の注釈付き画像があります。いくつかの研究では、未ラベルのタンパク質配列データの豊富さを活用して、既存のタンパク質の適切な表現を作成し、この表現のギャップを埋めるためにセルフスーパーバイズドラーニングを使用して、数百万の配列でプリトレーニングしたタンパク質エンコーダを開発しました。 正確な深層学習ベースのタンパク質構造予測技術の最近の進歩により、多くのタンパク質配列の構造を効果的かつ自信を持って予測することが可能になりました。ただし、これらの技術は、タンパク質の機能を決定するために既知のタンパク質構造に関する情報を特に捉えたり使用したりしないです。構造ベースのタンパク質エンコーダは、より良い構造情報の利用のために提案されています。残念ながら、タンパク質構造をシミュレーションする上で重要なエッジ間の相互作用は、これらのモデルでは明示的に扱われていません。また、実験的に確立されたタンパク質構造の不足のため、3D構造の未ラベルのデータを活用するプリトレーニング技術の開発は、最近までほとんど行われていませんでした。 この進歩に触発されて、彼らはさまざまな特性予測アプリケーションに適用できるタンパク質エンコーダを作成し、最も実現可能なタンパク質構造上でプリトレーニングされます。彼らは、ジオメトリに注意した関係グラフニューラルネットワークという簡単かつ効率的な構造ベースのエンコーダを提案しています。このエンコーダは、さまざまな構造または順序エッジを含め、タンパク質残基グラフ上で関係メッセージパッシングを行います。彼らは、タンパク質構造エンコーダを改善するための疎なエッジメッセージパッシング技術を提案しています。これは、タンパク質構造エンコーディングにおいてエッジレベルのメッセージパッシングをGNNに初めて実装した取り組みです。彼らのアイデアは、Evoformerの三角形注意の設計に触発されました。 彼らはまた、タンパク質構造エンコーダを学習するためのよく知られた対比学習フレームワークに基づく幾何学的なプリトレーニングアプローチを提供しています。彼らは、同じタンパク質からのサブストラクチャの獲得表現間の類似性を高め、異なるタンパク質からの類似性を減少させる革新的なオーグメンテーション関数を提案しています。これにより、タンパク質中で共起する生理学的に関連するタンパク質サブストラクチャを見つけることができます。彼らは同時に、セルフ予測に基づいた一連のシンプルなベースラインも提案しています。 彼らは、プリトレーニング手法をいくつかの下流の特性予測タスクに対して比較することで、タンパク質構造表現のプリトレーニングの基盤を確立しました。これらのプリトレーニング問題には、残基の種類、ユークリッド距離、ジヒドラル角などのさまざまな幾何学的または物理化学的特性のマスクされた予測が含まれます。酵素コミッション番号の予測、遺伝子オントロジー用語の予測、フォールドの分類、反応の分類など、さまざまなベンチマークを使用した多くのテストでは、エッジメッセージパッシングを備えたGearNetが、監督環境のほとんどのタスクで既存のタンパク質エンコーダよりも一貫して優れたパフォーマンスを発揮することが示されています。 さらに、提案されたプリトレーニング戦略を使用することで、100万以下のサンプルでトレーニングされたモデルは、1,000万または10億のデータセットでプリトレーニングされた最先端のシーケンスベースのエンコーダと同等またはそれ以上の結果を得ることができます。コードベースはGithubで公開されています。PyTorchとTorch Drugで書かれています。
Googleの提供する無料のジェネレーティブAI学習パス
「ジェネレーティブAIについて最新情報を得たいですか?Google Cloudから提供される無料のコースやリソースをチェックしてみてください」
「鳩の中に猫を投げ込む?大規模言語モデルによる人間の計算の補完」
「語源学には常に魅了されてきました多くの場合、言葉やフレーズが私たちが非常に馴染んでいる意味を獲得する過程には、興味深いストーリーがあります変化を経て…」
ドリームティーチャーというAIフレームワークに出会ってください:自己教師付きの特徴表現学習AIフレームワークであり、下流の画像バックボーンの事前トレーニングに生成ネットワークを利用します
自己教育型表現学習は、ビジョンの基礎的なスキルを開発するための成功した手法です。この研究の流れは、大規模な未ラベルデータセットを補完的なトレーニングデータの源として使用することで、下流ネットワークのパフォーマンスを向上させ、大規模なラベル付きターゲットデータセットの要件を軽減するという考えに基づいています。最近の研究では、ImageNetでの自己教育型事前トレーニングが、ピクセル単位の意味論的およびインスタンスセグメンテーションを含むいくつかの下流データセットとタスクにおいて、教師付き事前トレーニングを凌駕または追い越すことが示されています。 画像の変形されたビューを画像データセットからランダムに選択された画像よりも潜在空間で近くマッピングするようにターゲットバックボーンをトレーニングする対照学習のバリエーションは、自己教育型表現学習の中で最も人気のある手法の一つです。このパラダイムは、空間損失を追加し、負のインスタンスを少なくまたはまったく使用しないことでトレーニングの安定性を高めることによって改善することができます。また、一部の領域を入力画像からマスクし、バックボーンをその部分を再構築するようにトレーニングする再構成損失やマスクされた画像モデリング(MIM)に焦点を当てた研究もあります。この研究では、通常、隠れた領域のための単一の理論を監視するという点で決定論的と見なされます。 通常、この研究領域では、より良いバックボーンをトレーニングするためのアーキテクチャの設計、トレーニングのレシピ、およびマスキング戦術に焦点を当てています。これらの技術はVision Transformerベースのバックボーンと組み合わせて使用すると、最先端のパフォーマンスを達成することができます。ただし、最近ではスパースなCNNベースのイメージバックボーンも同様に効果的であることが示されています。本研究では、著者らは、生成モデルを表現学習のための学習者として使用することを提案し、ゴールのシンプルさ(データの生成)と直感的な表現力(高品質のサンプルの生成)を学習された意味的に適切な内部表現のサインとして引用しています。 生成ネットワークを表現学習の学習者として使用するというアイデアは、よく知られています。DatasetGANおよびその派生物でタスク依存型ヘッドと補完的な特徴が提案され、これらの強化されたネットワークをラベル付きデータのソースとして使用して後続のネットワークをトレーニングすることがあります。SemanticGANでは、生成モデルの潜在空間に画像をエンコードし、課題のヘッドを使用して知覚的な出力を作成するために、タスクデコーダーを持つStyleGANをタスクネットワークそのものとして使用しました。NVIDIA、トロント大学、ベクター研究所、MITの研究者らは、DreamTeacherというフレームワークを紹介しています。このフレームワークは、生成モデルを使用して蒸留ベースの下流知覚モデルを事前学習するために使用します。 彼らは2つの異なる蒸留プロセスについて調査しています:1)ラベルのない普遍的な事前トレーニング手順として、生成特徴をターゲットバックボーンに削減する特徴蒸留のための技術を提供します。2)ラベルの蒸留:半教師付きの環境では、ラベル付きデータセットの知識をタスクヘッドを使用してターゲットバックボーンに蒸留します。彼らの研究では、拡散モデルとGANが生成モデルの選択肢です。 彼らは、2つの主な理由から、CNNをターゲットバックボーンとして重点的に調査しています。1)CNNベースのバックボーンは、対照的なおよびMIMの手法においてSoTAの表現学習を実施できることが示されており、2)SoTAの生成モデル(GANや拡散モデルなど)は、依然としてCNNに強く依存しています。彼らはまた、初期の試行でビジョンTransformerのバックボーンも調査しましたが、CNNベースの生成モデルから特徴を抽出することが困難であると判断しました。ビジョンTransformerアーキテクチャを使用して生成モデルを作成する研究はまだ初期段階にあるため、これらの設計を使用したDreamTeacherに関するさらなる研究が必要です。 彼らは実証的に示していますDreamTeacherは、現在利用可能な自己教育型学習システムよりも多くのベンチマークと条件で優れたパフォーマンスを発揮します。ADE20Kでの意味セグメンテーション、MSCOCOでのインスタンスセグメンテーション、および自動運転データセットBDD100Kなどのいくつかの密な予測ベンチマークとタスクでは、ImageNetでのフルスーパーバイズドトレーニングよりもImageNetでのラベルなしの事前トレーニングで優れた結果を示します。ターゲットドメインのみでトレーニングした場合、彼らの手法はラベル付きImageNetで事前トレーニングしたバリエーションを大幅に上回ります。彼らの手法は、数百万枚の未ラベル画像を持つオブジェクトに焦点を当てたデータセットで新たなSoTAの性能を達成します。これらの結果は、生成モデル、特に拡散ベースの生成モデルが、さまざまな未ラベル情報を効果的に利用する表現学習者としての能力を示しています。
「SimCLRの最大の問題を修正する〜BYOL論文の解説」
SimCLRは対比学習のアイデアを成功裏に実装し、当時新たな最先端の性能を達成しました!それにもかかわらず、このアイデアには根本的な弱点があります!…に対する感度が高いのです
「Objaverse-XLと出会ってください:1000万以上の3Dオブジェクトのオープンデータセット」
AIにおける最近のブレークスルーは、さまざまな領域の進歩においてスケールの重要性です。大規模なモデルは、言語理解、生成、表現学習、マルチモーダルタスク、画像生成などの領域で顕著な能力を示しています。学習可能なパラメータの数が増加するにつれ、現代のニューラルネットワークは膨大な量のデータを消費します。その結果、これらのモデルが示す能力は劇的に向上しました。 GPT-2はその一例であり、数年前に約300億の言語トークンを消費してデータの壁を打ち破りました。GPT-2はNLPのベンチマークで有望なゼロショットの結果を示しました。しかし、ChinchillaやLLaMAなどの新しいモデルは、ウェブクロールされた数兆のトークンを消費することでGPT-2を上回っています。これらのモデルは、ベンチマークや能力の面でGPT-2を簡単に凌駕しています。コンピュータビジョンでは、ImageNetはもともと100万枚の画像で構成され、表現学習のゴールドスタンダードでした。しかし、ウェブクロールによってデータセットが数十億の画像にスケーリングされるにつれて、LAION5BのようなデータセットはCLIPなどのモデルとともに強力な視覚表現を生み出しています。データセットを手動で組み立てるのではなく、ウェブを介してさまざまなソースから収集することにより、数百万から数十億のデータポイントにスケーリングすることができました。 言語と画像のデータが大幅にスケーリングされた一方で、3Dコンピュータビジョンなどの他の領域はまだ追いつく必要があります。3Dオブジェクトの生成や再構築などのタスクは、手作りの小規模なデータセットに依存しています。たとえばShapeNetは、高価なソフトウェアを使用してアセットを作成するために専門の3Dデザイナーに依存しており、クラウドソーシングやスケーリングが困難なプロセスです。データの希少性は、3Dコンピュータビジョンの学習駆動型手法のボトルネックとなっています。3Dオブジェクトの生成は、2D画像の生成に比べて大幅に遅れており、しばしば3Dデータ上でゼロからトレーニングされる代わりに、大規模な2Dデータセットでトレーニングされたモデルに依存しています。拡張現実(AR)や仮想現実(VR)技術への需要と関心の増加は、3Dデータのスケーリングの緊急性をさらに強調しています。 これらの制限に対処するために、Allen Institute for AI、ワシントン大学、シアトル、コロンビア大学、Stability AI、CALTECH、LAIONの研究者たちは、大規模なウェブクロールされた3DアセットのデータセットであるObjaverse-XLを紹介しています。3D制作ツールの急速な進歩と、Github、Sketchfab、Thingiverse、Polycamなどのプラットフォーム、およびスミソニアン協会などの専門サイトを通じてインターネット上での3Dデータの利用可能性の増加が、Objaverse-XLの作成に貢献しています。このデータセットは、Objaverse 1.0やShapeNetなどの従来の取り組みよりもはるかに多様で品質の高い3Dデータを提供します。Objaverse-XLには1000万以上の3Dオブジェクトが含まれており、前のデータセットよりも桁違いのスケールの増加を実現しています。 Objaverse-XLが提供するスケールと多様性は、最先端の3Dモデルの性能を大幅に向上させました。特に、Objaverse-XLで事前トレーニングされたZero123-XLモデルは、難解で複雑なモダリティにおいて優れたゼロショットの汎化能力を示しています。写実的なアセット、カートゥーン、ドローイング、スケッチなどの多様な入力に対しても、新しいビュー合成などのタスクで非常に優れたパフォーマンスを発揮します。同様に、少数の画像から新しいビューを合成するためにトレーニングされたPixelNeRFは、Objaverse-XLでトレーニングされると著しい改善が見られます。トレーニングデータを1000のアセットから1000万のアセットにスケーリングすることは、常に改善を示し、ウェブスケールのデータによって可能にされる約束と機会を強調しています。 Objaverse-XLの意義は、3Dモデルの領域を超えて広がっています。その潜在的な応用は、コンピュータビジョン、グラフィックス、拡張現実、生成AIに及びます。画像からの3Dオブジェクトの再構築は、コンピュータビジョンとグラフィックスの分野で長い間課題となってきました。既存の方法では、さまざまな表現、ネットワークアーキテクチャ、差分可能なレンダリング技術を探索して、画像から3Dの形状やテクスチャを予測してきました。しかし、これらの方法は主にShapeNetなどの小規模なデータセットに依存しています。Objaverse-XLのより大規模なデータセットを用いることで、ゼロショットの汎化において新たなパフォーマンスと汎用性のレベルが達成される可能性があります。 さらに、3Dにおける生成AIの出現は、非常に興味深い進展となっています。MCC、DreamFusion、Magic3Dなどのモデルは、テキストから画像への変換モデルの支援を受けて、テキストプロンプトから3Dシェイプを生成することができることを示しています。Objaverse-XLはまた、テキストから3D生成の機会を提供し、テキストから3Dモデリングの進歩を可能にします。広範で多様なデータセットを活用することで、研究者は新しい応用を探求し、3Dドメインにおける生成AIの限界を押し広げることができます。 Objaverse-XLのリリースは、3Dデータセットの分野における重要なマイルストーンです。そのサイズ、多様性、大規模なトレーニングの可能性は、3D理解の研究と応用の進歩を約束しています。Objaverse-XLは現在、10億スケールの画像テキストデータセットよりも小さいですが、その導入により、3Dデータセットのスケーリングと3Dコンテンツのキャプチャと作成の簡素化についてのさらなる探求の道が開かれます。将来の研究では、トレーニングのための最適なデータポイントの選択や、3Dセグメンテーションや検出などの識別的なタスクにObjaverse-XLを拡張することにも焦点を当てることができます。 まとめると、巨大な3DデータセットとしてのObjaverse-XLの導入は、コンピュータビジョン、グラフィックス、拡張現実、生成AIの新たな可能性を切り拓く土台を提供します。以前のデータセットの制約に取り組むことで、Objaverse-XLは大規模なトレーニングの基盤を提供し、3D領域での画期的な研究と応用の道を開きます。
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.