Learn more about Search Results ImageNet - Page 3
- You may be interested
- ロボット用の物理シミュレータを公開する
- 魅力的な方法:AIが人々がドイツ語や他の...
- Google Pixel Watchが落下を検知する方法
- AIとの対話:より優れた言語モデルの構築
- サイバーセキュリティが食品と農業を守る
- 「AIチップスタートアップのd-Matrixが投...
- Hugging FaceとFlowerを使用したフェデレ...
- 自撮りがコミュニケーション手段としてど...
- 「より良い機械学習システムの構築 –...
- データサイエンティストの成長を助けるスキル
- 「マイクロソフト、Azureカスタムチップを...
- 「AIのスケーリングと採用に関する5つの懸...
- 「ビートルズの新曲「今とかつて」では、A...
- DL Notes 高度な勾配降下法
- 「DeepOntoに会ってください 深層学習を用...
「HuggingFaceへの入り口」
「HuggingFaceは、学習を始めるためのスタート地点が分からないと、複雑で難解になることがありますHuggingFaceリポジトリへの入り口の一つは、run_mlm.pyとrun_clm.pyスクリプトですこの記事では、私たちはさらに進んでいきます...」
スタンフォードの研究者たちは、基礎流体力学のための初の大規模な機械学習データセットであるBLASTNetを紹介しました
スタンフォードの研究者たちは、BLASTNetという画期的な開発を紹介し、計算流体力学(CFD)の新たな時代の到来を予感させました。しかしながら、これはまだ機械学習の目的には適していない概念証明でした。同じ研究チームがBLASTNet-2を導入しました。これはAI研究者のチームが丹精込めて編集した画期的なデータセットであり、ロケット推進、海洋学、気候モデリングなど、基本的な流体力学の理解と応用を革新することを約束しています。 数十年にわたり、科学者たちは複雑な流体の振る舞いに取り組んできました。乱流火災から海洋流まで、さまざまな現象を予測・分析するために入り組んだ数学モデルを利用しています。ただし、テキストのためのCommonCrawlや画像のためのImageNetに類似した包括的なデータセットの欠如が、流体力学分野で人工知能の力を活用する進展を妨げてきました。 流体力学の科学的データは非常に高次元であり、テキストや画像とは異なり、通常4次元の構造(3次元の空間次元に時間が結合したもの)を示しています。これにより、解析とモデリングには膨大な計算リソースが必要です。 BLASTNet-2はコミュニティ主導のイニシアチブであり、30以上の異なる設定と約700のサンプルからなる、驚愕の5テラバイトのデータが含まれています。チームは、このデータセットを具現化させるために行われた協力の努力を強調し、フィールドの専門家を結集し、多様なデータを簡単にアクセス可能で機械学習に適した形式に整理したと述べています。 BLASTNet-2の重要性は単なる利便性を超えており、科学コミュニティにおける研究と協力の新たなパラダイムを切り拓いています。流体力学データの中央集権的なプラットフォームを提供することで、BLASTNet-2は流体力学に特化した機械学習モデルの進化を促し、科学者とエンジニアの間で学際的な協力を育んでいます。 BLASTNet-2の応用範囲は、その中に含まれる流体現象と同様に広範囲です。研究者たちは、水素の挙動の解明、再生可能エネルギーのための風力発電所の最適化、乱流モデルの改善、気候モデリングの向上、海洋流の解読、さらには医学や天気予報といった多様な領域にまで影響を及ぼす可能性があるAIモデルのトレーニングにBLASTNet-2を利用することを想定しています。 さらに、BLASTNet-2は学際的な議論のための触媒となり、異なる流体領域の専門家の間での協力を促進します。これに対する科学コミュニティの関心を物語る最近の仮想ワークショップの成功は、革新的なブレイクスルーのためにこのリソースを活用しようとする意欲を象徴しています。 BLASTNet-2が進化し拡大するにつれて、研究者たちは流体力学の未開拓領域に飛び込み、液体や気体の振る舞いについての未知の事象を解明し、AIの力を使って科学的な理解を前進させるための前例のない洞察を得ることを期待しています。 BLASTNet-2の鋳造炉の中で、AIと流体力学の融合が可能性にあふれた未来を呼び込み、包括的な理解と革新的な流体現象への応用に向けた変革の旅が始まります。
複雑なAIモデルの解読:パデュー大学の研究者が、ディープラーニングの予測を位相マップに変換
複雑な予測モデルの高度なパラメータ化の性質により、予測戦略の説明と解釈が困難です。研究者たちは、この問題を解決するために、トポロジックデータ解析(TDA)を利用した新しいアプローチを導入しました。これらのモデルは、機械学習、ニューラルネットワーク、AIモデルを含むさまざまな科学分野で標準的なツールとなっていますが、広範なパラメータ化のために解釈が難しいことがよくあります。 パデュー大学の研究者たちは、これらの複雑なモデルをより理解しやすい形式に変換できるツールの必要性を認識しました。彼らはTDAを活用してリーブネットワークを構築し、予測戦略の解釈を容易にするトポロジックな視点を提供しました。この方法はさまざまな領域に適用され、大規模データセットでもスケーラビリティが実証されました。 提案されたリーブネットワークは、予測ランドスケープを視覚化することができる、トポロジック構造の離散化です。リーブネットワークの各ノードは、似た予測を持つデータポイントのクラスタとして計算された予測空間の局所的な単純化を表します。ノードは共有されたデータポイントに基づいて接続され、予測とトレーニングデータの間の有益な関係を示します。 このアプローチの重要な応用の一つは、トレーニングデータのラベリングエラーの検出です。リーブネットワークは、曖昧な領域や予測の境界を特定するために効果的であり、潜在的なエラーのさらなる調査を導く役割を果たしました。この方法は、画像分類における一般化や、BRCA1遺伝子における病原性変異に関連する予測の理解にも有用性を示しました。 tSNEやUMAPなどの広く使用されている可視化技術との比較を行い、リーブネットワークが予測間の境界やトレーニングデータと予測の関係についてより多くの情報を提供できることが強調されました。 リーブネットワークの構築には、未知のラベルを持つ大量のデータポイント、データポイント間の既知の関係、および各予測値に対する実数値のガイドなどの前提条件があります。研究者たちは、グラフベースのTDA(GTDA)と呼ばれる再帰的な分割と統合手順を使用して、元のデータポイントとグラフからリーブネットを構築しました。この方法は、ImageNetの130万枚の画像を分析することで、スケーラブル性を実証しています。 実用的な応用では、Amazonのレビューに基づいて製品タイプを予測するグラフニューラルネットワークにリーブネットワークフレームワークを適用しました。これにより、製品カテゴリの曖昧さが明らかになり、予測の正確性の限界とラベルの改良の必要性が強調されました。同様の洞察が、Imagenetデータセット上の事前学習済みResNet50モデルにフレームワークを適用することで得られ、画像のビジュアルタクソノミーが明らかにされ、真のラベリングエラーが明らかにされました。 研究者たちはまた、リーブネットワークを使用して、特にBRCA1遺伝子に関連する悪性遺伝子変異に関連する予測を理解するためにリーブネットワークの適用を紹介しました。ネットワークはDNA配列の局所的なコンポーネントとその二次構造へのマッピングをハイライトし、解釈を支援しました。 結論として、リーブネットワークなどのトポロジック検査技術が、複雑な予測モデルを行動可能な人間レベルの洞察に変換する上で重要な役割を果たすと研究者は予想しています。この方法は、ラベリングエラーからタンパク質構造まで、さまざまな問題を識別する能力を示し、予測モデルの早期診断ツールとしての広範な適用性と潜在能力を示唆しています。
マイクロソフトリサーチは、Florence-2という新しいビジョン基盤モデルを導入しましたこれは、さまざまなコンピュータビジョンやビジョン言語のタスクに対応する統一されたプロンプトベースの表現を持っています
人工一般知能(AGI)システムでは、タスクに関係なく利点を提供する事前トレーニング可能な適応的表現の使用に向けた noticeable な傾向が見られました。自然言語処理(NLP)は、この傾向の良い例です。洗練されたモデルは、明快な指示で複数のドメインとタスクをカバーする包括的な知識を持つ柔軟性を示します。NLPの人気は、コンピュータビジョンにおいて補完的な戦略を促しています。特徴やマスキングされた輪郭、オブジェクト配置など、コンピュータビジョンでは特徴的な視覚データの処理が必要です。コンピュータビジョンにおいて普遍的な表現を実現するためには、図1に示されるように、2次元に配置されたさまざまな厳しい課題を上手に処理する必要があります。 図1 空間の階層性:モデルは、細部のピクセル情報と画像レベルのアイデアを理解することで異なるサイズの空間情報を認識する必要があります。図に示したビジョンにおける複雑な空間の階層をサポートするためには、モデルはさまざまな粒度を管理できる能力を持たなければなりません。 意味的な粒度:コンピュータビジョンでは、普遍的な表現はさまざまな意味的な粒度をカバーする必要があります。抽象的なタイトルからより詳細な説明へのパラダイムの変化により、さまざまな使用方法に対する柔軟な理解が提供されます。 この追求は、特異性と重要な挑戦に特徴付けられます。主要な障害は、より多くのデータの必要性であり、空間の階層性と意味的な粒度の複雑なニュアンスを捉える基盤モデルの開発を妨げます。ImageNet、COCO、Flickr30k Entitiesなどの既存のデータセットは、特殊なアプリケーション向けに広範に人間によってラベル付けされています。この制約に対処するためには、より大規模なスケールで各画像の詳細な注釈を生成することが不可欠です。また、コンピュータビジョンで空間の階層性と意味的な粒度をシームレスに統合するモデルが存在しません。タスク固有のデザインにより、従来のモデルは、意味的セグメンテーション、オブジェクト識別、画像キャプションなどのタスクで優れたパフォーマンスを発揮します。ただし、異なるビジョンタスクに対してタスク非依存的な方法で適応できる完全で統一的なモデルを作成することは、重要です。 統一された事前トレーニングとネットワークデザインを通じて、このモデルは、コンピュータビジョンにおける空間、時間、多モーダルの特徴の統合を先駆的に行っています。最初の進化的イテレーションは、ノイズのあるテキスト-イメージのペアリングでの事前トレーニングとカスタマイズされたアダプタを使用したタスク固有の微調整を通じて転送学習に優れています。ただし、大規模なタスク固有のデータセットとアダプタへの依存は、上記の2つの主要な問題に取り組む際にギャップを生じさせる原因となります。この研究では、Azureの研究者が、豊富なビジュアル注釈を使用して獲得された普遍的なバックボーンを提供しています。これにより、不完全かつ包括的なデータと均一なアーキテクチャの不足を成功裏に解決できる、様々なビジョンタスクに対するプロンプトベースの統一された表現が実現されます。 多タスク学習には、大規模で高品質な注釈付きデータが必要です。時間のかかる人間の注釈に頼らずに、彼らのデータエンジンは、\fld という広範なビジュアルデータセットを作成します。このエンジンには2つの効果的な処理モジュールがあります。第1のモジュールでは、特化モデルを使用して写真に共同でおよび自律的に注釈を付けることにより、従来の単一および手動の注釈戦略から脱却します。集団の知恵理論に類似して、多くのモデルが協力して一致を作り出し、より公平で信頼性のある画像解釈を実現します。習得された基本モデルを使用して、第2のモジュールはこれらの自動注釈を反復的に洗練し、フィルタリングします。 彼らのモデルは、この大規模なデータセットを活用して、シーケンス対シーケンス(seq2seq)アーキテクチャを使用して、イメージエンコーダとマルチモダリティエンコーダ‐デコーダを統合しています。このアーキテクチャは、タスク固有のアーキテクチャの調整を必要とせずに、さまざまなビジョンタスクをサポートします。これは、NLPコミュニティの柔軟なモデル作成と統一された基盤の目標と一致しています。データセット内のすべての注釈は、一貫してテキストの出力に標準化されます。これにより、目標と同じ損失関数を使用して単一の多タスク学習戦略を一貫して最適化することが可能になります。その結果、統一されたパラメータを持つ単一のモデルの制御下で、オブジェクト認識、キャプション付け、およびグラウンディングを含むさまざまな機能を処理できる柔軟なビジョン基盤モデル、またはモデルが作成されます。大規模な言語モデル(LLM)が使用する方法と一致して、テキストをプロンプトとして活用することにより、タスクを活性化させます。 彼らの方法は、一般的な表現を達成し、多くの視覚的タスクで広範な利用が可能です。主な見つかりとしては以下のとおりです: モデルは柔軟なビジョン基礎モデルであり、RefCOCOでの参照表現の理解、Flick30kでの視覚的根拠、およびCOCOでのキャプション作成などのタスクにおいて、新しい最先端のゼロショット性能を提供します。 モデルは小さなサイズにもかかわらず、公開された人間によるアノテーションデータを使用して微調整した後、より専門化されたモデルと競合します。特に、改良されたモデルはRefCOCOで新しいベンチマークの最先端スコアを設定しています。 事前に学習されたバックボーンは、下流のタスクであるCOCOオブジェクト検出、インスタンスセグメンテーション、およびADE20K意味セグメンテーションにおいて、教師付きおよび自己教師付きモデルを上回ります。彼らのモデルは、Mask-RCNN、DINO、およびUperNetフレームワークを使用しており、COCOおよびADE20Kデータセットに対してそれぞれ6.9、5.5、および5.9ポイントの大幅な向上をもたらし、またImageNetでの事前学習モデルのトレーニング効率を4倍にしています。
Deep Learningモデルのトレーニングをスーパーチャージ
90%に到達すると精度が初めのほうでは簡単に向上しますが、それ以上の改善を得るためには非常に力を入れなければならないという状況に遭遇したことがありますか?あなたの...
「ディープラーニングにおける転移学習とは何ですか?」
簡単に言えば、新しい異なるデータセットで実行される訓練済みモデルを使用する技術です核心のアイデアは、訓練済みモデルの知識を新しいデータセットに適用することですが...
大規模展開向けのモデル量子化に深く掘り下げる
イントロダクション AIにおいて、大規模なモデルをクラウド環境に展開するという2つの異なる課題が浮かび上がっています。これにより、スケーラビリティと収益性を阻害するかなりの計算コストが発生し、複雑なモデルをサポートするのに苦労するリソース制約のあるエッジデバイスの問題も生じます。これらの課題の共通点は、精度を損なうことなくモデルのサイズを縮小する必要性です。一つの解決策となる人気のある手法であるモデルの量子化は、精度のトレードオフの懸念を引き起こします。 量子化意識トレーニングは、魅力的な答えとして浮上します。これは、モデルのトレーニングプロセスに量子化をシームレスに統合することで、重要な精度を保ちながら、モデルのサイズを大幅に削減することを可能にします。時には2倍から4倍以上にもなります。この記事では、量子化について詳しく解説し、ポストトレーニング量子化(PTQ)と量子化意識トレーニング(QAT)を比較します。さらに、Deciによって開発されたオープンソースのトレーニングライブラリ「SuperGradients」を使用して、両方の方法を効果的に実装する方法を実践的に示します。 また、モバイルや組み込みプラットフォームにおける畳み込みニューラルネットワーク(CNN)の最適化についても探求します。サイズと計算要件のユニークな課題に取り組み、モデルの最適化における数値表現の役割を検討します。 学習目標 AIにおけるモデルの量子化の概念を理解する。 一般的な量子化レベルとそのトレードオフについて学ぶ。 量子化意識トレーニング(QAT)とポストトレーニング量子化(PTQ)の違いを認識する。 メモリ効率やエネルギー削減など、モデルの量子化の利点を探求する。 モデルの量子化が広範なAIモデルの展開を可能にする方法を発見する。 この記事はData Science Blogathonの一部として掲載されました。 モデルの量子化の必要性の理解 モデルの量子化は、ディープラーニングにおける基本的な技術であり、モデルのサイズ、推論速度、およびメモリ効率に関連する重要な課題に対処することを目指しています。これは、モデルの重みを高精度の浮動小数点表現(通常は32ビット)から低精度の浮動小数点(FP)または整数(INT)フォーマット(16ビットまたは8ビットなど)に変換することによって実現されます。 量子化の利点は二つあります。まず第一に、モデルのメモリフットプリントを大幅に削減し、大きな精度の劣化を引き起こすことなく推論速度を向上させます。さらに、メモリ帯域幅の要件を減らし、キャッシュの利用効率を向上させることによって、モデルのパフォーマンスも最適化されます。 INT8表現は、ディープニューラルネットワークの文脈では「量子化された」と俗に言われることがありますが、ハードウェアアーキテクチャに応じてUINT8やINT16のような他のフォーマットも利用されます。異なるモデルは、精度とモデルサイズの削減のバランスを取るために、異なる量子化アプローチを必要とし、事前知識と緻密な微調整を要することがしばしば求められます。 量子化は、特にINT8などの低精度の整数フォーマットにおいて、動的レンジが制限されているため、課題をもたらします。FP32の広範な動的レンジをINT8の255個の値に押し込めることは、精度の低下を招く可能性があります。この課題を緩和するために、パーチャネルまたはパーレイヤのスケーリングにより、重みと活性化テンソルのスケールとゼロポイント値が、より適した量子化フォーマットに適合するように調整されます。 さらに、量子化意識トレーニングでは、モデルのトレーニング中に量子化プロセスをシミュレートすることで、モデルが優れた精度で低精度に適応することが可能になります。このプロセスの重要な側面であるスクイーズ(またはレンジの推定)は、キャリブレーションによって実現されます。 本質的には、モデルの量子化は効率的なAIモデルの展開に不可欠であり、特に計算リソースが限られているエッジデバイスでの資源効率と精度の微妙なバランスを取るために重要です。 モデルの量子化の技術 量子化レベル 量子化は、モデルの高精度浮動小数点の重みと活性化を、低精度の固定小数点値に変換します。 “量子化レベル”は、これらの固定小数点値を表すビット数を指します。一般的な量子化レベルは、8ビット、16ビット、およびバイナリ(1ビット)の量子化です。適切な量子化レベルを選択することは、モデルの精度とメモリ、ストレージ、および計算効率とのトレードオフに依存します。…
このAI論文は、実世界の網膜OCTスキャンを使用して、年齢に関連した黄斑変性の段階を分類するためのディープラーニングモデルを紹介しています
新しい研究論文では、網膜光干渉断層法(OCT)スキャンを使用した老年性黄斑変性(AMD)の段階に基づいたディープラーニングを用いた分類器を紹介しています。二段階の畳み込みニューラルネットワークを利用して、モデルはTopcon OCT画像からマクラ中心の3Dボリュームを正常、早期/中間期のAMD(iAMD)、萎縮性(GA)、新生血管性(nAMD)の段階に分類します。第1段階では2D ResNet50を使用してB-スキャンの分類を行い、第2段階ではより小さなモデル(ResNet)を使用してボリュームの分類を行います。 このモデルは、大規模なデータセットでトレーニングされ、マクラ中心の3Dボリュームを正常、iAMD、GA、nAMDの段階に強力に分類します。この研究では、タイムリーな治療開始のための正確なAMD分類の重要性を強調しています。パフォーマンス指標には、ROC-AUC、バランス精度、正確度、F1スコア、感度、特異度、マシューズ相関係数が含まれます。 この研究では、網膜OCTスキャンを使用した自動AMD検出および分期システムの開発について詳細に説明しています。OCTは非侵襲的な画像技術であり、従来の方法と比較してAMD分類について詳細な洞察を提供する上で重要です。この研究では、正確なAMD分類の重要性が効果的な治療と視機能の保存において強調されています。また、堅牢な分析のための高品質のデータセットの重要性も強調されています。 この研究では、ImageNetで事前トレーニングされたResNet50および4つの別々のResNetを使用した二段階のディープラーニングモデルを実装し、OCTスキャン上のAMDバイオマーカーの2値分類を行いました。第1ステージではボリューム内の疾患カテゴリを特定し、第2ステージではボリュームレベルの分類を行いました。これらのモデルは実世界のOCTデータセットでトレーニングされ、ROC-AUC、バランス精度、正確度、F1スコア、感度、特異度、マシューズ相関係数などの有望なパフォーマンス指標を示しました。研究では、異なるデバイスからのさまざまなOCTデータセットの使用に関する課題と、ポテンシャルの一般化問題についても言及しています。 ディープラーニングベースのAMD検出および分期システムは、実世界のテストセットで平均ROC-AUC 0.94の有望なパフォーマンスを示しました。推論時にモンテカルロドロップアウトを組み込むことで、分類の不確実性の推定の信頼性が向上しました。この研究では、2079の眼からの3995のOCTボリュームからなる厳選されたデータセットを使用して、AUC、BACC、ACC、F1スコア、感度、特異度、MCCなどのさまざまな指標でパフォーマンスを評価しました。その結果、このモデルは正確なAMD分類と分期においてベースラインの手法と同等またはより良いパフォーマンスを示し、さらにB-スキャンレベルの疾患特定の利点もあります。 さらなる研究により、このディープラーニングモデルの一般化能力を向上させることができます。これには、CirrusやSpectralisなどのスキャナに対応するための適応が考慮されるべきです。データセット固有のトレーニングに関連する制限に対処するために、ドメインシフト適応方法を検討する必要があります。モデルの潜在的な用途は、神経眼科学的なAMDの開始検出に拡張することができます。不確実性の推定を実世界のスクリーニング設定での適用や、AMD以外の疾患バイオマーカーの検出モデルの探索は、将来の調査において有望なアプローチとなり、より広範な人口の疾患スクリーニングに役立ちます。
このAI論文では、コンピュータビジョンの基盤について包括的な分析を紹介し、事前学習モデルの強みと弱点を明らかにします
コンピュータビジョンにおいて、バックボーンは多くのディープラーニングモデルの基本的なコンポーネントです。分類、検出、セグメンテーションなどの下流の処理は、バックボーンによって抽出された特徴に依存しています。ここ数年で、新しい事前トレーニング戦略とバックボーンのアーキテクチャが急激に増えています。その結果、実践者は自分の特定の活動およびデータセットに最適なバックボーンを選ぶことに課題を抱えています。 バックボーンの戦い(BoB)は、多くの人気のある公開された事前トレーニングチェックポイントとランダムに初期化されたベースラインをさまざまな下流タスクで比較する大規模なベンチマークです。ニューヨーク大学、ジョンズホプキンス大学、メリーランド大学、ジョージア工科大学、Inria、Meta AI Researchの研究者が開発しました。BoBの調査結果は、さまざまなバックボーンのトポロジーと事前トレーニング戦略の相対的な利点を明らかにします。 この調査では、以下のような興味深い結果が得られました: 事前トレーニングされた教師あり畳み込みネットワークは、通常、トランスフォーマーよりも優れたパフォーマンスを示します。これは、教師あり畳み込みネットワークは容易にアクセス可能で、大規模なデータセットでトレーニングされるためです。一方、同じサイズのデータセット間で結果を比較すると、自己教師ありモデルのほうが教師ありの類似物よりも優れたパフォーマンスを示します。 CNNに比べて、ViTはパラメータ数や事前トレーニングデータの量に対してより敏感です。これは、ViTのトレーニングにはCNNのトレーニングよりも多くのデータと処理能力が必要になる可能性があることを示しています。バックボーンのアーキテクチャを決定する前に、精度、計算コスト、データの利用可能性に対するトレードオフを検討する必要があります。 タスクパフォーマンス間の相関度は高いです。最良のBoBバックボーンはさまざまなシナリオで優れた機能を発揮します。 エンドツーエンドの調整は、密な予測ジョブにおいてはCNNよりもトランスフォーマーに効果があります。これは、トランスフォーマーがCNNよりもタスクおよびデータセットに依存する可能性があることを示しています。 CLIPモデルと他の有望な先進的なアーキテクチャを使用したビジョン言語モデリング。CLIPの事前トレーニングは、ImageNet-21kでトレーニングされたバックボーンと比較しても優れています。このデータは、ビジョン言語の事前トレーニングがコンピュータビジョンのタスクの結果を改善することができることを示しています。著者は、CLIPを介して利用可能な事前トレーニング済みバックボーンを調査することを専門家に勧めています。 BoBにはコンピュータビジョンフレームワークの最先端がマッピングされています。ただし、この分野は新しいアーキテクチャと事前トレーニング技術の進歩が継続しているため、パフォーマンスを向上させるために新しいインフラストラクチャを常に評価・比較し、見つける方法を見つけることが重要だとチームは考えています。
画像埋め込みのためのトップ10の事前訓練モデル、データサイエンティストが知っておくべきもの
「コンピュータビジョンの急速な進化– 画像分類のユースケースは、転移学習の台頭によってさらに加速されています大規模な画像データセットを使用してコンピュータビジョンニューラルネットワークモデルを訓練するには、多くの計算リソースと時間が必要です幸いなことに、この時間とリソースは…」
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.