Learn more about Search Results ResNet

「転移学習を探求しましょう…」(Ten’i gakushū o tankyū shimashou…)

転移学習については、多くの定義があります基本的には、事前学習済みモデルの知識を活用して新しい問題を解決することを指します転移学習には数多くの利点があります...

アップルの研究者がDeepPCRを公開：通常は順次処理される操作を並列化してニューラルネットワークの推論とトレーニングの速度を向上させる新しい機械学習アルゴリズム

人工知能や深層学習の進展により、さまざまな革新が実現されています。テキストや画像の合成、分割、分類などの複雑なタスクは、ニューラルネットワークの助けを借りて成功裏に処理されています。しかし、ニューラルネットワークのトレーニングにはコンピューティングの要求があり、適切な結果を得るまでには数日または数週間かかる場合があります。事前に訓練されたモデルの推論も、複雑なデザインの場合には遅くなる場合があります。並列化技術は深層ニューラルネットワークのトレーニングと推論を高速化します。これらの手法は広く使用されていますが、ニューラルネットワークの一部の操作はまだ順次に実行されています。拡散モデルは、ノイズ低減ステージの続けざまに出力を生成し、前方および後方パスは層ごとに行われます。ステップ数が増えると、これらのプロセスの順次実行は計算上の負担となり、計算のボトルネックにつながる可能性があります。この問題に対処するために、Appleの研究チームはDeepPCRという独自のアルゴリズムを導入し、ニューラルネットワークのトレーニングと推論を高速化しようとしました。DeepPCRは、一連のLステップを一定の方程式の答えとして認識することによって機能します。チームは、この解を取得するためにParallel Cyclic Reduction (PCR) アルゴリズムを使用しました。DeepPCRの主な利点は、順次プロセスの計算コストをO(L)からO(log2 L)に削減できることです。特にLの値が大きい場合には、この複雑性の削減により速度が向上します。チームは、DeepPCRの複雑性の低減と高速化の条件を検証するために実験を行いました。DeepPCRを適用して、多層パーセプトロンの前方パスと後方パスを並列化することで、前方パスでは30倍、後方パスでは200倍の高速化を達成しました。チームはまた、DeepPCRの適応性を示すために、1024層を持つResNetのトレーニングに使用しました。DeepPCRのおかげで、トレーニングは最大7倍速く完了することができます。この技術は、拡散モデルの生成フェーズで使用され、シーケンシャルアプローチよりも11倍高速な生成を行います。チームは、主な貢献を以下のようにまとめています。ニューラルネットワークのトレーニングと推論の順次プロセスを並列化するための革新的なアプローチであるDeepPCRを紹介しました。その主な特徴は、列長を表すLをO(L)からO(log2 L)に低減する能力です。 DeepPCRは、多層パーセプトロン（MLP）の前方パスと後方パスを並列化するために使用されました。この技術のパフォーマンスに関する詳細な分析が行われ、基本的な設計パラメータを考慮しながら、高パフォーマンスの領域を特定しました。スピード、解の正確性、メモリ使用量のトレードオフも調査しています。 DeepPCRは、MNISTおよびMNIST、CIFAR-10、CelebAのデータセットで訓練された拡散モデルのディープResNetのトレーニングを高速化するために使用されました。DeepPCRは著しく高速化されている一方で、ResNetトレーニングでは7倍高速化し、拡散モデルの生成では11倍高速化し、シーケンシャルな手法と比較可能な結果を生成します。

このAI論文は、TreeOfLife-10Mデータセットを活用して生物学と保護のコンピュータビジョンを変革するBioCLIPを紹介しています

生態学、進化生物学、生物多様性など、多くの生物学の分野が、研究ツールとしてデジタルイメージおよびコンピュータビジョンを活用しています。現代の技術は、博物館、カメラトラップ、市民科学プラットフォームから大量の画像を分析する能力を大幅に向上させました。このデータは、種の定義、適応機構の理解、個体群の構造と豊富さの推定、生物多様性の監視と保全に活用することができます。とはいえ、生物学的な問いにコンピュータビジョンを利用しようとする際には、特定のタスクに適したモデルを見つけて訓練し、十分なデータを手動でラベリングすることは、依然として大きな課題です。これには、機械学習の知識と時間が大量に必要とされます。オハイオ州立大学、マイクロソフト、カリフォルニア大学アーヴァイン校、レンセラーポリテクニック研究所の研究者たちは、この取り組みで生命の木の基礎的なビジョンを構築することを調査しています。このモデルは、実際の生物学的なタスクに一般的に適用できるように、以下の要件を満たす必要があります。まず、一つのクラドだけでなく、様々なクラドを調査する研究者に適用できる必要があります。そして理想的には、生命の木全体に一般化できることが求められます。さらに、生物学の分野では、同じ属内の関連種や、適応度の向上のために他の種の外観を模倣するなど、視覚的に類似した生物と遭遇することが一般的です。生命の木は生物を広義のグループ（動物、菌類、植物など）および非常に細かいグループに分類しているため、このような細かな分類の精度が重要です。最後に、生物学におけるデータ収集とラベリングの高いコストを考慮して、低データの状況（例：ゼロショットまたはフューショット）で優れた結果が得られることが重要です。数億枚の画像で訓練された現行の汎用ビジョンモデルは、進化生物学や生態学に適用する際に十分な性能を発揮しません。しかし、これらの目標はコンピュータビジョンにとって新しいものではありません。研究者たちは、生物学のビジョン基盤モデルの作成には2つの主な障害があることを特定しています。まず、既に利用可能なデータセットは、サイズ、多様性、またはラベルの精度の点で不十分ですので、より良い事前トレーニングデータセットが必要です。さらに、現在の事前トレーニングアルゴリズムは3つの主要な目標に適切に対応していないため、生物学の独特な特性を活用したよりよい事前トレーニング方法を見つける必要があります。これらの目標とそれらを実現するための障害を念頭に置いて、チームは以下を提示しています： TREEOFLIFE-10Mという大規模なML対応の生物学画像データセット BIOCLIPはTREEOFLIFE-10M内の適切な分類群を用いてトレーニングされた生命の木を基盤としたビジョンベースのモデルです。 TREEOFLIFE-10Mは、ML対応の広範な生物学画像データセットです。生命の木において454,000の分類群をカバーする10,000,000以上の写真が含まれており、研究者たちによって編成され、最大のML対応生物学画像データセットが公開されました。2.7百万枚の写真は、最大のML対応生物学画像コレクションであるiNat21を構成しています。iNat21やBIOSCAN-1Mなどの既存の高品質データセットもTREEOFLIFE-10Mに組み込まれています。TREEOFLIFE-10Mのデータの多様性の大部分は、新たに選択された写真が含まれているEncyclopedia of Life（eol.org）から得られています。TREEOFLIFE-10Mのすべての画像の分類階層および上位の分類順位は、可能な限り注釈が付けられています。TREEOFLIFE-10Mを活用することで、BIOCLIPや将来の生物学モデルをトレーニングすることができます。 BIOCLIPは、視覚に基づく生命の木の表現です。TREEOFLIFE10Mのような大規模なラベル付きデータセットを用いてビジョンモデルをトレーニングする一般的で簡単なアプローチは、監視付き分類ターゲットを使用して画像から分類指数を予測することを学ぶことです。ResNet50やSwin Transformerもこの戦略を使用しています。しかし、このアプローチは、分類群が体系的に関連している複雑なタクソノミーのシステムを無視し、活用していません。したがって、基本的な監視付き分類を使用してトレーニングされたモデルは、未知の分類群をゼロショット分類することができない可能性があり、トレーニング時に存在しなかった分類群に対してもうまく一般化することができないかもしれません。その代わりに、チームは、BIOCLIPの包括的な生物学的タクソノミーとCLIPスタイルの多モーダルコントラスティブ学習を組み合わせる新しいアプローチに従っています。CLIPコントラスティブ学習目的を使用することで、彼らは分類群の階層をキングダムから最も遠い分類群ランクまでフラット化して、分類名として知られる文字列に関連付けることができます。BIOCLIPは、可視化できない分類群の分類名を使用する際にも、ゼロショット分類を行うことができます。チームは、混合テキスト型のトレーニング技術が有益であることを提案し、示しています。これは、分類名からの一般化を保ちつつ、複数のテキストタイプ（例：科学名と一般名）を組み合わせたトレーニング中に柔軟性を持つことを意味します。たとえば、ダウンストリームの使用者は一般的な種名を使用し続けることができ、BIOCLIPは非常に優れたパフォーマンスを発揮します。BIOCLIPの徹底的な評価は、植物、動物、昆虫を対象とした10の細かい画像分類データセットと、トレーニング中には使用されなかった特別に編集されたRARE SPECIESデータセットに基づいて行われています。BIOCLIPは、CLIPとOpenCLIPを大きく凌ぎ、few-shot環境では平均絶対改善率17％、zero-shot環境では18％の成績を収めました。さらに、その内在的な分析はBIOCLIPのより優れた一般化能力を説明することができます。これは、生物分類学的階層を遵守した階層的表現を学んでいることを示しています。 BIOCLIPのトレーニングは、数十万の分類群に対して視覚表現を学ぶためにCLIPの目的を利用しているということにもかかわらず、チームは分類に焦点を当てたままです。今後の研究では、BIOCLIPが細かい特徴レベルの表現を抽出できるよう、inaturalist.orgから100百万枚以上の研究用写真を取り込み、種の外見のより詳細なテキスト記述を収集する予定です。

「CNNにおけるアトラウス畳み込みの総合ガイド」

イントロダクションコンピュータビジョンの領域において、畳み込みニューラルネットワーク（CNN）は画像解析と理解の領域を再定義しました。これらの強力なネットワークは、画像分類、物体検出、セマンティックセグメンテーションなどのタスクにおいて革新的な進展を達成しました。これらは、医療、自動運転などのさまざまな分野での応用の基盤を築きました。しかし、よりコンテキストに対応した堅牢なモデルの需要が増えるにつれて、伝統的なCNN内の畳み込みレイヤーは、包括的なコンテキスト情報のキャプチャにおいて制限を受けています。これは、計算量の増加に伴わずにネットワークがより広いコンテキストを理解する能力を向上させるための革新的な手法の必要性をもたらしました。ここで紹介するのは、伝統的な畳み込みレイヤー内の常識を覆した、画期的なアプローチであるAtrous Convolutionです。Atrous Convolution（拡張畳み込み）は、計算量やパラメータを大幅に増やすことなく、ネットワークがより広いコンテキストをキャプチャする能力を実現することで、ディープラーニングの世界に新たな次元をもたらしました。学習目標畳み込みニューラルネットワークの基礎を学び、ビジュアルデータを処理して画像を理解する方法を理解する。 Atrous Convolutionが従来の畳み込み方法を改善する方法を理解し、画像内のより大きなコンテキストをキャプチャする能力を把握する。 DeepLabやWaveNetなど、Atrous Convolutionを使用するよく知られたCNNアーキテクチャを探索し、そのパフォーマンスを向上させる方法を確認する。 Atrous ConvolutionがCNN内での応用の手法やコードスニペットを通じて実践的な例を通して理解する。この記事はデータサイエンスのブログマラソンの一環として公開されました。 CNNの理解：動作原理畳み込みニューラルネットワーク（CNN）は、主に画像やビデオなどのビジュアルデータの分析に特化したディープニューラルネットワークの一種です。彼らは人間の視覚システムに触発され、ビジュアルデータ内のパターン認識において非常に効果的です。以下に詳細を示します：畳み込みレイヤー： CNNは複数のレイヤーで構成されており、畳み込みレイヤーがその核となっています。これらのレイヤーは、学習可能なフィルタを入力データに適用して、画像からさまざまな特徴を抽出します。プーリングレイヤー：畳み込み後、プーリングレイヤーを使用して空間的な次元を削減し、畳み込みレイヤーによって学習された情報を圧縮することがよくあります。一般的なプーリング操作には、最大プーリングや平均プーリングなどがあり、表現のサイズを縮小しながら必要な情報を保持します。活性化関数：畳み込みおよびプーリングレイヤーの後には、非線形の活性化関数（ReLUなどの整流線形ユニット）が使用されます。これにより、ネットワークはデータ内の複雑なパターンや関係性を学習することができます。全結合レイヤー：…

UCLAとCMUの研究者が、優れた中程度範囲の天気予報のためのスキルと信頼性のあるスケーラブルなトランスフォーマーニューラルネットワーク「ストーマー」を紹介しました

現在、科学と社会が直面している主な問題の一つは天気予報です。正確な天気予報は、自然災害や極端な天候事象に対処し、回復するために人々が計画するのに重要な役割を果たしており、気候変動への懸念が高まる中で環境をよりよく理解するために研究者を支援しています。数値天気予報（NWP）モデルは、大気科学者の業務の中核です。これらのモデルは、熱力学と流体力学を説明する微分方程式のシステムを使用し、時間を経て結合されることで将来の予測を作成します。NWPモデルは、放射や雲物理学などの重要な小スケールの物理現象のパラメータ化の誤りなど、いくつかの欠点がありますが、広く使用されています。大規模な微分方程式の統合の困難さから、数値的なアプローチは特に空間および時間の解像度を高くする場合には計算コストが非常に高くなります。さらに、これらのモデルは気候科学者の知識に依存して方程式、パラメータ化、アルゴリズムを改善するため、NWPの予測精度は追加データによっては改善されません。NWPモデルの問題に対処するため、ますます多くの人々がデータ駆動型、深層学習ベースの天気予測手法に関心を示しています。歴史的データ（ERA5再解析データセットなど）を使用して、深層ニューラルネットワークは将来の天気予測を訓練するために使用されます。これがこの手法の主たる前提です。従来のNWPモデルが数時間かかるのに対し、訓練後は数秒で予測することができます。この分野の初期の取り組みでは、気象データと自然の画像は似たような空間構造を持つため、ResNetやUNetなどの従来のビジョンアーキテクチャを天気予測に使用しようとしました。しかし、それらのパフォーマンスは数値モデルに劣っていました。しかし、改善されたモデル設計、トレーニングレシピ、データとパワーの増加により、最近では注目すべき進展がありました。最初に実用IFCを上回ったモデルは、0.25°データ（721×1440グリッド）でトレーニングされた3D地球特有のトランスフォーマーモデルであるPangu-Weatherでした。すぐに、Keislerのグラフニューラルネットワーク設計がGraphCastによって0.25°データにスケールアップされ、Pangu-Weatherを上回る結果を示しました。予測精度は優れているものの、現在の手法では複雑で高度にカスタマイズされたニューラルネットワークのトポロジーがしばしば使用され、抜け穴実験がほとんど行われないため、その効果の正確な要素を特定するのは困難です。たとえば、GraphCastにおける多重メッシュメッセージパッシングが効率にどの程度貢献しているのか、3D地球特有のトランスフォーマーが通常のトランスフォーマーと比べてどのような利点を持っているのかは分かりません。この分野では、これらの現行手法をより良く理解し、できれば簡素化するために統合フレームワークが必要です。また、気候や天候の予測を超える気象基礎モデルを作成することも容易になります。この研究では、適切なトレーニングの公式と組み合わせることで、簡単な設計が先端技術を上回る性能を発揮することを示しています。 UCLA、CMU、Argonne National Laboratory、およびPenn State Universityの研究者は、Stormerと呼ばれる、従来のトランスフォーマーのバックボーンにほとんどの変更を加える必要のないシンプルなトランスフォーマーモデルを提案しています。研究チームは、従来のビジョントランスフォーマー（ViT）アーキテクチャをベースにして、モデルのパフォーマンスに影響を与える3つの要素を詳細に調査しました：モデルは次の3つの要素から構成されます：（1）大気変数間の相互作用をモデル化し、入力データをトークンのシーケンスに変換する天気固有の埋め込み層、（2）モデルをランダムな間隔で天気の動態を予測するようにトレーニングするランダムなダイナミクス予測目標、（3）ロス関数において異なる圧力レベルの変数を重み付けして各圧力レベルの密度を近似する圧力加重ロス。提案されたランダムなダイナミクス予測目標は、モデルがトレーニングされた間隔のさまざまな組み合わせを使用することによって、推論中に特定のリードタイムに対して多くの予測を生成するため、1つのモデルが複数の予測を可能にします。たとえば、6時間の予測を12回配布するか、12時間の予測を6回配布することで、3日間の予測を得ることができます。これらの予測を組み合わせることにより、特に長期のリードタイムにおいて、大きな性能向上が得られます。研究チームは、データ駆動型の天気予測のための人気のあるベンチマークであるWeatherBench 2を使用して、Stormerという提案手法を評価しました。テスト結果は、Stormerが7日後に先端の予測システムを上回り、1日から7日間の重要な大気変数の予測精度で競争力のある結果を達成していることを示しています。特に、Stormerはほぼ5倍低解像度データおよび数桁少ないGPU時間で訓練されることにより、ベースラインよりも性能が向上しています。さらに、スケーリングの研究により、モデルの容量とデータサイズを増やすとStormerの性能が継続的に向上する可能性があることが証明されました。

「CMU研究者がニューラルネットワークの挙動における重尾データとネットワークの深層との相互作用が最適化ダイナミクスの形成に与える重要な洞察を発見」

ニューラルネットワーク（NN）の最適化の興味深い性質が次第に増えてきており、これらは最適化の古典的な手法では説明が難しいものです。同様に、研究チームは各性質の力学的な原因についての理解度が異なります。AdamやBatch Normalizationなどの効果的なトレーニングツールについては、多くの努力が行われており、それらの効果を説明するための可能性のある説明が提案されていますが、その証拠は一部にしか説得力がなく、理論的な理解はほとんどありません。グロッキングや安定性の限界などの他の発見は、即座の実用的な示唆を持っていないかもしれませんが、NNの最適化の特徴を研究する新しい方法を提供しています。これらの現象は通常単独で考慮されますが、完全に異なるものとは言えず、それらが共有する具体的な原因はわかっていません。特定の文脈でのNNのトレーニングダイナミクスに関するより良い理解は、アルゴリズムの改善につながる可能性があります。そのため、共通点はさらなる調査のための貴重なツールとなるでしょう。この研究では、カーネギーメロン大学の研究チームがNN最適化における現象を特定し、これまでの観察に新たな視点を提供することを目指しています。研究チームは完全な説明を提供することを主張していませんが、高いレベルのアイデアに対して強力な定性的および定量的な証拠を提示し、既存の複数の説明に自然に適合し、起源のより一貫した絵を示唆しています。具体的には、研究チームは自然データにおけるペアグループの外れ値の存在を示し、これがネットワークの最適化ダイナミクスに大きな影響を与えることを示しています。これらのグループには、初期化時およびトレーニングのほとんどの段階でネットワークの出力を支配する相対的に大きな特徴が含まれています。これらの特徴のもう一つの特徴は、大きく一貫した逆勾配を提供することです。つまり、一方のグループの損失を減少させるためにそのグループの勾配に従うと、他のグループの損失が同様の量だけ増加します。この構造のため、研究チームはこれらを「対立信号」と呼んでいます。これらの特徴は、目標タスクと非自明な相関関係を共有していますが、通常は「正しい」（例：人間の揃った）信号ではありません。多くの場合、これらの特徴は「相関と因果関係のジレンマ」を完璧に具体化しています。たとえば、明るい青い空の背景はCIFARの画像のラベルを決定するものではありませんが、ほとんどの場合は飛行機の画像に現れます。その他の特徴としては、トラックや車の画像におけるホイールやヘッドライトの存在、または書かれたテキストにおけるコロンの後には「the」または改行トークンが続くという点などがあります。図1はCIFAR-10でGDを使用してトレーニングしたResNet-18のトレーニング損失と、一部の主要な外れ値グループとそれらの損失を示しています。図1：対立する信号を持つ外れ値は、ニューラルネットワークのトレーニングダイナミクスに重要な影響を与えます。さらに、GDを使用してCIFAR-10でトレーニングしたResNet-18のトータルロスを持つ一部の代表的な外れ値グループのロスが表示されています。これらのグループは一貫して矛盾した信号を示し（例えば、ホイールとヘッドライトはトラックや車を示唆することがあります）、これらのグループのロスはトレーニングの間に振動し、全体的なロスの突発的なスパイクに対応しており、安定性現象の根本的な原因のようです。トレーニングの初期段階では、ネットワークは重み空間の狭い谷に入り、対立するグループの勾配を慎重にバランスさせますが、損失のランドスケープのシャープ化により、ネットワークは特定の軸に沿って成長する振幅の大きな振動をするようになり、このバランスが崩れます。空の背景の例に戻ると、あるステップでは、全てのスカイ画像においてクラス「飛行機」により高い確率が与えられ、次のステップでその効果が反転します。要するに、「空＝飛行機」のサブネットワークが成長して収縮します。この振動の直接の結果は、スカイが背景にある飛行機の画像におけるネットワークの損失が急激に増加して減少することと、スカイを持たない非飛行機の画像における反対の効果が起こることです。その結果、これらのグループの勾配は方向を交互に変えながら、大きさも増加します。これらのペアはデータの一部を表しているため、この動作は全体のトレーニング損失からはすぐにはわかりませんが、最終的にはトレーニングの進行に伴い、広範な損失のスパイクにつながります。これらの2つのイベント間には明らかな直接的な対応関係がありますので、研究チームは対立するシグナルが安定性の境界現象を直接引き起こすと推測しています。研究チームはまた、最も影響を与えるシグナルは時間とともに複雑さを増していくようです。研究チームは、視覚アーキテクチャとトレーニングのハイパーパラメータの範囲にわたってこの実験を繰り返しました。正確なグループとその出現順序は変化しますが、パターンは一貫して現れます。研究チームはまた、自然なテキストの次のトークン予測におけるトランスフォーマーと、単純な1D関数に対する小規模なReLU MLPについてもこの動作を検証しました。ただし、研究チームは最も明確な直感を提供するためにイメージを使用しています。彼らの実験のほとんどはこの効果を分離するためにGDを使用しますが、研究チームはSGDでも類似のパターンを観察しました。本論文の主な貢献は、NN最適化中における対立するシグナルの存在、普及性、および大きな影響を示すことです。さらに、研究チームは、これらのシグナルが観察されるトレーニングダイナミクスの原因についての彼らの現在の最良理解を、支持する実験と共に提示しています。特に、研究チームは深さと最急降下法の方法に起因するものであるという証拠を提供しています。研究チームは、おもちゃの例と簡単なモデル上の2層線形ネットの分析を交えながら、この議論を補完しています。特筆すべきことに、初歩的ではありますが、彼らの説明によってトレーニング中のNNの振る舞いに関する具体的な定性的予測が可能になります。これは、研究チームが実験的に確認しています。また、これはSGDとAdamの比較を通じて研究チームがハイライトした、現代の確率的最適化手法を研究する新しいレンズを提供します。研究チームは、対立するシグナルとさまざまなNN最適化および一般化現象との可能性の接続を見ています。これには、理解、投射/弾き出し、単純さのバイアス、二重降下、およびシャープネス認識最適化などが含まれます。

ニューヨーク大学とMetaの研究者が、「Dobb-E」という家庭用ロボット操作のためのオープンソースかつ汎用フレームワークを紹介した

NYUとMetaの研究者チームは、DobbEという高度に適応性のあるシステムを開発し、家庭環境におけるロボットの操作学習の課題に取り組みました。DobbEはユーザーのデモンストレーションから学習し、適応することができるシステムです。実験では、システムの効率性が示されましたが、現実の環境でのユニークな課題も浮き彫りにされました。この研究は、ロボットのデータセットの大量収集に関する最近の進歩を認識し、家庭や第一者のロボットとの相互作用に焦点を当てたデータセットのユニークさを強調しています。iPhoneの機能を活用して、このデータセットは高品質のアクションとレアな深度情報を提供します。既存の自動操作に焦点を当てた表現モデルに比べ、汎用的な表現のためのドメイン内での事前学習が重視されています。さらなる改善のために、ロボット以外の家庭のビデオからのドメイン外情報をデータセットに追加することを提案し、その研究の可能性を認めています。序文では、包括的な家庭用アシスタントの構築における課題に取り組み、制御された環境から実際の家庭への転換を主張しています。効率性、安全性、ユーザーの快適さが強調され、これらの原則を体現するフレームワークとしてDobbEが紹介されています。大規模なデータと最新の機械学習を利用した効率性、安全性のための人間のデモンストレーション、ユーザーの快適さのためのエルゴノミックなツールを組み合わせて、ハードウェア、モデル、アルゴリズムをHello Robot Stretchの周りに統合しています。ニューヨークの家庭データセット、22の家庭からの多様なデモンストレーション、ビジョンモデルのための自己教師あり学習手法も議論されています。この研究では、行動複製フレームワークを用いてDobbEを訓練し、人間やエキスパートエージェントの振る舞いを模倣します。設計されたハードウェアセットアップにより、異なる家庭のデータ、iPhoneのオドメトリなどを活用してデモンストレーションの収集とロボットに転送がスムーズに行われます。基礎モデルはこのデータで事前学習されます。訓練されたモデルは実際の家庭でテストされ、視覚表現、必要なデモンストレーション、深度知覚、デモンストレータの専門知識、パラメトリックポリシーの必要性など、システムの異なるコンポーネントを評価するアブレーション実験が行われます。 DobbEは、5分のデモンストレーションと15分のHome Pretrained Representationsモデルの適応のみで、未知の家庭環境で81％の成功率を示しました。10の異なる家庭で30日間にわたって、DobbEは109のタスクのうち102を成功裏に学習し、ビジュアル表現にはResNetモデル、アクション予測には2層ニューラルネットワークなど、シンプルながらパワフルな方法の効果を証明しました。タスクの達成時間と難易度は回帰分析によって分析され、アブレーション実験ではグラフィカル表現やデモンストレータの専門知識など、異なるシステムコンポーネントが評価されました。結論として、DobbEはさまざまな家庭環境でテストされた費用対効果の高い多目的なロボット操作システムで、驚異的な81％の成功率を示しました。DobbEチームは、システムのソフトウェアスタック、モデル、データ、ハードウェア設計を自由にオープンソース化し、家庭用ロボットの研究の推進とロボット執事の広範な普及を促進しています。DobbEの成功は、行動複製やアクション予測のための2層ニューラルネットワークなど、パワフルでシンプルな手法によるものです。実験はまた、照明条件や影がタスクの実行に影響を与える課題についての示唆も提供しました。

「UCバークレーの研究者が開発したALIA：微細分類タスクのための自動言語ガイド画像拡張の画期的なブレイクスルー」

細粒度イメージ分類は、大きなカテゴリ内のサブカテゴリに画像を分類するコンピュータビジョンのタスクです。これは、特定の、しばしば珍しい動物の繊細な同定を必要とします。しかし、より広範なトレーニングデータが必要であるというニーズにより、分類器は天候条件や地理的な場所の変化など、ドメインの異なる側面において適応に苦労しています。データ拡張は、細粒度分類のような特殊なタスクでは、困難に直面しています。ジェネレーティブモデルやフリップや切り抜きなどの従来の手法を使用したアプローチは、有望ですが、しばしば緻密な調整が必要であり、そのようなタスクには適さない画像を生成することがあります。これらの課題に対処しようとするさまざまな提案された手法にもかかわらず、この分野は、視覚的な一貫性と元のトレーニングデータとの関連性を維持しながら多様な変動を表現する拡張データセットを作成する上でのハードルに直面しています。新しいアプローチであるALIA（Automated Language-guided Image Augmentation）は、これらの持続的な課題を克服するために登場しました。ALIAは、データセットの領域についての自然言語の説明と大規模なビジョンモデルを組み合わせて、言語による画像編集を通じてトレーニングデータの多様な変化を自動的に生成します。通常の手法とは異なり、ALIAは高価な微調整やユーザーが提供するプロンプトに頼らない。代わりに、最小限の編集やタスクに関連する情報を破壊する可能性のある編集を賢くフィルタリングして、データセットの多様性を向上させ、細粒度分類のような特殊なタスクにおける分類器の一般化能力を改善する有望な解決策を提示します。このプロセスは次のようなものです：ドメインの説明の生成：イメージキャプションと大規模言語モデル（LLM）を使用して、10未満のドメインの説明にイメージのコンテキストを簡潔にまとめます。言語のガイダンスを使用した画像の編集：これらの説明に合わせて多様な画像を作成するために、テキストに依存する画像編集技術を使用します。失敗した編集のフィルタリング：セマンティックフィルタリングのためにCLIPを使用し、信頼度に基づいたフィルタリングのために分類器を使用して、失敗した編集を取り除き、タスクに関連する情報と視覚的な一貫性を保ちます。筆者によると、この方法はデータセットを20%〜100%拡張し、視覚的な一貫性を保ち、より広範なドメインを含んでいます。研究チームは、ALIAのデータ拡張手法の効果を評価するために、ドメインの一般化、細粒度分類、および鳥の分類におけるコンテキストバイアスなどの特殊なタスクについて大規模な実験を行いました。ResNet50モデルの微調整と画像編集のための安定した拡散を使用し、ALIAは従来の拡張技術や実データの追加さえもドメインの一般化のタスクで常に優れたパフォーマンスを発揮し、元のデータに比べて17%の改善を見せました。細粒度分類では、ALIAはドメインの変化がなくても精度を維持し、コンテキストバイアスを伴う機能においても、インドメインとアウトオブドメインの精度で優れたパフォーマンスを発揮しましたが、画像編集の品質やテキストのみの修正では課題がありました。これらの実験は、ALIAがデータセットの多様性とモデルのパフォーマンスを高める可能性を示していますが、モデルの品質と画像編集方法の選択にいくらか依存性があるということも明らかにしました。総括すると、筆者たちは、ALIAという、大規模言語モデルとテキストにガイドされた画像編集技術を活用する、データ拡張のための先進的な戦略を紹介しました。提供されたトレーニングセット内のドメインの説明と拡張データに対して、この手法はドメイン適応、バイアスの低減、さらにはドメインシフトがない場面でも優れた能力を発揮しました。今後の研究では、筆者たちは、キャプション作成、大規模言語モデル、および画像編集のさらなる進展が、このアプローチの効果と応用性を大幅に向上させると考えています。実際のトレーニングデータから派生した構造化されたプロンプトを使用することは、現在の手法で遭遇するさまざまな制約を改善し、データセットの多様性を向上させるために重要な役割を果たす可能性があります。これは、ALIAの広範な影響と潜在的な進化に関する有望な研究の方向性を示唆しています。

このAI研究は、トライアングルとしてメッシュを直接出力する革新的な形状生成手法であるMeshGPTを紹介しています

メッシュGPTは、ドイツ工科大学ミュンヘン校、トリノ工科大学、アウディAGの研究者によって提案された三角形メッシュの自己回帰生成法であり、学習済みトライアングルシーケンスの語彙を利用したGPTベースのアーキテクチャを活用しています。この手法では、幾何学的な語彙と潜在的な幾何学的トークンを使用して三角形を表現し、鮮明なエッジを持つ整合性のある、クリーンでコンパクトなメッシュを生成します。他の手法とは異なり、MeshGPTは変換を必要とせずに三角形メッシュを直接生成し、既知の形状だけでなく、新しい現実的な形状も高い精度で生成する能力を示しています。従来の形状生成手法（ボクセルベースやポイントクラウド手法など）は、細部や複雑な形状を捉えることに制限がありました。暗黙的な表現手法は、形状をボリューメトリックな関数としてエンコードするものの、しばしばメッシュ変換が必要であり、密なメッシュを生成してしまいました。これまでの学習ベースのメッシュ生成手法では、適切な形状の詳細捕捉に支援が必要でした。一方、PolyGenとは異なり、MeshGPTはシングルデコーダーのみのネットワークを活用し、学習されたトークンを使用して三角形を表現することで、効率的かつ高精度なメッシュ生成を実現し、推論時の堅牢性を向上させています。 MeshGPTは、デコーダーのみのトランスフォーマーモデルを使用して三角形メッシュを直接生成する3D形状生成手法を提供します。この手法では、学習された幾何学的な語彙とグラフ畳み込みエンコーダーを使用して三角形を潜在的なエンベッディングにエンコードします。ResNetデコーダーにより、自己回帰的なメッシュシーケンス生成を実現します。MeshGPTは、形状のカバレッジとフレシェ・インセプション・ディスタンス（FID）スコアにおいて、既存の手法を上回り、ポスト処理をしないで密なメッシュや過度に滑らかな出力を生成するための効率的なプロセスを提供します。 MeshGPTは、ジオメトリックな語彙に基づいてトークンをデコードして三角形メッシュ面を生成するためのデコーダーのみのトランスフォーマーモデルを使用します。三角形を潜在的な量子化されたエンベッディングに変換するためにグラフ畳み込みエンコーダーを活用し、ResNetによって頂点座標を生成します。全てのカテゴリでの事前トレーニング、トレインタイムの拡張によるファインチューニング、ジオメトリックなエンベッディングの影響を評価するための実験などが行われます。MeshGPTのパフォーマンスは、形状のカバレッジとFIDスコアに基づいて評価され、最先端の手法に優れた性能を示します。 MeshGPTは、Polygen、BSPNet、AtlasNet、GET3Dなどの主要なメッシュ生成手法と比較して、形状品質、三角形化品質、形状多様性において優れた性能を発揮し、鮮明なエッジを持つクリーンで整合性のある詳細なメッシュを生成します。ユーザースタディでは、総合的な形状品質や三角形化パターンの類似性において、MeshGPTが他の手法よりも明らかに優れています。MeshGPTはトレーニングデータを超える新しい形状を生成することができ、そのリアリティが際立ちます。アブレーションスタディでは、形状品質において学習されたジオメトリックなエンベッディングの正確さが、単純な座標トークン化と比較してどれだけ良い影響を与えるかを明らかにしています。結論として、MeshGPTは鮮明なエッジを持つ高品質な三角形メッシュの生成において優れた性能を発揮しています。デコーダーのみのトランスフォーマーや学習されたジオメトリックなエンベッディングの語彙学習への組み込みにより、実際の三角形化パターンに近い形状を生成し、既存の手法を凌駕しています。最近の研究では、他の手法と比較して、ユーザーはMeshGPTを総合的な形状品質やグラウンドトゥルースの三角形化パターンとの類似性において優れていると評価しています。

「新時代のAI/MLのためのソフトウェア/ハードウェアアーキテクチャをどのように共同設計するか？」

最新の生成AI技術は、コンピュータビジョン、自然言語処理などで爆発的な成長を遂げ、画期的なモデルアーキテクチャの研究によるブレイクスルーが続々と生まれています

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us