Search Results arXiv

コンピュータ支援証明が流体の流れに取り組む

「研究者はコンピュータを使って、方程式が「ブローアップ」することを示す」

エネルギーフォレンジックスにおける高度なAIアルゴリズムの開発：消費パターンを通じたスマートグリッド盗難検出のためのTransformerモデルのPythonガイド

ドイツのエネルギーデータからの洞察：小規模設定における消費パターンとオンラインデータサポートアナリティクスに関するステファニー・ネスによるガイド広大なデータの海の中で、各キロワット時はその物語をささやきます複雑な消費パターンの奥深くには異常、エネルギー盗難の秘話が潜んでいるかもしれませんこれらの物語は、頻繁にありふれていることが多いですが、時には高らかに響くこともあります...消費パターンを通じたスマートグリッドの盗難検出のためのトランスフォーマーモデルに関するエネルギーフォレンジクスの高度なAIアルゴリズム開発：Pythonガイドを読む»

「事前学習済みのテキストからイメージへの拡散モデルを用いたポイントクラウドの補完」

ポイントクラウドという言葉を聞いたことがありますか？それは、オブジェクトや環境のジオメトリと空間属性を記述する三次元座標系の点で構成される、3Dデータの基本的な表現です。ポイントクラウドは、コンピュータビジョン、仮想現実、自動運転などで広く使用されており、現実世界のオブジェクトを豊富かつ詳細に表現することができます。ポイントクラウドは、LiDARスキャナーや深度カメラなどの深度センサーを使用して取得されます。LiDARスキャナーはレーザービームを発射し、オブジェクトに当たった後に跳ね返るまでの時間を測定します。深度カメラは、構造化光や飛行時間法を使用して、画像の各ピクセルの深度を推定します。ポイントクラウドは、3Dの世界に関する貴重な情報を提供しますが、しばしば不完全で不完全な点があります。遮蔽、センサーの制限、ノイズなどの要因により、欠落またはノイズのあるデータポイントが生じることがあり、シーンやキャプチャされるオブジェクトの完全かつ正確な表現を得ることが困難になります。これは、さまざまなアプリケーションでポイントクラウドを効果的に利用することを妨げる制限です。これらの制限を克服し、三次元の世界を包括的に理解するために、研究者はポイントクラウド補完技術を探求してきました。深層学習と生成モデルの最近の進歩により、ポイントクラウド補完の分野で大きな進歩がありました。これらのアプローチは、完全なポイントクラウドの大規模なデータセットでモデルをトレーニングすることによって、トレーニングデータで観察される文脈情報やパターンに基づいて欠落したジオメトリを推論することを学ぶことができます。これらのアプローチは、部分的またはノイズのある入力データが存在する場合でも、複雑で詳細なオブジェクト形状の補完において印象的な結果を示しています。ただし、これらの方法は、トレーニングセットに存在しないオブジェクトのポイントクラウドを補完する際に苦労します。そこで、拡散モデルを使用してこの問題に取り組むSDS-Complete に出会いましょう。 SDS-Completeは、拡散モデルを使用してポイントクラウドを補完します。出典：https://arxiv.org/pdf/2306.10533.pdf SDS-Completeは、欠落した部分をポイントクラウドで補完するために、事前にトレーニングされたテキストからイメージへの拡散モデルを活用します。従来のポイントクラウド補完のアプローチは、形状クラスの範囲が限定された大規模なデータセットに大いに依存しています。しかし、実世界のシナリオでは、多様なオブジェクトクラスの補完が必要であり、そのようなバラエティを処理できるモデルの開発は大きな課題です。 SDS-Completeの背後にある主なアイデアは、事前にトレーニングされたテキストからイメージへの拡散モデルに含まれる事前知識を利用することです。これらのモデルは多様なオブジェクトでトレーニングされており、欠落した部分を補完するための貴重なリソースとなります。拡散モデルからの事前情報を観測された部分的なポイントクラウドと組み合わせることで、SDS-Completeは部分的な観測を忠実に反映する正確でリアルな3D形状を生成します。 SDS-Completeのコンポーネントの概要。出典：https://arxiv.org/pdf/2306.10533.pdf この組み合わせを実現するために、SDS-CompleteはSDSの損失と符号付き距離関数（SDF）表現を利用します。損失は入力ポイントとの一貫性を保証し、SDF表現により、異なる深度センサーによってキャプチャされた既存の3Dコンテンツを保存することが可能となります。この方法は、テキストとポイントクラウドの入力制約を考慮に入れており、テキスト情報と観測データの両方によってガイドされたオブジェクト表面の補完を可能にします。彼らのGithubページをご覧ください。プロジェクトページでもさらにデモをご覧いただけます。

「CutLER（Cut-and-LEaRn）：人間の注釈なしで物体検出とインスタンスセグメンテーションモデルをトレーニングするためのシンプルなAIアプローチによる出会い」

オブジェクト検出と画像セグメンテーションは、コンピュータビジョンと人工知能の重要なタスクです。これらは、自動車、医療画像、セキュリティシステムなど、さまざまなアプリケーションで重要です。オブジェクト検出は、画像やビデオストリーム内のオブジェクトのインスタンスを検出することを目的としています。オブジェクトのクラスと画像内の位置を特定することから成り立っています。目標は、オブジェクトの周囲に境界ボックスを生成し、さらなる分析やビデオストリーム内でのオブジェクトの追跡に使用することです。オブジェクト検出アルゴリズムは、ワンステージとツーステージの2つのカテゴリに分けることができます。ワンステージの方法は速いですが正確性は低く、ツーステージの方法は遅いですが正確性が高いです。一方、画像セグメンテーションは、画像を複数のセグメントまたは領域に分割することで、各セグメントが異なるオブジェクトまたはオブジェクトの一部に対応するようにすることを目的としています。目標は、画像内の各ピクセルにセマンティッククラス（「人」、「車」、「空」など）をラベル付けすることです。画像セグメンテーションアルゴリズムは、セマンティックセグメンテーションとインスタンスセグメンテーションの2つのカテゴリに分けることができます。セマンティックセグメンテーションは、各ピクセルにクラスラベルを付けることを目的としていますが、インスタンスセグメンテーションは、画像内の個々のオブジェクトを検出してセグメント化することを目的としています。オブジェクト検出と画像セグメンテーションの両方のアルゴリズムは、深層学習のアプローチによって最近大きく進化しています。ピクチャ入力の階層的表現を学習する能力があるため、畳み込みニューラルネットワーク（CNN）はこれらの問題に対する選択肢となっています。ただし、これらのモデルのトレーニングには、オブジェクトボックス、マスク、ローカライズされたポイントなどの専門的な注釈が必要であり、これは困難で時間がかかる作業です。オーバーヘッドを考慮しない場合、COCOデータセットの164K枚の画像に対して、80のクラスのマスク付きの手動注釈を行うには28K時間以上が必要でした。新しいアーキテクチャであるCut-and-LEaRn（CutLER）を用いて、著者たちはこれらの問題に対処しようとします。CutLERは、人間のラベルなしでトレーニングできる教師なしのオブジェクト検出とインスタンスセグメンテーションモデルを研究することを目的としています。この手法は、3つのシンプルなアーキテクチャとデータに依存しないメカニズムで構成されています。提案されたアーキテクチャのパイプラインを以下に示します。出典: https://arxiv.org/pdf/2301.11320.pdf CutLERの著者は、まず、自己教師ありの事前学習ビジョントランスフォーマーViTによって計算された特徴に基づいて、各画像に対して複数の初期ラフマスクを自動生成するツールであるMaskCutを紹介しています。MaskCutは、Normalized Cuts（NCut）などの現在のマスキングツールの制限に対処するために開発されました。実際、NCutの応用は画像内の単一のオブジェクト検出に制限されることが多く、これは大きな制約となる場合があります。そのため、MaskCutは、マスクされた類似度行列に反復的にNCutを適用することで、画像ごとに複数のオブジェクトを発見するように拡張しています。次に、著者たちは、これらのラフマスクを使用してディテクタをトレーニングするための簡単なロスドロップ戦略を実装しています。これらのラフマスクでトレーニングされたディテクタは、地面の真実を洗練し、より正確なマスク（およびボックス）を生成することができます。したがって、モデルの予測に対する自己トレーニングの複数のラウンドにより、モデルは局所的なピクセルの類似性に焦点を当てることから、全体的なオブジェクトのジオメトリを考慮することに進化し、より正確なセグメンテーションマスクを生成することができます。以下の図は、提案されたフレームワークと最先端のアプローチとの比較を示しています。出典: https://arxiv.org/pdf/2301.11320.pdf これは、正確で一貫性のある物体検出と画像セグメンテーションのための新しいAIツール、CutLERの概要でした。このフレームワークに興味がある場合や詳細を知りたい場合は、論文とプロジェクトページへのリンクを見つけることができます。

現代のNLP：詳細な概要パート2：GPT

シリーズの第一部では、Transformerが自然言語処理と理解のシーケンスモデリング時代を終了させたことについて話しましたこの記事では、私たちは...に焦点を当てることを目指しています

「夢の彫刻：DreamTimeは、テキストから3Dコンテンツ生成の最適化戦略を改善するAIモデルです」

生成型AIモデルは今や私たちの日常の一部です。これらのモデルは近年急速に進化し、結果はおかしな画像から非常に写真のようなものまで、比較的速く進んできました。MidJourney、StableDiffusion、DALL-Eなど、心に描いたイメージを簡単に生成できるようになりました。それだけではありません。私たちはその間に3Dコンテンツ生成の非常に注目すべき進歩を目撃しています。第三の次元が時間（動画）であるか深さ（NeRF、3Dモデル）であるかに関わらず、生成される出力は非常に速く実物に近づいています。これらの生成モデルは3Dモデリングやデザインの専門知識の要件を緩和しました。しかし、全てが順調なわけではありません。3D生成はよりリアルになっていますが、2D生成モデルに比べてまだ大きく遅れています。大規模なテキストから画像へのデータセットは、画像生成アルゴリズムの能力を拡張する上で重要な役割を果たしてきました。しかし、2Dデータは簡単に入手できる一方で、3Dデータへのアクセスは訓練と監視においてより困難であり、3D生成モデルの不足を引き起こしています。既存の3D生成モデルの主な制約は、色の飽和度の不足とテキストから画像へのモデルと比べた多様性の低さです。それでは、DreamTimeというモデルに出会って、これらの制約をどのように克服するか見てみましょう。 DreamTimeは、NeRF（ニューラル放射輝度場）の最適化プロセスにおける制約は、スコア蒸留の一貫したタイムステップサンプリングとの衝突によって主に引き起こされることを示しています。この衝突を解決し、制約を克服するために、モノトニック非減少関数を使用してタイムステップサンプリングを優先する革新的な手法を使用しています。NeRFの最適化プロセスを拡散モデルのサンプリングプロセスに合わせることで、リアルな3Dモデルの生成におけるNeRFの最適化の品質と効果を向上させることを目指しています。 SDS勾配の可視化。出典: https://arxiv.org/pdf/2306.12422.pdf 既存の手法では、飽和した色と制約された多様性を持つモデルがしばしば生成され、コンテンツの作成に障害を引き起こしています。それに対処するため、DreamTimeはテキストから3D生成のための新しい技術であるタイムプライオライズドスコア蒸留サンプリング（TP-SDS）を提案しています。TP-SDSの背後にある主なアイデアは、事前にトレーニングされた拡散モデルによって提供される異なるレベルの視覚的な概念を、さまざまなノイズレベルで優先することです。このアプローチにより、最適化プロセスは詳細の磨きと視覚品質の向上に焦点を当てることができます。非減少のタイムステップサンプリング戦略を取り入れることで、TP-SDSはテキストから3Dの最適化プロセスを拡散モデルのサンプリングプロセスに合わせます。 DreamTimeによって生成されたサンプル結果。出典: https://arxiv.org/pdf/2306.12422.pdf TP-SDSの効果を評価するため、DreamTimeの著者は包括的な実験を行い、標準のスコア蒸留サンプリング（SDS）手法とのパフォーマンスを比較しました。彼らは数式、勾配の可視化、周波数解析を通じて、テキストから3Dの最適化と一様なタイムステップサンプリングの衝突を分析しました。その結果、提案されたTP-SDSアプローチは既存の手法を上回り、テキストから3Dの生成の品質と多様性を大幅に向上させることが示されました。

「2023年の機械学習のアンラーニング：現在の状況と将来の方向性」

「夜中に目が覚めたまま、脳が何度も再生するほど恥ずかしい記憶の一部を忘れたいと思ったことはありますか？特定の記憶を心に残すことは…」

「DiffusionDet 物体検出のために拡散を使用する人工知能（AI）モデルを紹介します」

オブジェクト検出は、画像や動画中のオブジェクトを識別するための強力な技術です。深層学習とコンピュータビジョンの進歩により、ここ数年で大きく進化してきました。これは、輸送やセキュリティ、医療、小売業など、さまざまな産業を革新する可能性を持っています。技術がさらに向上するにつれて、オブジェクト検出の分野でさらなるエキサイティングな発展が期待されます。オブジェクト検出の主な課題の1つは、画像内のオブジェクトを正確にローカライズする能力です。これには、オブジェクトが存在することを特定し、その正確な位置とサイズを決定することが含まれます。ほとんどのオブジェクト検出器は、画像の特定の領域（スライディングウィンドウや領域提案など）を見て、これらをオブジェクトを識別するための「ガイド」として使用することで、回帰と分類の組み合わせを使用してオブジェクトを識別します。アンカーボックスや参照点などの他の手法もオブジェクト検出に役立つことがあります。これらのオブジェクト検出の手法は比較的簡単かつ効果的ですが、固定された一連の事前定義された検索基準に依存しています。ほとんどの場合、一連の候補オブジェクトを定義する必要がありますが、これは手間がかかることがあります。これらの事前定義された検索ガイドラインを必要とせずに、さらにプロセスをさらに簡素化する方法はありますか？テンセントの研究者からの回答は、DiffusionDetというオブジェクト検出に使用される拡散モデルを提案するものでした。拡散モデルは、最近数ヶ月間、AIコミュニティの注目を集めています。主に、Stable Diffusionモデルの公開によるものです。簡単に説明すると、拡散モデルはノイズを入力として受け取り、ある規則に従って徐々にノイズを除去して望ましい出力を得るまで変化させます。安定した拡散の文脈では、入力はテキストプロンプトによって得られたノイズ画像であり、これを似たようなテキストプロンプトの画像になるまでゆっくりとノイズを除去していきます。では、オブジェクト検出に拡散アプローチをどのように使用するのでしょうか？私たちは新しいものを生成することには興味がありません。代わりに、与えられた画像内のオブジェクトを知りたいのです。彼らはどのようにそれを行ったのでしょうか？ DiffusionDetの概要。出典: https://arxiv.org/pdf/2211.09788.pdf DiffusionDetでは、一連のランダムボックスから直接オブジェクトを検出するための新しいフレームワークが設計されています。これらのボックスには、トレーニング中に最適化する必要のある学習可能なパラメータは含まれていません。これらのボックスの位置とサイズは、ノイズからボックスへのアプローチを通じて徐々に修正され、最終的に対象のオブジェクトを正確にカバーするようになります。ボックスを入力ノイズと考え、制約はそれらがオブジェクトを含んでいる必要があることです。したがって、最終的には、異なるオブジェクトを含む一連のボックスを取得したいと考えています。デノイジングステップでは、ボックスのサイズと位置を徐々に変化させていきます。ヒューリスティックなオブジェクト事前知識や学習可能なクエリは、このアプローチでは必要ありません。これにより、オブジェクト候補の特定が簡素化され、検出パイプラインの開発が進展します。 DiffusionDetのフレームワーク。出典: https://arxiv.org/pdf/2211.09788.pdf DiffusionDetは、画像内のバウンディングボックスの位置とサイズを含む生成課題として、物体検出を考えます。トレーニング中には、分散スケジュールによって制御されたノイズが真のボックスに追加され、ノイズのあるボックスが作成されます。そして、これらのボックスをバックボーンエンコーダの出力特徴マップからクロップされた特徴に使用します。これらの特徴は、ノイズのない真のボックスを予測するようにトレーニングされた検出デコーダに送られます。これにより、DiffusionDetはランダムなボックスから真のボックスを予測することができます。推論時には、DiffusionDetは学習された拡散プロセスを逆転させ、学習されたバウンディングボックスの分布に対してノイズのある事前分布を調整してバウンディングボックスを生成します。

中国の最新のAI研究により、「OMMO」と呼ばれる大規模な屋外マルチモーダルデータセットと新しい視点合成および暗黙的なシーン再構築のためのベンチマークが紹介されました

最近の暗黙的な脳表現の進歩により、写真のような新しい視点の合成と高品質な表面再構築が可能になりました。残念ながら、現在使用されているアプローチのほとんどは、単一のアイテムや内部のシーンに重点を置いており、屋外の状況で使用すると合成のパフォーマンスが向上する可能性があります。現在の屋外シーンのデータセットは、仮想シーンをレンダリングしたり、基本的なシーンをいくつか収集することで、控えめな地理的スケールで作成されています。標準のベンチマークや大規模な屋外シーンのデータセットがないため、一部の最新のアプローチのパフォーマンスを評価することは不可能です。これらのアプローチは、大規模なシーンに適しており、この問題に取り組もうとしていますが、その効果を評価することができません。 BlendedMVSとUrbanScene3Dのコレクションには、本物のシーンとは異なるテクスチャや外観要素を持つ再構築または仮想シーンからのシーンの写真が含まれています。ImageNetやCOCOのようなインターネットからの画像収集は非常に効率的なデータセットを作成することができますが、シーンの常に変化するオブジェクトや照明条件のため、NeRFベースのジョブ評価には適していません。高精度な産業用レーザースキャナーによって撮影されたリアルな屋外の風景の基準として、Tanks and Templesが提供されています。ただし、そのシーンのスケールはまだ小さすぎます（平均463m2）し、単一の外部オブジェクトや構造にしか焦点を当てていません。出典: https://arxiv.org/pdf/2301.06782.pdf 低照度で円形のカメラ軌跡を使用して撮影された都市のシーンのイラストです。カメラの軌跡、シーンの説明、およびマルチビューにキャリブレーションされた写真を表示します。私たちのデータセットはリアルで高品質なテクスチャの詳細を提供することができます。カラーボックス内のいくつかの特徴は、これを示すためにズームインされています。彼らのデータ収集手法は、広範な現実世界の景色を記録するためにドローンのMega-NeRFを利用する方法に似ています。ただし、Mega-NeRFは2つの繰り返しシナリオのみを提供するため、一般的に受け入れられるベースラインとしては機能しません。したがって、屋外環境の大規模なNeRF研究は、単一のアイテムや内部のシーンに追いつく必要があります。彼らは、NeRFのベンチマーク用に開発された標準的でよく認識された大規模なシーンデータセットが存在しないという知識に基づいて、大規模な現実世界の屋外シーンデータセットの不足を解消するために、厳選されたフライビューマルチモーダルデータセットを提供します。上記の図に示されているように、データセットには33のシーンと迅速な注釈、タグ、および14Kのキャリブレーションされた写真が含まれています。上記の既存の手法とは異なり、彼らのシーンはインターネットや自分たちから獲得したものを含むさまざまなソースから取得されています。また、網羅的で代表的な収集指標には、前のデータセットに含まれる必要があるさまざまなシーンの種類、シーンのサイズ、カメラの軌跡、照明条件、およびマルチモーダルデータが含まれています。彼らはまた、生成されたデータセットのNeRFに基づく視点合成、シーン表現、およびマルチモーダル合成の適合性とパフォーマンスを評価するための包括的なベンチマークを提供しています。さらに重要なことは、ドローンのオンラインビデオから現実世界のNeRFベースのデータを生成するための一般的なプロセスを提供し、コミュニティがデータセットを拡張することが簡単になることです。また、さまざまなシーンの種類、シーンのサイズ、カメラの軌跡、照明条件に応じた各タスクの細かい評価も含まれており、各アプローチの詳細な評価を提供しています。まとめると、彼らの主な貢献は次のとおりです： • 大規模なNeRF研究を促進するために、現在利用可能な屋外データセットよりも豊富で多様なマルチモーダルデータを備えた屋外シーンデータセットを提供します。 • 一般的な屋外NeRFアプローチのためのいくつかのベンチマーク割り当てを提供し、統一されたベンチマーク基準を確立します。多くのテストにより、彼らのデータセットが典型的なNeRFベースのタスクをサポートし、次の研究のための迅速な注釈を提供できることが示されています。 • データセットを簡単にスケーラブルにするために、彼らはインターネットから自由にダウンロードできる映画をNeRF用のトレーニングデータに変換するための低コストのパイプラインを提供しています。

「何を餌にしたの？このAIモデルは拡散モデルから訓練データを抽出できます」

2022年、拡散モデルはAI領域の重要な一部となりました。私たちはそれらによって生成された写真のようなリアルな画像を見てきましたし、それらはますます良くなっていきました。拡散モデルの成功は、後続の技術の基礎を築いた「Stable Diffusion」に大いに負うところがあります。拡散モデルは、画像生成のための主要な手法としてすぐに定着しました。拡散モデル、またはノイズ除去拡散モデルとも呼ばれるものは、生成型ニューラルネットワークの一種です。訓練データの分布からノイズを選択し、視覚的に魅力的な出力になるまで徐々に洗練していきます。この徐々の除去プロセスにより、スケーリングや制御が容易になります。また、通常、従来の手法である生成対抗ネットワーク（GAN）と比較して、より高品質なサンプルを生成する傾向があります。拡散モデルの画像生成能力は、以前の手法とは異なるものと考えられています。以前の大規模画像生成モデルは、過学習に弱く、訓練サンプルに類似した画像を生成することができましたが、拡散モデルは訓練セットの画像とは大きく異なる画像を生成すると考えられています。この特性により、拡散モデルは、訓練画像内の個人の身元や機密情報を保護する必要があるプライバシーに配慮した研究者にとって、有望なツールとなっています。元のデータセットから逸脱した新しい画像を生成することにより、拡散モデルは生成された出力の品質を損なうことなくプライバシーを保護する手段を提供します。しかし、本当にそうなのでしょうか？拡散モデルは本当に訓練画像を記憶しないのでしょうか？それらを使用して訓練セットのサンプルにアクセスすることはできないのでしょうか？設計者はこれらの質問を投げかけ、拡散モデルが実際に訓練データを記憶することを示すための研究を行いました。拡散モデルによる訓練データの記憶例。出典: https://arxiv.org/pdf/2301.13188.pdf 最先端の拡散モデルの訓練データの再生成は可能ですが、簡単ではありません。まず、特定の訓練サンプルは抽出しやすく、特に重複したものはさらに抽出しやすいです。著者らはこの特性を利用して「Stable Diffusion」から訓練サンプルを抽出しています。まず、訓練データセット内のほぼ同一の画像を特定します。もちろん、これを手動で行うことは不可能です。なぜなら、「Stable Diffusion」の訓練データセットには約1億6000万枚の画像が含まれているからです。代わりに、彼らはCLIPを使用して画像を埋め込み、この低次元空間で画像を比較します。CLIPの埋め込みが高いコサイン類似度を持つ場合、これらのキャプションは抽出攻撃の入力プロンプトとして使用されます。「Stable Diffusion」から抽出された訓練画像の例。出典: https://arxiv.org/pdf/2301.13188.pdf 攻撃のための潜在的なテキストプロンプトを持っているとすれば、次のステップは同じプロンプトを使用して多くのサンプル（この場合は500個）を生成し、記憶化が存在するかどうかを調べることです。これらの500枚の画像は同じプロンプトを使用して生成されますが、ランダムなシードにより全て異なる外見を持ちます。それから、各画像を互いに接続し、類似距離を測定してこれらの接続を使用してグラフを構築します。もしグラフ上の特定の場所に蓄積が見られる場合、例えば1つの画像に接続される画像が10枚以上ある場合、その中心画像は記憶化されたものと見なされます。彼らがこの手法を「Stable Diffusion」に適用したところ、訓練データセットの画像とほぼ同一のサンプルを生成することができました。彼らは最先端の拡散モデルに対して実験的な攻撃を行い、興味深い観察結果を得ました。最先端の拡散モデルは、比較可能なGANよりも多くの情報を記憶しており、より強力な拡散モデルほどより多くの情報を記憶します。これは、生成画像モデルの脆弱性が時間とともに増加する可能性を示しています。

Learn more about Search Results arXiv - Page 19