Learn more about Search Results MarkTechPost - Page 144
- You may be interested
- CVモデルの構築と展開:コンピュータビジ...
- 「識別可能であるが可視性がない:プライ...
- ツールフォーマー:AIモデルに外部ツール...
- データストレージの最適化:SQLにおけるデ...
- データリテラシーの力
- アルゴリズムは、不妊症の男性の精子を医...
- 「Q*とLVM LLMのAGIの進化」
- Google DeepMindは、1M以上の軌跡データと...
- 「Power BIでのデータの視点変更」
- なぜNASAが国家の秘密を月に送っているのか
- ChatGPTはリベラル寄りです
- ドローンは、液体ニューラルネットワーク...
- AccelDataがBewgleを買収:AIデータパイプ...
- ODSCウェスト2023の基調講演:人工知能の6...
- 「Juliaプログラミング言語の探求:MongoDB」
RPDiffと出会ってください:3Dシーン内の6自由度オブジェクト再配置のための拡散モデル
日常のタスクを実行するためのロボットの設計と構築は、コンピュータサイエンスエンジニアリングの最も刺激的で挑戦的な分野の一つです。MIT、NVIDIA、およびImprobable AI Labの研究者チームは、Frank PandaロボットアームをRobotiq 2F140並行ジョーグリッパーでプログラムし、シーン内のオブジェクトの配置関係を達成するためにオブジェクトを再配置しました。現実世界の与えられたシーンには、多くの幾何学的に類似した再配置の解が存在することは珍しくありません。研究者は反復的な姿勢デノイジングトレーニング手順を使用して解を構築しました。 現実のシーンでの課題は、幾何学的な外観とレイアウトの組み合わせ変動を解決することです。これにより、本の半分が詰まった棚に本を置く、マグスタンドにマグを掛けるなど、オブジェクト-シーンの相互作用のための多くの場所と幾何学的特徴が提供されます。オブジェクトを配置するためのシーンの場所が多くあり、これらの複数の可能性はプログラミング、学習、展開に困難をもたらします。システムは、可能な再配置の基盤全体にわたる複数のモーダル出力を予測する必要があります。 特定の最終的なオブジェクトシーンのポイントクラウドにおいて、初期のオブジェクト構成は、ポイントクラウドの姿勢デノイジングによって予測される再配置からのずれと考えることができます。最終的なオブジェクト-シーンポイントクラウドからノイズのあるポイントクラウドを生成し、ニューラルネットワークを使用してモデルをトレーニングすることで、初期の構成にランダムに転送します。多様性は、大量のデータに対しては効果がありません。モデルはデータに適合しない平均的な解を学習しようとします。研究チームは、この困難を克服するために、複数ステップのノイズ処理と拡散モデルを実装しました。モデルは拡散モデルとしてトレーニングされ、反復的なデノイジングを実行します。 反復的なデノイジング後に新しいシーンレイアウトへの汎化が必要です。研究チームは、オブジェクトの近くの領域をクロップすることで、シーンポイントクラウドをローカルにエンコードすることを提案しています。これにより、モデルは非ローカルの遠隔の妨害要素を無視し、近隣のデータセットに集中することができます。ランダムな推測からの推論手続きは、良い解から遠く離れた解につながる可能性があります。研究者は、最初により大きなクロップサイズを考慮し、複数の反復によってそれを減らすことで、よりローカルなシーンコンテキストを得ることで、この問題を解決しました。 研究チームは、オブジェクトとシーンのポイントクラウドに基づいた6自由度の関係的な再配置を実行するために、Relational Pose Diffusion(RPDiff)を実装しました。これは、多様性を持つさまざまな形状、姿勢、およびシーンレイアウトに対して一般化します。彼らが追求した動機は、6自由度の姿勢を反復的にデノイズし、シーンポイントクラウドとの所望の幾何学的関係を満たすまでオブジェクトの姿勢をデノイズすることです。 研究チームは、RPDiffを使用してリアルワールドのオブジェクトとシーン上でピックアンドプレイスを行うために関係的な再配置を実行します。彼らのモデルは、本の一部が詰まった本棚に本を置く、オープンシェルフに缶を積み重ねる、フックの多いラックにマグを掛けるなどのタスクに成功しています。彼らのモデルは、多様なモーダルデータセットの適合を乗り越えることができますが、シミュレーションでのスクリプト化されたポリシーからのデモンストレーションデータのみを使用しているため、事前トレーニングされたデータの表現で作業する際には制約があります。彼らの研究は、Neural Shape Mating(NSM)を実装することにより、知覚からのオブジェクトの再配置に関連する他のチームの研究と関連しています。
スコルテックとAIRIの研究者は、ニューラルネットワークを使用してドメイン間の最適なデータ転送のための新しいアルゴリズムを開発しました
大規模OT(Optimum Transport)とWasserstein GAN(Generative Adversarial Networks)の出現以降、機械学習ではニューラルネットワークを使用して最適輸送(OT)の問題を解決することが増えてきました。OTプランは最近、実際のタスクで同等の性能を持つ生成モデルとして使用可能であることが示されています。OTコストは、生成モデル内のジェネレータを更新するための損失関数としてよく計算され使用されます。 人工知能研究所(AIRI)とSkoltechは、ニューラルネットワークを使用して異なる学問領域間で情報共有を最適化するための革新的なアルゴリズムに関して共同研究を行っています。このアルゴリズムの理論的な基盤により、その出力は競合手法よりも理解しやすくなっています。入出力の例などの結合トレーニングデータセットを必要とする他の手法とは異なり、この革新的な手法は入力と出力のドメインから別々のデータセットでトレーニングすることができます。 大規模なトレーニングデータセットは入手が困難ですが、顔や音声認識、医療画像解析などのアプリケーション向けに構築された現代の機械学習モデルには必要不可欠です。そのため、科学者やエンジニアはしばしば人工的な手段を用いて現実世界のデータセットをシミュレートすることがあります。生成モデルの最近の進歩により、生成されたテキストや画像の品質が大幅に向上し、この作業が容易になりました。 ニューラルネットワークは、ペアのトレーニングサンプルや入出力画像セットから新しい入力画像に一般化して拡張するように学習されます。これは、品質の異なる同一の写真を処理する必要がある作業に役立ちます。言い換えると、生成モデルは異なるデータからデータを合成することで、一つのドメインから別のドメインへの移行を容易にします。例えば、ニューラルネットワークは手描きの絵をデジタル画像に変換したり、衛星写真の明瞭度を向上させることができます。 確定的および確率的な輸送マップを使用して確率分布を整列させることは、一般的なツールであるこの技術のユニークな使用法です。この手法は、ペアの翻訳(画像の復元、ドメイン適応など)以外のドメインで既存のモデルを向上させることができます。この手法により、生成されたサンプルのバリエーションのレベルをより制御することができ、GANや拡散モデルに基づく一般的な手法と比較して学習したマップの解釈性が向上します。研究者は、特定のタスクのための輸送コスト設計を潜在的な研究領域として強調しています。 最適輸送と生成学習の交差点が選ばれた手法の中心にあります。エンターテイメント、デザイン、コンピュータグラフィックス、レンダリングなどの分野では、生成モデルと効率的な輸送が広範に使用されています。上記のセクターにおけるいくつかの問題は、この手法に適している可能性があります。一方で、以前のツールを使用することで画像処理技術を一般に提供することが可能になるため、グラフィックス業界の一部の職業は影響を受ける可能性があります。 獲得したデータが高額であるか、または入手が困難であるため、研究者は理想的なマッチしたデータセットではなく、関連性のないデータセットで妥協することがしばしばあります。チームは、効率的な貨物輸送(最適輸送理論)に関するソビエト連邦の数学者兼経済学者であるレオニード・カントロヴィッチの著作に戻り、ドメイン間での最適なデータ転送を計画するための革新的な手法を開発しました。ニューラル最適輸送は、深層ニューラルネットワークと別々のデータセットを使用した新しい手法です。 ドメイン間の非結合の転送において、このアルゴリズムは画像のスタイリングやその他のタスクにおいて最先端の手法よりも優れた結果を達成します。さらに、通常調整が難しいハイパーパラメータが少なく、より解釈可能な結果をもたらし、競合手法よりも堅牢な数学的基盤に基づいています。
マサチューセッツ州ローウェル大学の研究者たちは、高ランクのトレーニングに低ランクの更新を使用する新しいAIメソッドであるReLoRAを提案しています
以下は、HTMLのコードを日本語に翻訳したものです(HTMLコードはそのまま表示されます): 過去10年間、より大きなパラメータを持つネットワークや「より多くの層を積む」戦略によるトレーニングが機械学習の標準となってきました。パラメータの数も1億から数千億に増える中で、多くの研究グループはこのようなネットワークのトレーニングにかかる計算コストが高すぎるため、正当化できないと考えています。それにもかかわらず、トレーニングインスタンスよりも桁違いに多くのパラメータを持つモデルをトレーニングする必要性については、理論的な理解が不足しています。 より計算効率の良いスケーリングオプティマ、リトリーバルの強化モデル、およびより長い時間トレーニングするための小さいモデルのトレーニングというストレートな戦略は、スケーリングの代替手法として新しい魅力的なトレードオフを提供しています。しかし、これらのモデルのトレーニングを民主化することはほとんどなく、なぜ過パラメータ化されたモデルが必要なのかを理解するのに役立ちません。 最近の多くの研究によれば、トレーニングには過パラメータ化は必要ありません。経験的な証拠は、Lottery Ticket Hypothesisを支持しています。これは、初期化(または初期トレーニング)のある時点で、トレーニングすると全体のネットワークの性能を達成する孤立したサブネットワーク(当選券)が存在するというものです。 マサチューセッツ大学ローウェル校の最近の研究では、ReLoRAという方法を紹介し、ランクの合計特性を利用して、一連の低ランクアップデートを行うことで高ランクネットワークをトレーニングすることが可能となりました。彼らの研究結果は、ReLoRAが高ランクアップデートを実現し、標準のニューラルネットワークトレーニングと同等の結果をもたらすことを示しています。ReLoRAは、ロットリーチケット仮説と巻き戻しを用いたフルランクトレーニングのウォームスタートを使用します。マージアンドリニット(再起動)アプローチ、ジャグドラーニングレートスケジューラ、および部分的なオプティマイザのリセットの追加により、ReLoRAの効率が向上し、特に大規模ネットワークではフルランクトレーニングに近づけられます。 彼らは350MパラメータのトランスフォーマーランゲージモデルでReLoRAをテストしました。テストでは、自己回帰言語モデリングに重点を置きました。なぜなら、それがさまざまなニューラルネットワークの応用に適用可能であることが証明されているからです。結果は、ReLoRAの効果はモデルのサイズとともに向上し、数十億のパラメータを持つネットワークのトレーニングに適した選択肢となる可能性があることを示しています。 大規模な言語モデルやニューラルネットワークのトレーニングに関して、研究者は低ランクトレーニングのアプローチを開発することでトレーニング効率を向上させる可能性があると考えています。彼らは、勾配降下法を介してニューラルネットワークがどのようにトレーニングされ、その驚異的な汎化能力を達成するかについて、過パラメータ化の領域で低ランクトレーニングから学ぶことができると信じており、これは深層学習理論の発展に大きく貢献する可能性があると考えています。
「インプレッションGPT:放射線学報告書要約のためのChatGPTベースの反復最適化フレームワークに会いましょう」
効果的かつ正確なテキスト要約モデルの必要性は、一般的および医療分野のデジタルテキスト情報のボリュームが驚くほど拡大するにつれて増加しています。テキストの要約は、長い文章を簡潔な概要にまとめながら、その内容の意味と価値を保持することを意味します。これは、自然言語処理(NLP)の研究の中心テーマとなっています。 ニューラルネットワークとディープラーニングの技術、特にエンコーダ・デコーダアーキテクチャを使用したシーケンス・トゥ・シーケンスモデルを導入することで、良好な結果が報告されました。これらのアプローチによって生成される要約は、ルールベースや統計ベースの方法と比較して、より自然で文脈に適したものでした。治療の現場での精度を求めるというニーズと、このような結果の文脈的および関係的な特徴を保持する必要性が、この取り組みをさらに困難にしています。 研究者は、放射線報告書の要約にChatGPTを使用し、改善しました。ChatGPTの文脈学習能力を最大限に活用し、相互作用を通じて継続的に改善するために、迅速なエンジニアリングを用いて新しい反復的最適化手法を開発し、実装しました。より具体的には、類似性検索アルゴリズムを使用して、意味的および臨床的に比較可能な既存の報告書を組み込んだ動的なプロンプトを作成します。これらの並行した報告書でChatGPTを訓練し、類似した画像表現のテキスト説明と要約を理解するようにします。 主な貢献 類似性検索により、データがスパースである言語モデル(LLM)の文脈学習が可能になります。コーパス内で最も比較可能なケースを特定し、LLMに最も関連性の高いデータを含む動的なプロンプトを作成します。 反復的最適化手法に対する動的なプロンプトシステムの作成。反復プロンプトは最初にLLMが生成した回答を評価し、その後の反復ではさらにその方法についての指示を与えます。 既存のLLMからドメイン固有のモデルを迅速かつ効果的に開発する際に活用する、ドメイン固有の情報を最大限に活用する新しいアプローチ。提案された手法は、大量の医療テキストデータを事前学習に使用する他の手法と比較して優れた性能を発揮しています。この研究は、現代の人工汎用知能において、さらなるドメイン固有の言語モデルを構築するための基盤としても役立ちます。 手法 可変プロンプト 動的なサンプルは、入力の放射線報告書に類似した例を取得するために意味的検索を使用します。最終的なクエリは、同じ予め定義された問い合わせと、テスト報告書の「所見」部分を組み合わせたものであり、タスクの説明が役割を表しています。 反復による最適化 反復的最適化コンポーネントを使用することで、興味深いことができます。このアプローチの目的は、ChatGPTが反復的なプロンプトを使用して回答を継続的に改善できるようにすることです。高リスクな放射線報告書の要約などの応用に重要な役割を果たし、また回答の品質を確認するための応答レビュー手順も必要です。 少数のトレーニングサンプルと反復的な手法に基づいて入力プロンプトを改善することで、大規模言語モデル(LLM)を用いた放射線報告書の要約における使用の実現可能性を調査しました。コーパスから適切なインスタンスを探し出し、文脈の中でLLMを学習するために使用し、対話的な手がかりを提供するために使用しました。さらに出力を向上させるために、反復的最適化手法を使用しました。この手続きでは、自動評価フィードバックに基づいて、LLMにとって良いとされる応答と悪いとされる応答を教えることが含まれています。大量の医療テキストデータを事前トレーニングに使用する他の手法と比較して、私たちの戦略は優れていることが証明されています。また、この研究は、さらなるドメイン固有の言語モデルの構築の基礎としても利用できます。 ImpressionGPTの反復フレームワークで作業をしている間に、モデルの出力応答の品質を評価することが重要であるが困難なタスクであることに気付きました。研究者は、ドメイン固有と一般ドメインのテキスト間の大きな変動が、スコアの観察される相違に寄与していると考えています。そのため、得られた結果の詳細を検証するために、細かい評価尺度を用いることで、結果の詳細を検討しています。 将来的には、データのプライバシーと安全性の問題に対処しながら、公共およびローカルのデータソースからドメイン固有のデータをより良く組み込むための迅速な設計の最適化を続けます。特に多くの組織と取り組む場合には。また、プロンプトの設計を現在のドメイン知識に適応させるために、ナレッジグラフを使用することも検討しています。最後に、放射線科医などの人間の専門家を、プロンプトの最適化プロセスに組み込み、システムによって提供される結果に対する客観的なフィードバックを提供することを計画しています。人間の専門家の判断と視点を組み合わせることで、より正確な結果を得ることができます。
「機械学習タスクの自動化:MLCopilotがLLMを活用して開発者を支援し、機械学習プロセスを効率化する方法」
機械学習モデルは、複雑なタスクを解決するための強力なツールとして証明されていますが、これらのモデルのトレーニングは通常、手動で時間がかかるものでした。しかし、GPT-3.5のような大規模な言語モデルの出現により、機械学習モデルのトレーニングは自動化されるようになりました。これにより、MLCopilotの開発が進められました。このツールは、数百の機械学習実験の知識ベースを利用して、与えられたタスクに対して最適なパラメータとアーキテクチャを自動的に選択することができます。 MLCopilotツールは、オフラインとオンラインの2つのレベルで機能します。オフラインの側では、ツールは意図やモデルアーキテクチャなどのエンティティを統一し、以前の機械学習実験から知識を抽出して知識ベースを形成します。オンラインの側では、ツールは過去の実験からの関連する例を含むプロンプトを適用して、与えられたタスクを解決するための最適なアプローチを決定します。このアプローチは、アルゴリズムの手動選択と適用よりも正確です。 MLCopilotを使用することの重要な利点の1つは、実行の速さと労働コストの削減です。このツールにより、研究者や組織は、時間とコストを節約しながら精度を向上させるために、機械学習モデルの力を活用することができます。さらに、このツールは個々の研究者から大企業や国家機関まで、誰にとっても具体的な利益をもたらします。 MLCopilotを効果的に使用するためには、その制約事項を考慮することが重要です。そのような制約事項の1つは、知識ベースを作成するために使用されるデータの精度です。モデルは最適なパフォーマンスを実現するために、新しい実験との連続的な更新が必要です。また、このツールは数値ではなく相対的な推定値を使用して、以前の実験の結果を表現しますが、特定のアプリケーションには適していない場合があります。言い換えれば、MLCopilotの成功は、知識ベースを構築するために使用されるデータの品質と精度に大きく依存しています。さらに、このツールの相対的な推定値は一部のアプリケーションにしか十分ではありません。したがって、正確で関連性のある結果を得るために、ツールのパフォーマンスを慎重に考慮し、監視することが重要です。 全体として、MLCopilotの開発はAI時代における重要な進歩を表しています。機械学習モデルの最適なパラメータとアーキテクチャの選択プロセスを自動化することにより、このツールは研究者や組織が複雑なタスクをより効率的かつ正確に解決することを可能にします。これは、正確な予測と意思決定が重要な医療、金融、交通などにおいて遠大な影響を及ぼす可能性があります。技術が進化し続ける中で、さらに興味深い開発が現れ、機械学習モデルの力が社会に利益をもたらすことが予想されます。
メトリックは欺くことができますが、目はできません:このAIメソッドは、ビデオフレーム補間のための知覚的な品質メトリックを提案します
ディスプレイ技術の進歩により、私たちの視聴体験はより強烈で楽しいものになりました。4K 60FPSで何かを観ることは、1080P 30FPSよりも非常に満足感があります。前者は、まるでそれを目撃しているかのように、コンテンツに没頭させます。しかし、このコンテンツを楽しむことができる人は皆んなではありません。4K 60FPSの動画1分のデータコストは、1080P 30FPSのデータコストの約6倍もかかります。多くのユーザーにはアクセスできないのです。 しかし、配信される動画の解像度と/またはフレームレートを上げることで、この問題に対処することが可能です。スーパーレゾリューション手法は、動画の解像度を上げることに取り組み、ビデオ補間手法はビデオ内のフレーム数を増やすことに焦点を当てます。 ビデオフレーム補間は、既存のフレーム間の動きを推定することにより、ビデオシーケンスに新しいフレームを追加するために使用されます。この技術は、スローモーションビデオ、フレームレート変換、ビデオ圧縮など、さまざまなアプリケーションで広く使用されています。生成されたビデオは通常、より楽しいものになります。 近年、ビデオフレーム補間に関する研究は大きな進歩を遂げています。彼らは中間フレームを非常に正確に生成し、楽しい視聴体験を提供することができます。 しかし、補間結果の品質を測定することは、長い間難しい課題でした。既存の手法では、補間結果の品質を測定するために市販のメトリックを使用することがほとんどです。ビデオフレーム補間の結果は通常、固有のアーティファクトがあり、既存の品質メトリックは、補間結果を測定する際に人間の知覚と一致しないことがあります。 一部の手法では、主観的なテストを行ってより正確な測定を行っていますが、それは時間がかかります。ユーザースタディを採用したわずかな手法を除いてはです。では、私たちのビデオ補間手法の品質を正確に測定するにはどうすればよいでしょうか?その質問に答える時が来ました。 ビデオ補間によって引き起こされる固有のアーティファクト。出典:https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136750231.pdf 研究者のグループは、ビデオフレーム補間の結果を測定するための専用の知覚品質メトリックを提案しました。彼らはSwin Transformersに基づいたビデオ知覚品質評価のための新しいニューラルネットワークアーキテクチャを設計しました。 このネットワークは、オリジナルのビデオシーケンスからのフレームと補間フレームのペアを入力とし、2つのフレーム間の知覚的類似性を表すスコアを出力します。このようなネットワークを実現するための最初のステップは、データセットの準備であり、そこから彼らは始めました。彼らは大規模なビデオフレーム補間知覚類似性データセットを構築しました。このデータセットには、さまざまなビデオからのフレームのペアと、それらの知覚的類似性に関する人間の判断が含まれています。このデータセットは、L1とSSIMの目的メトリックの組み合わせを使用してネットワークをトレーニングするために使用されます。 提案されたネットワーク構造。出典:https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136750231.pdf L1ロスは、予測されたスコアと正解スコアの絶対差を測定します。一方、SSIMロスは2つの画像間の構造的類似性を測定します。これら2つのロスを組み合わせることで、ネットワークは正確で人間の知覚と一致するスコアを予測するように訓練されます。提案された手法の主な利点は、参照フレームに依存しないことです。そのため、通常はその情報を利用できないクライアントデバイス上で実行することができます。
言語ドメインにおける画期的かつオープンソースの対話型AIモデルのリスト
会話型AIは、仮想エージェントやチャットボットのような技術を指し、大量のデータと自然言語処理を使用して人間の対話を模倣し、音声とテキストを認識するものです。最近、会話型AIの領域は大きく進化し、特にChatGPTの登場によります。以下は、会話型AIを革新している他のオープンソースの大規模言語モデル(LLM)のいくつかです。 LLaMA リリース日:2023年2月24日 LLaMaは、Meta AIによって開発された基礎的なLLMです。他のモデルよりも柔軟で責任ある設計となっています。LLaMaのリリースは、研究コミュニティへのアクセスを民主化し、責任あるAIの実践を促進することを目的としています。 LLaMaは、7Bから65Bまでのパラメータ数の異なるサイズで提供されています。モデルへのアクセス許可は、業界の研究所、学術研究者などに対してケースバイケースで付与されます。 OpenAssistiant リリース日:2023年3月8日 Open Assistantは、LAION-AIによって開発されたプロジェクトで、優れたチャットベースの大規模言語モデルを提供することを目的としています。大量のテキストとコードのトレーニングを通じて、クエリへの応答、テキスト生成、言語の翻訳、創造的なコンテンツの生成など、さまざまなタスクを実行する能力を獲得しています。 OpenAssistantはまだ開発段階ですが、Google検索などの外部システムとのやり取りを通じて情報を収集するなど、既にいくつかのスキルを獲得しています。また、オープンソースのイニシアチブでもあり、誰でも進展に貢献することができます。 Dolly リリース日:2023年3月8日 Dollyは、Databricksによって開発された命令に従うLLMです。商用利用のためにライセンスされたDatabricksの機械学習プラットフォームでトレーニングされています。DollyはPythia 12Bモデルで動作し、約15,000件の命令/応答のレコードをトレーニングデータとして使用しています。最先端ではありませんが、Dollyは命令に従うパフォーマンスが非常に高品質です。 Alpaca リリース日:2023年3月13日 Alpacaは、スタンフォード大学によって開発された小規模な命令に従うモデルです。MetaのLLaMa(7Bパラメータ)モデルをベースにしています。多くの命令に従うタスクで優れたパフォーマンスを発揮する一方で、再現性も容易で安価になるように設計されています。 OpenAIのtext-davinci-003モデルに似ていますが、製作コストがかなり安価(<$600)です。モデルはオープンソースであり、52,000の命令に従うデモンストレーションのデータセットでトレーニングされています。 Vicuna リリース日:2023年4月 Vicunaは、UC Berkeley、CMU、Stanford、UC San…
オックスフォードの研究者たちは、「Farm3D」というAIフレームワークを提案していますこのフレームワークは、2D拡散を蒸留して学習し、ビデオゲームなどのリアルタイムアプリケーションで利用できる関節のある3Dアニマルを生成することができます
生成AIの驚異的な成長は、DALL-E、Imagen、Stable Diffusionなどの技術により、テキストの手がかりから優れた画像を作成するという興味深い進展を引き起こしました。この成果は2Dデータを超えて広がるかもしれません。テキストから画像を生成するジェネレーターを使用して、3Dモデルの高品質な作成が可能です。最近DreamFusionによって実証されています。ジェネレーターは3Dのトレーニングを行っていませんが、3D形状を再構築するための十分なデータがあります。本記事では、テキストから画像ジェネレーターをより効果的に活用し、複数の3Dアイテムタイプの関節モデルを取得する方法について説明します。 つまり、DreamFusionのような単一の3Dアセットを作成しようとする代わりに、彼らは(牛、羊、馬などの)関節3Dオブジェクトのクラス全体の統計モデルを作成したいと考えています。このモデルは、単一の画像から実現可能な3Dアセットを作成するために、AR/VR、ゲーム、コンテンツの作成に使用することができます。彼らは、物の単一の写真からアイテムの関節3Dモデルを予測できるネットワークのトレーニングによって、この問題に取り組んでいます。このような再構築ネットワークを導入するために、以前の試みでは実データに依存していました。しかし、彼らはStable Diffusionなどの2D拡散モデルを使用して生成された合成データを使用することを提案しています。 オックスフォード大学のビジュアルジオメトリグループの研究者は、Farm3Dを提案しています。これは、DreamFusion、RealFusion、Make-a-video-3Dなどの3Dジェネレーターに追加されたものであり、テキストまたは画像を出発点にしてテスト時最適化を介して単一の3Dアセット(静的または動的)を作成するものです。これにはいくつかの利点があります。まず第一に、2D画像ジェネレーターは、オブジェクトカテゴリの正確で清潔な例を生成する傾向があり、暗黙のうちにトレーニングデータをキュレーションし、学習を合理化します。第二に、2Dジェネレーターは、各オブジェクトインスタンスの仮想ビューを通じて、与えられたオブジェクトの理解をさらに明確にします。第三に、リアルデータの収集(およびおそらく検閲)の必要性を排除することで、アプローチの適応性を高めます。 テスト時に、彼らのネットワークは数秒で単一の写真からフィードフォワード方式で再構築を実行し、固定された3Dまたは4Dアーティファクトではなく、操作可能な関節3Dモデルを生成します(例:アニメーション、再照明)。彼らの手法は、仮想入力のみで学習し、実際の画像にも一般化するため、合成と分析に適しています。動物の行動の研究や保存に応用することができます。Farm3Dは、2つの重要な技術的イノベーションに基づいています。まず、安定した拡散を誘発して、高速エンジニアリングを使用して、オブジェクトカテゴリの一般的にクリーンな画像の大規模なトレーニングセットを生成する方法を示します。 次に、単一の輝度場モデルに適合する代わりに、スコア蒸留サンプリング(SDS)ロスを拡張して、合成マルチビュー監視を実現する方法を示します。彼らの場合はMagicPonyです。写真幾何学的オートエンコーダーを訓練するために、写真幾何学的オートエンコーダーは、オブジェクトを画像形成に寄与するさまざまな要素に分割します(例:オブジェクトの関節形状、外観、カメラの視点、照明)。 これらの合成ビューは、SDS損失に供給され、オートエンコーダーの学習可能なパラメータに勾配更新と逆伝播が行われます。彼らはFarm3Dの3D製作および修復能力に基づいた定性評価を提供します。また、作成だけでなく再構築も可能なため、セマンティックなキーポイント転送などの解析タスクでFarm3Dを定量的に評価することができます。このモデルは実際の画像を使用せずにトレーニングするため、時間のかかるデータ収集とキュレーションを省きながら、さまざまなベースラインと同等またはそれ以上の性能を示します。
コロンビア大学とDeepMindの研究者が、GPATというトランスフォーマーベースのモデルアーキテクチャを紹介しましたこのモデルは、各パーツの形状が目標の形状にどのように対応しているかを推測し、パーツのポーズを正確に予測します
視覚空間推論を通じて新しいオブジェクトを組み立てることができる自律型ロボットシステムは、幅広い現実世界の応用において大きなポテンシャルを秘めています。部品の組み立てにおける素晴らしい進展にもかかわらず、既存のアプローチは事前定義されたターゲットや馴染みのあるカテゴリに限定されています。この制限に対処するために、コロンビア大学とGoogle DeepMindの共同研究チームは、「General Part Assembly Planning」という画期的な論文で、General Part Assembly Transformer(GPAT)を紹介しています。GPATは、組み立て計画のためのトランスフォーマベースのモデルであり、強力な汎化能力を持ち、さまざまな新しいターゲット形状と部品を自動的に推定することができます。 GPATの主な貢献 1. General Part Assemblyのタスク: チームは、自律システムが未知の部品を使用して新しいターゲットを構築する能力を評価するために、一般的な部品組み立てのタスクを提案しています。事前定義されたターゲットを超えた範囲を広げることにより、GPATは柔軟かつ適応的な部品組み立てを革新することを目指しています。 2. ゴール条件付きの形状再配列: 一般的な部品組み立てに関連する計画問題に取り組むために、GPATは部品組み立てをゴール条件付きの形状再配列タスクとして扱います。これにより、モデルは多様な部品形状と構成を扱うことができる「オープンボキャブラリー」のターゲットオブジェクトセグメンテーションタスクとして問題に取り組みます。 3. General Part Assembly Transformer(GPAT)の導入: GPATは、明示的に組み立て計画のために設計された新しいトランスフォーマベースのモデルとして機能します。GPATはトレーニングプロセスを通じてさまざまなターゲットと部品形状に汎化することを学びます。モデルの主な目的は、各入力部品に対して6自由度(6-DoF)の部品姿勢を予測し、最終的な部品組立を形成することです。 アプローチ…
大規模な生体分子動力学のためのディープラーニング:ハーバード大学の研究では、さまざまなシステム上で大規模で事前に学習されたアレグロモデルをスケーリングしています
計算生物学、化学、材料工学は、原子スケールでの物質の時間進化を予測する能力に依存しています。量子力学は、原子や電子の振動、移動、および結合解離を支配しますが、観測可能な物理的および化学的プロセスを支配する現象は、通常ははるかに大きな長さおよび長い時間スケールで発生します。量子相互作用を捕捉するために、高度に並列化可能なアーキテクチャとエクサスケールプロセッサへのアクセスが必要です。現在のコンピュータのアプローチでは、現実的な物理的および化学的システムの構造的複雑さを調査することはできず、その観測可能な進化の期間は原子論的シミュレーションにとっては長すぎます。 過去20年間で、MLIP(機械学習相互作用ポテンシャル)に関する多くの研究が行われてきました。高精度な参照データから学習されたエネルギーと力を使用して、MLIPは原子数に比例してスケールします。初期の試みでは、ガウス過程または単純なニューラルネットワークを、手動で作成された記述子と組み合わせて使用しました。初期のMLIPは予測精度が低かったため、トレーニングに存在しないデータ構造に一般化することができず、他の場所で使用できない壊れやすいシミュレーションにつながりました。 ハーバード大学の研究チームによる新しい研究では、Allegroを使用して、最大で4400万原子を持つ生体分子系をSOTAの精度でモデル化することができることが示されています。チームは、DHFRの原子数23000からFactor IXの原子数91000、セルロースの原子数400000、HIVカプシドの原子数44000000、およびその他の系の原子数100000を含む系に対して、大規模な事前学習済みのAllegroモデルを使用しました。800万の重みを持つ事前学習済みのAllegroモデルは、優れたSPICEデータセットでのハイブリッド機能の精度で100万の構造をトレーニングして26 meV/Aの強制エラーを達成しました。このデータスケールで無機材料と有機分子の完全なセットを学習する可能性により、以前想像もできなかった広範な材料系の高速エクサスケールシミュレーションが可能になりました。これは非常に大きくて強力なモデルであり、800万の重みを持っています。 トレーニングセットの自動構築のためのアクティブラーニングを行うために、研究者たちは、深層同変モデルの力とエネルギーの予測の不確実性を効率的に定量化することが可能であることを示しました。同変モデルは正確であるため、精度のボトルネックは現在はMLIPのトレーニングに必要な量子電子構造計算にあります。Gaussian混合モデルはAllegroで簡単に適応できるため、アンサンブルではなく単一のモデルで大規模な不確実性を考慮したシミュレーションを実行することが可能になります。 Allegroは、伝統的なメッセージパッシングおよびトランスフォーマベースの設計を超える唯一のスケーラブルなアプローチです。さまざまな大規模なシステムで、100ステップ/秒以上の最高速度を示し、結果は1億原子以上にスケールアップします。HIVカプシドの4400万原子のような大規模なスケールでも、一般にはかなり明白な欠陥があるにもかかわらず、シミュレーションはボックスから数ナノ秒以上安定しています。チームはプロダクション全体でほとんど問題を経験しませんでした。 巨大な生体分子系の動態とタンパク質と薬物との原子レベルの相互作用をよりよく理解するために、チームは自らの研究が生化学と薬物発見の新たな道を開拓することを望んでいます。
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.