Search Results この

このAIニュースレターはあなたが必要なすべてです #72

今週、AIニュースはOpenAIのDevdayと多くの新しいモデルや機能の発売で主導権を握り、それによってエロン・マスクがLLMレースに初参入したxAIのGrok GPT-3クラスモデルはかき消されてしまった...

「Googleの「この画像について」機能：AI生成の誤情報への解決策」

AI生成の画像が氾濫する世界では、深刻な問題が浮上しています – 誤情報の拡散です。これらの非常にリアルな画像は、実際のものと区別がつかず、インターネット上で大混乱を引き起こす可能性があります。AI生成コンテンツの時代には、画像の真正性を識別し、デジタルの風景を虚偽と欺瞞から守る堅牢な解決策が必要となります。 AI生成画像の誤情報の問題に取り組むため、さまざまな試みが行われてきました。AI生成画像情報をメタデータに含めるなどの注目すべき進歩により、画像の起源や真正性を特定するのに役立ちました。ただし、このアプローチはメタデータにアクセスし解釈できる人に限定され、よりアクセスしやすくユーザーフレンドリーな解決策のギャップがありました。この課題に対するGoogleの革新的な対応策 – 検索の「この画像について」という機能。この機能は、ユーザーに画像の真正性を簡単に確認するパワーを与えることを目指しています。画像の包括的な履歴を提供し、他のウェブサイトがどのように使用し記述しているかを明らかにし、もっとも重要なことに、ボタンをタップするだけで画像のメタデータにアクセスすることを可能にします。このツールにより、ユーザーはインターネット上の画像の真正性を簡単に特定できるようになり、画像とのインタラクションの方法を革新します。 Googleの「この画像について」という機能に関連するメトリックは、その素晴らしい機能を表しています。リリース以来、ベータユーザーの70%以上が、画像の事実確認における調査時間の大幅な短縮を報告しています。これは、このツールの効率性とユーザーフレンドリーさを証明するものであり、AI生成画像の誤情報の成長への懸念に対処するための効果的なソリューションであることを強調しています。結論として、AI生成画像の台頭により、デジタル領域における誤情報の切迫した問題が浮かび上がりました。この問題を軽減するための試みは行われてきましたが、Googleの「この画像について」という機能はゲームチェンジャーとして浮上しており、ユーザーに画像の真正性を判断するための強力でアクセスしやすいツールを提供しています。その印象的なメトリックとユーザーフレンドリーなインターフェースにより、AI生成画像の誤情報の課題に対する頼もしい解決策となり、デジタル世界の真実と信頼性を保護します。この投稿はGoogleの「この画像について」機能：AI生成誤情報への解決策に最初に掲載され、MarkTechPostで報告されました。

この機械学習の研究では、データセット内のバイアスを効果的に取り除くためのAIモデルを開発しています

データ収集は、テクスチャバイアスが意図せず導入される可能性のある主要な機会となるかもしれません。モデルがバイアスのあるデータでトレーニングされ、それから異なる分布のデータに適用されると、バイアスの源と性質を明確にする必要があるため、性能はしばしば劇的に低下します。文献には、偏見を減らすか排除するための研究が豊富にあります。以前の研究では、敵対的学習を通じてバイアスに独立した特徴を抽出し、バイアスのあるデータに頼らずに意図した分類タスクを解決するモデルを作成することが提案されました。しかし、敵対的学習によってバイアスの特徴を完全に分離することは難しいため、トレーニング後にはテクスチャベースの表現が一般的に保持されます。大邱広域市科学技術院(DGIST)のチームは、データバイアスを著しく軽減させる可能性のある新しい画像変換モデルを作成しました。複数のソースからの写真のコレクションからAIモデルをゼロから構築する際、ユーザーが最善の努力をしてもデータバイアスが存在する場合があります。この解決策は、自律車両、コンテンツ作成、ヘルスケアの進歩に大いに貢献するでしょう。ディープラーニングモデルはしばしばバイアスのあるデータセットでトレーニングされます。例えば、風邪の肺炎を新型コロナウイルス感染症(COVID-19)から特定するデータセットを開発する際、COVID-19感染の可能性があるため、画像収集の状況は異なるかもしれません。その結果、これらの変動により画像には小さな差異が生じ、既存のディープラーニングモデルは、実用的な疾患識別のための主要な特徴ではなく、画像処理の違いによる属性に基づいて疾患を診断することになります。空間自己相関損失、テクスチャ共起、GAN損失を使用することで、一貫したコンテンツと類似したローカルおよびグローバルなテクスチャなど、望ましい特性を持つ高品質の画像を生成することができます。トレーニングデータの支援を受けて画像が生成された後、バイアスのない分類器や変更されたセグメンテーションモデルを学習することができます。最も重要な貢献は以下のとおりです。代わりとして、チームはテクスチャ共起と空間自己相関の損失を使用して画像を変換することを提案しています。画像変換タスクは、これらの損失が他の要素と分離して研究されたことがないものです。彼らは、これらの損失の両方を最適化することで、バイアスを軽減し、ドメイン適応に適した最適な画像を生成できることを示しています。チームは、トレーニング中に予期せぬバイアスを効果的に軽減するための下流タスクの学習戦略を提案しています。これにより、バイアスラベルを使用せずにトレーニングデータセットを明示的に充実させることが可能となります。また、セグメンテーションモジュールに依存しないアプローチであるため、最先端のセグメンテーションツールとも連携することができます。このアプローチにより、これらのモデルに効率的に適応し、トレーニングデータセットを充実させることでパフォーマンスを向上させることができます。チームは、バイアスのあるデータセット5つとドメイン適応データセット2つと比較し、以前の画像変換モデルと比較して高品質な画像を生成することにより、当チームのアプローチが最先端のバイアス軽減およびドメイン適応手法よりも優れていることを実証しました。作成されたディープラーニングモデルは、テクスチャのバイアス軽減を適用してデータセットを作成し、そのデータセットでトレーニングするため、既存のアルゴリズムよりも優れた性能を発揮します。テクスチャのバイアスが存在するデータセット（例：数字を区別する分類データセット、異なる毛色の犬と猫を判別する分類データセット、COVID-19と細菌性肺炎を区別するための他の画像プロトコルを適用する分類データセット）に対してテストされた際、既存のバイアス軽減および画像変換手法よりも優れたパフォーマンスを発揮しました。また、多ラベル整数を区別する分類データセットや、静止写真、GIF、アニメーションGIFを区別するために設計された分類データセットなどのバイアスを含むデータセットでも、従来の方法よりも優れた結果を示しました。

この人工知能に焦点を当てたチップは効率を再定義します：処理とメモリを統合することでエネルギーの節約を倍増させる

データ中心のローカルインテリジェンスの需要が高まる中、デバイスが自律的にデータを解析できるようにするという課題がますます重要となっています。これらのエッジAIデバイスは、ウェアラブルデバイス、センサー、スマートフォン、自動車などを包括し、半導体産業の次の成長フェーズを示しています。これらのデバイスは、リアルタイムの学習、自律性、埋め込み型インテリジェンスをサポートしています。しかし、これらのエッジAIデバイスは、フォンノイマンボトルネックとして知られる重要な障害に直面しています。特にディープラーニングやAIに関連するメモリバウンドの計算タスクでは、従来のアルゴリズムロジックユニット内のローカル計算能力を超えるほどのデータアクセスの需要が生じます。この計算上のジレンマを解決するための道筋は、インメモリコンピューティング（IMC）を含む多くのアーキテクチャイノベーションに繋がってきました。メモリアレイ内で直接乗算蓄積（MAC）演算を行うことにより、IMCはAIシステムを革新する可能性を秘めています。既存のIMCの実装では、バイナリ論理演算が主であり、複雑な演算には制約があります。新しいインメモリコンピューティング（IMC）クロスバーマクロでは、マルチビットMAC演算用のマルチレベルフェロ電界効果トランジスタ（FeFET）セルが特徴です。このイノベーションにより、従来のバイナリ演算の制約を超え、メモリセル内に格納されたデータの電気特性を利用して、アクティベーションタイムと蓄積電流に符号化されたMAC演算結果を導き出すことができます。この革新的な性能は、驚くべきものです。追加のトレーニングなしに、手書き認識において96.6%の正確性、画像分類において91.5%の正確性を達成し、このソリューションはAIの風景を変える準備が整っています。エネルギー効率は、885.4 TOPS/Wと評価され、既存の設計のほぼ2倍となり、産業を前進させる潜在能力を更に強調しています。まとめると、この画期的な研究はAIとインメモリコンピューティングにおいて大きな進歩を表しています。フォンノイマンボトルネックに取り組み、マルチビットMAC演算に新たなアプローチを導入することで、このソリューションはAIハードウェアに新しい視点を提供するだけでなく、エッジにおけるローカルインテリジェンスの新たな可能性を開拓し、最終的にはコンピューティングの未来を形作ることを約束しています。

AIにおける事実性の向上このAI研究は、より正確かつ反映性のある言語モデルを実現するためのセルフ-RAGを紹介します

セルフリフレクティブリトリーバルオーキュメンテッドジエネレーション（SELF-RAG）は、関連情報を動的に取得し、生成物に反映することで大規模な言語モデル（LLM）を強化するフレームワークです。このアプローチは、ChatGPTやLlama2-chatなどのLLMと検索増強モデルを凌駕し、オープンドメインの質問応答、推論、事実確認、長文生成タスクにおいて、LLMの品質、事実性、パフォーマンスを大幅に向上させます。ワシントン大学、Allen Institute for AI、IBM Research AIの研究者は、SELF-RAGを導入し、リアルタイムで関連パッセージを取得し、生成コンテンツに反映することでLLMを強化しています。このアプローチは、LLMに見られる事実の不正確さを解決し、オープンドメインの質問応答、推論、事実確認など、様々なタスクでLLMおよび検索増強モデルを凌駕する成果を収めています。これにより、LLMの多用途性を損なう事がなく、低品質の結果を生み出す従来の手法の制約を克服することを目指しています。先進的なLLMにおける事実の誤りの課題に対処するために、SELF-RAGが導入されました。SELF-RAGは、取得と自己反映を組み合わせることで、LLMの生成品質を向上させ、多用途性を損なうことなく、生成の品質と事実の正確さを大幅に向上させます。実験では、SELF-RAGが様々なタスクで既存のLLMや検索増強モデルを凌駕することが示されています。 SELF-RAGは、言語モデルの品質と事実性を向上させます。SELF-RAGは、パッセージの取得と反映を一つのモデルで行い、自己適応的に生成します。推論中の制御のために反射トークンを使用し、次の３つのステップを踏んでいます。パッセージの必要性の判断、取得されたパッセージの処理、アウトプット選択のための批評トークンの生成です。実験では、SELF-RAGがオープンドメインのQAや事実確認などのタスクで既存のモデルを凌駕することが示されています。 SELF-RAGフレームワークは、様々なタスクで非常に効果的であり、先進的なLLMや検索増強モデルを凌駕します。特にChatGPTと比較した場合、長文生成において事実性と引用の正確さにおいて大きな改善が見られます。ヒューマン評価では、SELF-RAGの出力は妥当であり、関連パッセージによって支持され、反射トークンの評価とも一致しています。非所有のLMベースモデルの中で、SELF-RAGはすべてのタスクで最高のパフォーマンスを発揮します。リトリーバルとセルフリフレクションのツールを統合することで、セルフリフレクティブリトリーバルオーキュメンテッドジエネレーション（SELF-RAG）メカニズムは言語モデルマシン（LLMs）の正確さと品質を向上させるための実用的なソリューションを提供します。伝統的なリトリーバル増強アプローチとより多くのパラメータを持つLLMsを凌駕し、SELF-RAGは様々なタスクにおいてより効果的です。この研究は、事実の正確性と誤情報に関する現実の懸念を取り組みながら、改善の余地も認識しています。複数のメトリックを利用した包括的な評価では、SELF-RAGが従来の手法よりも優れており、LLMの出力を向上させる潜在能力が強調されています。さらなる研究によって、特に誤情報と不正確なアドバイスに関連する現実世界の課題に対処することで、LLMの正確性を向上させることができます。SELF-RAGは重要な進展を遂げていますが、さらなる改善の余地があります。明示的なセルフリフレクションと詳細な帰属を組み込むことで、ユーザーはモデルが生成したコンテンツの妥当性を確認できます。この研究では、セルフリフレクションとリトリーバルメカニズムの応用を現在の実験範囲を超えたさらなるタスクやデータセットで検討することも提案しています。

この中国のAI研究は、マルチモーダルな大規模言語モデル（MLLMs）の幻覚を修正するために設計された革新的な人工知能フレームワークである「ウッドペッカー」を紹介します

中国の研究者たちは、マルチモーダルな大規模言語モデル（MLLM）における幻覚の問題に対処するために、Woodpeckerという新しい補正AIフレームワークを紹介しました。これらのモデルはテキストと画像処理を組み合わせており、しばしば提供された画像の内容を正確に反映していないテキストの説明を生成します。このような不正確さは、存在しないオブジェクトに関わる物体レベルの幻覚と、オブジェクト属性の不正確な説明による属性レベルの幻覚として分類されます。幻覚を軽減するための現在のアプローチは、通常、特定のデータでMLLMを再トレーニングすることを含みます。これらの命令ベースのメソッドはデータ集約型であり、計算量が多く必要です。これに対し、Woodpeckerはトレーニング不要の代替手法を提供し、異なる段階での解釈力を向上させることができます。 Woodpeckerは、次の5つのキープロセスからなります： 1. キーコンセプトの抽出：この段階では、生成されたテキストで言及されている主要なオブジェクトを特定します。 2. 質問の形成：抽出したオブジェクトに関連する質問を診断するために形成します。 3. ビジュアル知識の検証：これらの質問には、オブジェクトレベルのクエリに対するオブジェクト検出などの専門モデル、および属性レベルの質問に対するビジュアル質問応答（VQA）モデルなどが使用されます。 4. ビジュアルクレームの生成：質問-応答ペアは、オブジェクトレベルと属性レベルの両方のクレームを含む構造化されたビジュアル知識ベースに変換されます。 5. 幻覚の修正：ビジュアル知識ベースを使用して、システムはMLLMにガイドを与え、生成されたテキスト内の幻覚を修正し、明確さと解釈可能性を保証するために境界ボックスを付けます。このフレームワークは透明性と解釈可能性を重視しており、MLLMにおける幻覚の理解と修正に貴重なツールです。研究者たちはWoodpeckerをPOPE、MME、およびLLaVA-QA90の3つのベンチマークデータセットで評価しました。POPEベンチマークでは、WoodpeckerはベースラインモデルであるMiniGPT-4とmPLUG-Owlよりも明確性を改善し、それぞれ30.66％と24.33％の精度向上を達成しました。このフレームワークは、ランダム、人気、および敵対的なシナリオを含むさまざまな設定で一貫性を示しました。 MMEベンチマークでは、Woodpeckerは特に件数に関連するクエリにおいて、MiniGPT-4を101.66ポイント上回る驚異的な改善を示しました。属性レベルのクエリでは、Woodpeckerはベースラインモデルの性能を向上させ、属性レベルの幻覚に効果的に対処しました。 LLaVA-QA90データセットでは、Woodpeckerは一貫して精度と詳細性の指標を向上させ、MLLMが生成する応答の幻覚を修正し、説明の内容を豊かにする能力を示しました。まとめると、Woodpeckerフレームワークは、マルチモーダルな大規模言語モデルにおける幻覚に取り組むための有望な補正手法を提供しています。再トレーニングではなく解釈と修正に焦点を当てることで、MLLMが生成する説明の信頼性と正確性を向上させ、テキストと画像処理を含むさまざまなアプリケーションに潜在的な利益をもたらす貴重なツールです。

「このチューリング賞受賞者が伝説的な学術アドバイザーになった経緯」

理論計算科学者のマヌエル・ブルムは、多くの修士課程の学生をこの分野で実りあるキャリアへと導いてきました

スタンフォードの研究者たちは、「EquivAct」というロボット学習における画期的な提案を行いましたこの提案は、異なる規模や方向でのタスクを一般化するためのものです

人間は、標準的なオブジェクトでタスクを完了する方法のわずかな例だけを与えられた場合でも、対象物の視覚的または物理的属性が異なる変形タスクの変種を推測して学習することができます。学習されたポリシーをさまざまなオブジェクトのスケール、方向、視覚的見た目に対応できるようにするためには、既存のロボット学習の研究には大量のデータ拡張が必要です。しかしながら、これらの改善にもかかわらず、未知の変化への一般化は保証されていません。スタンフォード大学の新しい論文では、1つのソース操作シナリオからの少数のサンプル軌跡を入力とし、未知のオブジェクトの視覚的見た目、サイズ、ポーズにも一般化する可能性のある視覚運動方針のゼロショット学習の課題に取り組んでいます。特に、服や箱などの可変および関節性のあるオブジェクトと、ピックアンドプレースのような剛体のオブジェクトとの取り扱い方を学ぶことが重要でした。学習されたポリシーが異なるオブジェクトの配置、方向、スケールに対して堅牢であることを保証するために、視覚的なオブジェクト表現とポリシーアーキテクチャに等速変換を組み込むことが提案されました。彼らはEquivActという新しい視覚運動方針学習手法を提案しており、1つのソース操作シナリオでのデモから3Dロボット操作タスクの閉ループポリシーを学習し、ゼロショットで未知のシナリオに一般化することができます。学習されたポリシーは、ロボットのエンドエフェクタの姿勢と環境の部分的なポイントクラウドを入力とし、エンドエフェクタの速度やグリッパーコマンドなどのロボットのアクションを出力とします。ほとんどの従来の研究とは異なり、研究者たちはニューラルネットワークにはSIM(3)に等速変換するネットワークアーキテクチャを使用しました。つまり、出力のエンドエフェクタの速度は、入力のポイントクラウドとエンドエフェクタの位置が変換および回転される際に適応するということです。彼らのポリシーアーキテクチャが等速変換であるため、小規模の台上活動のデモから学習し、その後、異なる視覚的および物理的見た目を持つデモ対象オブジェクトの大きな変動を含むモバイル操作タスクにゼロショットで一般化することができます。この手法は、表現とポリシーの2つのパートに分かれています。エージェントの表現を訓練するために、チームはまず、ターゲットタスクのオブジェクトと同じカメラと設定を使用してキャプチャされた一連の合成ポイントクラウドを提供しますが、異なるランダムの非一様スケールでキャプチャされます。提案されたアーキテクチャが一様なスケーリングに対応している場合でも、このような非一様スケーリングのために訓練データを追加しました。シミュレーションデータにはロボットのアクティビティを示す必要はなく、実際のタスクをデモンストレーションする必要もありません。彼らは、シーンポイントクラウドからグローバルとローカルの特徴を抽出するために、シミュレーションデータを使用してSIM(3)に等速変換するエンコーダ・デコーダアーキテクチャを訓練しました。訓練中には、ペアのポイントクラウド入力に対してコントラスティブラーニングの損失を使用し、類似の位置にあるオブジェクトの関連するオブジェクトセクションのためのローカル特徴を組み合わせました。ポリシー学習フェーズでは、以前に検証されたタスクトラジェクトリのサンプルへのアクセスが制限されていると仮定されます。研究者たちは、データを使用して閉ループポリシーを訓練し、シーンの部分的なポイントクラウドを入力とし、以前に学習したエンコーダを使用してポイントクラウドからグローバルとローカルの特徴を抽出し、それらの特徴をSIM(3)に等速変換するアクション予測ネットワークに供給してエンドエフェクタの動きを予測します。従来の剛体物の操作タスクだけでなく、この提案手法は、コンフォータの折りたたみ、容器のカバー、ボックスの封印といったより複雑なタスクで評価されました。チームは、各活動ごとに人間がテーブル上のオブジェクトを操作する人間の例を多く提示しています。手法をデモンストレーションした後、ロボットはより大規模なスケールで同じ問題を解決する必要があるモバイル操作プラットフォームで評価されました。その結果、この手法は、ソース操作のデモから閉ループのロボット操作ポリシーを学習し、目標のジョブを一回の実行で実行するために細かな調整は必要ないことがわかりました。また、この手法はオブジェクトのポーズやスケールの範囲外への一般化に対して重要な拡張を必要とせず、等速変換を利用していない手法よりも効率的であることが示されました。

このAIの論文は、インコンテキスト学習の秘密を解き明かすものです：言語モデルがベクトルマジックに関数をエンコードする方法

自己回帰トランスフォーマーモデルでは、関数ベクトル（FV）として知られるコンパクトなベクトルで入出力関数を表現するニューラルメカニズムが特定されています。因果関係調停分析は、さまざまなコンテキストでの学習タスクに適用され、注意ヘッドの一部がFVを輸送し、ゼロショットおよび自然言語設定でのタスク実行を可能にします。FVには、関数の出力空間に関する情報が含まれており、これらは新しい複雑なタスクをトリガーするために組み合わせることができます。これは、LLM（言語モデル）において汎用関数の内部抽象化の存在を示しています。北東大学の研究者たちは、LLMにおけるインコンテキスト学習（ICL）の研究を拡張し、FVの存在を明らかにするためにトランスフォーマーを探求しました。この研究は、ICLプロンプト形式、メタラーニングモデル、ベイジアンタスク推論など、関連する多くの研究を参照し、トランスフォーマーのデコードされた語彙の研究から洞察を得ます。また、ICLのコピー行動の分析と、Pearl他によって開発された因果関係調停分析手法を適用してFVを分離します。この研究では、豊富な自然言語テキストデータで訓練された大規模な自己回帰トランスフォーマーモデルにおいてFVの存在を調査します。ICLの概念を拡張し、FVを生み出すトランスフォーマーの基本的なメカニズムを探求します。ICLに関する以前の研究、プロンプト形式やスケーリングなどがこの研究に影響を与えています。FVは入出力タスクのためのコンパクトなベクトル表現として導入されます。因果関係調停分析はFVを識別し、その特性（コンテキストの変化に対する堅牢性や意味的な組み合わせの可能性など）を理解します。この手法は因果関係調停分析を用いて自己回帰トランスフォーマーモデルにおけるFVを探求します。隠れ状態がタスクをエンコードしているかどうかを評価するテストを行い、出力の生成における精度を測定して自然言語の移植性を評価します。さまざまな設定でFVの抽出をテストするために40以上のジョブが作成され、代表的な6つのタスクに焦点を当てます。この論文は、ICLと言語モデルにおける関数表現に関する以前の研究を参照しています。現在の研究では、因果関係調停分析を通じて自己回帰トランスフォーマーモデルにおけるFVの存在が明らかにされています。これらの入出力タスクのコンパクトな表現はさまざまなコンテキストで堅牢であり、特定の手順をトリガーすることができます。中間層において強力な因果関係効果が示され、複雑なタスクに対して意味的なベクトルの組み合わせが可能です。この手法は、他の手法よりも優れた性能を発揮し、言語モデルがさまざまなコンテキストで適用可能な汎用的な関数抽象化を持つことを強調しています。提案された手法は、因果関係調停分析を通じて自己回帰トランスフォーマーモデル内のFVの存在を正確に特定します。これらの入出力タスクのコンパクトな表現はさまざまなコンテキストで堅牢であり、言語モデルの中間層において強力な因果関係効果を示します。また、FVには関数の出力空間をエンコードする情報が含まれることが多いですが、その再構築はより複雑です。さらに、FVは新しい複雑なタスクのトリガーとして組み合わせることができ、意味的なベクトルの組み合わせの可能性を示しています。これらの結果は、多様なコンテキストでの汎用関数の内部抽象化の存在を示唆しています。今後の研究の方向性としては、FVの内部構造を探索し、エンコードされた情報と実行への寄与を解明すること、複雑なタスクでの有用性を検証すること、および組み合わせ可能性に関する可能性を調査することが挙げられます。様々なモデル、タスク、層でのFVの汎用性を探る比較研究が重要です。他のFV構築手法との比較研究や、タスク表現技術との関係についての調査も必要です。さらに、テキスト生成や質問応答などの自然言語処理タスクでのFVの応用についてもさらなる探求が必要です。

このAI研究では、「DreamCraft3D」という、結束力のある高精細な3Dモデルを生成するための階層的な手法を紹介しています

“` 2D生成モデリングの信じられないほどの人気は、ビジュアル素材の制作方法に大きな影響を与えています。3Dファブリックの作成にはまだ深層生成ネットワークに多くの困難があります。ゲーム、映画、バーチャルリアリティなどのアプリケーションには欠かせない要素です。一部のカテゴリでは3D生成モデリングが素晴らしい結果を生み出しているものの、広範な3Dモデルを生成するにはさらなる3Dデータが必要です。事前学習済みのテキストから画像への生成モデルは、最近の研究でガイドとして使用され、励ましの結果をもたらしています。DreamFusionは初めて事前学習済みのテキストから画像へのモデル（T2I）を3Dクリエーションに使用することを提案した会社です。ランダムな視点での3Dモデルの表現が強力なT2I拡散モデルによって解釈されるテキスト条件付きの画像分布に適合するように3Dモデルを改善するために、スコア蒸留サンプリング（SDS）ロスが実装されています。 DreamFusionは、2D生成モデルの創造的なポテンシャルを保持しながら、信じられないほどの発明的な3D素材を生み出すことができます。最近の研究では、階段状の最適化手法を使用したり、ブラーと過飽和の懸念に対処するために2D蒸留ロスを向上させたりしていますが、既存の研究のほとんどは2D生成モデルと同じ方法で複雑な素材を合成することができません。さらに、これらの研究は、3D表現が個別には信頼性のあるものの、全体としてスタイリスティックまたは意味的なエラーがあることがわかった場合に「Janusの問題」に陥ることがよくあります。本論文では、清華大学とDeepSeek AIの研究者が、包括的な3Dの一貫性を維持しながら複雑な3Dオブジェクトを作成するための方法として、DreamCraft3Dを提案しています。彼らは階層的な生成の可能性を調査しています。具体的なアイデアが最初に2Dの下書きになるような手動の創造プロセスに影響を受けています。荒いジオメトリが彫り上げられ、ジオメトリの詳細が磨かれ、高品質のテクスチャが描かれます。彼らは同様のアプローチを取り、3Dクリエーションの難しいタスクを消化可能な部分に分解します。テキストの入力から高品質の2Dリファレンス画像を作成し、テクスチャを強化し、ジオメトリを彫刻する手順を使用して3Dに持ち込みます。他の手法とは異なり、彼らの研究は、各レベルでの細心の注意が階層的な生成のポテンシャルを最大化し、最高品質の3Dクリエーションを生み出すことができることを示しています。ジオメトリ彫刻の目標は、2Dリファレンス画像を一貫性があり信じられる3Dジオメトリに変換することです。参照ビューと新しいビューにおけるフォトメトリックロスやSDSロス以外にも、ジオメトリの一貫性を高めるための他の戦術を提示しています。まず、Zero-1-to-3オフシェルフのビューポイント条件付き画像変換モデルを使用して、リファレンス画像に基づいた一意の意見の分布をシミュレートします。このビューポイント条件付きの拡散モデルは、さまざまな3D入力で訓練されているため、2D拡散を強化する豊かな3D事前知識を提供します。彼らはまた、徐々にトレーニングビューを増やし、サンプルのタイムステップをアニーリングすることが一貫性のさらなる強化に不可欠であることを発見しました。粗いから細かいジオメトリの調整の最適化中に、暗黙の表面表現からメッシュ表現に移行します。これらの手法を使用すると、ジオメトリ彫刻ステップは、ほとんどのジオメトリアーティファクトを効果的に抑えながら、正確で詳細なジオメトリを生成します。さらに、テクスチャを大幅に改善するためにブートストラップスコア蒸留を使用することを提案しています。現代の2D拡散モデルの忠実度は、限られた3Dで訓練されたビューポイント条件付きの拡散モデルによってしばしば凌駕されます。代わりに、最適化中の3Dインスタンスの多視点表現を使用して拡散モデルを微調整します。このビューコンシステンシーを意識したカスタマイズされた3D拡散事前知識は、3Dテクスチャの向上に重要な役割を果たします。さらに、彼らは、生成的先行と3D表現を交互に改善することで相互に補完する利点を発見しました。より優れた多視点レンダリングでのトレーニングは、拡散モデルに役立ち、3Dテクスチャの最適化により良い方向性を提供します。 “` 図1：DreamCraft3Dは2D写真を3Dに拡大することで、豊富な特徴とリアリティのある3D一貫性を持つ3Dを生成します。詳細な内容については、デモビデオと付録をご覧ください。以前の試みと異なり、彼らは固定された目標分布から学ぶのではなく、最適化状態に基づいて徐々に進化させることでそれを実現しています。「ブートストラップ」法により、彼らはビジョンの一貫性を保ちながら、ますます詳細なテクスチャをキャプチャできます。図1に示されているように、彼らの技法は複雑な幾何学的形状とリアルな素材を360度一貫して提示することで、想像力豊かな3Dオブジェクトを作成することができます。最適化ベースの代替手法と比較して、彼らの手法ははるかに優れたテクスチャと複雑さを提供します。一方、彼らの取り組みは画像から3Dへのプロセスと比較して、今までにないほどリアルな360°表現を生成することに優れています。これらの研究結果は、DreamCraft3Dが3Dコンテンツ制作の新しい創造的な道を切り拓く巨大な潜在能力を示しています。この実装は一般の方々にもアクセスできるようになります。

Learn more about Search Results この - Page 13