Learn more about Search Results 3 - Page 4

バイトダンスの研究者が「ImageDream」を紹介:3Dオブジェクト生成のための画像刺激とマルチビューディフュージョンモデルの革新的な導入

諺にあるように、「一枚の画像は千語の価値がある」ということわざは、3D制作に画像を第二の手段として追加することで、テキストだけを使用するシステムに比べて大きな利点をもたらします。画像は主に、言語では部分的または不完全にしか説明できない、詳細で豊かな視覚情報を提供します。例えば、画像はテクスチャ、色、空間的な関係などの細かな特徴を明確かつ即座に表現することができますが、単語の説明では同じレベルの詳細を完全に表現するためには助けが必要であり、非常に長い説明が必要になる場合もあります。システムは実際の視覚的な手がかりを直接参照することができるため、書かれた説明を解釈するよりも、複雑さや主観性に幅広いばらつきがあることがありますが、このビジュアルの特異性はより正確で詳細な3Dモデルの生成に役立ちます。 さらに、視覚的な手段を利用することで、特に言葉で自分のビジョンを表現するのが難しい人々にとって、意図した結果をより簡単かつ直接的に説明することができます。この多重モダリティの方法は、テキストの文脈の深さと視覚データの豊かさを組み合わせることで、より信頼性のある、ユーザーフレンドリーで効果的な3D制作プロセスを提供する幅広い創造的および実用的なアプリケーションに役立ちます。しかし、3Dオブジェクトの開発の代替手段として写真を使用する際には、いくつかの困難が存在します。テキストとは異なり、画像には色、テクスチャ、空間的な関係など、多くの追加要素があり、これらは単一のエンコーダ(CLIPなど)を使用して正しく分析および理解するのが難しくなります。 さらに、オブジェクトの光、形状、自己遮蔽の大きな変化は、不完全またはぼやけた3Dモデルを提供する可能性がある視点合成において、より正確で一貫性のあるものにするために、高度な計算負荷の技術が必要です。画像処理の複雑さにより、視覚情報を効果的にデコードし、多くの視点で一貫した外観を保証するために、研究者はZero123などのさまざまな拡散モデル手法を使用して2Dアイテム画像を3Dモデルに変換してきました。画像のみのシステムの1つの欠点は、合成された視点は素晴らしいように見える一方で、再構築されたモデルは時々ジオメトリの正確さや緻密なテクスチャに関して補完が必要です、特にオブジェクトの背面の視点に関してです。この問題の主な原因は、生成または合成された視点間の大きな幾何学的な不一致です。 その結果、再構築時に非一致のピクセルが平均化され、ぼやけたテクスチャと丸みを帯びたジオメトリが生じます。要するに、画像条件付きの3D生成は、テキスト条件付きの生成に比べてより制限の多い最適化問題です。3Dデータの量が限られているため、正確な特徴を持つ3Dモデルを最適化することはより困難になります。最適化プロセスは訓練分布から逸脱しやすい傾向があります。例えば、訓練データセットには様々な馬のスタイルが含まれている場合、テキストの説明だけから馬を作成すると、詳細なモデルが生成される可能性があります。しかし、画像が特定の毛皮の特徴、形状、テクスチャを指定する場合、新しい視点のテクスチャ作成は教授された分布から容易に逸脱することがあります。 これらの問題に対処するために、ByteDanceの研究チームは本研究でImageDreamを提案します。研究チームは、現在のアーキテクチャに容易に組み込むことができる多階層画像プロンプトコントローラを提案します。具体的には、カノニカルカメラ座標に基づいて、生成された画像はオブジェクトの中央の正面ビューを描写しなければなりません(アイデンティティの回転とゼロの移動を使用します)。これにより、入力画像の差異を3次元への変換プロセスがよりシンプルになります。多階層コントローラによって情報伝達プロセスが合理化され、画像入力から各アーキテクチャブロックへの拡散モデルの導入が指示されます。 図1: たった1枚の写真で、画期的なフレームワークImageDreamはあらゆる角度から高品質な3Dモデルを作成します。以前のSoTAであるMagic123などに比べて、3Dジオメトリの品質を大幅に向上させています。さらに重要なのは、MVDreamと比較して、作成された画像プロンプトからのテキストの優れた画像対応を保持していることです。さまざまな技術を使用して作成されたアイテムの8つのビューが以下に示されており、ImageDreamによって生成されたモデルによって描かれた一致する法線マップが最後の行に表示されています。 MVDreamのような厳格にテキストに基づいたモデルと比較して、ImageDreamは図1に示すように、与えられた画像から正確なジオメトリを持つオブジェクトを生成することで優れています。これにより、ユーザーは画像とテキストの整列を改善するために、よく開発された画像生成モデルを使用することができます。ジオメトリとテクスチャの品質に関しては、ImageDreamは現在の最先端技術(SoTA)のゼロショット単一画像3Dモデル生成器であるMagic123を凌駕しています。ImageDreamは、実験部分での定量評価とユーザーテストを通じた定性的比較を含む、これまでのSoTAの技術を凌駕していることが示されています。

このAI論文は、コントロール可能なマルチビュー画像生成および3Dコンテンツ作成を革新するニューラルネットワークアーキテクチャー、MVControlを紹介しています

最近、2D画像制作の驚くべき進展がありました。テキストの入力プロンプトにより、高精細なグラフィックスを簡単に生成することができます。テキストから画像の生成に成功することは稀であり、3Dトレーニングデータが必要なため、テキストから3Dへの移行は難しいです。拡散モデルと微分可能な3D表現の良い性質により、最近のスコア蒸留最適化(SDS)ベースの手法では、事前学習済みの大規模テキストから画像を生成するモデルから3D知識を抽出し、大量の3Dデータで完全に学習する代わりに、印象的な結果を達成しています。DreamFusionは、3Dアセットの作成に新たなアプローチを導入した模範的な研究です。 過去1年間で、2Dから3Dへの蒸留パラダイムに基づいて方法論が急速に進化してきました。複数の最適化段階を適用することで、生成品質を改善するための多くの研究が行われており、3D表現の前に拡散を最適化したり、スコア蒸留アルゴリズムをさらに精密化したり、パイプライン全体の詳細を向上させたりしています。これらの手法は細かいテクスチャを生成できますが、2Dの拡散先行は依存していないため、生成された3Dコンテンツの視点の一貫性を確保することは困難です。そのため、複数のビュー情報を事前学習済みの拡散モデルに強制的に組み込むための試みがいくつか行われています。 ベースモデルは制御ネットワークと統合され、制御されたテキストからマルチビュー画像の生成が可能になります。同様に、研究チームは制御ネットワークのみを訓練し、MVDreamの重みはすべて凍結されています。研究チームは実験的に、相対姿勢条件が条件画像に関してテキストからマルチビューの生成を制御するためにより良い結果をもたらすことを発見しました。これに対して、MVDreamが絶対座標系で記述されたカメラの姿勢で訓練されている場合でも、事前学習済みのMVDreamネットワークの記述とは異なります。さらに、視点の一貫性は、シングルイメージの作成に対応する条件付けメカニズムを持つ2D ControlNetの制御ネットワークをベースモデルとの相互作用に直接採用することで容易に達成できます。 これらの問題に対処するために、浙江大学、西湖大学、同济大学の研究チームは、制御ネットワークを基にした独自の条件付けテクニックを作成し、制御されたテキストからマルチビューの生成を提供するために十分に成功したControlNetアーキテクチャを提案しました。幅広い2DデータセットLAIONと3DデータセットObjaverseの一部を共同で使用してMVControlを訓練しました。この研究では、エッジマップを条件として使用することを調査しましたが、彼らのネットワークは深度マップ、スケッチ画像など、さまざまな種類の入力状況を活用する能力に制約はありません。訓練が終了すると、研究チームはMVControlを使用して制御されたテキストから3Dアセットの生成に3D先行を提供することができます。具体的には、MVControlネットワークと事前学習済みのStable-Diffusionモデルに基づくハイブリッド拡散先行が使用されます。細かいステップでは、ベースモデルから十分なジオメトリを得た段階でのテクスチャの最適化のみが行われます。包括的なテストにより、提案された手法が入力条件画像と書かれた説明を使用して、高精度で細かい制御が可能なマルチビュー画像と3Dコンテンツを生成できることが示されています。 まとめると、以下が彼らの主な貢献です。 ・ネットワークが訓練された後、SDS最適化を介した制御されたテキストから3Dコンテンツ合成にハイブリッド拡散の一部として使用できます。 ・独自のネットワーク設計を提案し、細かい制御が可能なテキストからマルチビュー画像の生成を実現します。 • 彼らのアプローチは、入力条件画像とテキストのプロンプトによって細かく制御されることができる高精度なマルチビュー画像と3Dアセットを生成することができます。これは、広範な実験結果によって示されています。 • SDS最適化による3Dアセットの生成に加えて、彼らのMVControlネットワークは、3Dビジョンとグラフィックのコミュニティでさまざまなアプリケーションに役立つ可能性があります。

NexusRaven-V2をご紹介します:13B LLMは、ゼロショット機能呼び出しでGPT-4を凌駕し、ナチュラルランゲージの指示を実行可能なコードに変換する能力を持っています

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-12-at-12.42.47-AM-1024×623.png”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-12-at-12.42.47-AM-150×150.png”/><p>LLMsは、コード関連のデータセットで微調整することができ、関数呼び出しを含むコードスニペットを生成することができます。これらのモデルは、コンテキストやプロンプトによって提供された入力に基づいて、関数呼び出しを含むコードを提案または生成することができます。言語モデルは、コードに関連するクエリや指示の自然言語理解に使用することができます。開発者は質問や説明を入力し、モデルはそれらを解釈して関連する関数呼び出しやコードセグメントを提供することができます。</p><p>LLMsは、提供されたコンテキストや部分的なコードに基づいて、関数呼び出しを提案したり関連する関数を提案したりすることによって、コード補完を支援することができます。これにより、開発者はより迅速かつ正確にコードを記述することができます。LLMsは、特定のタスクや問題の説明に基づいて、適切なAPIや手順をガイドすることで、開発者がコード内で呼び出すべき適切な関数を見つけるのを支援することができます。LLMsを開発環境に統合することで、開発者に対して関数呼び出し、パラメータのタイプ、または潜在的なエラーに対してリアルタイムのサポートを提供することができます。</p><p>Nexusflowの研究者は、オープンソースのLLMモデル、<strong><a href=”https://www.voagi.com/nexusravenv2-outperforms-gpt4-in-nexusflows-latest-battle.html”>NexusRaven-V2</a></strong>を提案しています。これは自然言語の指示を実行可能なコードに変換してツールを使用することができます。OpenAIアシスタントAPIは、コパイロットとエージェントがソフトウェアツールを使用するための鍵として機能します。NexusRaven-V2は、コパイロットとエージェントのオープンソースモデルを進化させることを目指しています。</p><p>NexusRaven-V2は、ネストや複合関数を使用する人間が生成したユースケースで、関数呼び出しの成功率でGPT-4を最大7%上回っています。NexusRavenはMetaのCodeLlama-13 Bインストラクションにチューニングされた指示です。Nexusflowのパイプラインを使用して、プロプライエタリなLLMを使用せずにオープンコードのコーポラから情報源を提供しています。コミュニティ開発者と企業の両方に対して商業許容です。</p><p>当社の人間によるベンチマークで、NexusRaven-V2は、関数呼び出しの成功率において、最新のGPT-4モデルよりも平均で4%高い成功率を示すことが観察されました。なお、ネストや複合関数呼び出しを必要とする4つの厳しいタスクでは、NexusRaven-V2の方がGPT-4よりも堅牢性が高いと言えます。また、開発者の関数の説明におけるバリエーションを処理する際にも、NexusRaven-V2はGPT-4よりも優れた性能を発揮します。</p><p>チームは、ユーザーがメインストリームのプロプライエタリな関数呼び出しAPIをシームレスにNexusRaven-V2で置き換えることができるオープンソースのユーティリティアーティファクトをリリースしました。また、オンラインデモやコラボノートブックを提供してオンボーディングと統合デモを行っています。彼らは評価ベンチマーク<a href=”https://www.voagi.com/call-all-functions.html”>Nexus-Function-Calling</a>をオープンソース化し、Huggingfaceの<a href=”https://www.voagi.com/create-and-analyze-advanced-machine-learning-models-using-the-sagemaker-canvas-model-leaderboard.html”>リーダーボード</a>を確立しています。このリーダーボードには、さまざまな関数呼び出しのユースケースと難易度をカバーした、実生活で人間が選定した関数呼び出しの例が多数収録されています。</p><p>将来的には、関数呼び出しのLLMは教育現場において、学習者がリアルタイムのサポートを受けながら関数の呼び出し方を正しく学び、プログラミングの概念の理解を促進することができるでしょう。</p>

「スピークAI転写ソフトウェアのレビュー(2023年12月)」

この詳細なSpeak AIレビューで、Speak AIについての真実を発見してくださいそれは最も優れたAI転写ソフトウェアですか?この記事で確認してください!

ヨーロッパのAI最大手MISTRAL AIが3億8500万ユーロを調達

技術のダイナミックな世界では、人工知能(AI)が産業を再構築している中、フランスのスタートアップ企業であるMistral AIが注目されています。3億8500万ユーロの資金調達を達成したMistral AIは、単なるヘッドラインを作るだけでなく、欧州がグローバルAI競争で進むための道を切り開いています。本記事では、Mistral AIの旅について探求し、イノベーションの新たな基準を設定し、これが欧州におけるAIの将来にどのような意味を持つのかを探ります。 資金調達のマイルストーン Mistral AIの最近の財務的な成功は、同社の可能性と投資家たちがそのビジョンに対する信頼の現れです。3億8500万ユーロの調達は、欧州のAI企業における最大の資金調達ラウンドの一つであり、重要な成果です。この資金の流入により、Mistral AIの研究開発の取り組みが加速され、チームが拡大され、製品の提供が向上する見込みです。 イノベーションと拡大 この投資は、単なる資金の増加にとどまらず、成長とイノベーションの触媒です。トップの人材を採用し、事業を拡大する計画を立てたMistral AIは、欧州におけるAIの卓越性の象徴となることでしょう。同社が最先端のAIソリューションの開発に注力することは、医療から金融など、様々なセクターを変革する可能性があります。 欧州のAIの野望 Mistral AIの台頭は、欧州がグローバルなAIのパワーハウスになるという大きな進展です。欧州のテックシーンは長い間シリコンバレーの影に隠れていましたが、これまでのリーダーとして台頭するこの企業によって、その風景は変わりつつあります。この資金調達ラウンドは、欧州がAIイノベーションの世界的な舞台で自分の場所を確立できる準備が整ったことを明確に示しています。 また読む: EUのAI法によってグローバルなAI規制の基準が設定され、アジア諸国は慎重な姿勢をとる 競争力のある特徴 この競争的な産業でMistral AIを際立たせるのは、問題解決への独自のアプローチと倫理的な開発への取り組みです。同社のソリューションはスケーラブルで効率的かつ責任あるものとして設計されており、ビジネスのニーズに応えるだけでなく、社会的な価値観とも一致しています。このイノベーションと誠実さのバランスは、投資家やクライアントを惹きつける要素です。 私たちの意見 Mistral AIの驚異的な資金調達の成功は、単なる財務的な勝利を超えたものであり、欧州のAIセクターにとっては希望の光となっています。同社がAIと可能性の限界を押し広げ続ける間、欧州が明日のテクノロジーのリーダーとなる道を切り開いています。Mistral AIが先頭に立つことで、欧州のAIの未来はこれまで以上に輝かしくなります。

スタンフォード大学とFAIR Metaの研究者が、CHOIS(言語によってガイドされたリアルな3D人間対物体の相互作用を合成するための画期的なAI方法)を発表しました

CHOIS(Choice of Human-Object Interactive Scenario)によって、スタンフォード大学とFAIRメタに所属する研究者は、3Dシーン内のオブジェクトと人間の同期した動きの生成の問題に取り組みました。このシステムは、疎なオブジェクトウェイポイント、物事と人間の最初の状態、テキストの説明に基づいて操作されます。指定された3D環境内で、両方のエンティティの現実的で制御可能な動きを生成することで、人間とオブジェクトの相互作用を制御します。 AMASSなどの大規模で高品質なモーションキャプチャデータセットを活用することで、アクション条件付きの合成やテキスト条件付きの合成を含む、生成的な人間の動きのモデリングへの関心が高まっています。以前の研究では、テキストから多様な人間の動きを生成するためにVAE形式が使用されていましたが、CHOISは人間とオブジェクトの相互作用に重点を置いています。手の動きの合成に焦点を当てる既存の手法とは異なり、CHOISはオブジェクトの掴む前の全身の動きを考慮し、人間の動きに基づいてオブジェクトの動きを予測することで、多様な3Dシーンにおける相互作用の包括的な解決策を提供します。 CHOISは、コンピュータグラフィックス、エンボディドAI、ロボット工学にとって重要な3D環境での現実的な人間の行動の合成のための重要なニーズに対応しています。CHOISは、言語の説明、初期状態、疎なオブジェクトウェイポイントに基づいて同期した人間とオブジェクトの動きを生成し、現実的な動きの生成、環境の混雑への対応、言語の説明からの相互作用の合成といった課題に取り組んでおり、多様な3Dシーンにおける制御可能な人間-オブジェクトの相互作用の包括的なシステムを提供しています。 このモデルは、言語の説明、オブジェクトのジオメトリ、初期状態に基づいて同期したオブジェクトと人間の動きを生成するために、条件付きの拡散手法を使用しています。サンプリングプロセス中に制約を組み込むことで、現実的な人間とオブジェクトの接触を保証しています。トレーニングフェーズでは、接触制約を明示的に強制することなく、オブジェクトの変換を予測するための損失関数を使用してモデルを誘導します。 CHOISシステムは、ベースラインと抜粋に対して厳密な評価が行われており、条件の一致、接触の正確性、手とオブジェクトの貫通の削減、足の浮遊などのメトリクスで優れたパフォーマンスを示しています。FullBodyManipulationデータセットでは、オブジェクトのジオメトリ損失がモデルの能力を向上させています。3D-FUTUREデータセットでは、CHOISはベースラインを上回る性能を示し、新しいオブジェクトへの汎化能力を示しています。人間の主観的研究では、入力テキストとのより良い整合性と、ベースラインと比較して優れた相互作用品質を強調しています。位置と姿勢の誤差などの定量的なメトリクスは、生成された結果の地面の真実の動きからの乖離を測定します。 結論として、CHOISは言語の説明と疎なオブジェクトウェイポイントに基づいて現実的な人間-オブジェクトの相互作用を生成するシステムです。手順では、トレーニング中にオブジェクトのジオメトリ損失を考慮し、サンプリング中に効果的なガイダンス用語を使用して結果のリアリティを向上させています。CHOISで学習された相互作用モジュールは、言語と3Dシーンからのオブジェクトウェイポイントに基づいて長期的な相互作用を生成するパイプラインに統合することができます。CHOISは、提供された言語の説明と一致する現実的な人間-オブジェクトの相互作用の生成において、大幅な改善を遂げています。 今後の研究では、入力ウェイポイントとのオブジェクト動きの一致度を向上させるために、オブジェクトのジオメトリ損失などの追加の監視を統合することができます。接触制約を強制するための高度なガイダンス用語の検討は、より現実的な結果につながる可能性があります。多様なデータセットとシナリオへの評価の拡張により、CHOISの一般化能力をテストすることができます。さらなる人間の主観的な研究は、生成された相互作用についてより深い洞察を提供するでしょう。3Dシーンからのオブジェクトウェイポイントを基に、学習された相互作用モジュールを適用して長期的な相互作用を生成することも、CHOISの適用範囲を拡大することになります。

なぜOpenHermes-2.5はGPT-4やLLama2 13Bよりも優れているのか? 結果はこちら

したがって、この記事では、llama2 13 Billion、GPT-4、OpenHermes 2.5などの主要なプレーヤーからの最新のAIの進歩について詳しく説明しますこの段階ごとのガイドでは、.........

「2024年に成功したデータサイエンティストがテックジョブを獲得する方法-求職活動への3ステップ勝利戦略」

最近、データサイエンティストの間で調査を行い、驚愕の数値を見つけました−86%の人が無作為に仕事の申し込みを送って、ベストを期待していることがわかりました期待するだけでは戦略ではありませんし、このような時代に…

このGoogleとUC BerkeleyのAI論文は、NeRFillerを紹介します:2Dインペインティング拡散モデルを使用して3Dシーン再構築を革新する人工知能アプローチ

3Dキャプチャの欠けた部分を効果的に補完する方法はありますか?Google ResearchとUC Berkeleyの研究論文では、「NeRFiller」という新しい3Dインペインティング手法を紹介しています。この手法は、再構築の失敗や観測の不足によってしばしば欠落する、不完全な3Dシーンやオブジェクトの再構築の課題に対処しています。この手法は、参照例を通じてインペインティングプロセスを制御することで、精密かつカスタマイズ可能なシーンの補完を可能にします。NeRFillerは、3Dキャプチャ内のシーンやオブジェクトを強化する3D生成インペインティング手法であり、3D再構築の改善に効果的な解決策となります。 この研究では、伝統的な2Dインペインティングから大規模インペインティングのLaMaのような先進的な技術まで、さまざまな手法を用いて3Dシーンの欠落した部分を補完する方法を探求しています。確率的および潜在的な拡散モデルに取り組み、テキストや画像を入力とする3D生成アプローチを考慮しています。オブジェクトの削除設定の関連性が強調され、3Dインペインティングのためのさまざまなベースラインとデータセットが評価されています。ビデオやシーン編集の関連研究に触れながらも、主に既存の3Dシーンのコンテキスト内でのシーン補完に焦点を当てています。 この研究では、3Dシーンの補完とインペインティングの課題に取り組み、3Dに対応したマルチビュー一致アプローチの重要性を強調しています。シーン補完とオブジェクトの削除を区別し、3Dシーン内で新しいコンテンツを生成することに焦点を当てています。3D一貫性のあるイメージのための2D生成インペインティングモデルの制約について議論されています。提案されたNeRFillerアプローチは、テキストから画像への拡散モデルのグリッド事前現象を活用し、インペインティングでのマルチビュー一貫性を強化します。3Dシーンの最適化のための反復的な手法を利用し、グリッドインペインティングを大規模な画像コレクションに拡張しています。Masked NeRFやLaMaskなどのベースラインとの比較を行い、NeRFillerの効果を示しています。比較や新規ビューメトリクス、イメージ品質、ジオメトリメトリクスを含む評価も行われています。 NeRFillerは、3Dシーンの欠落した領域を補完するための生成的な2D拡散モデルを利用した手法です。さまざまなインペインティングの推定値の課題と、2Dモデルの3D一貫性の欠如に取り組んでいます。NeRFillerは、顕著なインペインティング結果のための統合機構を取り入れ、3Dキャラクターを促進します。反復的な3Dシーンの最適化を活用し、グリッドインペインティングを大規模な画像コレクションに拡張します。Masked NeRFやLaMaskといったベースラインとの比較を行い、NeRFillerの効果を示しています。比較や新規ビューメトリクス、イメージ品質、ジオメトリメトリクスを含む評価も行われています。 結論として、NeRFillerは3Dシーン内の欠落した部分を正確に補完することができる強力な3Dインペインティングツールです。ギャップを埋めたり、不要な要素を削除する能力は、オブジェクト削除のベースラインを上回ります。Joint Multi-View Inpaintingの導入により、複数の画像間でノイズの予測を平均化することで一貫性を強化しています。NeRFillerは、最新のベースラインと比較することで、ユーザー指定の3Dシーンの補完を達成しています。ユーザーが指定した仕様で3Dキャプチャの欠落部分をインペインティングするための貴重なフレームワークを提供しています。

「Stable-Baselines3を用いた便利な強化学習」

「過去の強化学習に関する記事では、NumPyとTensorFlowだけを使って(深層)Q学習の実装方法をご紹介してきましたこれは重要な一歩でしたが、これにはまだまだ続きがあります...」

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us