Learn more about Search Results A - Page 268

このAI論文は、「MATLABER:マテリアルを意識したテキストから3D生成のための新しい潜在的BRDFオートエンコーダ」を提案しています

3Dアセットの開発は、ゲーム、映画、AR/VRなど、多くの商業応用において不可欠です。従来の3Dアセット開発プロセスでは、多くの労力と時間を要する作業が必要であり、それらはすべて専門的な知識と形式美的なトレーニングに依存しています。最近の生成品質と効率の向上、および従来の3Dアセット作成に必要な時間とスキル要件を大幅に削減する潜在能力により、純粋なテキスト記述から自動的に3Dアセットを生成するテキストから3Dへのパイプラインへの注目が高まっています。 これらのテキストから3Dへのパイプラインは、NeRFまたはDMTETで表現されたターゲット3DアセットをSDS損失を介して逐次最適化することにより、魅力的なジオメトリと外観を提供することができます。図1は、彼らが高忠実度のオブジェクト素材を復元するのがいかに困難であるかを示しており、これがリライティングなどの現実世界のアプリケーションでの使用を制限しています。彼らのデザインには双方向反射率分布関数(BRDF)とランベルト反射率をモデル化しようとする試みがなされていますが、素材を予測するニューラルネットワークは、自然な分布に準拠する適切な素材を識別するために必要なモチベーションと手がかりを欠いています。特に、環境ライトと頻繁に絡み合うことが多い固定ライト条件下で、彼らの示した素材が環境ライトと混同してしまうことがあります。 本研究では、上海AI研究所とS-Lab、南洋理工大学の研究者が、既に利用可能な豊富な素材データを使用して、素材を環境ライティングから正確に分離する独自のテキストから3Dへのパイプラインを学習することに成功しました。MERL BRDF、Adobe Substance3D素材、実世界のBRDFコレクションTwoShotBRDFなど、大規模なBRDF素材データセットがありますが、素材とテキストの記述の結合データセットへのアクセスのなさにもかかわらず、彼らはテキストプロンプトに正確に対応するリアルで自然な見た目の素材を作成するために、全く新しい潜在的BRDFオートエンコーダを使用したマテリアルアウェアテキストから3Dへのエンコーダ(MATLABER)を提案しています。 BRDFの値ではなくBRDFの潜在コードを予測するために、潜在的BRDFオートエンコーダは、そのスムーズな潜在空間にTwoShotBRDFの実世界のBRDF事前知識を組み込むように訓練されます。これにより、MATLABERは最も適切な素材の選択に集中し、予測されたBRDFの妥当性にあまり心配する必要がありません。彼らの手法は、BRDFオートエンコーダのスムーズな潜在空間により、オブジェクトのジオメトリと外観の最適な分離を実現し、高忠実度のコンテンツを持つ3Dアセットを生成することができます。図1に示すように、これは従来の最先端のテキストから3Dへのパイプラインを超えるものです。 図1: テキストから3Dへの生成の目標は、提供されたテキストの記述に対応する高品質な3Dオブジェクトを作成することです。DreamFusionやFantasia3Dなどの代表的な技術は、見栄えはするものの、高忠実度のオブジェクト素材を復元するのには依然として十分ではありません。具体的には、Fantasia3Dは環境ライティングと絡み合ったBRDF素材を予測し、DreamFusionは拡散反射素材のみを考慮しています。潜在的BRDFオートエンコーダに基づくこの手法は、3Dオブジェクト用の有機的な素材を生成し、さまざまな照明条件でのリアルなレンダリングを可能にします。 さらに重要なことに、オブジェクト素材の正確な推定により、以前は困難だったシーンの修正、素材の編集、リライティングなどの活動が可能になります。これらのダウンストリームのタスクが重要であると認識するいくつかの現実世界のアプリケーションによって、より実用的な3Dコンテンツ生成のパラダイムに道が開かれています。さらに、彼らのアルゴリズムは、ObjectFolderなどのマルチモーダルデータセットを使用して、取得した素材から触覚情報や音響情報を推測することができます。これらの情報は、仮想物体の素材の三位一体を構成します。

「次のステップは責任あるAIですどのようにしてそこに辿り着くのか?」

過去数十年間、多くのAIプロジェクトはモデルの効率性とパフォーマンスに重点を置いてきましたその結果は科学論文に文書化され、最もパフォーマンスの高いモデルが組織に展開されていますそして今、それは...

「Appleの研究者が、ポーズされた画像から詳細な3D再構築を生成するエンドツーエンドネットワークを提案」

GTA-5をプレイしたことはありますか?ゲーム内の3Dグラフィックには感動します。平面上の2Dグラフィックとは異なり、3Dグラフィックは奥行きと透視図をシミュレートし、よりリアルで没入感のある映像を実現します。これらのグラフィックは、ビデオゲーム、映画制作、建築ビジュアライゼーション、医療画像、仮想現実など、さまざまな分野で広く利用されています。 3Dモデルを作成する従来の方法は、入力画像の深度マップを推定し、それらを統合して3Dモデルを作成することでした。Appleとカリフォルニア大学サンタバーバラ校の研究者チームは、従来のテスト時最適化の方法を使用しないで、ディープニューラルネットワークを使用してシーンレベルの3Dジオメトリを直接推論する手法を開発しました。 従来の方法では、透明な部分や低テクスチャの表面が深度マップと一致しないため、ジオメトリが欠落したりアーティファクトが発生したりすることがありました。研究者のアプローチでは、画像をボクセルグリッドに投影し、3D畳み込みニューラルネットワークを使用してシーンの切り詰められた符号付き距離関数(TSDF)を直接予測します。 畳み込みニューラルネットワーク(CNN)は、主に画像や動画を処理・分析するために設計された特殊な人工ニューラルネットワークです。この技術を使用する利点は、CNNが学習し、低テクスチャや透明な領域のギャップを埋めることができる滑らかで一貫した表面を生成できることです。 研究者は、トレーニング中にモデルのボクセルグリッドに合わせて真のTSDFをサンプリングするために三次補間を使用しました。この三次補間サンプリングは、トレーニングセッションで詳細にランダムノイズを追加しました。これを克服するために、彼らは真のTSDFがよく知られている正確なポイントでのみ教師あり予測を考慮し、この方法により結果が10%改善されました。 ボクセルは、ボリュームピクセルの略称です。それは、2D画像のポイントを表すピクセルと同様に、グリッド内の3D空間のポイントを表します。既存のボクセルは4cm以上であり、自然画像で見られる幾何学的な詳細を解決するのに十分ではなく、ボクセルの解像度を高めるのは費用がかかります。彼らは、CNNグリッド機能を使用してこの問題を解決し、画像特徴をクエリポイントに直接投影しました。 各入力画像から各ボクセルへの特徴のサンプリングには、密なバックプロジェクションが必要でした。しかし、バックプロジェクションボリュームでぼやけが発生しました。これを解決するために、彼らは初期のマルチビューステレオ深度推定を使用し、特徴ボリュームを向上させました。 研究者は、彼らの手法がネットワークが詳細な情報を学習し、追加のトレーニングや3D畳み込みレベルを必要とせずに出力解像度を自由に選択できるようにする鍵であると主張しています。

Visual BERTのマスタリー | 最初のエンカウンターのパワーを解き放て

イントロダクション Googleは、BERTが検索の歴史でも最も大きな進歩の一つであり、より正確に人々が求めている情報を理解するのに役立つと述べています。Visual BERTのマスタリーは特別です。なぜなら、それは文の中の単語を前後の単語を見ることで理解することができるからです。これにより、文の意味をより良く理解することができます。まるで、すべての単語を考慮して文を理解するようなものです。 BERTは、コンピュータがさまざまな状況でテキストの意味を理解するのに役立ちます。例えば、テキストの分類、メッセージの感情の理解、認識された質問への回答、物や人の名前の理解などに役立ちます。Google検索でBERTを使用することにより、言語モデルがどれだけ進化し、コンピュータとのやり取りをより自然で助けになるものにしてくれるかがわかります。 学習目標 BERTの略称(Bidirectional Encoder Representations from Transformers)を理解する。 BERTが大量のテキストデータでトレーニングされる方法を知る。 事前トレーニングの概念と、それがBERTの言語理解の発展にどのように役立つかを理解する。 BERTが文の左右の文脈の両方を考慮することを認識する。 BERTを検索エンジンで使用してユーザーのクエリをより良く理解する。 BERTのトレーニングに使用されるマスクされた言語モデルと次の文予測タスクを探求する。 この記事は、Data Science Blogathonの一環として公開されました。 BERTとは何ですか? BERTはBidirectional Encoder Representations from Transformersの略です。これは、コンピュータが人間の言語を理解し処理するのを助ける特別なコンピュータモデルです。それは私たちのようなテキストを読み、理解することができる知的なツールです。…

「ジェネラティブAIおよびMLモデルを使用したメールおよびモバイル件名の最適化」

「ジェネレーティブAIとMLモデルを併用して、最大のエンゲージメントを得るために、トーンと対象読者に合わせた魅力的な件名やタイトルを自動的に作成する」

「AIの問題を定義する方法」

「25年以上のソフトウェアエンジニアリングの経験を持っていますので、人工知能(AI)と機械学習を始めるソフトウェア開発者からの質問に多く答えてきました…」

「Llama 2がコーディングを学ぶ」

イントロダクション Code Llamaは、コードタスクに特化した最新のオープンアクセスバージョンであり、Hugging Faceエコシステムでの統合をリリースすることに興奮しています! Code Llamaは、Llama 2と同じ許容されるコミュニティライセンスでリリースされ、商業利用が可能です。 今日、私たちは以下をリリースすることに興奮しています: モデルカードとライセンスを備えたHub上のモデル Transformersの統合 高速かつ効率的な本番用推論のためのテキスト生成推論との統合 推論エンドポイントとの統合 コードのベンチマーク Code LLMは、ソフトウェアエンジニアにとってのエキサイティングな開発です。IDEでのコード補完により生産性を向上させることができ、ドックストリングの記述などの繰り返しや面倒なタスクを処理することができ、ユニットテストを作成することもできます。 目次 イントロダクション 目次 Code Llamaとは? Code Llamaの使い方 デモ Transformers…

「次のデータサイエンスプロジェクトを迅速化するための3つの知的なChatGPTの活用方法」

ChatGPTをキャリアの脅威とは考えず、むしろ先生やアシスタントとして考えてくださいこの記事では、2023年にキャリアを向上させるためにChatGPTを活用する3つの方法を学びます

StreamlitとMongoDB:クラウドでのデータの保存

Streamlitは、公開アプリを無料で彼らのクラウドにデプロイすることができますが、ローカルで作成したファイルやデータベースは、アプリが終了すると存在しなくなりますこれは、あなたが望む振る舞いでないかもしれません

「創造的AIの法的および倫理的視点」

「2023年は、特に生成型AIの台頭の年ですこの技術自体は新しくありません多くのテック企業がデスクトップ/ウェブ/モバイルアプリを開発・リリースしています...」

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us