Learn more about Search Results MarkTechPost - Page 12

このAI論文は、高品質な3Dセグメンテーションを実現するために、与えられたシーン内の任意のオブジェクトのためのセグメントエニシングのための高品質(SANeRF-HQ)フレームワークを紹介しています

香港科技大学、卡内基梅隆大学和达特茅斯学院的研究人员开发了名为SANeRF-HQ(High-Quality的NeRF任意物体分割)的方法,以在复杂场景中实现准确的三维分割。以往基于NeRF的物体分割方法在准确性方面受到限制。而SANeRF-HQ结合了”Segment Anything Model”(SAM)和神经辐射场(NeRF)的功能,提高了分割准确性并在复杂环境中提供了高质量的三维分割。 NeRF在处理复杂场景时面临挑战。SANeRF-HQ通过使用SAM进行开放世界的物体分割,并由用户提示进行指导,以及使用NeRF进行信息聚合来克服这些挑战。它在物体定位的灵活性和视图间一致的分割方面胜过以往的NeRF方法。对NeRF数据集的定量评估凸显了它对三维计算机视觉和分割的潜在贡献。 NeRF在使用多层感知器进行新视图合成方面表现出色。虽然NeRF内的3D物体分割已经取得成功,但Semantic-NeRF和DFF等以前的方法依赖于受限的预训练模型。SAM允许多样的提示,并在分割方面擅长零样例泛化。SANeRF-HQ利用SAM进行开放世界分割和NeRF进行信息聚合,解决了复杂场景中的挑战,并在质量上超越以往的NeRF分割方法。 SANeRF-HQ使用特征容器、蒙版解码器和蒙版聚合器来实现高质量的三维分割。它对SAM特征进行编码,生成中间蒙版,并使用NeRF的颜色和密度场将2D蒙版整合到3D空间中。该系统结合了SAM和NeRF进行开放世界分割和信息聚合。它可以使用NeRF生成的视频和SAM的自动分割功能来执行基于文本和自动的三维分割。 SANeRF-HQ在高质量的三维物体分割方面胜过以往的NeRF方法。它提供了在物体定位和视图间一致的分割方面的灵活性增强。对多个NeRF数据集的定量评估证实了其有效性。SANeRF-HQ展示了在动态NeRF中的潜力,实现了基于文本提示的分割,并能够进行自动的三维分割。使用密度场、RGB相似度和光线对RGB损失可以提高分割的准确性,填补内部和边界的缺失部分,从而获得视觉上改进且更加稳固的分割结果。 总之,SANeRF-HQ是一种高级的三维分割技术,超越了以往的NeRF方法,具有在多个视图上的灵活性和一致性。它在各种NeRF数据集上的优越表现表明,它具有在三维计算机视觉和分割技术方面做出重要贡献的潜力。将其扩展到4D动态NeRF物体分割以及使用密度场、RGB相似度和光线对RGB损失进一步增强了其准确性和质量,融合了颜色和空间信息。 未来的研究可以探索SANeRF-HQ在4D动态NeRF物体分割方面的潜力。它可以通过在复杂和开放世界场景中的应用中进行研究,并与语义分割和场景分解等先进技术相结合,以增强其功能。对SANeRF-HQ在真实世界场景中可用性和有效性进行用户研究可以提供有价值的反馈。进一步探索其在大规模场景和数据集上的可扩展性和效率,以优化实际应用的性能是必要的。

「大規模言語モデルをより効率的に最適化できるのか?LLMの効率性に関するアルゴリズムの進化についての包括的な調査をご覧ください」

より効率的に大規模言語モデルを最適化できるのか? マイクロソフト、南カリフォルニア大学、オハイオ州立大学など、複数の組織の研究者からなる研究チームが、LLM(大規模言語モデル)の効率向上を目指したアルゴリズムの進歩について徹底的なレビューを提供しています。スケーリングの法則、データの利用、アーキテクチャの革新、トレーニング戦略、推論技術などを網羅し、将来の効率的なLLM開発の礎を築こうとしています。 スケーリングの法則、データの利用、アーキテクチャの革新、トレーニング戦略、推論技術をカバーし、LLMの核心的な概念と効率指標について説明しています。このレビューでは、効率的なLLM開発に貢献する方法論の最新の総合的な概要を提供しています。研究者は関連する研究の見落としを認識し、さらなる参考文献の提案を推奨しています。 LLMは自然言語理解において重要な役割を果たしていますが、高い計算コストのために誰にでも簡単にアクセスできるものではありません。この課題に取り組むために、研究者は効率を向上させ、アクセス性を高めるためのアルゴリズムの進歩を継続的に行っています。これらの進歩は、AI、特に自然言語処理の領域における将来のイノベーションの道を切り拓いています。 この研究は、LLMの効率を向上させるアルゴリズムの進歩を調査しています。スケーリングの法則、データの利用、アーキテクチャの革新、トレーニング戦略、推論技術など、さまざまな効率の側面を検討しています。Transformer、RWKV、H3、Hyena、RetNetなどの具体的な方法が言及されています。議論には知識の蒸留法、コンパクトなモデル構築法、注意モデリングと計算の最適化のための頻度ベースの技術などの具体的な手法が含まれています。 この調査は、特定の領域に焦点を当てるのではなく、多様な効率の側面をカバーするLLMの効率についての包括的な視点を採用しています。貴重な情報源として役立ち、LLMの効率に関する今後のイノベーションの基盤を築いています。参考文献リポジトリを含めることで、この重要な分野のさらなる探求と研究のための有用性が高まります。ただし、研究の特定の結果や方法の詳細は、提供されたソースに明示的に記載されるべきです。 まとめると、この調査では、LLM技術の効率を高めるための最新のアルゴリズムの進歩について詳しく説明しています。スケーリングの法則、データの利用、アーキテクチャの革新、トレーニング戦略、推論技術をカバーしています。アルゴリズムの解決策の重要性を強調し、モデルの圧縮、知識の蒸留、量子化、低ランク分解などの手法を探求し、LLMの効率を向上させることになります。この包括的な調査は、LLMの効率の現状についてさまざまな貴重な洞察を提供する必須のツールです。

SQLを練習するための最高のプラットフォーム

SQL、またはStructured Query Language(構造化クエリ言語)は、データベースの言語です。コンピュータがデータを理解し管理するための方法です。データアナリスト、科学者、エンジニアを目指す場合、SQLはテックワールドで必須のスキルです。このガイドでは、SQLのスキルを磨き、データ関連の面接で成功するための最良のプラットフォームをご紹介します。ですから、SQLの問題に困ったことがあるのであれば、心配しないでください。夢の役割に向けて、SQLのパワーを引き出すためのツールを持っています。 HackerRank HackerRankは、SQLスキルを磨くための素晴らしいプラットフォームであり、難易度のレベルやSQLのトピックによってカテゴリ分けされた様々な練習問題を提供しています。基本的なクエリから高度な最適化まで、中級者から上級者まで対応しています。 また、プラットフォームには時間制限付きのスキル認定テストもあり、自分のSQLの熟練度を評価することができます。HackerRankのゲーム感覚のアプローチで学習が楽しくなり、成果を示すバッジも獲得することができます。全体的には、SQLの専門知識を高めるためのダイナミックなリソースです。 Leetcode LeetCodeは人気のあるコーディングプラットフォームであり、SQLの問題についてもさまざまなスキルレベルのユーザー向けに問題を提供しています。実世界の問題解決に重点を置いており、ユーザーは企業のタグによって問題を絞り込むことができ、特定の業界のニーズに合わせて準備することができます。 ただし、無料アカウントでは利用できる問題の一部に制限があります。それでも、手順ごとの学習よりも問題解決に重点を置いているため、初心者にはより難しいかもしれません。 StrataScratch StrataScratchは、SQLの面接練習において手放せないプラットフォームであり、幅広い問題集を提供しています。トピックや難易度でフィルタリングすることもでき、企業固有のSQL面接の質問も探索することができます。コーディングワークスペースでは、PostgreSQL、MySQL、Microsoft SQL Server(ベータ版)をサポートしており、Pythonユーザーはpandasを活用して問題解決できます。 無料アカウントでは、解答付きの50問にアクセスでき、500以上のSQL問題に取り組む機会もありますので、StrataScratchはSQLスキルを磨くための貴重なリソースです。 SQLZOO SQLZooは、SQLを学び、実践するための初心者にやさしいプラットフォームです。インタラクティブなチュートリアルと演習を提供し、ユーザーは基本的な文からウィンドウ関数のようなより高度な概念まで進むことができます。 このプラットフォームでは、SQLクエリを直接ウェブブラウザで実践することができ、リアルタイムフィードバックを提供します。さまざまなSQLトピックを網羅していますが、シミュレートされたデータベースを使用しているため、実際のアプリケーションに適しているとは言い難いです。 SQLPAD SQLPadは、SQLクエリの実践と結果の視覚化を行うために設計されたWebアプリケーションです。シングルテーブルとマルチテーブルの操作、ウィンドウ関数など、さまざまなSQLトピックをカバーしています。このプラットフォームでは、難易度の異なる質問を提供し、以下のような業界別にカテゴリ分けしています:フィンテック、eコマース。 Postgres、MySQL、SQL Serverなど、複数のデータベースをサポートするSQLPadでは、無料アカウントで練習問題にアクセスすることができます。SQLスキルを実践を通じて磨くための貴重なツールであり、SQLとPythonのインタビューで優れた成績を収めたいデータ分析の専門家にとって有益です。 SQLFiddle SQLFiddleは、さまざまなデータベースシステム上でSQLクエリを書き、実行するための使いやすいWebツールです。MySQLやPostgreSQLなどの異なるシステムでテストできる機能を持ち、実際のデータベースと作業しているかのような体験ができます。SQLコードの共有やヘルプを求めるプラットフォームとしても優れていますが、初心者がSQLを学ぶための包括的な教材としてはあまり向いていません。 DataLemur…

このAI研究は、大規模言語モデルにおける不誠実さのメカニズムを明らかにする:プロンプトエンジニアリングとニューラルネットワーク分析に深く没入する

大規模な言語モデル(LLM)の理解とその正直な行動の促進は、これらのモデルが成長し、社会に広く受け入れられるようになったため、ますます重要となっています。研究者らは、スケーラブルなディスインフォメーション、操作、詐欺、選挙の妨害、またはコントロールの喪失のリスクなど、モデルが欺瞞的になる可能性から新たなリスクが生じると指摘しています。彼らはこの欺瞞を「真実以外の特定の結果を追求するための虚偽の信念の系統的な誘導」と定義しています。研究によると、これらのモデルの活性化には必要な情報があるにもかかわらず、正しい結果を出すためにはミスアライメント以上のものが必要かもしれません。 以前の研究では、真実と誠実さを区別し、前者は誤った主張を避ける一方、後者は信じていない主張を避けると述べています。この区別は理解を助けるのに役立ちます。したがって、モデルが誤解を招く主張を生成する場合、その原因はスキルの欠如ではなく、不誠実さによるミスアライメントによるものかもしれません。その後、いくつかの研究では、内部モデル表現の抽出の改善を図るため、モデルに積極的な概念を考慮させるようにするためのブラックボックス技術の提案が行われています。 さらに、モデルは文脈に従った環境で「重要な」中間層を持っており、これを超えて文脈に従った真実または誤った応答の表現は分岐する傾向があります。これを「過剰に考える」という現象として知られています。先行研究に刺激を受けて、研究者たちは不正確な文脈学習から故意の不誠実さに焦点を広げ、モデルにウソをつくように明示的に指示を与えることでこの文脈での不誠実さに責任があるモデルのどの層と注意ヘッドがあるのかを特定して理解しようとしています。 以下に彼らの貢献を示します: 1. 研究チームは、真偽の質問でかなり下回る精度に基づいて、LLaMA-2-70b-chatが嘘をつくように訓練できることを示しています。研究チームによれば、これは非常に微妙で、注意深く迅速に設計する必要があります。 2. activation patchingおよびprobingを使用して、研究チームは不正行動に関連する5つのモデル層に独立した証拠を見つけました。 3. 0.9%の全ヘッドに対して誘因介入が効果的に行われ、研究チームが欺瞞的なモデルに真実を返すように強制しました。これらの処理は、複数のデータセットの分割や提示に対して弾力的です。 要するに、研究チームは、真実を言うかどうかについてLLMに指示を与えるという単純な嘘の事例を考察しました。その結果、巨大なモデルでも不正行動が表示され、正直に回答するように求められた場合には正しい回答が生成され、ウソをつくように追い込まれると誤った回答が生成されることがわかりました。これらの調査結果は、活性化探索がプロンプトでの分布外にも一般化できる可能性があることを示唆する以前の研究に基づいています。しかし、研究チームは、これがモデルが「真」トークンよりも早く「偽」トークンを出力する傾向にあるといった問題により、プロンプトのエンジニアリングに長い時間が必要になる場合があることも発見しました。 研究チームは、接頭辞の挿入により、一貫して嘘を引き起こすことができました。その後、チームは不誠実なモデルと誠実なモデルの活性化を比較し、嘘をつくために関与する層と注意ヘッドを特定しました。研究チームは、この嘘の行動を調査するために線形プローブを使用することで、初めから中間層が誠実なプロンプトとウソつきプロンプトに対して類似のモデル表現を示し、それから急激に反対向きに分岐することを発見しました。これは、文献の一部が求めるように、以前の層が文脈非依存の真実の表現を持つべきであることを示しているかもしれません。また、activation patchingは、特定の層とヘッドの動作についてさらに理解するために研究チームが使用した別のツールです。研究者たちは、局所的な介入が正直なプロンプトおよびウソつきモデル間のミスマッチを完全に解決できることを発見しました。 重要なのは、わずか46の注意ヘッドに対するこれらの介入が、データセットやプロンプトに対して強固な耐性を示していることです。研究チームは、モデルがデフォルトで誠実なモデルの正確性と誠実さを主に調査してきた以前の研究とは対照的に、アクセス可能なデータセットを使用し、明示的にモデルに嘘をつくように指示することで嘘を重点的に研究しています。この文脈によって、研究者たちは不正な行動を促進する微妙な点や大規模モデルがどのように不誠実な行動に関与しているかについて多くの知識を得ることができました。研究チームは、LLMの倫理的かつ安全な応用を保証するために、この文脈でのさらなる研究がLLMの嘘つきを防止する新しいアプローチにつながると期待しています。

「GPS ガウシアンと出会う:リアルタイムにキャラクターの新しい視点を合成するための新たな人工知能アプローチ」

マルチビューカメラシステムの重要な機能の1つは、ソースの写真を使用して新しい視点から写真のような画像を生成する新規ビュー合成(NVS)です。人間のNVSのサブフィールドは、ホログラフィックコミュニケーション、ステージパフォーマンス、スポーツ放送のための3D / 4D没入型シーンキャプチャなどの領域で、リアルタイムの効率と一貫した3D外観に大きく貢献する可能性があります。従来の方法では、新しいビューを作成するために加重ブレンディングプロセスが使用されてきましたが、これらの方法は通常、非常に密な入力ビューまたは非常に正確なプロキシジオメトリのいずれかに依存していました。スパースビューカメラ設定下でNVSのために高品質な画像をレンダリングすることは依然として大きな課題です。 最近、ニューラルラディアンスフィールド(NeRF)などの暗黙の表現によって、いくつかのNVSタスクで優れたパフォーマンスが示されています。プロセスを高速化するための戦略の進化があったにもかかわらず、暗黙の表現を使用するNVSメソッドは、シーン空間の密なスポットをクエリするのにはまだ時間がかかります。一方、明示的な表現のリアルタイムおよび高速レンダリング能力、特にポイントクラウドは持続的な関心を集めています。ニューラルネットワークと組み合わせると、ポイントベースのグラフィックスは、人間のNVSテストでNeRFよりも現実的で効率的な明示的な表現を提供します。 哈尔滨工业大学と清华大学の新しい研究では、この論文ではパーサブジェクト最適化を使用せずに、前向きにガウスパラメータを回帰するための普遍的な3Dガウススプラットアプローチを目指しています。彼らの目標は、成功した学習ベースの人間再構成アプローチであるPIFuのような大規模な3D人間スキャンモデルを使用して、さまざまな人間のトポロジ、衣類スタイル、姿勢依存変形を作成するためにガウス表現の学習方法を学ぶことです。提案された手法は、これらの獲得した人間のプライオリティを利用して汎用的なガウスモデルによる人間の外観の迅速な描写を可能にします。 研究者たちは、無構造なポイントクラウドの代わりにソースビューの画像平面(位置、色、スケーリング、回転、不透明度)に定義された2Dガウスパラメータマップを提示しています。これらのガウスパラメータマップにより、ピクセルごとのパラメータを使用してキャラクターを描写することができます。また、3D演算子の代わりにコスト効率の良い2D畳み込みネットワークを使用することができます。2つのソースビューの両方に対して2ビューステレオを使用して深度マップを推定することで、2Dパラメータマップを3Dガウスポイントに変換します。これにより、ソースビューの両方からの未投影ガウスポイントによってキャラクターが表現され、スプラットアプローチを使用して新しいビューの画像が生成されます。人間のキャラクターに特有の自己遮蔽は、既存のカスケードコストボリュームアプローチでは深度推定を難しくします。したがって、チームは、このような大規模データ上のガウスパラメータ回帰および反復的なステレオマッチングベースの深度推定モジュールを同時にトレーニングすることを提案しています。ガウスモジュールのレンダリング損失の最小化により、深度推定によって引き起こされる可能性のあるアーティファクトを修正し、3Dガウス位置の精度を向上させます。このような協力的なアプローチのおかげで、トレーニングはより安定します。 実際には、チームは最新のグラフィックスカードを1枚だけ使用して、25 FPS以上のフレームレートで2Kの新しいビューを実現することができました。提案手法の広範な汎用性と高速レンダリング能力により、最適化や微調整なしで見たことのないキャラクターを瞬時にレンダリングすることができます。 彼らの論文で強調されているように、提案されたGPS-Gaussianは高品質の画像を合成しますが、いくつかの要素は手法の効果にまだ影響を与える可能性があります。例として、正確な前景マッティングは重要な前処理ステップです。また、ターゲットエリアが1つのビューでは完全に見えず、他のビューでは見える場合(6つのカメラセットアップなど)、この手法では適切に処理できません。研究者たちは、この困難を時系列データを使用することで解決できると考えています。

データのセキュリティとコラボレーションの強化:AWS Clean Roomsが機械学習と差分プライバシー機能を導入

Amazon Web Services(AWS)は、セキュアなデータ共有サービスであるClean Roomsの新しいアップデートを発表しました。このアップデートにより、最新の機械学習(ML)と差分プライバシー機能を組み込むことで、企業はセキュリティを強化し、機械学習モデルの活用とデータのプライバシー保護を両立させながら正確なデータ分析を推進することができます。 最新のClean Roomsでは、データプライバシーを強化しセキュアな共同作業を促進するさまざまな機能が追加されました。機械学習のサポートを組み込むことにより、オリジナルデータを公開することなくMLモデルを活用することができます。この革新的な機能により、機密情報を明かすことなく共同データ分析を行うことが可能となり、データプライバシーを重視する企業にとって大きな利点となります。 差分プライバシー機能もClean Roomsに統合されることで、データクエリの結果に適切にキャリブレートされたエラー(「ノイズ」とも呼ばれる)を組み込むことができます。これにより、個々のデータ貢献を曖昧化しながら分析の正確性を確保することができます。プライバシーバジェットコンポーネントを使用してプライバシーを有限のリソースとして取り扱うことにより、この機能はデータ漏洩を防ぎ、プライバシーリソースの枯渇や潜在的な侵害の回避に寄与します。 差分プライバシーは、特定の個人情報を漏洩することなく統計的パターンを明らかにする技術であり、AWS Clean Roomsはこの技術の適用を簡略化します。ユーザーは差分プライバシー機能を有効にし、共同作業の設定内でプライバシーポリシーを設定することで、このプライバシー強化技術を簡単に使用することができます。 今回のアップデートにおける画期的な機能であるClean Rooms MLにより、ユーザーは機械学習モデルを活用しながら機密データを保護することができます。この機能はさまざまな産業に適用され、ターゲットマーケティングの効果の高化、潜在的な顧客の特定、臨床研究の迅速化などを行う際に重要な情報を保護しながら支援します。 Clean Rooms MLの導入により、ユーザーはAWSによって管理されたモデルを組織内のデータ共有のコラボレーションにおいて訓練する必要がなくなります。このML機能のシームレスな統合により、ユーザーはモデルの予測を柔軟に制御し、分析において適応性と精度を確保することができます。 さらに、Clean Roomsではプライバシーコントロール機能も導入されており、適切な権限を持つClean Roomsメンバーが実行するクエリや出力を管理する権限を使用者に与えることができます。この追加のセキュリティレイヤーにより、コラボレーションエコシステム内のデータセキュリティとプライバシーの措置がさらに強化されます。 要するに、刷新されたAWS Clean Roomsは、セキュアなデータコラボレーションにおけるパラダイムシフトを象徴し、包括的なデータ分析の可能性を引き出しつつ、重要な情報の保護を重視しています。最新の機械学習と差分プライバシーの機能を組み合わせることで、AWSはデータセキュリティを確保しつつ分析の効率を高める道を開拓し、より安全で洞察に満ちた共同作業の未来を切り拓いています。 この記事の投稿は、Enhancing…

『NYU研究者が提案するGPQA 生物学、物理学、化学の3つの領域の専門家が作成した448の多肢選択問題からなる難解なデータセット』

大型言語モデル(LLM)は人工知能(AI)の最前線にあり、この急速に変化する分野で人間のスキルを凌駕する可能性を示しています。ただし、これらのモデルが超人的な能力に近づくにつれて、公正な評価や人間の理解に合わせることがより困難になります。この問題を解決することは、新しいAIシステムが正確な情報を提供することを保証するために不可欠であり、特に人間が検証できる真実が曖昧な問題において重要です。これはスケーラブルな監視として知られる問題です。 ロバストな評価のテストベッドは、これらのジョブのためのLLMの適合度を評価するために必要です。テストベッドは、特に人間が生成したデータや独立に検証された真実へのアクセスが制限されている場合に、これらのモデルから一貫して正確なデータを得る必要があります。そのようなテストベッドは、人間の知識の外の問題に対して一般化を可能にするために十分に困難でなければならず、高度に訓練された非専門家によるテストも可能にする必要があります。特に専門知識が必要な分野では、LLMの回答の正確さを評価することはより困難です。人間のフィードバックからの強化学習などの監視技術の主要なコンポーネントは、人間の注釈者がLLMの出力の正確さを評価する際の正確さです。ただし、注釈者が経験不足により正確さを区別しにくい場所では、モデルの回答における妄想や相場の悪化といった問題が悪化します。 これらの問題に対応するために、NYU、Cohere、Anthropicの研究者は、GPQA:卒業レベルのGoogle-Proof Q&Aベンチマークを提案します。GPQAは、生物学、化学、物理学の卒業レベルの多肢選択問題をカバーする評価データセットです。興味深いことに、GPQAは各質問に対して多くの時間を費やし、その質問をドメインの専門家や高度に訓練された非専門家と検証しています。これにより、問題がチャレンジングであることが保証されます。GPQAは、詳細な4つのステップの手順の結果です。質問はまず専門家によって開発され、その後他の人によって検証および修正されます。その後、2つの追加の専門家評価者が修正された質問を客観的に評価します。最終的に、各質問に時間をかけて回答する高資格の非専門家評価者がデータセットの複雑さを確認します。従業員のインセンティブは、すべてのレベルで優れた業績を認識し報酬を与えることを考慮して綿密に作成されています。 448の厳しいインスタンスを持つGPQAは、さえない最も先進的なAIシステムでも直面する課題を証明しています。最高のGPT-4ベースのモデルでも39%の正確性しか持ちませんが、専門家は65%、非専門家は34%に達します。これは、既存のモデルを凌駕する次世代モデルに対するスケーラブルな監視技術の研究にとって、このデータセットの価値を強調しています。重要性にもかかわらず、GPQAには非常に限られたモデルの訓練サイズと専門家選択におけるバイアスの可能性などの欠点があります。将来的には、監視データセットは超人的AI監視の標準として未解決の問題を見つけることを目指すかもしれません。これにより、モデルと人間の専門知識の知識ギャップが縮まります。 GPQAは、要求の高い分野で人工知能評価の最前線を拡大する先駆的な評価データセットとして機能します。その開発アプローチと検証技術は、スケーラブルな監視トライアルの洞察を提供することで、超人的なAIシステムの効率的な監視プロトコルの開発を容易にします。GPQAの開発は、AIシステムの評価を評価し、超人的モデルを人間の知識とより一致させることを目指しています。

アドビの研究者たちは、『DMV3D』という新しい3D生成手法を提案していますこの手法は、トランスフォーマーベースの3D大規模再構築モデルを用いて、マルチビューディフュージョンのノイズを除去します

拡張現実(AR)、仮想現実(VR)、ロボティクス、ゲームにおける3Dアセットの作成には共通の課題が存在します。複雑な3Dアセットの作成プロセスを簡素化する3D拡散モデルの人気が高まっていますが、それには注意が必要です。これらのモデルは、トレーニングのために正確な3Dモデルまたはポイントクラウドへのアクセスが必要であり、実際の画像では課題となる場合があります。さらに、潜在的な3D拡散アプローチは、多様な3Dデータセット上で複雑でノイズの多い潜在空間を生み出すことが多く、高品質なレンダリングが困難な課題となっています。 既存の解決策では、多くの手作業や最適化プロセスが要求されることがよくあります。Adobe ResearchとStanfordの研究者チームは、3D生成プロセスをより迅速で現実的かつジェネリックにする取り組みを行っています。最近の論文では、DMV3Dという新しいアプローチが紹介されており、シングルステージのカテゴリー非依存型拡散モデルです。このモデルは、テキストまたは単一の画像入力条件から3Dニューラルラディアンスフィールド(NeRFs)を生成することができ、3Dオブジェクトを作成するのに必要な時間を大幅に短縮します。 DMV3Dの重要な貢献は、3D生成のためのマルチビュー2D画像拡散モデルを使用した画期的なシングルステージ拡散フレームワークです。彼らはまた、ノイズのないトライプレーンNeRFsをノイズの多いマルチビュー画像から再構築するマルチビューデノイザであるLarge Reconstruction Model(LRM)を導入しました。このモデルは、高品質なテキストから3D生成と単一画像再構築をするための一般的な確率的アプローチを提供し、シングルのA100 GPUでわずか30秒程度の直接モデル推論を実現します。 DMV3Dは、3D NeRFの再構築とレンダリングをデノイザに統合し、直接3D監視をせずに学習された2Dマルチビュー画像拡散モデルを作成します。これにより、潜在空間の拡散およびパーツごとの最適化プロセスに別個の3D NeRFエンコーダを個別にトレーニングする必要がなくなります。研究者たちは、オブジェクトを囲む4つのマルチビュー画像の疎なセットを戦略的に使用し、自己遮蔽の重要性を排除しながら3Dオブジェクトを効果的に表現しています。 大規模なトランスフォーマーモデルを活用することで、研究者たちは疎なビューの3D再構築という困難な課題に取り組んでいます。最新の3D Large Reconstruction Model(LRM)を基に構築されたこのモデルは、拡散プロセスのさまざまなノイズレベルに対応できる革新的なジョイント再構築およびデノイズモデルを導入しています。このモデルは、マルチビュー画像拡散フレームワーク内のマルチビュー画像デノイザとして統合されます。 合成レンダリングと実際のキャプチャを含む大規模なデータセットでトレーニングされたDMV3Dは、シングルのA100 GPUで約30秒でシングルステージ3Dを生成する能力を示しています。また、単一画像による3D再構築でも最先端の結果を達成しています。この研究は、2Dと3Dの生成モデルの領域を結びつけ、3D再構築と生成を統一することで、3Dビジョンとグラフィックスのさまざまな課題に取り組むための基盤モデルの開発の可能性を提供します。

「Vchitectを紹介します:テキストからビデオ(T2V)およびイメージからビデオ(I2V)アプリケーションに適したオープンソースの大規模一般istビデオ作成システム」

“`html 人工知能(AI)の人気が爆発的に高まったことにより、深層生成モデルの大幅な進展が生まれました。これらのモデルは、映像生成の分野に適用され、画像の作成と写真の合成を行うために利用されています。有名な例としては、GANやVAEなどの自己回帰モデルがあり、AIコミュニティの間で同様の手法を使用してビデオを作成することに興味が湧いています。 ビデオの生成には、深層生成モデルを利用する上で課題があります。その規模の小ささから、顔や体の生成など、特定の領域に限定されてしまうことがあります。しかし、大規模な拡散モデルや処理能力の向上により、より幅広いコンテキストでビデオを作成するためのオプションが増えました。その進展にも関わらず、映画の視覚的な品質や時系列の連続性などの問題を解決するためには、さらなる努力が必要です、特に長いビデオにおいては。 これらの課題を解決するために、研究チームはVchitectという大規模な汎用ビデオ作成システムを開発しました。このシステムは、テキストからビデオ(T2V)および画像からビデオ(I2V)のアプリケーションを目的としています。Vchitectは、異なる長さの映画を生成し、映画的な視覚的美を実現することで、スムーズなカメラ移動と物語の連続性を促進します。 Vchitectは、数秒から数分までの任意の長さの高精細なビデオを作成することができます。シーン間のスムーズな遷移を保証し、一貫したストーリーテリングをサポートします。このシステムは、ビデオ制作の異なる側面に対応するために複数のモデルを統合しています。以下にそれらを紹介します。 LaVie, テキストからビデオモデル(T2V):Vchitectの基盤となるパラダイムであり、書かれた説明を短い優れた映画に変換します。 SEINE, 画像からビデオ生成モデル(I2V):この機能により、静止画からダイナミックなコンテンツを生成できるため、システムの適応性が向上します。 短いから長い(S2L)モデル:短い映画の間のシームレスな接続と遷移を作成します。これにより、より長いビデオの全体的な連続性と流れが向上し、魅力的な視聴体験が実現します。 主題一貫性モデル:このモデルは、同じ主題のビデオを生成することができます。別々のフッテージ間の一貫性を保つことは重要であり、同じ人物やオブジェクトが複数の映画の断片に出演する場合に特に適しています。 時間補間モデル:生成された映像の動きのスムーズさを向上させ、時系列の特性を高めることで、ビデオコンテンツの全体的な流れを向上させます。 ビデオ超解像モデル:このモデルは、生成された映像の解像度を向上させ、空間的な視覚品質の改善にも対応します。これは、視覚要素の明瞭さと優れた品質を保証するために重要です。 研究チームはまた、Vimeo25Mという包括的で多様なビデオデータセットも作成しました。このコレクションには、ビジュアルの魅力、多様性、品質を重視して、2500万のテキスト-ビデオのペアが含まれています。研究チームは、モデルが十分に訓練され、さまざまなイベントやコンテンツのタイプを扱えるようにするために、広範で多様なデータセットを含める必要があると共有しています。 また、Vchitectシステムの基盤となるT2Vモデルが優れていることを示す包括的な分析も実施されました。ビジュアルの品質、連続性、および与えられた口頭の説明と対応する映画を生成する能力など、さまざまな側面がこの評価に含まれています。 “`

DatategyとMath&AI Instituteの研究者、大規模言語モデルのマルチモダリティの未来に関する展望を提供

フランスのDatategy SASとトルコのMath&AI研究所の研究者は、最近注目されているマルチモーダルアーキテクチャに対する1つの可能な方向性を提案しています。彼らの研究の中心的なアイデアは、よく研究された固有表現認識(NER)の定式化が、マルチモーダルな大規模言語モデル(LLM)の枠組みに組み込まれる可能性があるということです。 最近、LLaVA、Kosmos、またはAnyMALなどのマルチモーダルアーキテクチャが注目を集め、実践でその能力を示してきました。これらのモデルは、テキスト以外のモダリティ(画像など)からデータをトークナイズし、外部のモダリティ固有のエンコーダを使用してそれらを共通の言語空間に埋め込むことができます。これにより、アーキテクチャはテキストと交互に混在したマルチモーダルデータを調整する手段を提供できます。 この論文の著者は、この一般的なアーキテクチャの選好が将来的にはさらに野心的な設定に拡張される可能性があると提案しています。彼らはこれを「オムニモーダル時代」と呼んでいます。NERの概念に何らかの形で関連する「エンティティ」は、このようなアーキテクチャのモダリティとして想像することができます。 たとえば、現在のLLMは完全な代数的推論を導き出すことが難しいとされています。特定の数学に優しいモデルや外部ツールの使用に関する研究が進められているとはいえ、この問題への一つの展望は、量的な値をこのフレームワークのモダリティとして定義することかもしれません。また、暗黙的および明示的な日付と時間のエンティティは、特定の時間認知モダリティエンコーダによって処理できます。 LLMは地理空間の理解にも非常に苦労しており、「地理的に意識した」とは言えません。また、数値的なグローバル座標を適切に処理する必要があり、近接性と隣接性の概念は言語の埋め込み空間に正確に反映されるべきです。そのため、場所を特別な地理空間のモダリティとして組み込むことで、特別に設計されたエンコーダと共同トレーニングによってこの問題を解決することもできます。これらの例に加えて、最初に取り組むべき可能なエンティティは人、機関などです。 著者たちは、この種のアプローチはパラメータ/非パラメトリックな知識のスケーリングとコンテキストの長さ制限の解決策を提供すると主張しています。複雑さと情報は数多くのモダリティエンコーダに分散されることができます。これにより、モダリティを介して更新された情報を注入する問題も解決するかもしれません。研究者たちは、このような潜在的なフレームワークの枠組みを提供し、エンティティ駆動の言語モデルの開発の約束と課題について議論しています。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us