Learn more about Search Results アブロ

「ヴォン・グームと出会う 大規模な言語モデルにおけるデータ毒化に対する革新的なAIアプローチ」

データの毒化攻撃は、訓練データセットに誤ったデータを注入することで機械学習モデルを操作します。モデルが実世界のデータに触れると、不正確な予測や意思決定につながる可能性があります。データの毒化攻撃はLLMに対して脆弱になり得るため、対象のプロンプトや関連概念に対する応答を歪めることがあります。この問題に対処するために、Del Complexが行った研究は、VonGoomという新しい手法を提案しています。この手法は、目的を達成するために数百から数千の戦略的な毒入力のみを必要とします。 VonGoomは、数百から数千の戦略的に配置された入力のみで実現可能であることを示し、数百万の毒サンプルが必要であるという考えに挑戦します。VonGoomは、訓練中にLLMを誤導するために微妙な操作を施した見かけ上無害なテキスト入力を作り出し、さまざまな歪みを導入します。それは、LLMトレーニングで使用される数億のデータソースを毒化しています。 この研究では、LLMがデータの毒化攻撃に対してどのように脆弱であるかを探求し、LLMに対するプロンプト固有の毒化攻撃の新しい手法であるVonGoomを紹介しています。一般的な全範囲のエピソードとは異なり、VonGoomは特定のプロンプトやトピックに焦点を当てています。訓練中にLLMを誤導するために微妙な操作を施した見かけ上無害なテキスト入力を作り出し、微妙なバイアスから明白なバイアス、誤情報、概念の破壊まで、さまざまな歪みを導入します。 VonGoomはLLMに対するプロンプト固有のデータの毒化の手法です。訓練中にモデルを誤導し、学習した重みを乱すために微妙な操作を施した見かけ上無害なテキスト入力を作り出します。VonGoomは微妙なバイアス、明白なバイアス、誤情報、概念の破壊など、さまざまな歪みを導入します。この手法は、クリーンネイバーの毒データとガイド付きの摂動といった最適化技術を使用し、さまざまなシナリオで有効性を示しています。 約500〜1000の少数の毒入力を注入すると、ゼロから訓練されたモデルの出力が大幅に変わることが示されました。事前学習済みモデルの更新を含むシナリオでは、750〜1000の毒入力を導入することでモデルの対象概念への応答が効果的に妨害されました。 VonGoom攻撃は、意味的に変化させられたテキストサンプルがLLMの出力に影響を与えることを示しました。その影響は関連するアイデアにまで及び、毒性サンプルの影響が意味的に関連する概念に伝わる「ブリードスルー効果」が生まれました。比較的少数の毒入力での戦略的な実装により、LLMが洗練されたデータの毒化攻撃に対して脆弱であることが明らかにされました。 まとめると、行われた研究は以下の点で要約されます: VonGoomは、LLMを訓練中に誤導するためのデータ操作手法です。 この手法は、モデルを誤導する微妙な変更をテキスト入力に加えることで実現されます。 小規模な入力でのターゲット攻撃は、目標を達成するために実現可能で効果的です。 VonGoomは、バイアス、誤情報、概念の破壊など、さまざまな歪みを導入します。 この研究では、一般的なLLMデータセット内の特定の概念の訓練データの密度を分析し、操作の機会を特定しています。 この研究は、LLMがデータの毒化攻撃に対して脆弱であることを強調しています。 VonGoomは、様々なモデルに大きな影響を与え、この分野に広範な影響を与える可能性があります。

スタンフォードの研究者たちはPLATOを発表しました:知識グラフに拡張された正則化を用いた高次元、低サンプルの機械学習の過適合に取り組むための斬新なAIアプローチ

ナレッジグラフ(KG)は、ノードとエッジとして情報を格納するグラフベースのデータベースです。一方、マルチレイヤーパーセプトロン(MLP)は、機械学習で使用されるニューラルネットワークの一種です。MLPは、複数の層に配置された相互接続されたノードで構成されています。各ノードは前の層からの入力を受け取り、次の層に出力を送信します。 スタンフォード大学の研究者たちは、KGを活用して補助的なドメイン情報を提供するための新しい機械学習モデルであるPLATOを紹介しました。 PLATOは、KG内の類似したノードがMLPの最初の層の重みベクトルを持つことを保証する帰納的なバイアスを導入することで、MLPを正則化します。この方法は、多くの次元を持つ表形式のデータセットを含むタブラーデータがサンプルよりも多い場合に機械学習モデルが助けが必要な課題に対処します。 PLATOは、特徴の数よりもデータサンプルの数が遥かに多い表形式のデータセットの未開拓シナリオに対処し、NODEやタブラートランスフォーマーなどの他の深層タブラーモデル、およびPCAやLASSOなどの従来のアプローチと異なり、正則化のためのKGを導入します。グラフ正則化方法とは異なり、PLATOはKG内の特徴ノードと非特徴ノードを組み合わせています。これにより、KGを事前情報として異なる表形式のデータセットでの予測に対してMLPモデルの重みを推定します。 機械学習モデルはデータ豊富な環境で優れたパフォーマンスを発揮することが多い一方で、特徴の数がサンプルの数を大幅に上回る表形式のデータセットでは支援が必要です。この差異は特に科学データセットにおいて顕著であり、モデルのパフォーマンスが制限されます。既存の表形式の深層学習手法は主に例が特徴よりも多いシナリオに焦点を当てており、特徴がサンプルよりも多いローデータ領域では従来の統計手法が主流です。これを解決するために、MLPを正則化するための補助KGを活用するPLATOは、高次元の特徴と限られたモデルを持つデータセットにおけるディープラーニングを可能にし、優れたパフォーマンスを発揮します。 補助KGを活用することで、PLATOは各入力特徴をKGノードと関連付け、ノードの類似性に基づいてMLPの最初の層の重みベクトルを推定します。この手法は、メッセージパッシングの複数のラウンドを用いて特徴の埋め込みを洗練します。PLATOはKG内の浅いノード埋め込み手法(TransE、DistMult、ComplEx)において一貫したパフォーマンスを示す消失実験を行います。この革新的な手法は、データに乏しい表形式の設定におけるディープラーニングモデルの改善の可能性を提供します。 高次元の特徴と限られたサンプルを持つ表形式のデータに対するPLATOは、6つのデータセット全体で13の最先端ベースラインを最大10.19%上回ります。パフォーマンスの評価は、モデルごとに500の設定でランダムサーチを行い、予測値と実際の値のピアソン相関の平均と標準偏差を報告して行われます。結果は、PLATOの効果を裏付け、データに乏しい状況での堅牢なパフォーマンスを達成するための補助KGの活用を示しています。多様なベースラインに対する比較分析は、PLATOの優位性を明確にし、表形式のデータセットの予測の向上における有効性を立証しています。 まとめると、以下のポイントで研究内容を要約することができます: PLATOは表形式のデータのためのディープラーニングフレームワークです。 各入力特徴は補助KG内のノードに似ています。 PLATOはMLPを制御し、高次元の特徴と限られたサンプルを持つ表形式のデータで堅牢なパフォーマンスを達成します。 このフレームワークは、KGノードの類似性に基づいて重みベクトルを推定し、類似の入力特徴は類似の重みベクトルを共有するという帰納的なバイアスを捉えます。 PLATOは6つのデータセットで13のベースラインを最大10.19%上回ります。 補助KGの使用は、データが乏しい状況でのパフォーマンス向上を示します。

このAI論文は、「Vary」という新しいアプローチを明らかにしています:高度な多言語認識タスクのための大規模なビジョン言語モデルの視覚語彙を拡張するためのアプローチ

大視覚言語モデル(LVLM)は、コンピュータビジョンと自然言語処理を組み合わせて、視覚的なコンテンツのテキストの説明を生成することができます。これらのモデルは、画像のキャプション付け、可視化された質問応答、および画像の検索など、さまざまなアプリケーションで驚異的な進展を遂げています。しかし、その優れたパフォーマンスにもかかわらず、LVLMはまだいくつかの課題に直面しています。特に、密で詳細な知覚を必要とする特殊なタスクにおいて、ビジョンの語彙が制約されているという問題です。 中国科学技術大学、MEGVIIテクノロジー、および中国科学院の研究者たちは、固有の認識力を必要とする特殊なタスクのためにLVLMを強化するVaryという方法を導入しました。Varyは、効率的に新しい特徴を獲得し、詳細な知覚を改善するためのLVLMを活性化します。実験結果は、Varyの効果を示しています。研究者たちは、さらなる探求のためのプラットフォームとしてVaryを提案しています。研究では、GPT-4をトレーニングデータ生成に使用し、Varyの応用範囲をさまざまな視覚タスクに適用することを強調しています。これにより、LVLMの能力が拡張される一方で、元の能力も維持されます。 この研究は、CLIP-VITなどの一般的なビジョン語彙の制約に取り組んでおり、LVLMにおいてビジョン語彙をスケールアップする必要性を提起しています。これにより、外国語のLVLMのテキスト語彙を拡張することに着想を得たVaryという方法を導入しました。Varyは、語彙ネットワークを使用して新しいビジョン語彙を生成し、元の語彙と統合します。これにより、非英語のOCRやチャート理解などの様々なタスクにおけるエンコーディング効率とモデルパフォーマンスが向上します。この研究は、Varyの設計が今後の研究を刺激すると予想しています。 この研究では、Varyの2つの構成「Vary-tiny」と「Vary-base」を紹介しています。細かい知覚に焦点を当てたVary-tinyは、テキスト入力ブランチを持たず、小さなOPT-125Mモデルを使用します。ドキュメントとチャートのデータを正例、自然画像を負例としてトレーニングされます。Vary-tinyの語彙ネットワークは新しいビジョン語彙を生成し、Vary-baseでは元の語彙と統合されます。Vary-baseのトレーニングでは、両方の語彙ネットワークが使用され、重みが固定されますが、LVLMのパラメータと入力埋め込み層が最適化されます。具体的な実装の詳細には、AdamW最適化、余弦退火スケジューラ、特定の学習率が含まれます。ドキュメントとチャートの理解のための合成データが作成されます。 Varyは、複数のタスクで有望なパフォーマンスを発揮し、ドキュメントレベルのOCR、チャート理解、およびMMVetタスクで優れた結果を達成しています。具体的には、DocVQAでは78.2%、MMVetでは36.2%のANLSを達成し、新しいドキュメントの解析機能における能力を示しています。また、Vary-tinyとVary-baseは、ドキュメントOCRタスクで強力な結果を示しており、Vary-baseは他のLVLMを凌駕しています。この研究はVaryの成功を認めつつ、視覚語彙をスケールアップする効果的な改善の必要性を強調しています。 まとめると、この研究の主なポイントは次のように要約されます: 提案: LVLMにおける視覚語彙のスケールアップのための効率的な方法。 手法: 提案された方法は、オリジナルの言語と統合されたネットワークを介して生成された新しいビジョン語彙を導入します。 能力: この方法は、特にドキュメントレベルのOCRやチャート理解のタスクにおいて、詳細な知覚を向上させます。LVLMの元々の機能は維持しながら、素早く新しい特徴を獲得します。 パフォーマンス: さまざまなタスクで有望なスコアが示されており、この方法はドキュメント解析機能で他のLVLMを凌駕しています。

グーグルの研究者たちは、差分プライバシーを持つ機械学習システムの監査において、新たなシングルランアプローチを発表しました

差分プライバシー(DP)は、モデルの訓練に使用される個人データのプライバシーを保護するための機械学習のよく知られた技術です。これは、モデルの出力が入力データの個人の存在または不在に影響されないことを保証する数学的な枠組みです。最近、このようなモデルのプライバシー保証を柔軟かつ効率的な方法で評価するための新しい監査手法が開発されました。この手法は、基礎となるアルゴリズムに対して最小限の仮定を置いた多目的かつ効率的な評価を可能にします。 グーグルの研究者たちは、個別のトレーニングランに焦点を当てた差分プライバシーを持つ機械学習システムの監査手法を紹介しました。この研究では、差分プライバシーと統計的一般化の関係に重点が置かれており、提案された監査手法の重要な側面となっています。 DPは個別のデータが結果に重大な影響を与えないことを保証し、計算可能なプライバシー保証を提供します。プライバシーの監査は、DPのアルゴリズムにおける分析や実装のエラーを評価します。従来の監査は計算コストが高く、複数の実行を必要とすることがしばしばあります。この手法は、トレーニング例の追加または削除を並列に行うことで計算コストを最小限に抑え、アルゴリズムに最小限の仮定を課すことができ、ブラックボックスおよびホワイトボックスのシナリオに適応することができます。 https://arxiv.org/abs/2305.08846 この研究で示される手法は、アルゴリズムを最小限の仮定で追加または除外の例を独立して含め、意思決定のためのスコアを計算することで、統計的一般化と差分プライバシーの関係を分析しています。このアプローチは、ブラックボックスおよびホワイトボックスのシナリオに適用可能です。アルゴリズム3であるDP-SGDオーディターは、具体的な具現化です。それは、異なるパラメータの評価や分布内の例の考慮を含む、さまざまな差分プライバシーアルゴリズムに対して彼らの監査手法の一般化可能性を強調しています。 この監査手法は、数学的な分析やエラー検出の評価を支援する計算可能なプライバシー保証を提供します。提案された監査手法は、さまざまな差分プライバシーアルゴリズムに適用可能であり、分布内の例やパラメータの評価などの考慮事項があります。これにより、計算コストを削減しながら効果的なプライバシー保証が実現されます。 提案された監査手法により、単一のトレーニングランで差分プライバシーを持つ機械学習技術を評価し、個別にトレーニング例を追加または削除することで並列処理を活用することができます。この手法は、従来の監査に比べて計算コストを削減しながら効果的なプライバシー保証を提供します。さまざまな差分プライバシーアルゴリズムに適用可能な監査手法の汎用性が強調されています。分布内の例やパラメータの評価など、実践的な考慮事項にも対応しており、プライバシー監査に貢献しています。 まとめると、この研究の主なポイントは次の通りです: 提案された監査手法により、単一のトレーニングランで差分プライバシーを持つ機械学習技術を評価することが可能であり、トレーニング例の追加または削除を並列に行います。 この手法は、アルゴリズムに関して最小限の仮定を必要とし、ブラックボックスおよびホワイトボックスの設定の両方に適用することができます。 この手法は、計算可能なプライバシー保証を提供し、アルゴリズムの実装のエラーを検出したり数学的な分析の正確さを評価したりすることができます。 この手法はさまざまな差分プライバシーアルゴリズムに適用可能であり、従来の監査に比べて計算コストを削減しながら効果的なプライバシー保証を提供します。

「量子コンピューティングのアプローチ、単一の分子をキュビットとして初めて使用」

2つの研究チームは、量子コンピュータがアルゴリズムを実行するために必要な絡み合いを起こすために、カルシウム一フッ化物分子のペアを相互作用させました

テンセントの研究者が「FaceStudio」を発表:アイデンティティ保持を重視したテキストから画像生成の革新的な人工知能アプローチ

テキストから画像への拡散モデルは、人工知能の研究分野で興味深い領域です。これらのモデルは、拡散モデルを利用して、テキストの説明に基づいた生き生きとした画像を作成することを目指しています。このプロセスでは、基本的な分布からサンプルを反復的に生成し、テキストの説明を考慮しながら目標の画像に似せるように徐々に変形させることが含まれています。複数のステップが関与し、生成された画像に進行性のノイズが加わります。 現在のテキストから画像への拡散モデルは、既存の課題に直面しています:テキストの説明だけから主題を正確に描写することです。この制約は、特に人間の顔の特徴などの複雑な詳細を生成する必要がある場合に顕著に現れます。その結果、テキストの手がかりを超えたアイデンティティを保持するイメージ合成を探求する関心が高まっています。 テンセントの研究者は、人間のイメージのためのアイデンティティを保持するイメージ合成に焦点を当てた新しいアプローチを紹介しました。彼らのモデルは、素早く効率的な画像生成のために複雑な微調整手続きを回避する直接のフィードフォワードアプローチを採用しています。テキストのプロンプトを利用し、スタイルとアイデンティティの画像から追加の情報を取り入れます。 彼らの手法は、マルチアイデンティティのクロスアテンションメカニズムを含み、モデルが画像内の異なるヒト領域に各アイデンティティからの具体的なガイダンス詳細を関連付けることを可能にします。彼らのモデルを人間のイメージを含むデータセットで訓練し、アイデンティティの入力として顔の特徴を使用することで、モデルはアイデンティティの特徴を強調しながらヒトのイメージを再構築することを学びます。 彼らのモデルは、主題のアイデンティティを忠実に保持しながらヒトのイメージを合成する一見すると素晴らしい能力を示します。さらに、ユーザーの顔の特徴をカートゥーンなどのさまざまなスタイルのイメージに重ねることを可能にし、アイデンティティを損なうことなくさまざまなスタイルで自分自身を視覚化することができます。さらに、対応する参照写真が提供された場合には、複数のアイデンティティを組み合わせたアイデアを生成することにも優れています。 彼らのモデルは、シングルショットとマルチショットの両方のシナリオで優れたパフォーマンスを発揮し、アイデンティティを保持するための設計の効果を強調しています。基本的なイメージ再構築はおおよそイメージの内容を保持しますが、微細なアイデンティティ情報には苦労します。一方、彼らのモデルはアイデンティティガイダンス枝からアイデンティティ情報を成功裏に抽出し、顔の領域に対してより優れた結果をもたらします。 ただし、このモデルの人間の顔を複製する能力は、特に冒涜的なまたは文化的に不適切なイメージを作成する可能性について倫理的な懸念を引き起こします。この技術の責任ある使用は重要であり、敏感な状況での不正な使用を防ぐためにガイドラインの策定が必要です。

このGoogleとUC BerkeleyのAI論文は、NeRFillerを紹介します:2Dインペインティング拡散モデルを使用して3Dシーン再構築を革新する人工知能アプローチ

3Dキャプチャの欠けた部分を効果的に補完する方法はありますか?Google ResearchとUC Berkeleyの研究論文では、「NeRFiller」という新しい3Dインペインティング手法を紹介しています。この手法は、再構築の失敗や観測の不足によってしばしば欠落する、不完全な3Dシーンやオブジェクトの再構築の課題に対処しています。この手法は、参照例を通じてインペインティングプロセスを制御することで、精密かつカスタマイズ可能なシーンの補完を可能にします。NeRFillerは、3Dキャプチャ内のシーンやオブジェクトを強化する3D生成インペインティング手法であり、3D再構築の改善に効果的な解決策となります。 この研究では、伝統的な2Dインペインティングから大規模インペインティングのLaMaのような先進的な技術まで、さまざまな手法を用いて3Dシーンの欠落した部分を補完する方法を探求しています。確率的および潜在的な拡散モデルに取り組み、テキストや画像を入力とする3D生成アプローチを考慮しています。オブジェクトの削除設定の関連性が強調され、3Dインペインティングのためのさまざまなベースラインとデータセットが評価されています。ビデオやシーン編集の関連研究に触れながらも、主に既存の3Dシーンのコンテキスト内でのシーン補完に焦点を当てています。 この研究では、3Dシーンの補完とインペインティングの課題に取り組み、3Dに対応したマルチビュー一致アプローチの重要性を強調しています。シーン補完とオブジェクトの削除を区別し、3Dシーン内で新しいコンテンツを生成することに焦点を当てています。3D一貫性のあるイメージのための2D生成インペインティングモデルの制約について議論されています。提案されたNeRFillerアプローチは、テキストから画像への拡散モデルのグリッド事前現象を活用し、インペインティングでのマルチビュー一貫性を強化します。3Dシーンの最適化のための反復的な手法を利用し、グリッドインペインティングを大規模な画像コレクションに拡張しています。Masked NeRFやLaMaskなどのベースラインとの比較を行い、NeRFillerの効果を示しています。比較や新規ビューメトリクス、イメージ品質、ジオメトリメトリクスを含む評価も行われています。 NeRFillerは、3Dシーンの欠落した領域を補完するための生成的な2D拡散モデルを利用した手法です。さまざまなインペインティングの推定値の課題と、2Dモデルの3D一貫性の欠如に取り組んでいます。NeRFillerは、顕著なインペインティング結果のための統合機構を取り入れ、3Dキャラクターを促進します。反復的な3Dシーンの最適化を活用し、グリッドインペインティングを大規模な画像コレクションに拡張します。Masked NeRFやLaMaskといったベースラインとの比較を行い、NeRFillerの効果を示しています。比較や新規ビューメトリクス、イメージ品質、ジオメトリメトリクスを含む評価も行われています。 結論として、NeRFillerは3Dシーン内の欠落した部分を正確に補完することができる強力な3Dインペインティングツールです。ギャップを埋めたり、不要な要素を削除する能力は、オブジェクト削除のベースラインを上回ります。Joint Multi-View Inpaintingの導入により、複数の画像間でノイズの予測を平均化することで一貫性を強化しています。NeRFillerは、最新のベースラインと比較することで、ユーザー指定の3Dシーンの補完を達成しています。ユーザーが指定した仕様で3Dキャプチャの欠落部分をインペインティングするための貴重なフレームワークを提供しています。

「このAI研究は、姿勢オブジェクト認識を次のトークン予測として新しいアプローチを提案します」という意味です

どのようにして効果的に物体認識にアプローチできるのでしょうか? Meta AIとメリーランド大学の研究チームは、画像埋め込みからテキストトークンを予測してラベルを形成するために言語デコーダを利用する新しい手法を開発し、物体認識の問題に取り組みました。また、パフォーマンスを損なうことなく、より効率的なデコーダの作成戦略も提案しました。 深層学習時代以前から存在した物体認識は、画像注釈に貢献してきました。領域のスライシングや単語の予測などの手法を用いて、領域と単語を語彙に基づいて結びつけました。画像とテキストを共有空間に共同埋め込みすることで、画像とテキストのマッチングに取り組み、フレーズのグラウンディングを強調しました。画像注釈はトピックモデルからトランスフォーマベースのアーキテクチャへ進化しました。GPTやLLaMAなどの言語モデルは視覚認識に貢献し、検出、フューショット認識、説明、推論などに応用されました。言語モデルからの建築的な概念、例えばプレフィックスのアイデアなどは、ビジョン-言語ドメインで影響を与え、探索されてきました。 この研究は、画像エンコーダが埋め込みを生成し、言語デコーダが物体のラベルを予測するフレームワークを導入することによって、コンピュータビジョンにおける物体認識に取り組んでいます。従来の固定埋め込みを持つ従来の手法とは異なり、提案手法では認識を次のトークンの予測として扱い、画像の埋め込みからタグの自己回帰的なデコーディングを可能にします。この手法により、事前に定義されたラベルの必要性がなくなり、柔軟で効率的な認識が促進されます。非因果的な注意マスクやコンパクトなデコーダなどの主要な革新は、パフォーマンスを損なうことなく効率を向上させ、コンピュータビジョンにおける物体認識への新しい解決策を提供します。 研究では、次のトークン予測に基づく物体認識に関する手法を提案し、画像埋め込みからテキストトークンを予測してラベルを作成する言語デコーダを使用します。デコーダは非因果的な注意マスクを組み込んで自己回帰を行い、画像トークンをプレフィックスとして扱います。推論時には、複数のラベルから並列トークンサンプリングを行い、確率に基づいてランキングします。効率性のために、事前学習された言語モデルから中間ブロックを削除するコンパクトなデコーダ構築戦略が提案されていますが、パフォーマンスは保持されます。 研究はCLIP、Open Flamingo、LLaVA、BLIP-2、InstructBLIP、CaSEDと比較し、トップ-kの予測と適合率-再現率曲線を評価しています。提案手法はトップ10の予測で競合他社を一貫して上回り、ラベル生成の優れた関連性を示しています。適合率-再現率曲線は強い線形相関を示し、kが増加するにつれて高い再現率が得られ、データセット全体で予測品質が向上していることを示唆しています。デコーダの切り詰めによる摘出解析に関する研究では、CC3Mではわずかなパフォーマンスの低下が見られましたが、COCOとOpenImagesでは変化がありませんでした。これは、物体認識のための初期のLLaMA 7Bモデルブロックの重要性を強調し、よりコンパクトなデコーダのために11番目以降のブロックを削除することを示しています。 結論として、提案された次のトークン予測を活用した自己回帰的な物体認識手法は、データセット全体でトップ10の予測を生成する他の手法よりも優れた関連性を示しています。適合率-再現率曲線で観察される強い線形相関は、すべてのテストデータセットで予測品質が向上していることを示唆しています。デコーダの切り詰めに関する摘出解析の研究では、CC3Mではわずかなパフォーマンスの低下が見られましたが、COCOとOpenImagesでは変化がありませんでした。また、LLaMAモデルの中間トランスフォーマーブロックを削除することで、よりコンパクトなデコーダが得られ、パフォーマンスも保持されました。これは、物体認識においてLLMの一部の知識の重要性を強調しています。 さらなる研究では、一回のサンプリングでの競合の懸念に対処するため、緩和策を探索することに焦点を当てることができます。他の可能性としては、事前に定義されたサブセットや参照ピボットなしで、特にLLMと物体認識を直接的に結びつける生成モデルの直接のアライメントを調査することがあります。また、訓練データのボリュームを大幅に増やして、未知のデータや概念を解釈または認識するための依存度を減らす効果を検証することも有益であり、時間の経過とともに新しいラベルを増やしていくオープンワールドのパラダイムと一致しています。

「 Omnivore に会いましょう:SiBORG Lab は OpenUSD と NVIDIA Omniverse を使ってアクセシビリティのアプローチを高める」

アクセシビリティは、すべてのデザイナーがスペースや製品を構築する前に考慮しなければならない重要な要素ですが、評価プロセスは従来、手間と時間がかかるものでした。 ニュージャージー工科大学の建築とデザインの助教授であるマシュー・シュワルツは、NVIDIA OmniverseプラットフォームとUniversal Scene Descriptionフレームワーク(別名OpenUSD)を使用して、建築家、インテリアデザイナー、産業デザイナーがこの課題に取り組むのを支援しています。 シュワルツの研究および設計ラボSiBORG(シミュレーション、バイオメカニクス、ロボット工学、グラフィックス)は、特にアクセシビリティ、人間要因、自動化に関連するデザインのワークフローを理解し、改善することに焦点を当てています。シュワルツと彼のチームは、研究プロジェクトのためのアルゴリズムを開発し、それらを利用可能な製品に転換します。 Omniverseを使用することで、チームはシュワルツのコードを使用してグラフやそれが生成するパスを視覚化することができます。これは、デザイナーが建築基準と居住者の安全性をより良く評価するのに役立ち、重要なアクセシビリティの洞察を提供します。 https://blogs.nvidia.com/wp-content/uploads/2023/12/Pathloop.mp4 OpenUSDの力 従来、建築設計プロセス中のアクセシビリティや環境条件に関するフィードバックは、建築基準分析に限定されていました。シュワルツの研究により、OmniverseとOpenUSDをシームレスに統合することで、デザイナーはこの壁を乗り越えることができるようになりました。 以前は、彼はシミュレーションとモデリングのプロジェクトのさまざまな側面を達成するために複数のアプリケーションの切り替えが必要でした。彼のワークフローは、人々をサポートするUnityや3Dモデリング機能を提供するMcNeel Rhino3Dなどのツールの間で分割されることが多かったのです。 OpenUSDを使用することで、彼は研究、Pythonコード、3D環境とレンダリング、お気に入りのツールをOmniverseに統合することができます。 彼は言いました。「Omniverseに魅了されたのは、Pythonアプリケーションプログラミングインタフェースを強力な物理、レンダリング、アニメーションソフトウェアと組み合わせることができる点でした。チームは、柔軟なPython APIをOmniverseで活用して、ほぼすべてのユーザーインターフェースを開発しました。」 シュワルツのチームは、OpenUSDに互換性のあるプログラムと相互作用できる汎用的なデータ分析ツールをOmniverseを使用して活用しています。 彼は言いました。「OpenUSDとOmniverseを使用すると、研究の範囲を広げることができました。データ分析と可視化を設計プロセスと簡単に組み合わせることができます。」 リアルなレンダリングとシミュレーションの実行 シュワルツはまた、Omniverseを使用して人々の動きや相互作用をシミュレートしています。 彼は、リアルタイムの可視化を可能にする2つのNVIDIA RTX A4500 GPUsを使用して大規模な群衆のシミュレーションとアニメーションを高速化しています。これにより、デザイナーは移動能力の制限がある人々がどのように空間を移動し、相互作用するかに関する貴重な洞察を得ることができます。 シュワルツは言いました。「看板を最も目立つ位置に配置するための最適な場所を示すこともできます。シミュレーションの結果は、早期の設計段階で取られるパスを可視化するために使用できます。これにより、建築基準に問題が生じることを防ぎながら、最小の要件を超えるデザインを作成できます。」…

「GPS ガウシアンと出会う:リアルタイムにキャラクターの新しい視点を合成するための新たな人工知能アプローチ」

マルチビューカメラシステムの重要な機能の1つは、ソースの写真を使用して新しい視点から写真のような画像を生成する新規ビュー合成(NVS)です。人間のNVSのサブフィールドは、ホログラフィックコミュニケーション、ステージパフォーマンス、スポーツ放送のための3D / 4D没入型シーンキャプチャなどの領域で、リアルタイムの効率と一貫した3D外観に大きく貢献する可能性があります。従来の方法では、新しいビューを作成するために加重ブレンディングプロセスが使用されてきましたが、これらの方法は通常、非常に密な入力ビューまたは非常に正確なプロキシジオメトリのいずれかに依存していました。スパースビューカメラ設定下でNVSのために高品質な画像をレンダリングすることは依然として大きな課題です。 最近、ニューラルラディアンスフィールド(NeRF)などの暗黙の表現によって、いくつかのNVSタスクで優れたパフォーマンスが示されています。プロセスを高速化するための戦略の進化があったにもかかわらず、暗黙の表現を使用するNVSメソッドは、シーン空間の密なスポットをクエリするのにはまだ時間がかかります。一方、明示的な表現のリアルタイムおよび高速レンダリング能力、特にポイントクラウドは持続的な関心を集めています。ニューラルネットワークと組み合わせると、ポイントベースのグラフィックスは、人間のNVSテストでNeRFよりも現実的で効率的な明示的な表現を提供します。 哈尔滨工业大学と清华大学の新しい研究では、この論文ではパーサブジェクト最適化を使用せずに、前向きにガウスパラメータを回帰するための普遍的な3Dガウススプラットアプローチを目指しています。彼らの目標は、成功した学習ベースの人間再構成アプローチであるPIFuのような大規模な3D人間スキャンモデルを使用して、さまざまな人間のトポロジ、衣類スタイル、姿勢依存変形を作成するためにガウス表現の学習方法を学ぶことです。提案された手法は、これらの獲得した人間のプライオリティを利用して汎用的なガウスモデルによる人間の外観の迅速な描写を可能にします。 研究者たちは、無構造なポイントクラウドの代わりにソースビューの画像平面(位置、色、スケーリング、回転、不透明度)に定義された2Dガウスパラメータマップを提示しています。これらのガウスパラメータマップにより、ピクセルごとのパラメータを使用してキャラクターを描写することができます。また、3D演算子の代わりにコスト効率の良い2D畳み込みネットワークを使用することができます。2つのソースビューの両方に対して2ビューステレオを使用して深度マップを推定することで、2Dパラメータマップを3Dガウスポイントに変換します。これにより、ソースビューの両方からの未投影ガウスポイントによってキャラクターが表現され、スプラットアプローチを使用して新しいビューの画像が生成されます。人間のキャラクターに特有の自己遮蔽は、既存のカスケードコストボリュームアプローチでは深度推定を難しくします。したがって、チームは、このような大規模データ上のガウスパラメータ回帰および反復的なステレオマッチングベースの深度推定モジュールを同時にトレーニングすることを提案しています。ガウスモジュールのレンダリング損失の最小化により、深度推定によって引き起こされる可能性のあるアーティファクトを修正し、3Dガウス位置の精度を向上させます。このような協力的なアプローチのおかげで、トレーニングはより安定します。 実際には、チームは最新のグラフィックスカードを1枚だけ使用して、25 FPS以上のフレームレートで2Kの新しいビューを実現することができました。提案手法の広範な汎用性と高速レンダリング能力により、最適化や微調整なしで見たことのないキャラクターを瞬時にレンダリングすることができます。 彼らの論文で強調されているように、提案されたGPS-Gaussianは高品質の画像を合成しますが、いくつかの要素は手法の効果にまだ影響を与える可能性があります。例として、正確な前景マッティングは重要な前処理ステップです。また、ターゲットエリアが1つのビューでは完全に見えず、他のビューでは見える場合(6つのカメラセットアップなど)、この手法では適切に処理できません。研究者たちは、この困難を時系列データを使用することで解決できると考えています。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us