Learn more about Search Results MarkTechPost - Page 7

トゥギャザーアイは、ShortおよびLongコンテキストの評価で最高のオープンソーストランスフォーマーに対抗する、StripedHyena-7Bという代替人工知能モデルを紹介します

AIと共に、シーケンスモデリングアーキテクチャへの大きな貢献を果たし、StripedHyenaモデルを導入しました。従来のトランスフォーマーに代わる選択肢を提供することで、計算効率とパフォーマンスを向上させることで、このフィールドを革新しました。 このリリースには、ベースモデルのStripedHyena-Hessian-7B(SH 7B)とチャットモデルのStripedHyena-Nous-7B(SH-N 7B)が含まれています。StripedHyenaは、昨年作成されたH3、Hyena、HyenaDNA、およびMonarch Mixerといった効果的なシーケンスモデリングアーキテクチャの学習からの重要な知見に基づいています。 研究者は、このモデルが長いシーケンスをトレーニング、ファインチューニング、および生成する際に、高速かつメモリ効率が向上していることを強調しています。StripedHyenaは、ゲート付き畳み込みとアテンションを組み合わせたハイエナオペレータと呼ばれるものによって、ハイブリッド技術を使用しています。また、このモデルは、強力なトランスフォーマーベースモデルと競合する初めての代替アーキテクチャです。OpenLLMリーダーボードのタスクを含むショートコンテキストのタスクでは、StripedHyenaはLlama-2 7B、Yi 7B、およびRWKV 14Bなどの最強のトランスフォーマーの代替アーキテクチャを上回っています。 このモデルは、ショートコンテキストのタスクと長いプロンプトの処理において、さまざまなベンチマークで評価されました。Project Gutenbergの書籍によるPerplexityスケーリング実験では、Perplexityが32kで飽和するか、このポイントを超えて減少することから、モデルがより長いプロンプトから情報を吸収する能力を示しています。 StripedHyenaは、アテンションとゲート付き畳み込みを組み合わせたユニークなハイブリッド構造によって効率を実現しています。研究者は、このハイブリッドデザインを最適化するために革新的な接ぎ木技術を使用したと述べており、トレーニング中にアーキテクチャの変更を可能にしました。 研究者は、StripedHyenaの重要な利点の1つは、トレーニング、ファインチューニング、および長いシーケンスの生成など、さまざまなタスクにおける高速性とメモリ効率の向上です。最適化されたTransformerベースラインモデルと比較して、StripedHyenaはFlashAttention v2とカスタムカーネルを使用して、32k、64k、および128kの行でエンドツーエンドトレーニングにおいて30%、50%、および100%以上優れています。 将来、研究者はStripedHyenaモデルでいくつかの領域で大きな進歩を遂げたいと考えています。彼らは、長いコンテキストを処理できるより大きなモデルを作成し、情報理解の限界を拡大したいと考えています。さらに、テキストや画像などのさまざまなソースからデータを処理して理解できるようにすることで、モデルの適応性を高めるためのマルチモーダルサポートを取り入れたいとしています。 最後に、StripedHyenaモデルは、ゲート付き畳み込みなどの追加計算を導入することによって、Transformerモデルに対して改善の余地を持っています。このアプローチは、線形アテンションに触発されたものであり、H3やMultiHyenaなどのアーキテクチャにおいて効果が証明されており、トレーニング中のモデルの品質を向上させ、推論効率に利点を提供します。

「このAI研究は、グラフ上の大規模言語モデル(LLM)について包括的な概要を共有します」

よく知られたLarge Language Models(LLMs)であるGPTやBERT、PaLM、LLaMAは、自然言語処理(NLP)と自然言語生成(NLG)においていくつかの大変な進歩をもたらしました。これらのモデルは大規模なテキストコーパスで事前学習され、質問応答やコンテンツ生成、要約など、複数のタスクで驚異的なパフォーマンスを発揮しています。 LLMsは平文のテキストを扱うことができることが証明されていますが、テキストデータがグラフ形式の構造情報とリンクされたアプリケーションを扱う必要性がますます高まっています。研究者たちは、LLMsの良好なテキストベースの推論力を活用して、マッチングサブグラフ、最短パス、接続推論などの基本的なグラフの推論タスクにLLMsをどのように適用できるかを研究しています。LLMsの統合に関連付けられているグラフベースのアプリケーションには、純粋なグラフ、テキスト豊かなグラフ、テキスト対応グラフの3つのタイプがあります。これらの機能とGNNとの相互作用に応じて、LLMsをタスク予測器、GNNの特徴エンコーダー、またはGNNとのアライナーとして扱うテクニックがあります。 LLMsはグラフベースのアプリケーションでますます人気が高まっていますが、LLMsとグラフの相互作用を調査する研究は非常に少ないです。最近の研究では、研究チームが大規模な言語モデルとグラフの統合に関連した状況と方法の体系的な概要を提案しています。目的は、テキスト豊かなグラフ、テキスト対応グラフ、純粋なグラフの3つの主要なカテゴリに可能な状況を整理することです。チームは、アライナー、エンコーダー、または予測器としてLLMsを使用する具体的な方法を共有しています。各戦略には利点と欠点があり、リリースされた研究の目的はこれらのさまざまなアプローチを対比することです。 チームは、LLMsをグラフ関連の活動で使用する利点を示すことで、これらの技術の実用的な応用に重点を置いています。チームは、これらの方法の適用と評価を支援するためのベンチマークデータセットとオープンソーススクリプトに関する情報を共有しています。結果は、この急速に発展している分野でのさらなる研究と創造性の必要性を強調して、可能な将来の研究トピックを概説しています。 チームは、彼らの主な貢献を以下のようにまとめています。 チームは、言語モデルがグラフで使用される状況を体系的に分類することで貢献を果たしました。これらのシナリオは、テキスト豊かな、テキスト対応、純粋なグラフの3つのカテゴリに整理されています。この分類法は、さまざまな設定を理解するための枠組みを提供します。 言語モデルは、グラフのアプローチを用いて詳細に分析されました。評価は、さまざまなグラフ状況の代表的なモデルをまとめたもので、最も徹底的なものとなっています。 言語モデルをグラフに関連する研究に関連して、実世界の応用、オープンソースのコードベース、ベンチマークデータセットなど、多くの資料がキュレーションされています。 言語モデルをグラフでのさらなる研究のための6つの可能な方向が提案されており、基本的なアイデアを掘り下げています。

AI論文は、高度なテクスチャリング、360度モデリング、インタラクティブ編集による3Dコンテンツ作成の進歩であるHyperDreamerを発表します

単一のRGBイメージから詳細でリアルな3Dモデルを生成することは容易ではありません。上海AI研究所、香港中文大学、上海交通大学、S-Lab NTUの研究者は、この課題に対処するためにHyperDreamerを提案しました。このフレームワークは、単一の2Dイメージから直接表示、レンダリング、編集可能な3Dコンテンツの作成を可能にすることで、この問題を解決します。 この研究では、テキストによる3D生成方法の変遷する景色について議論し、Dream Fields、DreamFusion、Magic3D、Fantasia3Dなどの注目すべき作品を引用しています。これらの手法は、CLIP、拡散モデル、空間的に変化するBRDFなどの技術を活用しています。また、テキストからイメージへの拡散モデルを利用した推論ベースと最適化ベースの形式を含む、単一画像再構築手法も強調しています。 この研究は、高度な3Dコンテンツ生成の需要の増大と従来の手法の制約を強調しています。テキストや単一画像条件を組み込んだ最近の2D拡散ベースの手法は、現実感を高めましたが、生成後の利用性やバイアスに課題を抱えています。これらを克服するために、HyperDreamerは単一のRGBイメージから包括的で表示可能、レンダリング可能、編集可能な3Dコンテンツの生成を可能にするフレームワークです。HyperDreamerは、カスタムの超解像モジュール、意味に敏感なアルベド正則化、対話型編集を組み合わせて、現実感、レンダリング品質、生成後の編集機能に関連する問題に対処します。 HyperDreamerフレームワークは、2D拡散、意味のあるセグメンテーション、および材料の推定モデルからのディーププライオールに基づいて、包括的な3Dコンテンツの生成と編集を実現します。高解像度の擬似マルチビューイメージを補助的な監視に使用し、高品質なテクスチャ生成を確保します。材料モデリングには、オンラインの3Dセマンティックセグメンテーションとセマンティックに敏感な正則化が含まれており、材料の推定結果に基づいて初期化されます。HyperDreamerは、対話型セグメンテーションを介した容易なターゲット3Dメッシュの変更のための対話型編集アプローチを導入します。フレームワークにはカスタムの超解像および意味に敏感なアルベドの正則化も組み込まれており、現実感、レンダリング品質、編集機能が向上しています。 HyperDreamerは、単一のRGBイメージからリアルで高品質な3Dコンテンツを生成し、完全な範囲の表示、レンダリング、編集可能性を提供します。比較評価では、最適化ベースの手法よりも現実的で適切な生成物を参照および背面ビューで生成します。超解像モジュールは、代替手法と比較して高解像度でのズームインが可能なテクスチャの詳細を向上させます。対話型編集アプローチにより、3Dメッシュ上のターゲットされた変更が可能であり、素朴なセグメンテーション手法よりも堅牢性と改善された結果を示します。HyperDreamerは、ディーププライオール、セマンティックセグメンテーション、および材料推定モデルの統合により、単一のイメージからハイパーリアリスティックな3Dコンテンツの生成において総合的な成果を上げています。 総括すると、HyperDreamerフレームワークは、ハイパーリアリスティックな3Dコンテンツの生成と編集において完全な範囲の表示、レンダリング、編集可能性を提供する革新的なツールです。領域に敏感な素材のモデリング、高解像度のテクスチャでのユーザーフレンドリーな編集、最先端の手法と比較して優れたパフォーマンスは、包括的な実験と定量的評価によって証明されています。このフレームワークは、3Dコンテンツ作成と編集の進歩において非常に大きなポテンシャルを秘めており、学術および産業の環境において有望なツールとなっています。

スタンフォード大学の研究者が、多様な視覚的な概念に対する現行モデルの解釈性と生成能力を向上させるための新しい人工知能フレームワークを紹介しました

多様な視覚的なアイデアを得るためには、既存のモデルの解釈性と生成力を高めることが重要です。スタンフォード大学の研究者たちは、言語に基づいた視覚的な概念表現の学習のためのAIフレームワークを紹介しました。このフレームワークでは、言語に基づいた概念軸により情報を符合化する概念エンコーダを訓練し、事前学習されたビジュアルクエスチョンアンサリング(VQA)モデルからのテキスト埋め込みとの関連付けを可能にします。 概念エンコーダは、言語に基づいた概念軸によって情報を符合化するように訓練されます。モデルは新しいテスト画像から概念の埋め込みを抽出し、新しい視覚的概念構成を持つ画像を生成し、未知の概念にも対応します。このアプローチは、視覚的なプロンプトとテキストクエリを組み合わせてグラフィカルな画像を抽出し、テキストから画像を生成するモデルにおける視覚言語の根拠の重要性を示しています。 この研究は、人間と似た視覚的概念を認識するシステムを作成することを目指しています。言語で指定された概念軸に対応する概念エンコーダを使用するフレームワークを導入しています。これらのエンコーダは画像から概念の埋め込みを抽出し、新しい構成の画像を生成します。 フレームワーク内では、概念エンコーダは言語に基づいた概念軸に沿って視覚情報を符合化するように訓練されます。推論時に、モデルは新しい画像から概念の埋め込みを抽出し、新しい構成のアイデアを生成します。比較評価では、他の手法と比べて優れた再構築結果が示されています。 提案された言語に基づく視覚的概念学習フレームワークは、テキストに基づく手法よりも優れたパフォーマンスを発揮します。フレームワークはテスト画像から概念の埋め込みを効果的に抽出し、新しい視覚的概念の構成を生成し、より明解性と組成性が高いです。比較分析では、より優れた色の変化捕捉が示され、人間の評価ではリアリティと編集指示に対する忠実さの高いスコアが示されています。 結論として、この研究では事前学習モデルからの蒸留による言語に基づいた視覚的概念の効果的なフレームワークを提案しています。このアプローチにより、視覚的概念エンコーダの明解性が向上し、新しい概念の組成を持つ画像の生成が可能になります。この研究は、高いリアリティと編集指示への忠実さを持つ画像生成を制御するために、視覚的プロンプトとテキストクエリの使用効率も強調しています。 研究は、言語に基づく視覚的概念学習フレームワークを改善するために、より大規模かつ多様なトレーニングデータセットの使用を推奨しています。また、異なる事前学習されたビジョン言語モデルの影響や、柔軟性を高めるための追加の概念軸の統合についても調査することを提案しています。また、フレームワークは様々な視覚的概念編集タスクとデータセットで評価されるべきです。研究は自然画像のバイアス緩和を特定し、画像合成、スタイル変換、視覚的ストーリーテリングの潜在的な応用についても提案しています。

このAIの論文は、生成型AIモデルのサイバーセキュリティに関する意味を明らかにしています-リスク、機会、倫理的な課題

生成AI(GenAI)モデル、ChatGPT、Google Bard、そしてMicrosoftのGPTなどは、AIインタラクションを革新しました。これらはテキスト、画像、音楽などの多様なコンテンツを作成し、コミュニケーションや問題解決に影響を与えることで、さまざまな領域を再構築しています。ChatGPTの急速な普及は、GenAIが日常のデジタルライフに統合され、人々のAIとの認識とやり取りを変えていることを反映しています。人間のような会話を理解し生成する能力により、AIはより広範な観客に対してアクセス可能で直感的になり、認識を大きく変えることができました。 GenAIモデルの状態は、GPT-1からGPT-4などの最新の試行まで、急速に進化しています。それぞれの試行は、言語理解、コンテンツ生成、およびマルチモーダル機能において、大きな進歩を示してきました。しかし、この進化には課題もあります。これらのモデルの高度化は、倫理的な懸念、プライバシーのリスク、および悪意のある主体が悪用するかもしれない脆弱性とともにやってきます。 この観点から、最近の論文では、特にChatGPTについて、セキュリティとプライバシーの影響について詳しく検討されています。この論文では、ChatGPTにおいて倫理的な境界とプライバシーを侵害する脆弱性が明らかにされ、悪意のあるユーザーに悪用される可能性があることが示されています。論文では、Jailbreaksや逆心理学、およびプロンプトインジェクション攻撃などのリスクが強調され、これらのGenAIツールに関連する潜在的な脅威が示されています。また、サイバー犯罪者がソーシャルエンジニアリング攻撃、自動ハッキング、およびマルウェアの作成にGenAIを誤用する可能性についても探求されています。さらに、ポテンシャルな攻撃に対抗するために、GenAIを利用した防御技術についても論じられており、サイバーディフェンスの自動化、脅威インテリジェンス、安全なコード生成、および倫理的なガイドラインの強化を強調しています。 この研究チームは、ChatGPTを操作する方法について詳細に探求しました。DAN、SWITCH、およびCHARACTER Playなどのジェイルブレーキング手法について説明し、制約を上書きし倫理的な制約を回避することを目指しています。これらの手法が悪意のあるユーザーによって悪用された場合の潜在的なリスクが強調され、有害なコンテンツの生成やセキュリティ侵害が起こる可能性があります。さらに、ChatGPT-4の機能が制限されずに利用される場合にインターネットの制限を破る可能性がある心理プロンプトインジェクション攻撃にも踏み込んでおり、ChatGPTなどの言語モデルの脆弱性を紹介し、攻撃ペイロード、ランサムウェア/マルウェアコード、およびCPUに影響を与えるウイルスの生成の例を提供しています。これらの探求は、AIモデルの潜在的な誤用による重要なサイバーセキュリティの懸念を明確にし、ChatGPTのようなAIモデルがソーシャルエンジニアリング、フィッシング攻撃、自動ハッキング、およびポリモーフィックマルウェアの生成にどのように誤用されるかを示しています。 研究チームは、ChatGPTがサイバーディフェンスに貢献するいくつかの方法を探求しました: – 自動化:ChatGPTはSOCアナリストを支援し、インシデントの分析、レポートの生成、および防御戦略の提案を行います。 – レポート作成:サイバーセキュリティデータに基づいて理解可能なレポートを作成し、脅威の特定とリスクの評価を支援します。 – 脅威インテリジェンス:広範なデータを処理して脅威を特定し、リスクを評価し、緩和策を推奨します。 – セキュアコーディング:コードレビューにおけるセキュリティバグの検出を支援し、セキュアなコーディングのプラクティスを提案します。 – 攻撃の特定:データを分析して攻撃パターンを説明し、攻撃の理解と予防を支援します。 – 倫理的なガイドライン:AIシステムの倫理的なフレームワークの要約を生成します。 – テクノロジーの向上:侵入検知システムと統合して脅威検知を向上させます。 – インシデント対応:即時のガイダンスを提供し、インシデント対応プレイブックを作成します。 –…

EAGLEをご紹介します:圧縮に基づく高速LLMデコードのための新しい機械学習手法

ChatGPTのような大規模言語モデル(LLM)は、さまざまな言語関連タスクでその手腕を発揮し、自然言語処理を革命化しました。しかし、これらのモデルは、各トークンの処理に完全な順方向のパスを必要とする自己回帰デコーディングプロセスに取り組んでいます。この計算のボトルネックは、パラメータセットが広範囲であるLLMにおいて特に顕著であり、リアルタイムアプリケーションの妨げとなり、制約のあるGPUの機能を持つユーザーに課題を与えます。 Vector Institute、ウォータールー大学、北京大学の研究者チームは、LLMデコーディングに固有の課題に対処するためにEAGLE(Extrapolation Algorithm for Greater Language-Model Efficiency)を導入しました。MedusaやLookaheadなどの従来の方法とは異なり、EAGLEは、第2トップレイヤーの文脈特徴ベクトルの外挿に焦点を当てる独自のアプローチを取っています。前例のない効率的な次の特徴ベクトルの予測を目指すEAGLEは、テキスト生成を大幅に加速する画期的な成果を提供します。 EAGLEの方法論の中核には、FeatExtrapolatorと呼ばれる軽量プラグインの展開があります。このプラグインは、元のLLMの凍結された埋め込み層と連携してトレーニングされ、第2トップレイヤーの現在の特徴シーケンスに基づいて次の特徴を予測します。EAGLEの理論的な基盤は、時間の経過に伴う特徴ベクトルの圧縮性にあり、トークン生成の迅速化の道筋をつけます。EAGLEの優れたパフォーマンスメトリックには注目です。通常のデコーディングと比較して3倍の速度向上を誇り、Lookaheadの速度を2倍にし、Medusaと比較して1.6倍の加速を実現します。もっとも重要なのは、生成されたテキストの分布の保存を確保しつつ、通常のデコーディングとの一貫性を保つことです。 https://sites.google.com/view/eagle-llm EAGLEの能力は、その加速能力を超えます。標準的なGPUでのトレーニングとテストが可能であり、より広いユーザーベースにアクセスできるようになっています。さまざまな並列技術とのシームレスな統合は、効率的な言語モデルデコーディングのツールキットへの価値ある追加として、その応用性を高めます。 FeatExtrapolatorへの依存度を考慮すると、EAGLEの方法論は軽量ですがパワフルなツールであり、元のLLMの凍結された埋め込み層と協力しています。この協力によって、第2トップレイヤーの現在の特徴シーケンスに基づいて次の特徴を予測することができます。EAGLEの理論的な基盤は、時間の経過に伴う特徴ベクトルの圧縮性に根ざしており、より効率的なトークン生成プロセスを実現します。 https://sites.google.com/view/eagle-llm 従来のデコーディング方法では、各トークンに対して完全な順方向のパスが必要であるのに対し、EAGLEの特徴レベルの外挿はこの課題を克服する革新的な方法を提供します。研究チームの理論的な探求は、テキスト生成を大幅に加速するだけでなく、生成されたテキストの分布の品質と一貫性を維持するために重要な側面も保持しています。 https://sites.google.com/view/eagle-llm 結論として、EAGLEはLLMデコーディングの長年の非効率性に対処するための希望の光として浮かび上がっています。EAGLEの背後にある研究チームは、自己回帰生成の核心問題に巧妙に取り組み、テキスト生成を劇的に加速するだけでなく、配布の一貫性も保持する方法を導入しました。リアルタイム自然言語処理が高い需要を持つ時代において、EAGLEの革新的なアプローチは、先駆者としての地位を確立し、先端の能力と実際の現実世界の応用との間の溝を埋める役割を果たしています。

ミストラルAIは、MoE 8x7Bリリースによる言語モデルの画期的な進歩を発表します

パリに拠点を置くスタートアップMistral AIは、MoE 8x7Bという言語モデルを発表しました。Mistral LLMは、各々が70億のパラメータを持つ8人の専門家からなる、サイズダウンされたGPT-4としてしばしば比較されます。特筆すべきは、各トークンの推論には8人の専門家のうち2人のみが使用され、効率的で効果的な処理手法を示していることです。 このモデルは、混合専門家(MoE)アーキテクチャを活用して、素晴らしいパフォーマンスと効率性を実現しています。これにより、従来のモデルと比べてより効率的で最適なパフォーマンスが得られます。研究者たちは、MoE 8x7Bが、テキスト生成、理解、コーディングやSEO最適化など高度な処理を必要とするタスクを含むさまざまな側面で、Llama2-70BやQwen-72Bなどの以前のモデルよりも優れたパフォーマンスを発揮することを強調しています。 これにより、AIコミュニティの間で多くの話題を呼んでいます。著名なAIコンサルタントであり、Machine & Deep Learning Israelコミュニティの創設者である人物は、Mistralがこのような発表を行っていることを称え、これを業界内で特徴的なものと評価しています。オープンソースAIの提唱者であるジェイ・スキャンブラー氏は、このリリースの異例性について言及しました。彼は、これがMistralによる故意の戦略であり、AIコミュニティからの注目と興味を引くためのものである可能性があると述べ、重要な話題を成功裏に生み出したと指摘しています。 MistralのAI分野における旅は、欧州史上最大と報じられている1億1800万ドルのシードラウンドという記録的な一歩で始まりました。同社は、9月には最初の大規模な言語AIモデルであるMistral 7Bのローンチにより、さらなる認知度を得ました。 MoE 8x7Bモデルは、各々が70億のパラメータを持つ8人の専門家を搭載しており、GPT-4の16人の専門家と1人あたり1660億のパラメータからの削減を表しています。推定1.8兆パラメータのGPT-4に比べ、推定総モデルサイズは420億パラメータです。また、MoE 8x7Bは言語問題に対するより深い理解を持っており、機械翻訳やチャットボットのインタラクション、情報検索の向上につながっています。 MoEアーキテクチャは、より効率的なリソース配分を可能にし、処理時間を短縮し、計算コストを削減します。Mistral AIのMoE 8x7Bは、言語モデルの開発において重要な進展を示すものです。その優れたパフォーマンス、効率性、柔軟性は、さまざまな産業やアプリケーションにおいて莫大なポテンシャルを持っています。AIが進化し続ける中、MoE 8x7Bのようなモデルは、デジタル専門知識やコンテンツ戦略を向上させたい企業や開発者にとって不可欠なツールとなることが予想されています。 結論として、Mistral AIのMoE 8x7Bのリリースは、技術的な洗練と非伝統的なマーケティング戦略を組み合わせた画期的な言語モデルを導入しました。研究者たちは、AIコミュニティがMistralのアーキテクチャを詳しく調査・評価していく中で、この先進的な言語モデルの効果と利用方法を楽しみにしています。MoE 8x7Bの機能は、教育、医療、科学的発見など、さまざまな分野における研究開発の新たな道を開く可能性があります。

このAIペーパーは、写真リアルな人物モデリングと効率的なレンダリングのブレイクスルーであるHiFi4Gを明らかにします

4D(時空)人間パフォーマンスのボリューメトリックな記録とリアルな表現は、観客とパフォーマーの間の障壁を取り払います。それはテレプレゼンスやテレエデュケーションなど、没入型のVR / AR体験を提供します。一部の早期システムは、記録された映像からテクスチャモデルを再現するために明示的に非剛体登録を使用しています。しかし、それらは依然として遮蔽とテクスチャの不足に対して感受性があり、再構築の出力にはギャップとノイズが生じます。最近のNeRFを例に挙げる最新のニューラルブレイクスルーは、写真のようなリアルなボリュームレンダリングを実現するために、明示的な再構築ではなく、座標ベースのマルチレイヤパーセプトロン(MLP)を最適化します。 特定の動的なNeRFのバリエーションでは、追加の暗黙変形フィールドを使用して、すべてのライブフレームでの特徴の再現に対してカノニカルな特徴空間を保持しようとします。ただし、このようなカノニカルデザインは、重要なトポロジーの変化や大きな動きに対して敏感です。最近の手法では、平面分解やハッシュエンコーディングによって、3D特徴グリッドを簡潔に説明し、動作時のメモリとストレージの問題を解決しました。最近、静的なシーンを表すための明示的なパラダイムへ戻る3Dガウシアンスプラッティング(3DGS)があります。これにより、3DガウシアンプリミティブのGPUフレンドリーなラスタライゼーションに基づく、過去に実現できなかったリアルタイムかつ高品質な放射場レンダリングが可能です。いくつかの進行中のプロジェクトでは、3DGSを動的な設定に適応させるために変更されています。 一部は、動的なガウシアンの非剛体運動に注力し、その過程でレンダリングの品質を失います。他のものは、元の3DGSの明示的でGPUフレンドリーなエレガンスを失い、追加の暗黙の変形フィールドを使用して動きの情報を補完することができないため、長時間の動きを処理することができません。本研究では、ShanghaiTech大学、NeuDim、ByteDance、およびDGeneの研究チームが、高密度ビデオから高品質な4D人間パフォーマンスを再現するための完全に明示的かつコンパクトなガウシアンベースのHiFi4Gメソッドを紹介しています(図1を参照)。彼らの主なコンセプトは、非剛体トラッキングと3Dガウシアン表現を組み合わせて、運動と外観データを分離し、コンパクトで圧縮フレンドリーな表現を実現することです。HiFi4Gは、現在の暗黙のレンダリング技術の最適化速度、レンダリング品質、およびストレージオーバーヘッドに関して、顕著な改善を示します。 彼らの明示的な表現の助けを借りて、彼らの結果はGPUベースのラスタ化パイプラインに容易に統合することもできます。これにより、VRヘッドセットを身に着けたままバーチャルリアリティで高品質な人間パフォーマンスを目の当たりにすることができます。研究チームはまず、細かいガウシアンと粗い変形グラフからなるデュアルグラフ技術を提供し、ガウシアン表現と非剛体トラッキングを自然に結び付けます。前者では、研究チームはNeuS2を使用してフレームごとのジオメトリプロキシを作成し、埋め込み変形(ED)をキーフレームのように使用します。このような明示的なトラッキング手法により、シーケンスがパートに分割され、各セグメント内で豊富な運動が与えられます。キーボリュームの更新と同様に、研究チームは3DGSを使用して現在のセグメント内のガウシアンの数を制限し、以前のセグメントから誤ったガウシアンを除外し、新しいガウシアンを更新します。 次に、研究チームは細かいガウシアングラフを構築し、粗いEDネットワークから各ガウシアン運動を補完します。ガウシアングラフをEDグラフで単純に曲げてスクリーン空間に当てはめると、顕著な不自然な歪みが生じます。制限なしに継続的な最適化が行われることから、ぶれのアーティファクトも生じます。ガウシアン特性の更新と非剛体運動の先行に適切なバランスを取るために、研究チームは4Dガウシアン最適化アプローチを提案しています。研究チームは、各ガウシアンの外観特性(不透明度、スケーリング係数、球面調和)の一貫性を保証するために、時間の経過による正則化を採用しています。研究チームは、近隣のガウシアン間でローカルにできるだけ剛体に近い運動を生成するために、運動特性(位置と回転)のスムーズ化項を提案しています。 非剛体移動を示す領域におけるちらつきアーティファクトを罰するため、これらの正則化に適応的な加重メカニズムが追加されています。研究チームは最適化後に空間的に時間的にコンパクトな4Dガウス関数を生成します。研究チームは、ガウスパラメータのための従来の残差補正、量子化、エントロピー符号化に従う同梱の圧縮技術を提案し、HiFi4Gを消費者にとって有用なものとしています。圧縮率は約25倍で、各フレームに必要なストレージ容量は2MB未満です。これにより、VRヘッドセットを含むさまざまなデバイスで人間のパフォーマンスを没入感ある観察することが可能です。 要点をまとめると、彼らの主な貢献は以下の通りです: ・研究チームは、人間のパフォーマンスレンダリングのためのガウススプラットと非剛体トラッキングを結ぶコンパクトな4Dガウス表現を提案しました。 ・研究チームは、異なる正則化設計を使用して空間的に時間的に一貫性のある4Dガウス関数を効率的に復元するための二重グラフアプローチを提供します。 ・研究チームは、複数のプラットフォーム上で低ストレージな没入型人間パフォーマンス体験を実現するための補完的な圧縮アプローチを提供します。

バイトダンスの研究者が「ImageDream」を紹介:3Dオブジェクト生成のための画像刺激とマルチビューディフュージョンモデルの革新的な導入

諺にあるように、「一枚の画像は千語の価値がある」ということわざは、3D制作に画像を第二の手段として追加することで、テキストだけを使用するシステムに比べて大きな利点をもたらします。画像は主に、言語では部分的または不完全にしか説明できない、詳細で豊かな視覚情報を提供します。例えば、画像はテクスチャ、色、空間的な関係などの細かな特徴を明確かつ即座に表現することができますが、単語の説明では同じレベルの詳細を完全に表現するためには助けが必要であり、非常に長い説明が必要になる場合もあります。システムは実際の視覚的な手がかりを直接参照することができるため、書かれた説明を解釈するよりも、複雑さや主観性に幅広いばらつきがあることがありますが、このビジュアルの特異性はより正確で詳細な3Dモデルの生成に役立ちます。 さらに、視覚的な手段を利用することで、特に言葉で自分のビジョンを表現するのが難しい人々にとって、意図した結果をより簡単かつ直接的に説明することができます。この多重モダリティの方法は、テキストの文脈の深さと視覚データの豊かさを組み合わせることで、より信頼性のある、ユーザーフレンドリーで効果的な3D制作プロセスを提供する幅広い創造的および実用的なアプリケーションに役立ちます。しかし、3Dオブジェクトの開発の代替手段として写真を使用する際には、いくつかの困難が存在します。テキストとは異なり、画像には色、テクスチャ、空間的な関係など、多くの追加要素があり、これらは単一のエンコーダ(CLIPなど)を使用して正しく分析および理解するのが難しくなります。 さらに、オブジェクトの光、形状、自己遮蔽の大きな変化は、不完全またはぼやけた3Dモデルを提供する可能性がある視点合成において、より正確で一貫性のあるものにするために、高度な計算負荷の技術が必要です。画像処理の複雑さにより、視覚情報を効果的にデコードし、多くの視点で一貫した外観を保証するために、研究者はZero123などのさまざまな拡散モデル手法を使用して2Dアイテム画像を3Dモデルに変換してきました。画像のみのシステムの1つの欠点は、合成された視点は素晴らしいように見える一方で、再構築されたモデルは時々ジオメトリの正確さや緻密なテクスチャに関して補完が必要です、特にオブジェクトの背面の視点に関してです。この問題の主な原因は、生成または合成された視点間の大きな幾何学的な不一致です。 その結果、再構築時に非一致のピクセルが平均化され、ぼやけたテクスチャと丸みを帯びたジオメトリが生じます。要するに、画像条件付きの3D生成は、テキスト条件付きの生成に比べてより制限の多い最適化問題です。3Dデータの量が限られているため、正確な特徴を持つ3Dモデルを最適化することはより困難になります。最適化プロセスは訓練分布から逸脱しやすい傾向があります。例えば、訓練データセットには様々な馬のスタイルが含まれている場合、テキストの説明だけから馬を作成すると、詳細なモデルが生成される可能性があります。しかし、画像が特定の毛皮の特徴、形状、テクスチャを指定する場合、新しい視点のテクスチャ作成は教授された分布から容易に逸脱することがあります。 これらの問題に対処するために、ByteDanceの研究チームは本研究でImageDreamを提案します。研究チームは、現在のアーキテクチャに容易に組み込むことができる多階層画像プロンプトコントローラを提案します。具体的には、カノニカルカメラ座標に基づいて、生成された画像はオブジェクトの中央の正面ビューを描写しなければなりません(アイデンティティの回転とゼロの移動を使用します)。これにより、入力画像の差異を3次元への変換プロセスがよりシンプルになります。多階層コントローラによって情報伝達プロセスが合理化され、画像入力から各アーキテクチャブロックへの拡散モデルの導入が指示されます。 図1: たった1枚の写真で、画期的なフレームワークImageDreamはあらゆる角度から高品質な3Dモデルを作成します。以前のSoTAであるMagic123などに比べて、3Dジオメトリの品質を大幅に向上させています。さらに重要なのは、MVDreamと比較して、作成された画像プロンプトからのテキストの優れた画像対応を保持していることです。さまざまな技術を使用して作成されたアイテムの8つのビューが以下に示されており、ImageDreamによって生成されたモデルによって描かれた一致する法線マップが最後の行に表示されています。 MVDreamのような厳格にテキストに基づいたモデルと比較して、ImageDreamは図1に示すように、与えられた画像から正確なジオメトリを持つオブジェクトを生成することで優れています。これにより、ユーザーは画像とテキストの整列を改善するために、よく開発された画像生成モデルを使用することができます。ジオメトリとテクスチャの品質に関しては、ImageDreamは現在の最先端技術(SoTA)のゼロショット単一画像3Dモデル生成器であるMagic123を凌駕しています。ImageDreamは、実験部分での定量評価とユーザーテストを通じた定性的比較を含む、これまでのSoTAの技術を凌駕していることが示されています。

このAI論文は、イギリスのインペリアルカレッジロンドンとEleuther AIが対話エージェントの行動を理解するための枠組みとしてロールプレイを探究しています

“`html 現代社会では、人工知能(AI)の統合が人間の相互作用を根本的に変えています。ChatGPTなどの大規模言語モデル(LLMs)の出現により、人間のような認知能力と自動化された対応の間の境界が曖昧になっています。イギリスの帝国カレッジロンドンとEleuther AIの研究チームによる最新の論文では、この進化するAI知能の領域を航海するために、言語アプローチを再評価する必要性に光を当てています。 AIによって駆動されたチャットボットの魅力は、機械的なアルゴリズムではなく感情を持つ存在との会話に似た会話をエミュレートする驚異的な能力です。しかし、人間との相互作用のこのエミュレーションは、個人の感情的なつながり形成への脆弱性とリスクを引き起こす懸念があります。研究者は、これらのLLMsに関する言語と認識を再調整する必要性を強調しています。 問題の本質は、社交性と共感への内在的な人間の傾向にあります。これにより、人間のような属性を持つ存在と関わることへの脆弱性が生じます。しかし、この傾向は、詐欺やプロパガンダなどの不正目的でLLMsを悪用する悪意のある行為者による潜在的な危険性をもたらす可能性があります。チームは、「理解」「思考」「感情」といった人間的な特性をLLMsに帰因することは避けるべきだと警告し、これにより脆弱性が生まれ、保護が必要となると述べています。 論文では、過度な感情的な依存やAIチャットボットへの頼りすぎのリスクを緩和するための戦略を提案しています。まず、ユーザーの理解を簡略化するために、AIチャットボットを特定の役割を果たす俳優として捉えることが重要です。さらに、潜在的な多角的キャラクターの広範な範囲内で様々な役割を演じる指揮者として捉えることにより、より複雑で技術的な視点が得られます。研究者は、包括的な理解を促進するために、これらの異なるメタファー間でのスムーズな移行を推奨しています。 チームは、人々のAIチャットボットとの相互作用にアプローチする方法が、彼らの認識と脆弱性に大きく影響することを強調しました。多様な視点を受け入れることで、これらのシステムに備わる潜在能力をより包括的に把握することができます。 言語の改革の必要性は、意味的な変化を超えて、認知パラダイムの根本的な変化を必要としています。研究者によって示されたように、「異種の心のようなアーティファクト」を理解するには、従来の擬人化からの脱却が必要です。代わりに、AIチャットボットの単純化されたと複雑な概念モデル間を流動的に移動できるダイナミックなマインドセットが必要とされます。 結論として、この論文は、言語の適応と認知的な柔軟性が絶えず進化するAI組み込み相互作用の風景を航海する上での重要性を強調しています。技術が進化するにつれて、AIチャットボットに関するディスカッションの再構築は不可欠です。言語の再調整と多様な視点の受け入れにより、個人はこれらの知的システムの潜在能力を活用しながら内在するリスクを緩和し、人間の認知とAI知能の間に調和のとれた関係を築くことが可能です。 “`

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us