Learn more about Search Results フ - Page 12

「このAI研究は、グラフ上の大規模言語モデル(LLM)について包括的な概要を共有します」

よく知られたLarge Language Models(LLMs)であるGPTやBERT、PaLM、LLaMAは、自然言語処理(NLP)と自然言語生成(NLG)においていくつかの大変な進歩をもたらしました。これらのモデルは大規模なテキストコーパスで事前学習され、質問応答やコンテンツ生成、要約など、複数のタスクで驚異的なパフォーマンスを発揮しています。 LLMsは平文のテキストを扱うことができることが証明されていますが、テキストデータがグラフ形式の構造情報とリンクされたアプリケーションを扱う必要性がますます高まっています。研究者たちは、LLMsの良好なテキストベースの推論力を活用して、マッチングサブグラフ、最短パス、接続推論などの基本的なグラフの推論タスクにLLMsをどのように適用できるかを研究しています。LLMsの統合に関連付けられているグラフベースのアプリケーションには、純粋なグラフ、テキスト豊かなグラフ、テキスト対応グラフの3つのタイプがあります。これらの機能とGNNとの相互作用に応じて、LLMsをタスク予測器、GNNの特徴エンコーダー、またはGNNとのアライナーとして扱うテクニックがあります。 LLMsはグラフベースのアプリケーションでますます人気が高まっていますが、LLMsとグラフの相互作用を調査する研究は非常に少ないです。最近の研究では、研究チームが大規模な言語モデルとグラフの統合に関連した状況と方法の体系的な概要を提案しています。目的は、テキスト豊かなグラフ、テキスト対応グラフ、純粋なグラフの3つの主要なカテゴリに可能な状況を整理することです。チームは、アライナー、エンコーダー、または予測器としてLLMsを使用する具体的な方法を共有しています。各戦略には利点と欠点があり、リリースされた研究の目的はこれらのさまざまなアプローチを対比することです。 チームは、LLMsをグラフ関連の活動で使用する利点を示すことで、これらの技術の実用的な応用に重点を置いています。チームは、これらの方法の適用と評価を支援するためのベンチマークデータセットとオープンソーススクリプトに関する情報を共有しています。結果は、この急速に発展している分野でのさらなる研究と創造性の必要性を強調して、可能な将来の研究トピックを概説しています。 チームは、彼らの主な貢献を以下のようにまとめています。 チームは、言語モデルがグラフで使用される状況を体系的に分類することで貢献を果たしました。これらのシナリオは、テキスト豊かな、テキスト対応、純粋なグラフの3つのカテゴリに整理されています。この分類法は、さまざまな設定を理解するための枠組みを提供します。 言語モデルは、グラフのアプローチを用いて詳細に分析されました。評価は、さまざまなグラフ状況の代表的なモデルをまとめたもので、最も徹底的なものとなっています。 言語モデルをグラフに関連する研究に関連して、実世界の応用、オープンソースのコードベース、ベンチマークデータセットなど、多くの資料がキュレーションされています。 言語モデルをグラフでのさらなる研究のための6つの可能な方向が提案されており、基本的なアイデアを掘り下げています。

「RAGAsを使用したRAGアプリケーションの評価」

「PythonにおいてRAGAsフレームワークを使って、検索および生成コンポーネントを個別に評価するための検索強化生成(RAG)システムの評価」

AI論文は、高度なテクスチャリング、360度モデリング、インタラクティブ編集による3Dコンテンツ作成の進歩であるHyperDreamerを発表します

単一のRGBイメージから詳細でリアルな3Dモデルを生成することは容易ではありません。上海AI研究所、香港中文大学、上海交通大学、S-Lab NTUの研究者は、この課題に対処するためにHyperDreamerを提案しました。このフレームワークは、単一の2Dイメージから直接表示、レンダリング、編集可能な3Dコンテンツの作成を可能にすることで、この問題を解決します。 この研究では、テキストによる3D生成方法の変遷する景色について議論し、Dream Fields、DreamFusion、Magic3D、Fantasia3Dなどの注目すべき作品を引用しています。これらの手法は、CLIP、拡散モデル、空間的に変化するBRDFなどの技術を活用しています。また、テキストからイメージへの拡散モデルを利用した推論ベースと最適化ベースの形式を含む、単一画像再構築手法も強調しています。 この研究は、高度な3Dコンテンツ生成の需要の増大と従来の手法の制約を強調しています。テキストや単一画像条件を組み込んだ最近の2D拡散ベースの手法は、現実感を高めましたが、生成後の利用性やバイアスに課題を抱えています。これらを克服するために、HyperDreamerは単一のRGBイメージから包括的で表示可能、レンダリング可能、編集可能な3Dコンテンツの生成を可能にするフレームワークです。HyperDreamerは、カスタムの超解像モジュール、意味に敏感なアルベド正則化、対話型編集を組み合わせて、現実感、レンダリング品質、生成後の編集機能に関連する問題に対処します。 HyperDreamerフレームワークは、2D拡散、意味のあるセグメンテーション、および材料の推定モデルからのディーププライオールに基づいて、包括的な3Dコンテンツの生成と編集を実現します。高解像度の擬似マルチビューイメージを補助的な監視に使用し、高品質なテクスチャ生成を確保します。材料モデリングには、オンラインの3Dセマンティックセグメンテーションとセマンティックに敏感な正則化が含まれており、材料の推定結果に基づいて初期化されます。HyperDreamerは、対話型セグメンテーションを介した容易なターゲット3Dメッシュの変更のための対話型編集アプローチを導入します。フレームワークにはカスタムの超解像および意味に敏感なアルベドの正則化も組み込まれており、現実感、レンダリング品質、編集機能が向上しています。 HyperDreamerは、単一のRGBイメージからリアルで高品質な3Dコンテンツを生成し、完全な範囲の表示、レンダリング、編集可能性を提供します。比較評価では、最適化ベースの手法よりも現実的で適切な生成物を参照および背面ビューで生成します。超解像モジュールは、代替手法と比較して高解像度でのズームインが可能なテクスチャの詳細を向上させます。対話型編集アプローチにより、3Dメッシュ上のターゲットされた変更が可能であり、素朴なセグメンテーション手法よりも堅牢性と改善された結果を示します。HyperDreamerは、ディーププライオール、セマンティックセグメンテーション、および材料推定モデルの統合により、単一のイメージからハイパーリアリスティックな3Dコンテンツの生成において総合的な成果を上げています。 総括すると、HyperDreamerフレームワークは、ハイパーリアリスティックな3Dコンテンツの生成と編集において完全な範囲の表示、レンダリング、編集可能性を提供する革新的なツールです。領域に敏感な素材のモデリング、高解像度のテクスチャでのユーザーフレンドリーな編集、最先端の手法と比較して優れたパフォーマンスは、包括的な実験と定量的評価によって証明されています。このフレームワークは、3Dコンテンツ作成と編集の進歩において非常に大きなポテンシャルを秘めており、学術および産業の環境において有望なツールとなっています。

スタンフォード大学の研究者が、多様な視覚的な概念に対する現行モデルの解釈性と生成能力を向上させるための新しい人工知能フレームワークを紹介しました

多様な視覚的なアイデアを得るためには、既存のモデルの解釈性と生成力を高めることが重要です。スタンフォード大学の研究者たちは、言語に基づいた視覚的な概念表現の学習のためのAIフレームワークを紹介しました。このフレームワークでは、言語に基づいた概念軸により情報を符合化する概念エンコーダを訓練し、事前学習されたビジュアルクエスチョンアンサリング(VQA)モデルからのテキスト埋め込みとの関連付けを可能にします。 概念エンコーダは、言語に基づいた概念軸によって情報を符合化するように訓練されます。モデルは新しいテスト画像から概念の埋め込みを抽出し、新しい視覚的概念構成を持つ画像を生成し、未知の概念にも対応します。このアプローチは、視覚的なプロンプトとテキストクエリを組み合わせてグラフィカルな画像を抽出し、テキストから画像を生成するモデルにおける視覚言語の根拠の重要性を示しています。 この研究は、人間と似た視覚的概念を認識するシステムを作成することを目指しています。言語で指定された概念軸に対応する概念エンコーダを使用するフレームワークを導入しています。これらのエンコーダは画像から概念の埋め込みを抽出し、新しい構成の画像を生成します。 フレームワーク内では、概念エンコーダは言語に基づいた概念軸に沿って視覚情報を符合化するように訓練されます。推論時に、モデルは新しい画像から概念の埋め込みを抽出し、新しい構成のアイデアを生成します。比較評価では、他の手法と比べて優れた再構築結果が示されています。 提案された言語に基づく視覚的概念学習フレームワークは、テキストに基づく手法よりも優れたパフォーマンスを発揮します。フレームワークはテスト画像から概念の埋め込みを効果的に抽出し、新しい視覚的概念の構成を生成し、より明解性と組成性が高いです。比較分析では、より優れた色の変化捕捉が示され、人間の評価ではリアリティと編集指示に対する忠実さの高いスコアが示されています。 結論として、この研究では事前学習モデルからの蒸留による言語に基づいた視覚的概念の効果的なフレームワークを提案しています。このアプローチにより、視覚的概念エンコーダの明解性が向上し、新しい概念の組成を持つ画像の生成が可能になります。この研究は、高いリアリティと編集指示への忠実さを持つ画像生成を制御するために、視覚的プロンプトとテキストクエリの使用効率も強調しています。 研究は、言語に基づく視覚的概念学習フレームワークを改善するために、より大規模かつ多様なトレーニングデータセットの使用を推奨しています。また、異なる事前学習されたビジョン言語モデルの影響や、柔軟性を高めるための追加の概念軸の統合についても調査することを提案しています。また、フレームワークは様々な視覚的概念編集タスクとデータセットで評価されるべきです。研究は自然画像のバイアス緩和を特定し、画像合成、スタイル変換、視覚的ストーリーテリングの潜在的な応用についても提案しています。

AI記事スキャンダルがアリーナグループに波紋を広げ、CEOが解任される

アリーナグループは、スポーツイラストの発行元として最もよく知られており、AI記事のスキャンダルに揺れた会社のCEOを解任しましたこれは、スポーツイラストがAIを使用して記事を公表していたことが明らかになってから数週間後のことですこれは、Futurismが昨年11月に報告した会社を発見した後の出来事です...

2024年に探すべき6つのリモートAIジョブ

「人工知能の分野は急速に成長しており、それに伴ってAIやAIを活用したツールの実務経験を持つ専門家の需要も高まっていますGartnerの最近の調査によると、2021年の世界のAI市場規模は157億ドルから2026年までに3312億ドルに成長すると予測されていますこの成長は...」

クッキージャーで手を捕まれた:GPT4が私に自分のフェイクニュースを売った

GPT-4は、あなたが求めるものを「探し出します」 - これには、お望みの統計情報に関する「調査」も含まれますそれを見つけ出し、ご希望の方法で提示します - ...

このAIペーパーは、写真リアルな人物モデリングと効率的なレンダリングのブレイクスルーであるHiFi4Gを明らかにします

4D(時空)人間パフォーマンスのボリューメトリックな記録とリアルな表現は、観客とパフォーマーの間の障壁を取り払います。それはテレプレゼンスやテレエデュケーションなど、没入型のVR / AR体験を提供します。一部の早期システムは、記録された映像からテクスチャモデルを再現するために明示的に非剛体登録を使用しています。しかし、それらは依然として遮蔽とテクスチャの不足に対して感受性があり、再構築の出力にはギャップとノイズが生じます。最近のNeRFを例に挙げる最新のニューラルブレイクスルーは、写真のようなリアルなボリュームレンダリングを実現するために、明示的な再構築ではなく、座標ベースのマルチレイヤパーセプトロン(MLP)を最適化します。 特定の動的なNeRFのバリエーションでは、追加の暗黙変形フィールドを使用して、すべてのライブフレームでの特徴の再現に対してカノニカルな特徴空間を保持しようとします。ただし、このようなカノニカルデザインは、重要なトポロジーの変化や大きな動きに対して敏感です。最近の手法では、平面分解やハッシュエンコーディングによって、3D特徴グリッドを簡潔に説明し、動作時のメモリとストレージの問題を解決しました。最近、静的なシーンを表すための明示的なパラダイムへ戻る3Dガウシアンスプラッティング(3DGS)があります。これにより、3DガウシアンプリミティブのGPUフレンドリーなラスタライゼーションに基づく、過去に実現できなかったリアルタイムかつ高品質な放射場レンダリングが可能です。いくつかの進行中のプロジェクトでは、3DGSを動的な設定に適応させるために変更されています。 一部は、動的なガウシアンの非剛体運動に注力し、その過程でレンダリングの品質を失います。他のものは、元の3DGSの明示的でGPUフレンドリーなエレガンスを失い、追加の暗黙の変形フィールドを使用して動きの情報を補完することができないため、長時間の動きを処理することができません。本研究では、ShanghaiTech大学、NeuDim、ByteDance、およびDGeneの研究チームが、高密度ビデオから高品質な4D人間パフォーマンスを再現するための完全に明示的かつコンパクトなガウシアンベースのHiFi4Gメソッドを紹介しています(図1を参照)。彼らの主なコンセプトは、非剛体トラッキングと3Dガウシアン表現を組み合わせて、運動と外観データを分離し、コンパクトで圧縮フレンドリーな表現を実現することです。HiFi4Gは、現在の暗黙のレンダリング技術の最適化速度、レンダリング品質、およびストレージオーバーヘッドに関して、顕著な改善を示します。 彼らの明示的な表現の助けを借りて、彼らの結果はGPUベースのラスタ化パイプラインに容易に統合することもできます。これにより、VRヘッドセットを身に着けたままバーチャルリアリティで高品質な人間パフォーマンスを目の当たりにすることができます。研究チームはまず、細かいガウシアンと粗い変形グラフからなるデュアルグラフ技術を提供し、ガウシアン表現と非剛体トラッキングを自然に結び付けます。前者では、研究チームはNeuS2を使用してフレームごとのジオメトリプロキシを作成し、埋め込み変形(ED)をキーフレームのように使用します。このような明示的なトラッキング手法により、シーケンスがパートに分割され、各セグメント内で豊富な運動が与えられます。キーボリュームの更新と同様に、研究チームは3DGSを使用して現在のセグメント内のガウシアンの数を制限し、以前のセグメントから誤ったガウシアンを除外し、新しいガウシアンを更新します。 次に、研究チームは細かいガウシアングラフを構築し、粗いEDネットワークから各ガウシアン運動を補完します。ガウシアングラフをEDグラフで単純に曲げてスクリーン空間に当てはめると、顕著な不自然な歪みが生じます。制限なしに継続的な最適化が行われることから、ぶれのアーティファクトも生じます。ガウシアン特性の更新と非剛体運動の先行に適切なバランスを取るために、研究チームは4Dガウシアン最適化アプローチを提案しています。研究チームは、各ガウシアンの外観特性(不透明度、スケーリング係数、球面調和)の一貫性を保証するために、時間の経過による正則化を採用しています。研究チームは、近隣のガウシアン間でローカルにできるだけ剛体に近い運動を生成するために、運動特性(位置と回転)のスムーズ化項を提案しています。 非剛体移動を示す領域におけるちらつきアーティファクトを罰するため、これらの正則化に適応的な加重メカニズムが追加されています。研究チームは最適化後に空間的に時間的にコンパクトな4Dガウス関数を生成します。研究チームは、ガウスパラメータのための従来の残差補正、量子化、エントロピー符号化に従う同梱の圧縮技術を提案し、HiFi4Gを消費者にとって有用なものとしています。圧縮率は約25倍で、各フレームに必要なストレージ容量は2MB未満です。これにより、VRヘッドセットを含むさまざまなデバイスで人間のパフォーマンスを没入感ある観察することが可能です。 要点をまとめると、彼らの主な貢献は以下の通りです: ・研究チームは、人間のパフォーマンスレンダリングのためのガウススプラットと非剛体トラッキングを結ぶコンパクトな4Dガウス表現を提案しました。 ・研究チームは、異なる正則化設計を使用して空間的に時間的に一貫性のある4Dガウス関数を効率的に復元するための二重グラフアプローチを提供します。 ・研究チームは、複数のプラットフォーム上で低ストレージな没入型人間パフォーマンス体験を実現するための補完的な圧縮アプローチを提供します。

ボーダフォンは、AWS DeepRacerとアクセンチュアを活用して機械学習のスキルを向上させています

「ボーダフォンは、2025年までに、イノベーションを加速し、コストを削減し、セキュリティを向上させ、業務を簡素化するという目標を持ち、通信会社(テルコ)からテクノロジー企業(テックコー)への転換を行っていますこの変革に貢献するために、数千人のエンジニアが採用されていますまた、2025年までに、ボーダフォンは、グローバルな労働力の50%がソフトウェア開発に積極的に関与することを計画しています」

「ウェアラブルデータによるコロナ感染予測」

消費者用ウェアラブルデバイスと医療用ウェアラブルデバイスの収斂は近いのか?

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us