「次世代ニューラルネットワーク:NeurIPSでの多くのAIの技術進歩をNVIDIA Researchが発表」
「次世代ニューラルネットワーク:NVIDIA ResearchがNeurIPSで発表したAIの革新技術」
世界中の学術機関と協力して、NVIDIAの研究者は< a href=”https://www.voagi.com/ai-for-sustainable-banking-reducing-carbon-footprints-and-promoting-ecofriendly-spending.html”>生成AI、ロボティクス、自然科学の進歩を推進しています – そしてこれらのプロジェクトの数は、ワールドトップのAIカンファレンスである< a href=”/?s=NeurIPS”>NeurIPSで共有されます。
ニューオーリンズで12月10日から16日に開催されるNeurIPSでは、生成AI、機械学習、コンピュータビジョンなどの専門家が集まります。 NVIDIA Researchが発表する革新の中には、テキストから画像への変換、写真から3Dアバターへの変換、専門のロボットをマルチタレントマシンに変換するための新しい技術が含まれています。
「NVIDIA Researchは、テキストから画像や音声へ変換する生成AIモデル、新しいタスクをより速く学習する自律AIエージェント、複雑な物理現象を計算するニューラルネットワークなど、この分野全体の進歩を推進し続けています」とNVIDIAの学習と知覚研究の副社長であるJan Kautzは述べています。「これらのプロジェクトは、主要な学界の第一人者との協力によって行われることが多く、仮想世界、シミュレーション、自律マシンの開発者を加速させるでしょう。」
イメージを追加: テキストからイメージ拡散モデルの改良
拡散モデルは、テキストをリアルなイメージに変換するための最も人気のあるタイプの生成AIモデルになっています。NVIDIAの研究者は、NeurIPSで発表される拡散モデルの進化を支える複数のプロジェクトで大学と協力しています。
- このチューリング賞を受賞した研究者は、伝説的な学術顧問になるまでの軌跡
- マイクロソフトの研究者がTable-GPTを紹介:二次元テーブルの理解とタスクで言語モデルを優れたものに
- このAI研究では、「RAFA」という、証明可能なサンプル効率を持つ独立型LLMエージェントのための原則的な人工知能フレームワークを紹介します
- オーラルプレゼンテーションとして受け入れられた論文は、テキストプロンプト内の修飾語と主要な実体の関連性を改善することに焦点を当てています。既存のテキストからイメージへのモデルが「黄色いトマト」と「赤いレモン」を描くように要求された場合、誤って黄色いレモンや赤いトマトの画像を生成することがありますが、新しいモデルはユーザーのプロンプトの構文を分析し、エンティティと修飾子の間の結びつきを促進して、より忠実な視覚的描写を提供します。
- ポスターとして発表されるSceneScapeは、テキストプロンプトから3Dシーンの長いビデオを生成するための拡散モデルを使用した新しいフレームワークです。このプロジェクトでは、テキストからイメージのモデルとフレーム間の一貫性を保持するための深度予測モデルを組み合わせて、美術館、お化け屋敷、氷の城などのビデオを生成します(上の画像を参照)。
- 別のポスターでは、テキストからイメージのモデルがトレーニングデータにあまり出現しない概念を生成する方法を改良しています。このような画像を生成しようとする試みは通常、ユーザーのプロンプトとは完全に一致しない低品質のビジュアルに終わります。新しい手法では、モデルが指定された希少クラスから画像を生成するための良いシード10を認識するのに役立つ一連の例題画像を使用します。
- 3番目のポスターでは、テキストからイメージへの拡散モデルが、不完全なポイントクラウドのテキスト記述を使用して、不足している部分を生成し、物体の完全な3Dモデルを作成することができることを示しています。これは、ロボティクスや自律車両のAIアプリケーションのためのLidarスキャナーや他の深度センサーによって収集されたポイントクラウドデータを補完するのに役立ちます。収集されたイメージは一般的に不完全であるため、特定の角度から物体をスキャンしています。例えば、車に取り付けられたLidarセンサーは、道を車が走る間にそれぞれの建物の一方側のみをスキャンします。
キャラクターインプロvement: AIアバターの進歩
AIアバターは、複数の生成AIモデルを組み合わせて、仮想キャラクターを作成し、アニメーション化し、テキストを生成して音声に変換します。 NeurIPSのNVIDIAのポスターは、これらのタスクをより効率的にする新しい方法を提示します。
- ポスターでは、追加のイメージや時間のかかる最適化プロセスを必要としない、ヘアスタイルやアクセサリーなどの詳細をキャプチャしながら、シングルポートレートイメージを3Dヘッドアバターに変換する新しい方法を説明しています。現在の方法では、複数のイメージと時間のかかる最適化プロセスが必要ですが、このモデルは追加の最適化を必要とせずに高品質の3D復元を実現しています。 アバターはBlendshapes(異なる表情を表すために使用される3Dメッシュ表現)またはリファレンスビデオクリップと一緒にアニメーション化することができます。リファレンスビデオクリップでは、人物の表情と動きがアバターに適用されます。
- 別のポスターでは、P-Flowという生成AIモデルを使用してゼロショットのテキストからスピーチ合成を進化させる新しい方法をNVIDIA研究者と大学の共同研究者が提案しています。 P-Flowは、最新の最先端技術と比較して、より良い発音、人間らしさ、話者の類似性を提供します。モデルは、一つのNVIDIA A100 Tensor Core GPU上でテキストを音声にほぼ即座に変換することができます。
強化学習、ロボティクスの研究のブレイクスルー
強化学習とロボティクスの分野では、NVIDIAの研究者が2つのポスターを発表し、異なるタスクや環境でのAIの汎用性を向上させる革新を紹介します。
- 最初のポスターでは、勾配バイアスやデータの非効率性の一般的な落とし穴を回避しながら、新しいタスクに適応できる強化学習アルゴリズムのフレームワークを提案しています。研究者たちは、メタ強化学習モデルの強力なバージョンを作成できる革新的なメタアルゴリズムを特徴とする彼らの手法が、複数のベンチマークタスクで優れたパフォーマンスを発揮したことを示しました。
- もう一つは、NVIDIAの研究者と大学の共同研究者による「ロボットにおける物体操作」の課題に取り組んでいます。ロボットハンドが物体をつかみ、相互作用するのを助ける先行のAIモデルは、特定の形状に対応できますが、トレーニングデータで見られない物体には苦労します。研究者たちは、引き出しや鍋の蓋など、幾何学的に似ている異なるカテゴリの物体がどのように似ているかを推定する新しいフレームワークを提案し、モデルが新しい形状により速く一般化できるようにしました。
科学をスーパーチャージ:AIが加速する物理学、気候、医療
NeurIPSでのNVIDIAの研究者による論文は、物理学シミュレーション、気候モデル、医療のAIをカバーしています。
- 大規模な3Dシミュレーションのためのコンピュータ流体力学を加速するために、NVIDIAの研究者チームは、精度と計算効率を組み合わせたニューラルオペレーターアーキテクチャを提案しました。このアーキテクチャは、車両周囲の圧力場を推定するための業界標準の大規模自動車ベンチマークで初めて採用されたDLベースの計算流体力学手法です。この手法は、別のGPUベースのソルバーと比較して、単一のNVIDIA Tensor Core GPU上で100,000倍の高速化を達成し、エラーレートを低減しました。研究者は、オープンソースのneuraloperator libraryを使用して、自分たちのアプリケーションにモデルを組み込むことができます。
- 気候科学者と機械学習研究者のコンソーシアムは、大学、国立研究所、Allen AI、NVIDIAと協力して、物理学と機械学習に基づく気候研究のための大規模なデータセット「ClimSim」を共有します。このデータセットは、高い解像度で複数年にわたって世界中をカバーしており、そのデータを使用して構築された機械学習エミュレータは、既存の気候シミュレータに組み込まれて、より正確な予測を可能にすることができます。これにより、科学者は嵐や他の極端なイベントのより良い予測を行うことができます。
- NVIDIA Researchのインターンたちは、薬物投与の効果に関する個別の予測を行うAIアルゴリズムを紹介するポスターを発表します。研究者たちは、実世界のデータを使用して、異なる用量の治療を受ける患者の血液凝固のモデルの予測をテストしました。また、新しいアルゴリズムを使用した抗生物質バンコマイシンのレベルの予測精度が、以前の手法と比較して有意に改善されたことを分析しました。
NVIDIA ResearchはAI、コンピュータグラフィックス、コンピュータビジョン、自動運転車、ロボティクスなどのトピックに焦点を当てた数百人の科学者とエンジニアで構成されています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- CMUとUCサンタバーバラの研究者は、心理療法における認知の歪み検出のための革新的なAIベースの「思考の診断」を提案しています
- 「UTオースティンの研究者が、LIBEROを導入:意思決定とロボット工学における知識移転を研究するためのライフロング・ロボット・ラーニング・ベンチマーク」
- ストリートビューが救いの手を差し伸べる:ディープラーニングが安全な建物への道を開拓
- MITの研究者らが、言語モデルの解読において、新たなトレーニングフリーかつゲーム理論に基づくAI手法を紹介
- アムステルダム大学とクアルコムAIの研究者がVeRAを発表:LoRAと比べて訓練可能なパラメーターの数を10倍削減する革新的なファインチューニングAI手法
- UCSDとMicrosoftの研究者がColDecoを導入:計算されたカラムのためのノーコード検査ツール
- 中国の新しいAI研究は、ハードウェアラスタライゼーションをサポートし、前例のないレンダリング速度を実現する4Dポイントクラウド表現である4K4Dを提案しています