複数の画像やテキストの解釈 Applications - Section 45

イメージの中の数学を解読する：新しいMathVistaベンチマークがビジュアルと数理推論のAIの限界を押し広げている方法

数学的な推論能力を大型言語モデル（LLM）および大型マルチモーダルモデル（LMM）が視覚的な文脈で評価するためのベンチマー...

「グーグルのAI研究によると、グラフデータのエンコーディングが言語モデルのパフォーマンスを複雑なタスクに向上させることが明らかになりました」

近年、大型言語モデル（LLM）の研究と応用は著しく進歩しています。これらの生成モデルは人工知能コミュニティを魅了し、様々...

テンセントAIラボは、進行的条件拡散モデル（PCDM）を紹介しましたこれにより、3つのステージを経て、ターゲットおよびソースのポーズ下のパーソンイメージ間のギャップを徐々に縮めます

ポーズガイドの人物画像合成の研究では、同じ外観を持つ人物の画像を異なるポーズで生成することに重点を置き、近年、大きな...

UCバークレーとスタンフォード大学の研究者が、複数の教師からの報酬を学習するための人工知能フレームワークである「Hidden Utility Bandit（HUB）」を紹介しました

強化学習（RL）において、学習プロセスに人間からのフィードバックを効果的に統合することは、重要な課題として浮上していま...

スタンフォードの研究者たちは、「EquivAct」というロボット学習における画期的な提案を行いましたこの提案は、異なる規模や方向でのタスクを一般化するためのものです

人間は、標準的なオブジェクトでタスクを完了する方法のわずかな例だけを与えられた場合でも、対象物の視覚的または物理的属...

このAIの論文は、インコンテキスト学習の秘密を解き明かすものです：言語モデルがベクトルマジックに関数をエンコードする方法

自己回帰トランスフォーマーモデルでは、関数ベクトル（FV）として知られるコンパクトなベクトルで入出力関数を表現するニュ...

「HITL-TAMPを紹介します：自動計画と人間の制御のハイブリッド戦略を通じて、ロボットに複雑な操作スキルを教えるための新しいAIアプローチ」

ロボットに複雑な操作スキルを教えるための人間のデモンストレーションの観察は、有望な結果を示しています。操作のデモを提...

CommonCanvasをご紹介します：クリエイティブ・コモンズの画像を使ってトレーニングされたオープンな拡散モデル

人工知能は近年、テキストから画像生成において大きな進歩を遂げています。文章の説明を視覚的な表現に変換することは、コン...

UC San Diegoの研究者がTD-MPC2を発表：多様な領域でのモデルベースの強化学習の革命化

大きな言語モデル（LLM）は、人工知能と機械学習の進歩のおかげで絶えず改善されています。 LLMは、自然言語処理、自然言語理...

このAI研究では、「DreamCraft3D」という、結束力のある高精細な3Dモデルを生成するための階層的な手法を紹介しています

“` 2D生成モデリングの信じられないほどの人気は、ビジュアル素材の制作方法に大きな影響を与えています。3Dファブリッ...

Find your business way

Globalization of Business, We can all achieve our own Success.

Advertising with us

Web Analytics