複数の画像やテキストの解釈 Computer Vision - Section 20

「エアガーディアンと出会ってください：目の追跡技術を使用して、MITの研究者たちが開発した人間のパイロットがどこを見ているかを追跡する人工知能システム」

自律的なシステムがますます普及している世界において、その安全性とパフォーマンスの確保は非常に重要です。特に自律型の航...

ウェイモのMotionLMを紹介します：最新型のマルチエージェントモーション予測アプローチで、大規模言語モデル（LLM）が自動車の運転をサポートできるようにする可能性のあるものです

オートリグレッション言語モデルは、あらかじめ定義された文法や構文解析の概念を必要とせずに、文章内の次のサブワードを予...

UC BerkeleyとUCSFの研究者が神経ビデオ生成を革新します：高度な空時的ダイナミクスのためのLLM-Groundedビデオ拡散（LVD）の紹介

テキストのプロンプトからビデオを生成する際に直面する課題に対応するため、研究者のチームがLLM-Grounded Video Diffusion...

私たちは本当に人工知能AIウォーターマーキングを信頼できるのでしょうか？このAI論文は、現在のディープフェイクの防御方法の脆弱性を暴きます

生成型人工知能の領域における急速な進歩は、デジタルコンテンツの制作の風景に重要な変化をもたらしました。これらのAIアル...

Google DeepMindは、直接報酬微調整（DRaFT）を導入しました：微分可能な報酬関数を最大化するための効果的な人工知能手法における拡散モデルの微調整

拡散モデルは、さまざまなデータタイプでの生成モデリングを革新しました。ただし、テキストの説明から見た目の良い画像を生...

3Dインスタンスセグメンテーションにおける境界の打破：改善された疑似ラベリングと現実的なシナリオを備えたオープンワールドアプローチ

オブジェクトインスタンスレベルの分類と意味的なラベリングを提供することにより、3D意味インスタンスセグメンテーションは...

コンセプトグラフの紹介：３Dシーンのためのオープンボキャブラリーグラフ構造表現

視覚シーンに関する情報をキャプチャして符号化することは、コンピュータビジョン、人工知能、またはグラフィックスのコンテ...

デット (物体検出用トランスフォーマー）

注意：この記事は、コンピュータビジョンの複雑な世界について探求し、特にトランスフォーマーとアテンションメカニズムに焦...

Google DeepMindは、1M以上の軌跡データと汎用AIモデル（𝗥𝗧-X）を含むロボットデータセットであるOpen X-Embodimentをリリースし、ロボットが新しいスキルを学ぶ方法を進化させるための支援を行います

人工知能と機械学習の最新の進展は、多様で広範なデータセットからの大規模な学習能力を示し、非常に効果的なAIシステムの開...

中国の研究者が「ImageReward」という画期的な人工知能アプローチを発表人間の好みフィードバックを利用してテキストから画像のモデルを最適化する方法です

最近の数年間で、テキストから画像を生成するモデルの進歩は著しいものがあります（具体的には、自己回帰型や拡散ベースの手...

Find your business way

Globalization of Business, We can all achieve our own Success.

Advertising with us

Web Analytics