複数の画像やテキストの解釈 AI研究 - Section 29

AI 研究とイノベーションの最前線に留まります

「AIが研究論文内の問題のある画像を見つける点で、人間の捜査官を打ち負かす」

独立した英国の生物学者ショルト・デイビッドの研究によると、人工知能は研究論文の画像加工を人間よりも速く正確に特定する...

このAI研究では、SMPLer-Xという名前のモデルを提案していますこれは一般的な基礎モデルであり、モノクル入力から3D/4D人体のモーションキャプチャを行います

アニメーション、ゲーム、ファッションの分野は、単眼写真や動画からの表現的な人体の姿勢と形状推定（EHPS）の画期的な分野...

GoogleとJohns Hopkins Universityの研究者は、テキストから画像生成のためのより速く効率的な蒸留方法を明らかにします：拡散モデルの制限を克服する

高品質で多様な効果を生み出すことにより、大規模データで訓練されたテキストから画像への変換モデルは、生成タスクを大幅に...

スタンフォードの研究者たちは、分散変換の問題に適したシンプルかつスケーラブルな拡張であるDDBMsを提案しています

拡散モデルは最近、人工知能コミュニティで多くの成功と注目を浴びています。生成モデルの一種であるこれらのモデルは、デー...

このAI研究は「カンディンスキー1」という新しい手法を発表しました：COCO-30Kで優れたFIDスコアを持つ潜在拡散テキストから画像生成

“` 近年、コンピュータビジョンと生成モデリングは驚異的な進歩を遂げ、テキストから画像を生成する技術の発展につなが...

このAI研究は「Kosmos-G」という人工知能モデルを提案していますこれは、マルチモデルLLMsの特性を活用して、一般的なビジョン-言語入力から高品質なゼロショット画像生成を行うものです

“`html 最近、テキストの説明から画像を作成したり、テキストと画像を組み合わせて新しい画像を生成したりすることにお...

取りましょう NVIDIA NeMo SteerLMは、推論中にモデルの応答をカスタマイズすることができるようにします

開発者は、強力な大規模な言語モデル（LLMs）を自分たちの目的地に到達する際に、AIパワードステアリングホイールを利用して...

バイトダンスとキング・アブドゥッラー科学技術大学のAI研究者が、静止したポートレート写真の髪の毛を揺らすための新しいフレームワークを発表します

髪は人間の身体の中でも最も印象的な特徴の1つであり、そのダイナミックな特性によってシーンが生き生きと表現されます。研究...

Uncategorized

スタンフォード大学の研究者たちは、MLAgentBenchを提案しました：AI研究エージェントのベンチマーキングのためのマシンラーニングタスクのスイート

人間の科学者は未知の深みを探索し、さまざまな未確定の選択を要する発見をすることができます。科学的な知識に裏打ちされた...

「UCSDとByteDanceの研究者が、アクターズネルフ（ActorsNeRF）を発表：未知の俳優にも対応するアニメータブルな人間アクターネルフモデルで、フューショット設定の環境に汎化する」という意味です

Neural Radiance Fields（NeRF）は、2D画像またはまばらな3Dデータから3Dシーンとオブジェクトをキャプチャするための強力な...

Find your business way

Globalization of Business, We can all achieve our own Success.

Advertising with us

Web Analytics