複数の画像やテキストの解釈 Computer Vision - Section 5

テンセントAI研究所では、GPT4Videoを紹介していますこれは統合マルチモーダル大規模言語モデルであり、指示に従った理解と安全意識のある生成を目指しています

テンセントAIラボとシドニー大学の研究者たちによって、ビデオの理解と生成シナリオの問題がGPT4Videoで解決されました。この...

「マックス・プランク研究所の研究者がPoseGPTを導入：画像やテキストの説明から3D人物のポーズを理解し、論理的に推論するための大規模言語モデル（LLM）を利用した人工知能フレームワーク」

人間の姿勢は、全体的な健康や幸福、さまざまな生活の側面において重要です。座っている、立っている、もしくは寝ている際の...

「RetinaNetとKerasCVを使用した物体検出」

画像セグメンテーションをベースにしたミニプロジェクトを終えた後（こちらをご覧ください）、コンピュータビジョンの一環と...

このAI研究によって、写真-SLAMが発表されました：ポータブルデバイスでのリアルタイム写真写実的マッピングを向上させる

コンピュータビジョンとロボット工学において、カメラによる同時位置推定と地図作成（SLAM）は、自律システムが自ら環境をナ...

「CMU研究者がDiffusion-TTAを発表：類まれなテスト時間適応のために生成的フィードバックで識別的AIモデルを高める」

拡散モデルは、複雑なデータ分布から高品質なサンプルを生成するために使用されます。識別的な拡散モデルは、教師あり分類や...

「DreamSyncに会ってください：画像理解モデルからのフィードバックを用いてテキストから画像の合成を改良する新しい人工知能フレームワーク」

カリフォルニア大学南部、ワシントン大学、バール・イラム大学、およびGoogle Researchの研究者は、人間の注釈、モデルアーキ...

「人間の活動認識におけるディープラーニング：このAI研究は、Raspberry PiとLSTMを使用した適応的なアプローチを導入し、位置に依存しない正確性を高めます」

ヒューマンアクティビティ認識（HAR）は、さまざまなセンサから収集したデータに基づいて、自動的に人間の活動を識別および分...

Google AIとテルアビブ大学の研究者は、テキストから画像への拡散モデルと専門のレンズジオメトリを組み合わせた人工知能フレームワークを提案しています画像のレンダリングに関して、これは画期的なものです

画像生成の最近の進歩は、大規模な拡散モデルを利用した、テキストと画像データのペアで訓練されたもので、多様な条件付け手...

スタビリティAIがアドバーサリアルディフュージョンディスティレーション（ADD）を導入します：最小限のステップでの高精度、リアルタイムイメージ合成の画期的な手法

生成モデリングにおいて、拡散モデル（DM）は、高品質な画像とビデオの合成を進めるための重要な役割を果たしています。拡張...

「Google DeepMind ResearchはSODAを紹介しました：表現学習のために設計された自己教師付き拡散モデル」

Google DeepMindの研究者は、画像を効率的な潜在表現にエンコードする問題に取り組むAIモデル「SODA」を開発しました。SODAに...

Find your business way

Globalization of Business, We can all achieve our own Success.

Advertising with us

Web Analytics