複数の画像やテキストの解釈 AI研究 - Section 22

AI 研究とイノベーションの最前線に留まります

スタンフォードの研究者たちは、「EquivAct」というロボット学習における画期的な提案を行いましたこの提案は、異なる規模や方向でのタスクを一般化するためのものです

人間は、標準的なオブジェクトでタスクを完了する方法のわずかな例だけを与えられた場合でも、対象物の視覚的または物理的属...

UC San Diegoの研究者がTD-MPC2を発表：多様な領域でのモデルベースの強化学習の革命化

大きな言語モデル（LLM）は、人工知能と機械学習の進歩のおかげで絶えず改善されています。 LLMは、自然言語処理、自然言語理...

このAI研究では、「DreamCraft3D」という、結束力のある高精細な3Dモデルを生成するための階層的な手法を紹介しています

“` 2D生成モデリングの信じられないほどの人気は、ビジュアル素材の制作方法に大きな影響を与えています。3Dファブリッ...

中国の研究者たちは、RetriKTと呼ばれる新しい圧縮パラダイムを導入しました：大規模な事前学習済み言語モデルの実世界アプリケーションへの展開を革命化するものです

自然言語処理（NLP）のアプリケーションでは、事前学習済み言語モデル（PLMs）であるBERT/RoBERTaを含む、卓越したパフォーマ...

中国の研究者が提案する、新しい知識統合における大規模言語モデルの評価における画期的な人工知能ベンチマーク「ALCUNA」

大規模言語モデル（LLM）の新しい知識の取り扱い能力を評価することは困難です。北京大学の研究者たちは、既存のエンティティ...

このOpenAIの研究では、DALL-E 3を紹介していますこのモデルは、より高度なプロンプトの追従機能を備えたテキストから画像への変換を革新しています

人工知能の中で、テキストから画像を生成するモデルの改善が注目を集めています。この分野で注目すべき存在であるDALL-E 3は...

「Appleの研究者たちは、動的なポーズのRGB画像からの密集3D再構築において、画期的な人工知能アプローチを紹介する」

学習済みの先行知識を活用することで、モノクルカメラによるRGBのみの再構成は、低テクスチャ領域の課題や画像ベースの再構成...

ISTAオーストリアとニューラルマジックの研究者が、トリリオンパラメータの言語モデルの効率的な実行のための革命的な圧縮フレームワークであるQMoEを紹介

複数の専門サブネットワークの出力を組み合わせて予測や意思決定を行うために設計されたニューラルネットワークモデルは、エ...

メタとUNC-Chapel Hillの研究者は、「Branch-Solve-Merge」という革新的なプログラムを導入しました：複雑な言語課題における大規模言語モデルの性能を向上させるプログラム

「BRANCH-SOLVE-MERGE（BSM）」は、複雑な自然言語タスクにおける大規模な言語モデル（LLM）を向上させるためのプログラムで...

CMU（カーネギーメロン大学）およびNYU（ニューヨーク大学）の研究者たちは、大規模言語モデル（LLM）を用いたゼロショット時系列予測のための人工知能メソッド「LLMTime」を提案しています

“`html 他のテキストや音声、ビデオなどのシーケンスモデリングの問題といくつかの類似点があるにもかかわらず、時系列...

Find your business way

Globalization of Business, We can all achieve our own Success.

Advertising with us

Web Analytics