複数の画像やテキストの解釈 AI研究 – Section 7

研究者たちは、UCバークレー、Microsoft Azure AI、Zoom、UNC-Chapel Hillによって開発されたCoDi-2 Multimodal Large Langua...

複数の候補者から最も一貫性のある回答を選び出し、特に数理推論やコード生成などのタスクのパフォーマンスを向上させる問題...

最近、言語モデルで浮かび上がった主要な問題の一つは、言語モデル（LM）が存在しない記事タイトルへの言及を含む誤った情報...

音声から音声への翻訳（S2ST）は、言語の壁を取り払うための画期的な技術ですが、並行音声データの不足がその進展を妨げてき...

UCバークレーの研究チームが、オープンソースの大規模言語モデル（LLM）であるStarling-7Bを導入しています。このモデルは人...

人間の姿勢は、全体的な健康や幸福、さまざまな生活の側面において重要です。座っている、立っている、もしくは寝ている際の...

コンピュータビジョンとロボット工学において、カメラによる同時位置推定と地図作成（SLAM）は、自律システムが自ら環境をナ...

マシンラーニングは、医療で非常に重要なツールとして登場し、業界のさまざまな側面を革新しています。その主な応用の一つは...

上海人工知能研究所とMIT CSAIの研究者によって開発された階層的ゲート付き再帰ニューラルネットワーク（HGRN）技術は、線型R...

科学者たちは、アルゴリズムによって個々の人のワインの好みをより正確に予測する方法を教えました

複数の画像やテキストの解釈 AI研究 - Section 7