複数の画像やテキストの解釈 Editors Pick - Section 46

UC San Diegoの研究者DYffusion：空間的時間予測のためのダイナミクスに基づく拡散モデル

ダイナミックシステムの将来の振る舞いを予測することは、システムの進化を駆動する基礎的なダイナミクスを理解し、将来の状...

Google AIがSpectronを導入：スペクトログラムを入力および出力として直接処理する、最初のスポークンランゲージAIモデルとしてエンドツーエンドでトレーニングされたものです

音声継続および質疑応答型のLLMsは、さまざまなタスクや産業に適用できる多才なツールであり、生産性の向上、ユーザーエクス...

マシンラーニングの革命：光フォトニックアクセラレータでの3D処理の活用による高度な並列処理とエッジコンピューティングの互換性の実現

技術の進歩と機械学習の台頭により、データのボリュームは増加しています。世界のデータ生産は2020年には64.2ゼタバイトに達...

「GlotLIDをご紹介します：1665言語に対応するオープンソースの言語識別（LID）モデル」

近年、異なる国境間でのコミュニケーションが絶えず進展している中で、言語の包括性は重要です。自然言語処理（NLP）技術は、...

Appleの研究者がマトリョーシカ拡散モデル（MDM）を紹介する：高解像度の画像とビデオの合成のためのエンドツーエンドの人工知能フレームワーク

近年、大規模言語モデルは驚くべき能力を示しています。特に、ディフュージョンモデルは3Dモデリングやテキスト生成から画像...

中国からのニューエーアイ研究は、GLM-130Bを紹介しますこれは、13兆のパラメータを持つバイリンガル（英語と中国語）のプリトレーニング言語モデルです

最近、大規模言語モデル（LLM）のゼロショットおよびフューショットの能力は大幅に向上し、100Bパラメータ以上を持つモデルは...

イメージの中の数学を解読する：新しいMathVistaベンチマークがビジュアルと数理推論のAIの限界を押し広げている方法

数学的な推論能力を大型言語モデル（LLM）および大型マルチモーダルモデル（LMM）が視覚的な文脈で評価するためのベンチマー...

「グーグルのAI研究によると、グラフデータのエンコーディングが言語モデルのパフォーマンスを複雑なタスクに向上させることが明らかになりました」

近年、大型言語モデル（LLM）の研究と応用は著しく進歩しています。これらの生成モデルは人工知能コミュニティを魅了し、様々...

テンセントAIラボは、進行的条件拡散モデル（PCDM）を紹介しましたこれにより、3つのステージを経て、ターゲットおよびソースのポーズ下のパーソンイメージ間のギャップを徐々に縮めます

ポーズガイドの人物画像合成の研究では、同じ外観を持つ人物の画像を異なるポーズで生成することに重点を置き、近年、大きな...

UCバークレーとスタンフォード大学の研究者が、複数の教師からの報酬を学習するための人工知能フレームワークである「Hidden Utility Bandit（HUB）」を紹介しました

強化学習（RL）において、学習プロセスに人間からのフィードバックを効果的に統合することは、重要な課題として浮上していま...

Find your business way

Globalization of Business, We can all achieve our own Success.

Advertising with us

Web Analytics