複数の画像やテキストの解釈 Editors Pick - Section 30

『NVIDIAの研究者たちが、現行のCTCモデルと互換性のあるGPU加速の重み付き有限状態トランスデューサ(WFST)ビームサーチデコーダを導入』

最近の人工知能の人気を受けて、自動音声認識(ASR)の分野は非常に進歩しました。これによって音声認識技術や人間とコンピュ...

MetaがEmuビデオとEmu編集を発表:テキストからビデオ生成と精密画像編集の先駆的な進化

急速に進化する生成AIの分野では、効率的で高品質なビデオ生成モデルや正確で多目的な画像編集ツールの実現に向けて課題が残...

UCバークレーの研究者は、目的指向の対話エージェントのゼロショット獲得を実現する人工知能アルゴリズムを提案しています

大容量の言語モデル(LLM)は、テキスト要約、質問応答、コード生成などのさまざまな自然言語タスクにおいて優れた能力を発揮...

このAI論文は、高度な潜在的一致モデルとLoRA蒸留によってテキストから画像を生成するタスクを革新するLCM-LoRAを紹介しています

潜在拡散モデルは機械学習における生成モデルであり、特に確率モデリングで使用されます。これらのモデルはデータセットの潜...

ワシントン大学とデューク大学の研究者たちは、Punicaを紹介しました:共有GPUクラスタで複数のLoRAモデルを提供するための人工知能システム

少ないトレーニングデータで特定のドメイン用の事前学習済みの大規模言語モデル(LLM)に特化するために、低ランク適応または...

「JARVIS-1に会おう:メモリ拡張型マルチモーダル言語モデルを持つオープンワールドマルチタスクエージェント」

北京大学、UCLA、北京邮电大学和北京智能综合研究所的研究人员介绍了一种名为JARVIS-1的多模态代理,该代理用于Minecraft中的...

Find your business way

Globalization of Business, We can all achieve our own Success.

Advertising with us