複数の画像やテキストの解釈 AI Shorts - Section 111

USCの研究者は、新しい共有知識生涯学習（SKILL）チャレンジを提案しましたこのチャレンジでは、分散型のLLエージェントの集団が展開され、各エージェントが個別に異なるタスクを順次学習し、全てのエージェントが独立かつ並行して動作します

研究者による画期的な取り組みにより、共有知識生涯学習（SKILL）の開発を通じて機械学習の新時代が到来しました。最近発表さ...

「パッチのせいかもしれませんか？このAIアプローチは、ビジョントランスフォーマーの成功における主要な貢献要素を分析します」

畳み込みニューラルネットワーク（CNN）はコンピュータビジョンのタスクのバックボーンとなってきました。オブジェクト検出か...

「SUSTech VIP研究室が、高性能なインタラクティブトラッキングとセグメンテーションを実現するトラックアニシングモデル（TAM）を提案する」

ビデオアイテムトラッキング（VOT）は、制約のない状況で未知のアイテムを追跡する重要性により、コンピュータビジョン研究の...

学習率のチューニングにうんざりしていますか？DoGに会ってみてください：堅牢な理論的保証に裏打ちされたシンプルでパラメータフリーの最適化手法

テルアビブ大学の研究者は、学習率パラメータを必要とせず、経験的な量のみに依存する調整フリーの動的SGDステップサイズ公式...

このAI論文は、3Dワールドを大規模言語モデルに注入し、新しい3D-LLMのファミリーを導入することを提案しています

ここ数年、大型言語モデル（LLM）（GPT4など）の数が増加しており、コミュニケーションや常識的な推論など、さまざまなタスク...

マイクロソフトのAIチームがNaturalSpeech 2を発表：強力なゼロショット音声合成と向上した感情表現のための潜在的拡散モデルを備えた最先端のTTSシステム

テキストから音声（TTS）の目標は、それがリアルな人が話したような高品質で多様な音声を生成することです。プロソディ、話者...

「ディープラーニングベースのフレームワークを使用した高速かつ正確な音響ホログラム生成」

DGIST電気工学およびコンピュータサイエンス学科の黄宰潤教授率いるチームは、ホログラムに基づいたリアルタイムでの焦点超音...

韓国のこの人工知能（AI）論文では、FFNeRVという新しいフレーム単位のビデオ表現が提案されていますフレーム単位のフローマップと多重解像度の時空グリッドを使用しています

最近では、ニューラルネットワークを用いて座標を数量（スカラーまたはベクトル）にマッピングして信号を表すニューラルフィ...

「Rodinに会ってください：さまざまな入力ソースから3Dデジタルアバターを生成する革新的な人工知能（AI）フレームワーク」

生成モデルは、コンピュータサイエンスの多くの困難なタスクに対する事実上の解決策となっています。それらは視覚データの分...

「デバイス内AIの強化 QualcommとMetaがLlama 2テクノロジーと共同開発」

Metaの新しいオープンソースのLlama 2のリリースにより、大規模言語モデル（LLMs）の使用事例についての議論が起こっています...

Find your business way

Globalization of Business, We can all achieve our own Success.

Advertising with us

Web Analytics