複数の画像やテキストの解釈 Machine learning - Section 118
「パッチのせいかもしれませんか? このAIアプローチは、ビジョントランスフォーマーの成功における主要な貢献要素を分析します」
畳み込みニューラルネットワーク(CNN)はコンピュータビジョンのタスクのバックボーンとなってきました。オブジェクト検出か...
「SUSTech VIP研究室が、高性能なインタラクティブトラッキングとセグメンテーションを実現するトラックアニシングモデル(TAM)を提案する」
ビデオアイテムトラッキング(VOT)は、制約のない状況で未知のアイテムを追跡する重要性により、コンピュータビジョン研究の...
学習率のチューニングにうんざりしていますか?DoGに会ってみてください:堅牢な理論的保証に裏打ちされたシンプルでパラメータフリーの最適化手法
テルアビブ大学の研究者は、学習率パラメータを必要とせず、経験的な量のみに依存する調整フリーの動的SGDステップサイズ公式...
このAI論文は、3Dワールドを大規模言語モデルに注入し、新しい3D-LLMのファミリーを導入することを提案しています
ここ数年、大型言語モデル(LLM)(GPT4など)の数が増加しており、コミュニケーションや常識的な推論など、さまざまなタスク...
マイクロソフトのAIチームがNaturalSpeech 2を発表:強力なゼロショット音声合成と向上した感情表現のための潜在的拡散モデルを備えた最先端のTTSシステム
テキストから音声(TTS)の目標は、それがリアルな人が話したような高品質で多様な音声を生成することです。プロソディ、話者...
「ディープラーニングベースのフレームワークを使用した高速かつ正確な音響ホログラム生成」
DGIST電気工学およびコンピュータサイエンス学科の黄宰潤教授率いるチームは、ホログラムに基づいたリアルタイムでの焦点超音...
韓国のこの人工知能(AI)論文では、FFNeRVという新しいフレーム単位のビデオ表現が提案されていますフレーム単位のフローマップと多重解像度の時空グリッドを使用しています
最近では、ニューラルネットワークを用いて座標を数量(スカラーまたはベクトル)にマッピングして信号を表すニューラルフィ...
「Rodinに会ってください:さまざまな入力ソースから3Dデジタルアバターを生成する革新的な人工知能(AI)フレームワーク」
生成モデルは、コンピュータサイエンスの多くの困難なタスクに対する事実上の解決策となっています。それらは視覚データの分...
「デバイス内AIの強化 QualcommとMetaがLlama 2テクノロジーと共同開発」
Metaの新しいオープンソースのLlama 2のリリースにより、大規模言語モデル(LLMs)の使用事例についての議論が起こっています...
マイクロソフトが「TypeChat」をリリース:型を使用して自然言語インターフェースを簡単に構築できるAIライブラリ
MicrosoftのTypeChatライブラリは、大規模な言語モデル(LLM)に基づいたタイプベースの自然言語インターフェースの作成を容...
- You may be interested
- アマゾンのSageMakerジオスペーシャル機能...
- 注文事項:AIが逆順に苦戦する理由
- 「NTUシンガポールの研究者が、3Dポイント...
- 「Amazon SageMaker Model Registry、Hash...
- Pythonコードを最小限使用して、サイバー...
- 「すべてのデータを理解する」
- 「エンジニアたちが、心臓の右室のロボッ...
- DeepSpeedとAccelerateを使用した非常に高...
- 「GoogleがニュースライターAI ‘Gen...
- ミストラルAI (8x7b)、専門家(MoE)モデ...
- AIが開発者の生活を簡単にする10の方法
- 「単なる爬虫類以上:ブラックボックスモ...
- 研究者たちは、磁気のトリックを使って、...
- 会話の魔法を解き放つ:ChatGPTをReact.js...
- ゲームにおける人工知能の現代の8つの例
Find your business way
Globalization of Business, We can all achieve our own Success.