複数の画像やテキストの解釈 AI研究 - Section 41

AI 研究とイノベーションの最前線に留まります

XLang NLP研究所の研究者がLemurを提案：テキストとコードの能力をバランスさせた最先端のオープンプリトレーニング済み大規模言語モデル

言語とテクノロジーの交差点によってますます推進される世界において、多目的かつ強力な言語モデルの需要はかつてなく高まっ...

「インセプション、MBZUAI、そしてCerebrasが『Jais』をオープンソース化：世界最先端のアラビア語大規模言語モデル」の記事が公開されました

大規模言語モデル（GPT-3など）とその社会への影響は、大いに関心と議論の的です。大規模言語モデルは、自然言語処理（NLP）...

横浜の大学の研究者らが提案した「VirSen1.0：センサーに基づく人間のジェスチャー認識システムの開発を効率化するための仮想環境」

ジェスチャー認識技術は、センサーの配置と配置、データの解釈、および機械学習の精度において重大な課題に直面しています。...

このAI研究論文は、視覚の位置推定とマッピングのための深層学習に関する包括的な調査を提供しています

もし私があなたに「今どこにいるの？」または「周りの様子はどうですか？」と尋ねたら、人間の多感覚知覚という独特な能力の...

マイクロソフトの研究者は、2段階の介入フレームワークを使用したオープンボキャブラリー責任ある視覚合成（ORES）を提案しています

ビジュアル合成モデルは、大規模なモデルトレーニングの進歩により、ますます現実的なビジュアルを生成することができるよう...

「スピーチの回復を革新する：スタンフォード主導の研究が制約のないコミュニケーションのための高性能な神経プロステーシスを公開」

脳コンピュータインタフェース（BCI）を用いた音声は、障害によりコミュニケーション能力を失った人々のリハビリに有望な応用...

チューリッヒ大学の研究者たちは、スイフトという自律型ビジョンベースのドローンを開発しましたこのドローンは、いくつかの公平なヘッドトゥヘッドレースで人間の世界チャンピオンに勝つことができます

ファーストパーソンビュー（FPV）ドローンレーシングは、特殊なFPVゴーグルを使用してパイロットがファーストパーソン視点か...

「NTUシンガポールの研究者たちは、テキストから3D生成のための新しいプラグアンドプレイなリファインメントAIメソッドであるIT3Dを提案しています」

テキストから画像への領域で注目すべき進歩があり、研究コミュニティ内で3D生成への拡大に対する熱意の急増が起きています。...

バージニア工科大学とマイクロソフトの研究者がアイデアの探求と推論の能力を高めるAIアプローチ、アルゴリズムオブソウツを紹介

大規模言語モデル（LLM）は最近進歩を遂げ、その有用性がさまざまな問題解決活動についての認識を高めています。これらのモデ...

「The Research Agent 大規模なテキストコーパスに基づいた質問に答える課題への取り組み」

2021年に、大量のテキストコーパスに基づいて質問に答えるという課題に取り組み始めました事前学習済みトランスフォーマーの...

Find your business way

Globalization of Business, We can all achieve our own Success.

Advertising with us

Web Analytics