複数の画像やテキストの解釈 AI研究 - Section 46

AI 研究とイノベーションの最前線に留まります

「MITの研究者が深層学習と物理学を使用して、動きによって損傷を受けたMRIスキャンを修正する」

MRI（磁気共鳴画像）スキャンは、大型磁石、電波、およびコンピュータを使用して体内の構造を明確に映し出すテストです。医療...

Google AI Researchは、大規模言語モデル（LLM）を使用した個別のテキスト生成の一般的なアプローチを提案しています

AIを利用したコンテンツ生成を容易にするためにAIベースの技術が台頭してきたことで、個別のテキスト生成が注目されています...

NVIDIAの最高科学者、ビル・ダリー氏がHot Chipsで基調講演を行う

ビル・ダリー（NVIDIAの研究部門の責任者であり、世界有数のコンピュータ科学者の一人）は、Hot Chipsという年次のプロセッサ...

コーネル大学の研究者たちは、不連続処理を伴う量子化（QuIP）を導入しましたこれは、量子化が不連続な重みとヘシアン行列から利益を得るという洞察に基づく新しいAIの手法です

大規模言語モデル（LLM）によって、テキスト作成、フューショット学習、推論、タンパク質配列モデリングなどの領域で改善が可...

「マイクロソフトの研究者がSpeechXを紹介：ゼロショットのTTSと様々な音声変換タスクに対応する多目的音声生成モデル」

テキスト、ビジョン、音声など、複数の機械学習アプリケーションは、生成モデルの技術において急速かつ重要な進展を遂げてき...

「スタンフォード大学の研究者が自然な視覚の解読を解明し、新しいモデルが目が視覚シーンを解読する方法を明らかにする」

感覚神経科学の分野における基本的な目標は、自然な視覚シーンを処理するのに責任のある神経コードの複雑なメカニズムを理解...

アリババの研究者たちは、ChatGPTのような現代のチャットボットの指示に従う能力を活用した、オープンセットの細かいタグ付けツールであるINSTAGを提案しています

ChatGPTのような大規模な言語モデルが指示に従う能力をどのように獲得するのか、考えたことはありますか？さまざまな基礎言語...

新しい研究によって、テキストをスムーズに音声化することができるようになりました | Google

テキスト音声（マルチモーダルモデル）のトレーニングには独自の問題がありますオーディオサンプルレートが高い場合、オーデ...

このAI研究では、詳細な全身のジオメトリと高品質のテクスチャを持つ、リアルな3Dの服を着た人物を、単一の画像から再構築するためのテクノロジー（TeCH）を提案します

ハイフィデリティゲーム、ソーシャルネットワーキング、教育、eコマース、没入型テレプレゼンスなど、多くの拡張現実と仮想...

「MITとハーバードの研究者が提案する(FAn)：SOTAコンピュータビジョンとロボティクスシステムの間のギャップを埋める包括的なAIシステム- 任意のオブジェクトのセグメンテーション、検出、追跡、および追従のためのエンドツーエンドのソリューションを提供する」

MITとハーバード大学の研究者チームが新しいAI研究で、画期的なフレームワーク「Follow Anything」（FAn）を紹介しました。こ...

Find your business way

Globalization of Business, We can all achieve our own Success.

Advertising with us

Web Analytics