複数の画像やテキストの解釈 AI研究 - Section 43

AI 研究とイノベーションの最前線に留まります

ワシントン大学とAI2の研究者が、VQAを介してAIが生成した画像の忠実度を測定する自動評価指標であるTIFAを紹介します

テキストから画像を生成するモデルは、人工知能の進歩の最も良い例の一つです。研究者たちの持続的な進歩と努力により、これ...

Google Researchにおける責任あるAI：パーセプションの公平性

Google ResearchのPerception Fairnessチームの共同リーダーであるSusanna RiccoとUtsav Prabhuが投稿しました。 Googleの責...

Googleの研究者たちは、RO-ViTを紹介しますこれは、オープンボキャブラリー検出の改善のため、リージョンに意識を向けた方法でビジョントランスフォーマーを事前トレーニングするためのシンプルなAI手法です

最近の進歩により、コンピュータは人間の視覚のように、世界から視覚情報を解釈し理解することができるようになりました。画...

「Google DeepMindの研究者が、チェスの課題に取り組むためのAIの多様性の力を明らかにする：計算問題解決における次の飛躍、AZ_dbの紹介」

人工知能はその領域をほぼすべての分野に広げ、私たちはほぼすべての生活の分野でその応用を見つけることができます。いくつ...

ウィスコンシン大学マディソン校の研究者たちは、「エベントフルトランスフォーマー：最小限の精度損失でコスト効果のあるビデオ認識手法」というタイトルで、イベントフルトランスフォーマーに基づくビデオ認識の費用対効果の高い手法を提案しています

最近、言語モデリングを目的としたTransformerは、ビジョン関連のタスクのアーキテクチャとしても研究されています。オブジェ...

「LLMはナレッジグラフを取って代わるのか？メタリサーチャーが提案する『ヘッド・トゥ・テイル』：大規模言語モデルの事実知識を測るための新たな基準」

大規模言語モデルは、その超すばらしい能力によって多くの評価を集めています。彼らは人間を模倣し、人間のようにコンテンツ...

アリババの研究者は、Qwen-VLシリーズを紹介しますこれは、テキストと画像の両方を認識し理解するために設計された大規模なビジョン・ランゲージ・モデルのセットです

最近、大規模言語モデル（LLM）は、強力なテキスト生成能力と理解能力を持つため、多くの関心を集めています。これらのモデル...

研究者たちは、ロボットが手全体を使って複雑な計画を立てることができるようにするAIを開発しました

「ロボットにとって、人間にとって自然な全身の操作という緻密な技能は、機械にとっての課題でしたしかし、MITの研究者たちは...

『広範な展望：NVIDIAの基調講演がAIの更なる進歩の道を指し示す』

ハードウェア性能の劇的な向上により、生成型AIが生まれ、将来の高速化のアイデアの豊富なパイプラインが構築され、機械学習...

「この新しいAI研究は、事前学習されたタンパク質言語モデルを幾何学的深層学習ネットワークに統合することで、タンパク質構造解析を進化させます」

科学的な探求には、魅力的で複雑な構造を持つタンパク質による魅力的で不思議な方法で重要な生物学的プロセスを支配する分子...

Find your business way

Globalization of Business, We can all achieve our own Success.

Advertising with us

Web Analytics