複数の画像やテキストの解釈 Applications – Section 77

最近、大規模言語モデル（LLM）はNLPとマルチモーダルタスクで優れた成績を収めていますが、高い計算コストと公正な評価の困...

ChatGPT、Bard、そしてBingは、Usain Boltが100mを走るよりもAI生成のコンテンツをより速く出力することができます。しかし、...

人工知能（AI）の大規模言語モデル（LLM）は、テキストを生成したり、言語を翻訳したり、さまざまな形式の創造的な素材を書い...

マイクロソフトリサーチアジアの研究者たちは、適応性のある汎用的なビジョンモデルに向けた画期的な進展であるInstructDiffu...

単一かつ包括的なモデルを作成し、さまざまなユーザー定義のタスクを処理できるようにすることは、人工知能（AI）研究の分野...

データをグラフ構造で表現するための、ますます人気のある方法は、知識グラフ（KG）の使用です。KGは、s（主語）とo（目的語...

下流の自然言語処理（NLP）タスクにおいて、大規模言語モデル（LLMs）は非常に効果的であることが証明されています。GPT4やCh...

複雑な物理的タスク、例えば困難な環境でのナビゲーションなどをロボットに実行させるという課題は、ロボティクスにおいて長...

画像対画像変換（I2I）は、コンピュータビジョンと機械学習の興味深い分野であり、視覚コンテンツをシームレスに別のドメイン...

テキストから画像への変換（T2I）システムであるDALL-E2、Imagen、Cogview、Latent Diffusionなどは、近年大きな進歩を遂げて...

複数の画像やテキストの解釈 Applications - Section 77