複数の画像やテキストの解釈 Applications - Section 97

「ペンの向こう側：視覚的な原型からの手書きテキスト生成におけるAIの芸術性」

個々の作家の独自の書道スタイルを再現する手書きテキスト生成（HTG）という新興の分野は、手書きテキスト認識（HTR）モデル...

CMUの研究者たちは、視覚的な先行知識をロボティクスのタスクに転送するためのシンプルなディスタンスラーニングAIメソッドを開発しました：ベースラインに比べてポリシーラーニングを20％改善

ロボット学習における重要な障壁の一つは、十分な大規模データセットの不足です。ロボティクスのデータセットには、(a)スケー...

「MITとハーバードの研究者は、脳内の生物学的な要素を使ってトランスフォーマーを作る方法を説明する可能性のある仮説を提出しました」

I had trouble accessing your link so I’m going to try to continue without it. 人工ニューラルネットワークは、機...

Google DeepMindの研究者は、機能を維持しながら、トランスフォーマーベースのニューラルネットワークのサイズを段階的に増やすための6つの組み合わせ可能な変換を提案しています

最近、トランスフォーマベースのニューラルネットワークは注目を集めています。トランスフォーマーアーキテクチャ（図1参照）...

このNYUとGoogleの論文は、クロスモーダル表現におけるシーケンス長の不一致を克服するための共同音声テキストエンコーダの仕組みを説明しています

I had trouble accessing your link so I’m going to try to continue without it. 非常に大きなモデルが、単一のモダ...

『Photoshopを越えて：Inst-Inpaintが拡散モデルでオブジェクト除去を揺るがす』

画像修復は古代の技術です。それは画像から不要なオブジェクトを削除し、欠落しているピクセルを埋めることで、完成した画像...

「Transformerベースの拡散モデルによる画像生成の革新的なアーキテクチャイノベーションを実現するDiffusion Transformers（DiTs）」

機械学習の領域は、トランスフォーマーベースのアーキテクチャの出現により、自然言語処理、コンピュータビジョンなどの各種...

「NTUとSenseTimeの研究者が提案するSHERF：単一の入力画像からアニメーション可能な3D人間モデルを復元するための汎用的なHuman NeRFモデル」

人工知能（AI）およびディープラーニングの分野は、常に急速に進化しています。自然言語処理に基づく大規模な言語モデルから...

「GPT4のデータなしでコードLLMのインストラクションチューニングを行う方法は？ OctoPackに会いましょう：インストラクションチューニングコード大規模言語モデルのためのAIモデルのセット」

大規模言語モデル（LLM）の使いやすさと全体的なパフォーマンスは、指示を介して提供されるさまざまな言語タスク（指示チュー...

このUCLAのAI研究によると、大規模な言語モデル（例：GPT-3）は、様々なアナロジー問題に対してゼロショットの解決策を獲得するという新たな能力を獲得していることが示されています

類推的な推論は、人間の知性と創造力の基盤となるものです。未知の課題に直面した際、個人は順序立ててそれらをより理解しや...

Find your business way

Globalization of Business, We can all achieve our own Success.

Advertising with us

Web Analytics