このAI研究は「Kosmos-G」という人工知能モデルを提案していますこれは、マルチモデルLLMsの特性を活用して、一般的なビジョン-言語入力から高品質なゼロショット画像生成を行うものです

美容・ファッションのエキスパートが贈る、魅力的で生き生きとした記事をご紹介します

“`html

最近、テキストの説明から画像を作成したり、テキストと画像を組み合わせて新しい画像を生成したりすることにおいて、大きな進歩がありました。しかし、未開拓の領域として、一つの舞台や複数の物体や人物を含むシーンの説明から画像を生成するというものがあります。Microsoft Research、ニューヨーク大学、ウォータールー大学の研究チームが、この問題に取り組むためにマルチモーダルLLMを活用したモデルであるKOSMOS-Gを提案しました。

KOSMOS-Gは、複雑なテキストと複数の画像の組み合わせから詳細な画像を生成することができます。例えそれがこれまでに見たことのない組み合わせであっても、問題ありません。これまでにないモデルであり、ある説明に基づいてさまざまな物体や事物が写っている画像を生成することができます。KOSMOS-Gは、CLIPの代わりに使用することができ、ControlNetやLoRAなどの他の技術を使用するための新しい可能性を開拓します。

KOSMOS-Gは、テキストと画像から画像を生成するための賢いアプローチを使用しています。まず、テキストと画像を理解することができるマルチモーダルLLMをトレーニングします。次に、テキストを理解することに優れたCLIPテキストエンコーダと整列させます。

KOSMOS-Gにテキストとセグメント化された画像のキャプションを与えると、指示に合った説明を持つ画像を生成するためにトレーニングされます。事前にトレーニングした画像デコーダを使用し、さまざまな状況で正確な画像を生成するために学んだ内容を活用します。

KOSMOS-Gは、指示と入力データに基づいて画像を生成することができます。トレーニングには3つのステージがあります。第一ステージでは、モデルはマルチモーダルコーパスに対してプリトレーニングされます。第二ステージでは、AlignerNetがKOSMOS-Gの出力空間をU-Netの入力空間にCLIPの指示によって整列させるようにトレーニングされます。第三ステージでは、KOSMOS-Gはキュレーションされたデータに基づいた構成生成タスクによって微調整されます。ステージ1では、MLLMのみがトレーニングされます。ステージ2では、MLLMは固定されたままでAlignerNetがトレーニングされます。ステージ3では、AlignerNetとMLLMの両方が共同でトレーニングされます。画像デコーダはすべてのステージで固定されたままです。

KOSMOS-Gは、さまざまな設定でのゼロショット画像生成において本当に優れています。意味を成し、良く見え、異なるカスタマイズが可能な画像を作成することができます。文脈を変えたり、特定のスタイルを加えたり、変更を加えたり、画像に追加の詳細を追加するなどの機能があります。KOSMOS-Gはゼロショット設定でのマルチエンティティVL2Iを実現した最初のモデルです。

KOSMOS-Gは、画像生成システムにおいてCLIPの代わりに簡単に使用することができます。これにより、以前は不可能だったアプリケーションへの新しい可能性が広がります。CLIPの基盤を築くことで、KOSMOS-Gはテキストに基づく画像生成からテキストと視覚情報の組み合わせに基づく画像生成への移行を進め、多くの革新的なアプリケーションのチャンスを提供することが期待されています。

要約すると、KOSMOS-Gはテキストと複数の画像から詳細な画像を生成するモデルです。そのトレーニングでは、「指示を行う前に整列する」という独自の戦略が使用されています。KOSMOS-Gは個々のオブジェクトの画像生成に優れており、複数のオブジェクトに対しても同様のことを行う最初のモデルです。また、CLIPの代わりに使用することができ、ControlNetやLoRAなどの他の技術と組み合わせて使用できます。要するに、KOSMOS-Gは画像生成において言語のような画像を作成するための初歩的なステップです。

“`

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

コールセンターにおけるAIソフトウェアが顧客サービスを革命化します

人工知能(AI)技術の急速な進歩により、チャットボットの導入を特に受けた顧客サービスとサポートに変革的なシフトがもたら...

AIニュース

「LLMsにおけるエンタープライズ知識グラフの役割」

紹介 大規模言語モデル(LLM)と生成AIは、人工知能と自然言語処理の革新的なブレークスルーを表します。彼らは人間の言語を...

機械学習

「DreamSyncに会ってください:画像理解モデルからのフィードバックを用いてテキストから画像の合成を改良する新しい人工知能フレームワーク」

カリフォルニア大学南部、ワシントン大学、バール・イラム大学、およびGoogle Researchの研究者は、人間の注釈、モデルアーキ...

機械学習

メタAIのコンピュータビジョンにおける公平性のための2つの新しい取り組み:DINOv2のためのライセンス導入とFACETのリリースの紹介

コンピュータビジョンの絶え間ない進化の中で、公平性を確保することが急務となっています。この記事では、AI技術、特にコン...

コンピュータサイエンス

ソウルでのオーケストラ指揮者として、ロボットが台座を占める

韓国の韓国産業技術研究所によって開発されたアンドロイドロボットが最近、韓国の国立劇場で国内オーケストラを指揮しました

データサイエンス

実生活の例とPythonコードで説明される隠れマルコフモデル

「隠れマルコフモデルは、気象予測から文の次の単語を見つけるまで、様々な現実の問題を解くために使用される確率モデルです」