このAI研究は「Kosmos-G」という人工知能モデルを提案していますこれは、マルチモデルLLMsの特性を活用して、一般的なビジョン-言語入力から高品質なゼロショット画像生成を行うものです

美容・ファッションのエキスパートが贈る、魅力的で生き生きとした記事をご紹介します

“`html

最近、テキストの説明から画像を作成したり、テキストと画像を組み合わせて新しい画像を生成したりすることにおいて、大きな進歩がありました。しかし、未開拓の領域として、一つの舞台や複数の物体や人物を含むシーンの説明から画像を生成するというものがあります。Microsoft Research、ニューヨーク大学、ウォータールー大学の研究チームが、この問題に取り組むためにマルチモーダルLLMを活用したモデルであるKOSMOS-Gを提案しました。

KOSMOS-Gは、複雑なテキストと複数の画像の組み合わせから詳細な画像を生成することができます。例えそれがこれまでに見たことのない組み合わせであっても、問題ありません。これまでにないモデルであり、ある説明に基づいてさまざまな物体や事物が写っている画像を生成することができます。KOSMOS-Gは、CLIPの代わりに使用することができ、ControlNetやLoRAなどの他の技術を使用するための新しい可能性を開拓します。

KOSMOS-Gは、テキストと画像から画像を生成するための賢いアプローチを使用しています。まず、テキストと画像を理解することができるマルチモーダルLLMをトレーニングします。次に、テキストを理解することに優れたCLIPテキストエンコーダと整列させます。

KOSMOS-Gにテキストとセグメント化された画像のキャプションを与えると、指示に合った説明を持つ画像を生成するためにトレーニングされます。事前にトレーニングした画像デコーダを使用し、さまざまな状況で正確な画像を生成するために学んだ内容を活用します。

KOSMOS-Gは、指示と入力データに基づいて画像を生成することができます。トレーニングには3つのステージがあります。第一ステージでは、モデルはマルチモーダルコーパスに対してプリトレーニングされます。第二ステージでは、AlignerNetがKOSMOS-Gの出力空間をU-Netの入力空間にCLIPの指示によって整列させるようにトレーニングされます。第三ステージでは、KOSMOS-Gはキュレーションされたデータに基づいた構成生成タスクによって微調整されます。ステージ1では、MLLMのみがトレーニングされます。ステージ2では、MLLMは固定されたままでAlignerNetがトレーニングされます。ステージ3では、AlignerNetとMLLMの両方が共同でトレーニングされます。画像デコーダはすべてのステージで固定されたままです。

KOSMOS-Gは、さまざまな設定でのゼロショット画像生成において本当に優れています。意味を成し、良く見え、異なるカスタマイズが可能な画像を作成することができます。文脈を変えたり、特定のスタイルを加えたり、変更を加えたり、画像に追加の詳細を追加するなどの機能があります。KOSMOS-Gはゼロショット設定でのマルチエンティティVL2Iを実現した最初のモデルです。

KOSMOS-Gは、画像生成システムにおいてCLIPの代わりに簡単に使用することができます。これにより、以前は不可能だったアプリケーションへの新しい可能性が広がります。CLIPの基盤を築くことで、KOSMOS-Gはテキストに基づく画像生成からテキストと視覚情報の組み合わせに基づく画像生成への移行を進め、多くの革新的なアプリケーションのチャンスを提供することが期待されています。

要約すると、KOSMOS-Gはテキストと複数の画像から詳細な画像を生成するモデルです。そのトレーニングでは、「指示を行う前に整列する」という独自の戦略が使用されています。KOSMOS-Gは個々のオブジェクトの画像生成に優れており、複数のオブジェクトに対しても同様のことを行う最初のモデルです。また、CLIPの代わりに使用することができ、ControlNetやLoRAなどの他の技術と組み合わせて使用できます。要するに、KOSMOS-Gは画像生成において言語のような画像を作成するための初歩的なステップです。

“`

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

一般的な世界モデル:ランウェイAI研究が新しい長期研究の取り組みを開始

ワールドモデルは、環境の内部理解を構築し、その知識を利用してその空間内の将来のイベントを予測することを目指すAIシステ...

人工知能

「本当に3億の仕事はAIによる置き換えでさらされるか失われるのか?」

ゴールドマン・サックスのレポートの著者たちは、AIの置き換えによって3億の仕事が影響を受ける可能性があると示唆しています...

機械学習

「ラマ-2、GPT-4、またはクロード-2;どの人工知能言語モデルが最も優れているのか?」

大規模言語モデル(LLMs)は、自然言語処理と自然言語理解の分野で世界的な評価を受け、非常に人気があります。これにより、...

AI研究

ETHチューリッヒの研究者が、バイオミメティックな腱駆動式ファイブハンドを紹介:高次元自由度の3Dプリンタ対応設計で、器用な手の回転スキルを持つ

従来のモデルベースの制御手法では、コントローラーはロボットの動的モデルと直接的に対話します。最近の研究では、ロボット...

機械学習

「2023年に機械学習とコンピュータビジョンの進歩について最新情報を入手する方法」

学界や産業界で実践している機械学習やコンピュータビジョンの最近の進展に圧倒されていますか?YouTubeチャンネル、ニュース...

機械学習

Google AIはWeatherBench 2を紹介します:さまざまな天気予測モデルの評価と比較のための機械学習フレームワーク

機械学習(ML)は近年、天気予報においてますます使用されています。MLモデルが運用物理モデルと精度の面で競争できるように...