このAI研究は「Kosmos-G」という人工知能モデルを提案していますこれは、マルチモデルLLMsの特性を活用して、一般的なビジョン-言語入力から高品質なゼロショット画像生成を行うものです

美容・ファッションのエキスパートが贈る、魅力的で生き生きとした記事をご紹介します

“`html

最近、テキストの説明から画像を作成したり、テキストと画像を組み合わせて新しい画像を生成したりすることにおいて、大きな進歩がありました。しかし、未開拓の領域として、一つの舞台や複数の物体や人物を含むシーンの説明から画像を生成するというものがあります。Microsoft Research、ニューヨーク大学、ウォータールー大学の研究チームが、この問題に取り組むためにマルチモーダルLLMを活用したモデルであるKOSMOS-Gを提案しました。

KOSMOS-Gは、複雑なテキストと複数の画像の組み合わせから詳細な画像を生成することができます。例えそれがこれまでに見たことのない組み合わせであっても、問題ありません。これまでにないモデルであり、ある説明に基づいてさまざまな物体や事物が写っている画像を生成することができます。KOSMOS-Gは、CLIPの代わりに使用することができ、ControlNetやLoRAなどの他の技術を使用するための新しい可能性を開拓します。

KOSMOS-Gは、テキストと画像から画像を生成するための賢いアプローチを使用しています。まず、テキストと画像を理解することができるマルチモーダルLLMをトレーニングします。次に、テキストを理解することに優れたCLIPテキストエンコーダと整列させます。

KOSMOS-Gにテキストとセグメント化された画像のキャプションを与えると、指示に合った説明を持つ画像を生成するためにトレーニングされます。事前にトレーニングした画像デコーダを使用し、さまざまな状況で正確な画像を生成するために学んだ内容を活用します。

KOSMOS-Gは、指示と入力データに基づいて画像を生成することができます。トレーニングには3つのステージがあります。第一ステージでは、モデルはマルチモーダルコーパスに対してプリトレーニングされます。第二ステージでは、AlignerNetがKOSMOS-Gの出力空間をU-Netの入力空間にCLIPの指示によって整列させるようにトレーニングされます。第三ステージでは、KOSMOS-Gはキュレーションされたデータに基づいた構成生成タスクによって微調整されます。ステージ1では、MLLMのみがトレーニングされます。ステージ2では、MLLMは固定されたままでAlignerNetがトレーニングされます。ステージ3では、AlignerNetとMLLMの両方が共同でトレーニングされます。画像デコーダはすべてのステージで固定されたままです。

KOSMOS-Gは、さまざまな設定でのゼロショット画像生成において本当に優れています。意味を成し、良く見え、異なるカスタマイズが可能な画像を作成することができます。文脈を変えたり、特定のスタイルを加えたり、変更を加えたり、画像に追加の詳細を追加するなどの機能があります。KOSMOS-Gはゼロショット設定でのマルチエンティティVL2Iを実現した最初のモデルです。

KOSMOS-Gは、画像生成システムにおいてCLIPの代わりに簡単に使用することができます。これにより、以前は不可能だったアプリケーションへの新しい可能性が広がります。CLIPの基盤を築くことで、KOSMOS-Gはテキストに基づく画像生成からテキストと視覚情報の組み合わせに基づく画像生成への移行を進め、多くの革新的なアプリケーションのチャンスを提供することが期待されています。

要約すると、KOSMOS-Gはテキストと複数の画像から詳細な画像を生成するモデルです。そのトレーニングでは、「指示を行う前に整列する」という独自の戦略が使用されています。KOSMOS-Gは個々のオブジェクトの画像生成に優れており、複数のオブジェクトに対しても同様のことを行う最初のモデルです。また、CLIPの代わりに使用することができ、ControlNetやLoRAなどの他の技術と組み合わせて使用できます。要するに、KOSMOS-Gは画像生成において言語のような画像を作成するための初歩的なステップです。

“`

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「OpenAIは、パーソナライズされたAIインタラクションのためのChatGPTのカスタムインストラクションを開始」

OpenAIは、AI言語モデルChatGPTのユーザーコントロールを向上させるために、新しい機能「カスタムインストラクション」を導入...

機械学習

カスタム分類モデルでの予測の品質を向上させるには、Amazon Comprehendを使用します

この記事では、Amazon Comprehendを使用してカスタム分類モデルを構築し最適化する方法について説明しますAmazon Comprehend...

データサイエンス

ユーロトリップの最適化:遺伝的アルゴリズムとGoogle Maps APIによる巡回セールスマン問題の解決

「ユーロトリップ」などの映画を観た後のあの感じを思い出してくださいキャラクターたちが一生の冒険を通じて絵のようなヨー...

AIニュース

2023年の製品マネージャーにとって最高のAIツール

AI市場の急速な拡大は、製品マネージャーの生産性向上に加えて、新しい職種の出現を促進する可能性があることに多くの人々が...

機械学習

一緒にAIを学ぶ- Towards AIコミュニティニュースレター#3

おはようございます、AI愛好家のみなさん!今週のポッドキャストエピソードをシェアできることをとても嬉しく思います今回は...

AIニュース

「開発者向けのAIツール15個(2023年8月)」

Otter AI 人工知能を使用して、Otter.AIはユーザーにリアルタイムの会議のメモの音声文字起こしを提供し、共有可能で検索可能...