マイクロソフト エージェントAIがIdea2Imgを導入:自己金融による多モーダルAIフレームワークで、画像の開発とデザインを自動化します

マイクロソフトがIdea2Imgを導入:画像の開発とデザインを自動化する、自己学習AIフレームワークの登場

“画像の設計と生成”の目的は、ユーザーからの広範な概念に基づいて画像を生成することです。この入力のアイデアには、”イメージと同じように見える犬”などの参照イメージや、”Idea2Imgシステムのためのロゴ”など、デザインの意図された応用をさらに定義する指示が含まれる場合があります。人間はテキストから画像へ(T2I)のモデルを利用して、想像された画像(アイデア)の詳細な説明に基づいて画像を作成することができます。ユーザーは、問題(T2Iプロンプト)を最もよく説明するものを見つけるまで、いくつかのオプションを手動で探索する必要があります。

大規模なマルチモーダルモデル(LMM)の印象的な能力を考慮すると、研究者はLMMに基づいたシステムをトレーニングして、概念を視覚的なものに変換する手間を省く能力を獲得できるかどうかを調査します。未知の領域に進出したり、困難なタスクに取り組んだりする際、人間は継続的に手法を改善する傾向があります。頭字語生成、感情の抽出、テキストベースの環境探索などの自然言語処理のタスクは、大規模言語モデル(LLM)エージェントシステムによる自己改善のサポートでより効果的に対処することができます。テキストのみの活動からマルチモーダルな設定に移ると、多くの交互に配置された画像とテキストのシーケンスなど、マルチモーダルコンテンツの向上、評価、検証に関する課題が生じます。

自己探索により、LMMフレームワークはグラフィカルユーザーインターフェース(GUI)を使用してデジタルデバイスと対話したり、具象エージェントを使用して未知の領域を探索したり、デジタルゲームをプレイしたりするための広範な現実世界の課題に対応することを自動的に学習します。Microsoft Azureの研究者は、「画像の設計と生成」を調査するために、反復自己改善能力を持つマルチモーダル能力を研究します。この目的のために、彼らは画像の開発と設計のための自己円滑化マルチモーダルフレームワークであるIdea2Imgを提案します。LMMであるGPT-4V(ビジョン)は、Idea2ImgのT2Iモデルとインタラクトし、モデルのアプリケーションを調査し、有用なT2Iの手がかりを特定します。T2Iモデルのリターンシグナル(つまり、草案画像)の分析や、次のラウンドの問い合わせ(つまり、テキストのT2Iプロンプトの作成)は、LMMによって処理されます。

T2Iプロンプトの生成、ドラフト画像の選択、フィードバックの反映は、マルチモーダルな反復自己改善能力に貢献します。具体的には、GPT-4Vは以下の手順を実行します:

1. プロンプトの生成:GPT-4Vは、前のテキストのフィードバックと改善履歴に基づいて、入力のマルチモーダルユーザーアイデアに対応するN個のテキストプロンプトを生成します。
2. ドラフト画像の選択:GPT-4Vは、同じアイデアに対するN個のドラフト画像を注意深く比較し、最も有望なものを選択します。
3. フィードバックの反映:GPT-4Vは、草案画像とアイデアの間の不一致を分析します。その後、GPT-4Vは、何がうまくいかなかったのか、なぜそれがうまくいかなかったのか、およびT2Iプロンプトを改善する方法についてのフィードバックを提供します。

さらに、Idea2Imgには、各プロンプトの種類(画像、テキスト、フィードバック)ごとの探索履歴を記録する組み込みのメモリモジュールがあります。画像の自動作成と生成のために、Idea2Imgフレームワークはこれらの3つのGPT-4Vベースのプロセスの間で繰り返しサイクルを行います。改良された画像のデザインと作成支援ツールであるIdea2Imgは、ユーザーにとって有用なツールです。綿密な画像の説明ではなく、デザインの指示を受け入れ、マルチモーダルなアイデア入力に対応し、より高い意味的および視覚的品質の画像を生成することで、Idea2ImgはT2Iモデルと異なります。

チームは画像の作成とデザインのサンプルケースをいくつかレビューしました。例えば、Idea2Imgは任意の交互配置された画像とテキストのシーケンスを有するアイデアを処理し、視覚デザインと意図された使用法の説明をアイデアに取り込み、入力画像から任意の視覚情報を抽出することができます。これらの更新された機能とユースケースに基づいて、彼らは104個のサンプル評価アイデアセットを作成しました。この評価アイデアセットには、人間が最初に間違える可能性のある複雑な質問が含まれています。チームはIdea2ImgとさまざまなT2Iモデルを使用してユーザーの好みの調査を実施しています。SDXLを使用した場合など、多くの画像生成モデルにおけるユーザーの好みのスコアの改善は、Idea2Imgの有効性を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

スコルテックとAIRIの研究者は、ニューラルネットワークを使用してドメイン間の最適なデータ転送のための新しいアルゴリズムを開発しました

大規模OT(Optimum Transport)とWasserstein GAN(Generative Adversarial Networks)の出現以降、機械学習ではニューラルネ...

機械学習

「FACTOOLにご紹介いたします:大規模言語モデル(例:ChatGPT)によって生成されたテキストの事実エラーを検出するためのタスクとドメインに依存しないフレームワーク」

GPT-4は、自然言語処理のいくつかのタスクを1つのシーケンス生成問題に統合した生成型の人工知能(AI)技術の一例です。この...

AI研究

「中国のAI研究は、GS-SLAMを導入し、高度な3Dマッピングと位置特定のための新しい手法を紹介します」

上海AI研究所、復旦大学、西北工業大学、香港科技大学の研究者たちは、GS-SLAMという3Dガウス表現ベースの同時位置推定と地図...

AI研究

UCサンタクルーズの研究者たちは、概念や価値観間の暗黙的なステレオタイプと、画像内のそれらを定量化する画像対テキスト関連性テストツールを提案しています

UCサンタクルーズの研究チームが、Text to Image Association Testと呼ばれる画期的なツールを紹介しました。このツールは、T...

データサイエンス

「Microsoft AI Researchは、Pythonで直接ONNXモデルを作成するためのONNXスクリプトライブラリをオープンソース化しました」

機械学習の常に進化する風景の中で、ONNX(Open Neural Network Exchange)モデルは重要な技術として登場し、多様なハードウ...

AIニュース

「Amazon SageMaker StudioでAmazon SageMaker JumpStartを使用して安定したDiffusion XLを利用する」

「今日、私たちはお知らせすることを喜んでいますStable Diffusion XL 1.0(SDXL 1.0)がAmazon SageMaker JumpStartを通じて...