マイクロソフト エージェントAIがIdea2Imgを導入:自己金融による多モーダルAIフレームワークで、画像の開発とデザインを自動化します

マイクロソフトがIdea2Imgを導入:画像の開発とデザインを自動化する、自己学習AIフレームワークの登場

“画像の設計と生成”の目的は、ユーザーからの広範な概念に基づいて画像を生成することです。この入力のアイデアには、”イメージと同じように見える犬”などの参照イメージや、”Idea2Imgシステムのためのロゴ”など、デザインの意図された応用をさらに定義する指示が含まれる場合があります。人間はテキストから画像へ(T2I)のモデルを利用して、想像された画像(アイデア)の詳細な説明に基づいて画像を作成することができます。ユーザーは、問題(T2Iプロンプト)を最もよく説明するものを見つけるまで、いくつかのオプションを手動で探索する必要があります。

大規模なマルチモーダルモデル(LMM)の印象的な能力を考慮すると、研究者はLMMに基づいたシステムをトレーニングして、概念を視覚的なものに変換する手間を省く能力を獲得できるかどうかを調査します。未知の領域に進出したり、困難なタスクに取り組んだりする際、人間は継続的に手法を改善する傾向があります。頭字語生成、感情の抽出、テキストベースの環境探索などの自然言語処理のタスクは、大規模言語モデル(LLM)エージェントシステムによる自己改善のサポートでより効果的に対処することができます。テキストのみの活動からマルチモーダルな設定に移ると、多くの交互に配置された画像とテキストのシーケンスなど、マルチモーダルコンテンツの向上、評価、検証に関する課題が生じます。

自己探索により、LMMフレームワークはグラフィカルユーザーインターフェース(GUI)を使用してデジタルデバイスと対話したり、具象エージェントを使用して未知の領域を探索したり、デジタルゲームをプレイしたりするための広範な現実世界の課題に対応することを自動的に学習します。Microsoft Azureの研究者は、「画像の設計と生成」を調査するために、反復自己改善能力を持つマルチモーダル能力を研究します。この目的のために、彼らは画像の開発と設計のための自己円滑化マルチモーダルフレームワークであるIdea2Imgを提案します。LMMであるGPT-4V(ビジョン)は、Idea2ImgのT2Iモデルとインタラクトし、モデルのアプリケーションを調査し、有用なT2Iの手がかりを特定します。T2Iモデルのリターンシグナル(つまり、草案画像)の分析や、次のラウンドの問い合わせ(つまり、テキストのT2Iプロンプトの作成)は、LMMによって処理されます。

T2Iプロンプトの生成、ドラフト画像の選択、フィードバックの反映は、マルチモーダルな反復自己改善能力に貢献します。具体的には、GPT-4Vは以下の手順を実行します:

1. プロンプトの生成:GPT-4Vは、前のテキストのフィードバックと改善履歴に基づいて、入力のマルチモーダルユーザーアイデアに対応するN個のテキストプロンプトを生成します。
2. ドラフト画像の選択:GPT-4Vは、同じアイデアに対するN個のドラフト画像を注意深く比較し、最も有望なものを選択します。
3. フィードバックの反映:GPT-4Vは、草案画像とアイデアの間の不一致を分析します。その後、GPT-4Vは、何がうまくいかなかったのか、なぜそれがうまくいかなかったのか、およびT2Iプロンプトを改善する方法についてのフィードバックを提供します。

さらに、Idea2Imgには、各プロンプトの種類(画像、テキスト、フィードバック)ごとの探索履歴を記録する組み込みのメモリモジュールがあります。画像の自動作成と生成のために、Idea2Imgフレームワークはこれらの3つのGPT-4Vベースのプロセスの間で繰り返しサイクルを行います。改良された画像のデザインと作成支援ツールであるIdea2Imgは、ユーザーにとって有用なツールです。綿密な画像の説明ではなく、デザインの指示を受け入れ、マルチモーダルなアイデア入力に対応し、より高い意味的および視覚的品質の画像を生成することで、Idea2ImgはT2Iモデルと異なります。

チームは画像の作成とデザインのサンプルケースをいくつかレビューしました。例えば、Idea2Imgは任意の交互配置された画像とテキストのシーケンスを有するアイデアを処理し、視覚デザインと意図された使用法の説明をアイデアに取り込み、入力画像から任意の視覚情報を抽出することができます。これらの更新された機能とユースケースに基づいて、彼らは104個のサンプル評価アイデアセットを作成しました。この評価アイデアセットには、人間が最初に間違える可能性のある複雑な質問が含まれています。チームはIdea2ImgとさまざまなT2Iモデルを使用してユーザーの好みの調査を実施しています。SDXLを使用した場合など、多くの画像生成モデルにおけるユーザーの好みのスコアの改善は、Idea2Imgの有効性を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「もし私たちが複雑過ぎるモデルを簡単に説明できるとしたらどうだろう?」

この記事は次の記事に基づいています:https//www.sciencedirect.com/science/article/abs/pii/S0377221723006598 これを読ん...

AIニュース

リアルタイムでスピーチを文字起こしするメガネ

「いくつかの会社は、実況字幕メガネを市場に投入しましたこれは、リアルタイムに字幕化された音声がレンズ上に重ねられるこ...

コンピュータサイエンス

空気圧アクチュエータは、ロボットにチーターのような加速力を与えます

南アフリカのケープタウン大学の研究者たちは、気圧アクチュエータを使用して、チーターのように加速し操縦する四足歩行ロボ...

機械学習

「40以上のクールなAIツール(2023年7月)をチェックしてください」

DeepSwap DeepSwapは、説得力のあるディープフェイクのビデオや画像を作成したい人向けのAIベースのツールです。ビデオ、写真...

AIニュース

Googleは独占禁止法訴訟で敗訴:ビッグテックにとって何を意味するのか?

「エピックゲームズが検索大手との法的闘争に勝利した事は画期的な勝利であり、同社の強さと決断力を示す重要な節目となりま...

AI研究

デジタルアートの革新:ソウル国立大学の研究者が、強化学習を用いたコラージュ作成における新しいアプローチを紹介

“`html 芸術的なコラージュ作成は、人々の芸術的な才能と深く結びついている分野であり、人工知能(AI)に興味を引かせ...