マイクロソフト エージェントAIがIdea2Imgを導入:自己金融による多モーダルAIフレームワークで、画像の開発とデザインを自動化します

マイクロソフトがIdea2Imgを導入:画像の開発とデザインを自動化する、自己学習AIフレームワークの登場

“画像の設計と生成”の目的は、ユーザーからの広範な概念に基づいて画像を生成することです。この入力のアイデアには、”イメージと同じように見える犬”などの参照イメージや、”Idea2Imgシステムのためのロゴ”など、デザインの意図された応用をさらに定義する指示が含まれる場合があります。人間はテキストから画像へ(T2I)のモデルを利用して、想像された画像(アイデア)の詳細な説明に基づいて画像を作成することができます。ユーザーは、問題(T2Iプロンプト)を最もよく説明するものを見つけるまで、いくつかのオプションを手動で探索する必要があります。

大規模なマルチモーダルモデル(LMM)の印象的な能力を考慮すると、研究者はLMMに基づいたシステムをトレーニングして、概念を視覚的なものに変換する手間を省く能力を獲得できるかどうかを調査します。未知の領域に進出したり、困難なタスクに取り組んだりする際、人間は継続的に手法を改善する傾向があります。頭字語生成、感情の抽出、テキストベースの環境探索などの自然言語処理のタスクは、大規模言語モデル(LLM)エージェントシステムによる自己改善のサポートでより効果的に対処することができます。テキストのみの活動からマルチモーダルな設定に移ると、多くの交互に配置された画像とテキストのシーケンスなど、マルチモーダルコンテンツの向上、評価、検証に関する課題が生じます。

自己探索により、LMMフレームワークはグラフィカルユーザーインターフェース(GUI)を使用してデジタルデバイスと対話したり、具象エージェントを使用して未知の領域を探索したり、デジタルゲームをプレイしたりするための広範な現実世界の課題に対応することを自動的に学習します。Microsoft Azureの研究者は、「画像の設計と生成」を調査するために、反復自己改善能力を持つマルチモーダル能力を研究します。この目的のために、彼らは画像の開発と設計のための自己円滑化マルチモーダルフレームワークであるIdea2Imgを提案します。LMMであるGPT-4V(ビジョン)は、Idea2ImgのT2Iモデルとインタラクトし、モデルのアプリケーションを調査し、有用なT2Iの手がかりを特定します。T2Iモデルのリターンシグナル(つまり、草案画像)の分析や、次のラウンドの問い合わせ(つまり、テキストのT2Iプロンプトの作成)は、LMMによって処理されます。

T2Iプロンプトの生成、ドラフト画像の選択、フィードバックの反映は、マルチモーダルな反復自己改善能力に貢献します。具体的には、GPT-4Vは以下の手順を実行します:

1. プロンプトの生成:GPT-4Vは、前のテキストのフィードバックと改善履歴に基づいて、入力のマルチモーダルユーザーアイデアに対応するN個のテキストプロンプトを生成します。
2. ドラフト画像の選択:GPT-4Vは、同じアイデアに対するN個のドラフト画像を注意深く比較し、最も有望なものを選択します。
3. フィードバックの反映:GPT-4Vは、草案画像とアイデアの間の不一致を分析します。その後、GPT-4Vは、何がうまくいかなかったのか、なぜそれがうまくいかなかったのか、およびT2Iプロンプトを改善する方法についてのフィードバックを提供します。

さらに、Idea2Imgには、各プロンプトの種類(画像、テキスト、フィードバック)ごとの探索履歴を記録する組み込みのメモリモジュールがあります。画像の自動作成と生成のために、Idea2Imgフレームワークはこれらの3つのGPT-4Vベースのプロセスの間で繰り返しサイクルを行います。改良された画像のデザインと作成支援ツールであるIdea2Imgは、ユーザーにとって有用なツールです。綿密な画像の説明ではなく、デザインの指示を受け入れ、マルチモーダルなアイデア入力に対応し、より高い意味的および視覚的品質の画像を生成することで、Idea2ImgはT2Iモデルと異なります。

チームは画像の作成とデザインのサンプルケースをいくつかレビューしました。例えば、Idea2Imgは任意の交互配置された画像とテキストのシーケンスを有するアイデアを処理し、視覚デザインと意図された使用法の説明をアイデアに取り込み、入力画像から任意の視覚情報を抽出することができます。これらの更新された機能とユースケースに基づいて、彼らは104個のサンプル評価アイデアセットを作成しました。この評価アイデアセットには、人間が最初に間違える可能性のある複雑な質問が含まれています。チームはIdea2ImgとさまざまなT2Iモデルを使用してユーザーの好みの調査を実施しています。SDXLを使用した場合など、多くの画像生成モデルにおけるユーザーの好みのスコアの改善は、Idea2Imgの有効性を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「AIはどれくらい環境に優しいのか?人間の作業と人工知能の二酸化炭素排出量を比較する」

近年、人工知能(AI)は驚異的な進展を遂げ、その応用は医療、銀行業、交通、環境保護などさまざまな産業に広がっています。...

データサイエンス

dtreevizを使用して、信じられないほどの意思決定木の視覚化を作成する

決定木モデルを視覚化できることは、モデルの説明可能性にとって重要であり、ステークホルダーがこれらのモデルに信頼を持つ...

コンピュータサイエンス

「ニューロン、ホタル、そしてナットブッシュを踊ることには何の共通点があるのでしょうか?」

コンピュータ科学者や数学者は、同期現象を評価するためのフレームワークを設計しました

AI研究

MONAI 生成モデル:医療画像の進歩に向けたオープンソースプラットフォーム

最近の生成型人工知能のブレークスルーにより、特に医療画像処理の分野で重要な進展が見られています。しかし、これらの生成...

AI研究

マイクロソフトの研究者が提案するTaskWeaver:LLMを活用した自律エージェントの構築のためのコード優先の機械学習フレームワーク

大規模言語モデル(LLMs)は、印象的な自然言語生成および解釈能力を示しています。これらのモデルの例には、GPT、Claude、Pa...

データサイエンス

オムニヴォアに会ってください:産業デザイナーがアートとOpenUSDを組み合わせて、AIトレーニング用の3Dアセットを作成します

編集者注:この投稿は、NVIDIA OmniverseとOpenUSDを使用して3Dワークフローを加速し、仮想世界を作成する個々のクリエイター...