中国の研究者が「ImageReward」という画期的な人工知能アプローチを発表人間の好みフィードバックを利用してテキストから画像のモデルを最適化する方法です

「画期的なAI技術、ImageRewardによる学習モデルの最適化方法を中国の研究者が発表!テキストから画像へ、人間の好みを反映させる」

最近の数年間で、テキストから画像を生成するモデルの進歩は著しいものがあります(具体的には、自己回帰型や拡散ベースの手法など)。これらのモデルは、適切な言語の記述(つまり、プロンプト)が与えられた場合に、多様なトピックに関連する高品質で意味的に適切な視覚的な情報を生成することができます。その結果、可能性のある使用方法や効果について、大いなる関心が生まれています。しかし、現在の自己教師あり事前学習済み生成器は、まだ改善の余地があります。事前学習の分布がノイズの多いものであり、実際のユーザープロンプトの分布と異なるため、モデルを人間の好みに合わせることは非常に困難です。

その結果、次のような、写真におけるよく知られた問題が生じますが、これに限定されません:

・テキストと画像の整合性のエラー:図1(a)(b)に示されるように、テキストプロンプトで述べられたオブジェクトの数、品質、特性、および関係をうまく描写できないこと。

・身体の問題:図1(e)(f)に示されるように、四肢や他の捻れた、欠落した、重複した、または異常な人間や動物の身体の部分を表示してしまうこと。

・人間の美的感覚:一般的な或いは主流の美的好みから逸脱すること、図1(c)(d)に示されるように。

・有害性とバイアス:攻撃的、暴力的、性的、差別的、違法、または不快なコンテンツを含むこと、図1(f)に示されるように。

図1:(上)いくつかのテキスト-画像スコアラーによって判断された64世代のうち、トップ1の生成画像(下)ReFLトレーニングに続いてImageRewardをフィードバックに使用した1ショットの生成。斜体はスタイルや機能を示し、太字は一般的にプロンプトの内容を示します(実際のユーザーから抜粋)。

ただし、これらの普遍的な問題を克服するために、モデルの設計や事前学習データを改善するだけ以上の取り組みが必要です。研究者たちは自然言語処理(NLP)における人間のフィードバックからの強化学習(RLHF)を使用して、大規模な言語モデルを人間の好みや価値観に向ける手法を開発してきました。この手法は、人間の好みを捉えるために、極めて多くのエキスパートによるモデル出力の比較を用いて報酬モデル(RM)を学習することに依存しています。その効果にもかかわらず、アノテーションプロセスは費用と困難を伴います。ラベリング基準を定義し、エキスパートを雇い、教育し、返信を検証し、RMを生成するには数ヶ月かかるからです。

清華大学と北京郵電大学の研究者たちは、このような生成モデルの困難に取り組むことの重要性を認識し、最初の汎用的なテキストから画像への人間の嗜好RMであるImageRewardを発表し、提供しています。ImageRewardは、実際のユーザープロンプトと対応するモデル出力に基づく137,000ペアの専門家による比較でトレーニングおよび評価されています。彼らはまた、努力に基づいて拡散生成モデルを改善するための直接最適化戦略であるReFLについての研究も続けています。

•彼らは、テキストから画像への人間の嗜好アノテーションのパイプラインを開発しました。その際には、難点の体系的な特定、定量的評価とアノテーターのトレーニングのための基準の確立、ラベリング効率の向上、品質の確認などを行いました。彼らは、パイプラインベースのテキストから画像への比較データセットを作成し、ImageRewardモデルをトレーニングしました。

•詳細な研究とテストを通じて、彼らはImageRewardが他のテキスト-画像スコアリング技術(CLIPより38.6%、Aestheticより39.6%、BLIPより31.6%)を凌駕して人間の好みの理解において優れていることを示しました。さらに、ImageRewardは上記の問題に対してかなりの改善が見られ、人間の欲望を生成モデルに組み込むための示唆に富んだ情報を提供しています。

•彼らは、自動化されたテキストから画像への評価指標であるImageRewardが有用であると主張しています。ImageRewardは、実際のユーザーからのプロンプトやMS-COCO 2014に基づくFIDとCLIPスコアと比較して、一貫して人間の嗜好ランキングに合致し、モデルとサンプル間で優れた識別性を示しています。

・ 人間の好みスコアに関する微調整拡散モデルのために、Reward Feedback Learning(ReFL)が提案されています。拡散モデルは生成物に対して確率を提供しないため、ImageRewardの品質の特定性が後のノイズリダクションフェーズで直接的なフィードバック学習を可能にします。ReFLは自動的および手動で広範に評価され、データ拡張や損失再量化など他の方法と比較してその利点が示されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「NTU SingaporeのこのAI論文は、モーション表現を用いたビデオセグメンテーションのための大規模ベンチマーク、MeVISを紹介しています」

言語にガイドされたビデオセグメンテーションは、自然言語の記述を使用してビデオ内の特定のオブジェクトをセグメント化およ...

機械学習

AIによるテキストメッセージングの変革:自然言語処理技術の詳細な探求

「自然言語処理(NLP)の技術によるテキストメッセージングにおける人工知能(AI)の影響を深く探求し、洞察を得る」

AI研究

マイクロソフトリサーチがAIコンパイラの「ヘビーメタルカルテット」である「Rammer」「Roller」「Welder」「Grinder」をリリースしました

人工知能(AI)モデルとハードウェアアクセラレータの進化により、コンパイラには独自の課題が生じています。これらの課題は...

AI研究

CMUの研究者が「Zeno」という名前の、機械学習(ML)モデルの行動評価のためのフレームワークを紹介しました

AI駆動システムのプロトタイピングは常に複雑でした。しかし、プロトタイプを使用してしばらくすると、それがより機能的であ...

人工知能

広州からロサンゼルスまで、自動車メーカーはAI技術を搭載した車両で驚きと感動を与えています

車好きには朗報です:現在から来週まで開催される2つの著名な自動車ショーが、AIによってパワードされた次世代の自動車デザイ...

AI研究

AIにおける事実性の向上 このAI研究は、より正確かつ反映性のある言語モデルを実現するためのセルフ-RAGを紹介します

セルフリフレクティブリトリーバルオーキュメンテッドジエネレーション(SELF-RAG)は、関連情報を動的に取得し、生成物に反...