中国の研究者が「ImageReward」という画期的な人工知能アプローチを発表人間の好みフィードバックを利用してテキストから画像のモデルを最適化する方法です

「画期的なAI技術、ImageRewardによる学習モデルの最適化方法を中国の研究者が発表!テキストから画像へ、人間の好みを反映させる」

最近の数年間で、テキストから画像を生成するモデルの進歩は著しいものがあります(具体的には、自己回帰型や拡散ベースの手法など)。これらのモデルは、適切な言語の記述(つまり、プロンプト)が与えられた場合に、多様なトピックに関連する高品質で意味的に適切な視覚的な情報を生成することができます。その結果、可能性のある使用方法や効果について、大いなる関心が生まれています。しかし、現在の自己教師あり事前学習済み生成器は、まだ改善の余地があります。事前学習の分布がノイズの多いものであり、実際のユーザープロンプトの分布と異なるため、モデルを人間の好みに合わせることは非常に困難です。

その結果、次のような、写真におけるよく知られた問題が生じますが、これに限定されません:

・テキストと画像の整合性のエラー:図1(a)(b)に示されるように、テキストプロンプトで述べられたオブジェクトの数、品質、特性、および関係をうまく描写できないこと。

・身体の問題:図1(e)(f)に示されるように、四肢や他の捻れた、欠落した、重複した、または異常な人間や動物の身体の部分を表示してしまうこと。

・人間の美的感覚:一般的な或いは主流の美的好みから逸脱すること、図1(c)(d)に示されるように。

・有害性とバイアス:攻撃的、暴力的、性的、差別的、違法、または不快なコンテンツを含むこと、図1(f)に示されるように。

図1:(上)いくつかのテキスト-画像スコアラーによって判断された64世代のうち、トップ1の生成画像(下)ReFLトレーニングに続いてImageRewardをフィードバックに使用した1ショットの生成。斜体はスタイルや機能を示し、太字は一般的にプロンプトの内容を示します(実際のユーザーから抜粋)。

ただし、これらの普遍的な問題を克服するために、モデルの設計や事前学習データを改善するだけ以上の取り組みが必要です。研究者たちは自然言語処理(NLP)における人間のフィードバックからの強化学習(RLHF)を使用して、大規模な言語モデルを人間の好みや価値観に向ける手法を開発してきました。この手法は、人間の好みを捉えるために、極めて多くのエキスパートによるモデル出力の比較を用いて報酬モデル(RM)を学習することに依存しています。その効果にもかかわらず、アノテーションプロセスは費用と困難を伴います。ラベリング基準を定義し、エキスパートを雇い、教育し、返信を検証し、RMを生成するには数ヶ月かかるからです。

清華大学と北京郵電大学の研究者たちは、このような生成モデルの困難に取り組むことの重要性を認識し、最初の汎用的なテキストから画像への人間の嗜好RMであるImageRewardを発表し、提供しています。ImageRewardは、実際のユーザープロンプトと対応するモデル出力に基づく137,000ペアの専門家による比較でトレーニングおよび評価されています。彼らはまた、努力に基づいて拡散生成モデルを改善するための直接最適化戦略であるReFLについての研究も続けています。

•彼らは、テキストから画像への人間の嗜好アノテーションのパイプラインを開発しました。その際には、難点の体系的な特定、定量的評価とアノテーターのトレーニングのための基準の確立、ラベリング効率の向上、品質の確認などを行いました。彼らは、パイプラインベースのテキストから画像への比較データセットを作成し、ImageRewardモデルをトレーニングしました。

•詳細な研究とテストを通じて、彼らはImageRewardが他のテキスト-画像スコアリング技術(CLIPより38.6%、Aestheticより39.6%、BLIPより31.6%)を凌駕して人間の好みの理解において優れていることを示しました。さらに、ImageRewardは上記の問題に対してかなりの改善が見られ、人間の欲望を生成モデルに組み込むための示唆に富んだ情報を提供しています。

•彼らは、自動化されたテキストから画像への評価指標であるImageRewardが有用であると主張しています。ImageRewardは、実際のユーザーからのプロンプトやMS-COCO 2014に基づくFIDとCLIPスコアと比較して、一貫して人間の嗜好ランキングに合致し、モデルとサンプル間で優れた識別性を示しています。

・ 人間の好みスコアに関する微調整拡散モデルのために、Reward Feedback Learning(ReFL)が提案されています。拡散モデルは生成物に対して確率を提供しないため、ImageRewardの品質の特定性が後のノイズリダクションフェーズで直接的なフィードバック学習を可能にします。ReFLは自動的および手動で広範に評価され、データ拡張や損失再量化など他の方法と比較してその利点が示されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「単一細胞生物学のAIのフロンティアを探索する:GeneformerやscGPTのようなゼロショット基礎モデルの批判的評価」

単一細胞生物学における基礎モデルの応用は、研究者の間で最近の議論のトピックとなっています。scGPT、GeneCompass、Genefor...

AI研究

MITとFAIR Metaの研究者は、「組織化された条件つき画像生成 (Representation-Conditioned Image Generation; RCG):クラス非依存の画像生成における画期的なAIフレームワーク」を発表しました

人の注釈に頼らずに高品質な画像を生成する方法はありますか?MIT CSAILとFAIR Metaのこの論文では、人の注釈に頼らずに高品...

機械学習

「ディープフェイクの解明:ヘッドポーズ推定パターンを活用した検出精度の向上」

「フェイク」動画の制作能力の出現は、視覚コンテンツの信頼性に関する重大な懸念を引き起こしました。本当と偽りの情報を区...

人工知能

「ChatGPT Canvaプラグインでグラフィックデザイン活動を自動化する」

必要なデザインを開発するための時間を最小限に抑えてください

データサイエンス

「Protopia AIによる企業LLMアクセラレーションの基盤データの保護」

この記事では、Protopia AIのStained Glass Transformを使用してデータを保護し、データ所有権とデータプライバシーの課題を...

AIニュース

AIの付き添いロボットが、孤独感に苦しむ高齢者の一部には助けになっていますが、他の人には嫌われています

これまでに健康効果に関する限られた証拠がありますが、初期の研究では一つの方法が全てに適しているわけではないと示唆され...