中国の研究者が「ImageReward」という画期的な人工知能アプローチを発表人間の好みフィードバックを利用してテキストから画像のモデルを最適化する方法です
「画期的なAI技術、ImageRewardによる学習モデルの最適化方法を中国の研究者が発表!テキストから画像へ、人間の好みを反映させる」
最近の数年間で、テキストから画像を生成するモデルの進歩は著しいものがあります(具体的には、自己回帰型や拡散ベースの手法など)。これらのモデルは、適切な言語の記述(つまり、プロンプト)が与えられた場合に、多様なトピックに関連する高品質で意味的に適切な視覚的な情報を生成することができます。その結果、可能性のある使用方法や効果について、大いなる関心が生まれています。しかし、現在の自己教師あり事前学習済み生成器は、まだ改善の余地があります。事前学習の分布がノイズの多いものであり、実際のユーザープロンプトの分布と異なるため、モデルを人間の好みに合わせることは非常に困難です。
その結果、次のような、写真におけるよく知られた問題が生じますが、これに限定されません:
・テキストと画像の整合性のエラー:図1(a)(b)に示されるように、テキストプロンプトで述べられたオブジェクトの数、品質、特性、および関係をうまく描写できないこと。
- 「MITとハーバードの研究者が革命的なAIベースの計算手法を公開:少ない実験で最適な遺伝子介入を効率的に特定する」
- 芝浦工業大学の研究者たちは、深層学習を用いて顔方向検出を革新します:隠れた顔の特徴や広がる画角の課題に挑戦しています
- スタンフォード大学の研究者が、シェーディングをツリー構造の表現に効果的かつ効率的に分解する新しい人工知能手法を提案しています
・身体の問題:図1(e)(f)に示されるように、四肢や他の捻れた、欠落した、重複した、または異常な人間や動物の身体の部分を表示してしまうこと。
・人間の美的感覚:一般的な或いは主流の美的好みから逸脱すること、図1(c)(d)に示されるように。
・有害性とバイアス:攻撃的、暴力的、性的、差別的、違法、または不快なコンテンツを含むこと、図1(f)に示されるように。
図1:(上)いくつかのテキスト-画像スコアラーによって判断された64世代のうち、トップ1の生成画像(下)ReFLトレーニングに続いてImageRewardをフィードバックに使用した1ショットの生成。斜体はスタイルや機能を示し、太字は一般的にプロンプトの内容を示します(実際のユーザーから抜粋)。
ただし、これらの普遍的な問題を克服するために、モデルの設計や事前学習データを改善するだけ以上の取り組みが必要です。研究者たちは自然言語処理(NLP)における人間のフィードバックからの強化学習(RLHF)を使用して、大規模な言語モデルを人間の好みや価値観に向ける手法を開発してきました。この手法は、人間の好みを捉えるために、極めて多くのエキスパートによるモデル出力の比較を用いて報酬モデル(RM)を学習することに依存しています。その効果にもかかわらず、アノテーションプロセスは費用と困難を伴います。ラベリング基準を定義し、エキスパートを雇い、教育し、返信を検証し、RMを生成するには数ヶ月かかるからです。
清華大学と北京郵電大学の研究者たちは、このような生成モデルの困難に取り組むことの重要性を認識し、最初の汎用的なテキストから画像への人間の嗜好RMであるImageRewardを発表し、提供しています。ImageRewardは、実際のユーザープロンプトと対応するモデル出力に基づく137,000ペアの専門家による比較でトレーニングおよび評価されています。彼らはまた、努力に基づいて拡散生成モデルを改善するための直接最適化戦略であるReFLについての研究も続けています。
•彼らは、テキストから画像への人間の嗜好アノテーションのパイプラインを開発しました。その際には、難点の体系的な特定、定量的評価とアノテーターのトレーニングのための基準の確立、ラベリング効率の向上、品質の確認などを行いました。彼らは、パイプラインベースのテキストから画像への比較データセットを作成し、ImageRewardモデルをトレーニングしました。
•詳細な研究とテストを通じて、彼らはImageRewardが他のテキスト-画像スコアリング技術(CLIPより38.6%、Aestheticより39.6%、BLIPより31.6%)を凌駕して人間の好みの理解において優れていることを示しました。さらに、ImageRewardは上記の問題に対してかなりの改善が見られ、人間の欲望を生成モデルに組み込むための示唆に富んだ情報を提供しています。
•彼らは、自動化されたテキストから画像への評価指標であるImageRewardが有用であると主張しています。ImageRewardは、実際のユーザーからのプロンプトやMS-COCO 2014に基づくFIDとCLIPスコアと比較して、一貫して人間の嗜好ランキングに合致し、モデルとサンプル間で優れた識別性を示しています。
・ 人間の好みスコアに関する微調整拡散モデルのために、Reward Feedback Learning(ReFL)が提案されています。拡散モデルは生成物に対して確率を提供しないため、ImageRewardの品質の特定性が後のノイズリダクションフェーズで直接的なフィードバック学習を可能にします。ReFLは自動的および手動で広範に評価され、データ拡張や損失再量化など他の方法と比較してその利点が示されています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 黄さんの法則に留意する:エンジニアたちがどのように速度向上を進めているかを示すビデオ
- 「研究者が量子コンピューティングのためのトポロジカル超伝導体を進展させる」
- 多種多様なロボットタイプ間での学習のスケーリングアップ
- MITとCUHKの研究者たちは、LLM(Long Context Large Language Models)に対して効率的なファインチューニングAIアプローチであるLongLoRA(Long Low-Rank Adaptation)を提案しています
- 「読むべき創造的エージェント研究論文」
- 「このAppleのAI研究は、ジェンダーステレオタイプに関するLLMsの振る舞いの既知の問題を調査します」
- ETHチューリッヒの研究者は、高速フィードフォワード(FFF)アーキテクチャを導入しましたこれは、そのニューロンのブロックに対して対数時間でアクセスするフィードフォワード(FF)アーキテクチャの仲間です