「ImageReward(イメージリワード)に会ってください:AIの生成能力と人間の価値観を結ぶ革命的なテキストから画像へのモデル」
ImageReward Revolutionary model connecting AI's generation ability and human values from text to images.
機械学習において、テキスト入力に基づいて画像を生成できる生成モデルは、さまざまなアプローチが有望な結果を示し、近年著しい進展を遂げています。これらのモデルは注目を集め、潜在的な応用がありますが、事前学習とユーザー提示の分布の違いにより、モデルが生成する画像には既知の問題が生じ、人間の好みとの整合性を確保することが主な課題となっています。
テキストプロンプトから画像を生成する際には、正確なテキストと画像の整合性の確保、人間の身体の正確な描写、人間の美的好みへの適合、生成されたコンテンツの潜在的な有害性やバイアス回避などのさまざまな課題が生じます。これらの課題に対処するには、単にモデルアーキテクチャと事前学習データを改善するだけでは不十分です。自然言語処理で探索されているアプローチの一つは、人間のフィードバックからの強化学習です。このアプローチでは、エキスパートが注釈付けされた比較に基づいて報酬モデルを作成し、モデルを人間の好みや価値観に沿って誘導することが目指されています。ただし、この注釈付けのプロセスには時間と労力がかかる場合があります。
これらの課題に対処するため、中国の研究チームがテキストプロンプトから画像を生成するための画像報酬(ImageReward)という新しい解決策を提案しました。彼らは、137,000のエキスパート比較に基づいた実世界のユーザープロンプトとモデルの出力に基づいて訓練された、最初の汎用テキストから画像への人間の好み報酬モデルを紹介しています。
ImageRewardを構築するために、著者らはグラフベースのアルゴリズムを使用してさまざまなプロンプトを選択し、注釈付け者にプロンプト注釈、テキスト-画像評価、および画像ランキングからなるシステムを提供しました。また、少なくとも大学レベルの教育を受けた注釈付け者を募集し、生成された画像の評価とランキングにおいて合意が得られるようにしました。著者らはテキストから画像へのモデルのパフォーマンスをさまざまなタイプのプロンプトで分析しました。彼らは8,878の有用なプロンプトのデータセットを収集し、生成された画像を3つの次元で評価しました。また、生成された画像の一般的な問題を特定し、身体の問題と繰り返し生成が最も深刻であることを発見しました。彼らはプロンプト中の「機能」単語がモデルのパフォーマンスに与える影響を研究し、適切な機能フレーズがテキスト-画像の整合性を向上させることを示しました。
実験ステップでは、画像生成モデルの好みモデルであるImageRewardを訓練しました。バックボーンにはBLIPを使用し、過学習を防ぐために一部のトランスフォーマーレイヤーを凍結しました。最適なハイパーパラメータは、検証セットを使用してグリッドサーチにより決定されました。損失関数は、各プロンプトのランキングされた画像に基づいて定式化され、人間が好む画像を自動的に選択することを目指しました。
実験ステップでは、画像の比較ペアのデータセットを使用してImageRewardモデルを訓練し、他のモデルとの比較において優先度の正確性、再現率、およびフィルタースコアを使用して評価しました。ImageRewardは他のモデルよりも優れたパフォーマンスを示し、好みの正確性は65.14%でした。論文では、注釈付け者、研究者、注釈付け者アンサンブル、およびモデル間の合意分析も含まれています。このモデルは、美的基準よりも複雑な画像の忠実度において他のモデルよりも優れたパフォーマンスを発揮し、優れた画像と劣る画像との差を最大化します。さらに、提案されたImageRewardモデルから特定のコンポーネントや特徴を削除することの影響を分析するために削除実験も行われました。削除実験の主な結果は、トランスフォーマーバックボーンを削除することがモデルの優先度の正確性に最も大きな影響を与え、トランスフォーマーの重要な役割を示しています。
本記事では、中国の研究チームがImageRewardを紹介した新しい調査を紹介しました。この汎用テキストから画像への人間の好み報酬モデルは、生成モデルの問題を人間の価値観に沿って解決します。彼らは注釈付けのプロセスと137kの比較と8,878のプロンプトのデータセットを作成しました。実験の結果、ImageRewardは既存の手法を上回り、理想的な評価指標となり得ることが示されました。チームは人間の評価を分析し、注釈付けプロセスを改善し、さらに多くのカテゴリをカバーするモデルを開発し、テキストから画像への合成の限界を押し広げるために強化学習を探求する予定です。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「Chapyterをご紹介します:ChatGPTがPythonノートブックの作成をサポートするための新しいJupyter拡張機能」
- 「機械学習の解明:人気のあるMLライブラリとツール」
- Google AIは、Symbol Tuningを導入しました:入力-ラベルのマッピングを強調することで、コンテキスト内の学習を改善できるシンプルなファインチューニング方法
- 「RNNにおける誤差逆伝播法と勾配消失問題(パート2)」
- 「このAI論文は、ChatGPTにペルソナを割り当てると、毒性が最大6倍に増加することを示しています」
- ドリームティーチャーというAIフレームワークに出会ってください:自己教師付きの特徴表現学習AIフレームワークであり、下流の画像バックボーンの事前トレーニングに生成ネットワークを利用します
- 「大規模な言語モデルを使用した生成型AI:実践トレーニング」