「ImageReward(イメージリワード)に会ってください:AIの生成能力と人間の価値観を結ぶ革命的なテキストから画像へのモデル」

ImageReward Revolutionary model connecting AI's generation ability and human values from text to images.

機械学習において、テキスト入力に基づいて画像を生成できる生成モデルは、さまざまなアプローチが有望な結果を示し、近年著しい進展を遂げています。これらのモデルは注目を集め、潜在的な応用がありますが、事前学習とユーザー提示の分布の違いにより、モデルが生成する画像には既知の問題が生じ、人間の好みとの整合性を確保することが主な課題となっています。

テキストプロンプトから画像を生成する際には、正確なテキストと画像の整合性の確保、人間の身体の正確な描写、人間の美的好みへの適合、生成されたコンテンツの潜在的な有害性やバイアス回避などのさまざまな課題が生じます。これらの課題に対処するには、単にモデルアーキテクチャと事前学習データを改善するだけでは不十分です。自然言語処理で探索されているアプローチの一つは、人間のフィードバックからの強化学習です。このアプローチでは、エキスパートが注釈付けされた比較に基づいて報酬モデルを作成し、モデルを人間の好みや価値観に沿って誘導することが目指されています。ただし、この注釈付けのプロセスには時間と労力がかかる場合があります。

これらの課題に対処するため、中国の研究チームがテキストプロンプトから画像を生成するための画像報酬(ImageReward)という新しい解決策を提案しました。彼らは、137,000のエキスパート比較に基づいた実世界のユーザープロンプトとモデルの出力に基づいて訓練された、最初の汎用テキストから画像への人間の好み報酬モデルを紹介しています。

ImageRewardを構築するために、著者らはグラフベースのアルゴリズムを使用してさまざまなプロンプトを選択し、注釈付け者にプロンプト注釈、テキスト-画像評価、および画像ランキングからなるシステムを提供しました。また、少なくとも大学レベルの教育を受けた注釈付け者を募集し、生成された画像の評価とランキングにおいて合意が得られるようにしました。著者らはテキストから画像へのモデルのパフォーマンスをさまざまなタイプのプロンプトで分析しました。彼らは8,878の有用なプロンプトのデータセットを収集し、生成された画像を3つの次元で評価しました。また、生成された画像の一般的な問題を特定し、身体の問題と繰り返し生成が最も深刻であることを発見しました。彼らはプロンプト中の「機能」単語がモデルのパフォーマンスに与える影響を研究し、適切な機能フレーズがテキスト-画像の整合性を向上させることを示しました。

実験ステップでは、画像生成モデルの好みモデルであるImageRewardを訓練しました。バックボーンにはBLIPを使用し、過学習を防ぐために一部のトランスフォーマーレイヤーを凍結しました。最適なハイパーパラメータは、検証セットを使用してグリッドサーチにより決定されました。損失関数は、各プロンプトのランキングされた画像に基づいて定式化され、人間が好む画像を自動的に選択することを目指しました。

実験ステップでは、画像の比較ペアのデータセットを使用してImageRewardモデルを訓練し、他のモデルとの比較において優先度の正確性、再現率、およびフィルタースコアを使用して評価しました。ImageRewardは他のモデルよりも優れたパフォーマンスを示し、好みの正確性は65.14%でした。論文では、注釈付け者、研究者、注釈付け者アンサンブル、およびモデル間の合意分析も含まれています。このモデルは、美的基準よりも複雑な画像の忠実度において他のモデルよりも優れたパフォーマンスを発揮し、優れた画像と劣る画像との差を最大化します。さらに、提案されたImageRewardモデルから特定のコンポーネントや特徴を削除することの影響を分析するために削除実験も行われました。削除実験の主な結果は、トランスフォーマーバックボーンを削除することがモデルの優先度の正確性に最も大きな影響を与え、トランスフォーマーの重要な役割を示しています。

本記事では、中国の研究チームがImageRewardを紹介した新しい調査を紹介しました。この汎用テキストから画像への人間の好み報酬モデルは、生成モデルの問題を人間の価値観に沿って解決します。彼らは注釈付けのプロセスと137kの比較と8,878のプロンプトのデータセットを作成しました。実験の結果、ImageRewardは既存の手法を上回り、理想的な評価指標となり得ることが示されました。チームは人間の評価を分析し、注釈付けプロセスを改善し、さらに多くのカテゴリをカバーするモデルを開発し、テキストから画像への合成の限界を押し広げるために強化学習を探求する予定です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「IoT企業のインテリジェントビデオアナリティクスプラットフォームを搭載したAIがベンガルール空港に到着」

毎年、約3200万人がベンガルール空港、またはBLRを通過し、世界で最も人口の多い国の中で最も忙しい空港の一つです。 このよ...

データサイエンス

「LLMの評価にLLMを使用する」

ChatGPTには何百万もの異なる方法で行動するように頼むことができます栄養士や言語講師、医者などとしての役割も果たしますOp...

機械学習

適切なバランスを取る:機械学習モデルにおける過学習と過小適合の理解

機械学習の問題に取り組むすべての人は、自分のモデルができるだけ最適に動作することを望んでいますしかし、望むほどモデル...

人工知能

AIにおいて大胆であることは、最初から責任を持つことを意味します

GoogleのJames Manyika氏は、Googleが人々と社会に利益をもたらすためにAIを責任ある形で適用する方法について話しています

人工知能

「コーディング経験なしでAIエージェンシーを始める方法」

「次の10年で最も大きなビジネスの機会の1つを紹介させてください」

人工知能

「ゲーミングからAIへ:NvidiaのAI革命における重要な役割」

Nvidiaは現在、Facebook、Tesla、Netflixよりも価値が高いですロイターによると、株価は過去8ヶ月で3倍になりましたしかし、...