「ImageReward(イメージリワード)に会ってください:AIの生成能力と人間の価値観を結ぶ革命的なテキストから画像へのモデル」

ImageReward Revolutionary model connecting AI's generation ability and human values from text to images.

機械学習において、テキスト入力に基づいて画像を生成できる生成モデルは、さまざまなアプローチが有望な結果を示し、近年著しい進展を遂げています。これらのモデルは注目を集め、潜在的な応用がありますが、事前学習とユーザー提示の分布の違いにより、モデルが生成する画像には既知の問題が生じ、人間の好みとの整合性を確保することが主な課題となっています。

テキストプロンプトから画像を生成する際には、正確なテキストと画像の整合性の確保、人間の身体の正確な描写、人間の美的好みへの適合、生成されたコンテンツの潜在的な有害性やバイアス回避などのさまざまな課題が生じます。これらの課題に対処するには、単にモデルアーキテクチャと事前学習データを改善するだけでは不十分です。自然言語処理で探索されているアプローチの一つは、人間のフィードバックからの強化学習です。このアプローチでは、エキスパートが注釈付けされた比較に基づいて報酬モデルを作成し、モデルを人間の好みや価値観に沿って誘導することが目指されています。ただし、この注釈付けのプロセスには時間と労力がかかる場合があります。

これらの課題に対処するため、中国の研究チームがテキストプロンプトから画像を生成するための画像報酬(ImageReward)という新しい解決策を提案しました。彼らは、137,000のエキスパート比較に基づいた実世界のユーザープロンプトとモデルの出力に基づいて訓練された、最初の汎用テキストから画像への人間の好み報酬モデルを紹介しています。

ImageRewardを構築するために、著者らはグラフベースのアルゴリズムを使用してさまざまなプロンプトを選択し、注釈付け者にプロンプト注釈、テキスト-画像評価、および画像ランキングからなるシステムを提供しました。また、少なくとも大学レベルの教育を受けた注釈付け者を募集し、生成された画像の評価とランキングにおいて合意が得られるようにしました。著者らはテキストから画像へのモデルのパフォーマンスをさまざまなタイプのプロンプトで分析しました。彼らは8,878の有用なプロンプトのデータセットを収集し、生成された画像を3つの次元で評価しました。また、生成された画像の一般的な問題を特定し、身体の問題と繰り返し生成が最も深刻であることを発見しました。彼らはプロンプト中の「機能」単語がモデルのパフォーマンスに与える影響を研究し、適切な機能フレーズがテキスト-画像の整合性を向上させることを示しました。

実験ステップでは、画像生成モデルの好みモデルであるImageRewardを訓練しました。バックボーンにはBLIPを使用し、過学習を防ぐために一部のトランスフォーマーレイヤーを凍結しました。最適なハイパーパラメータは、検証セットを使用してグリッドサーチにより決定されました。損失関数は、各プロンプトのランキングされた画像に基づいて定式化され、人間が好む画像を自動的に選択することを目指しました。

実験ステップでは、画像の比較ペアのデータセットを使用してImageRewardモデルを訓練し、他のモデルとの比較において優先度の正確性、再現率、およびフィルタースコアを使用して評価しました。ImageRewardは他のモデルよりも優れたパフォーマンスを示し、好みの正確性は65.14%でした。論文では、注釈付け者、研究者、注釈付け者アンサンブル、およびモデル間の合意分析も含まれています。このモデルは、美的基準よりも複雑な画像の忠実度において他のモデルよりも優れたパフォーマンスを発揮し、優れた画像と劣る画像との差を最大化します。さらに、提案されたImageRewardモデルから特定のコンポーネントや特徴を削除することの影響を分析するために削除実験も行われました。削除実験の主な結果は、トランスフォーマーバックボーンを削除することがモデルの優先度の正確性に最も大きな影響を与え、トランスフォーマーの重要な役割を示しています。

本記事では、中国の研究チームがImageRewardを紹介した新しい調査を紹介しました。この汎用テキストから画像への人間の好み報酬モデルは、生成モデルの問題を人間の価値観に沿って解決します。彼らは注釈付けのプロセスと137kの比較と8,878のプロンプトのデータセットを作成しました。実験の結果、ImageRewardは既存の手法を上回り、理想的な評価指標となり得ることが示されました。チームは人間の評価を分析し、注釈付けプロセスを改善し、さらに多くのカテゴリをカバーするモデルを開発し、テキストから画像への合成の限界を押し広げるために強化学習を探求する予定です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

UC BerkeleyとDeepmindの研究者は、SuccessVQAという成功検出の再構成を提案しましたこれは、Flamingoなどの事前学習済みVLMに適したものです

最高のパフォーマンス精度を達成するためには、トレーニング中にエージェントが正しいまたは望ましいトラック上にあるかどう...

機械学習

『circ2CBAを紹介 circRNA-RBP結合サイトの予測を革新する新しい深層学習モデル』

最近、中国の研究チームが、circular RNAs(circRNAs)とRNA-binding proteins(RBPs)の結合部位の予測を革新すると約束する...

機械学習

メタがコードラマをリリース:コーディングのための最新のAIツール

メタ社は、驚異的な技術的飛躍を遂げ、最新の作品であるCode Llamaをリリースしました。Code Llamaは、Llama 2言語モデルをベ...

AIニュース

AIを使用して、自分の目で直接拡張現実(AR)を体験してみましょう

技術の飛躍により、Brilliant Labsは最先端のオープンソースARレンズ「Monocle」で拡張現実市場を変革しました。この革新的な...

機械学習

「ゲームを一段と盛り上げる:スタートアップのスポーツビジョンAIが世界中にアスレチックを放送」

Pixellotは、ビジョンAIによって得点を稼いでおり、各国の視聴者にリアルタイムのスポーツ放送と分析を提供する組織にとって...

機械学習

ニューラルネットワークにおける活性化関数の種類

ニューラルネットワークの活性化関数は、ディープラーニングの重要な部分であり、トレーニングモデルの精度と効率を決定しま...