「ImageReward(イメージリワード)に会ってください:AIの生成能力と人間の価値観を結ぶ革命的なテキストから画像へのモデル」

ImageReward Revolutionary model connecting AI's generation ability and human values from text to images.

機械学習において、テキスト入力に基づいて画像を生成できる生成モデルは、さまざまなアプローチが有望な結果を示し、近年著しい進展を遂げています。これらのモデルは注目を集め、潜在的な応用がありますが、事前学習とユーザー提示の分布の違いにより、モデルが生成する画像には既知の問題が生じ、人間の好みとの整合性を確保することが主な課題となっています。

テキストプロンプトから画像を生成する際には、正確なテキストと画像の整合性の確保、人間の身体の正確な描写、人間の美的好みへの適合、生成されたコンテンツの潜在的な有害性やバイアス回避などのさまざまな課題が生じます。これらの課題に対処するには、単にモデルアーキテクチャと事前学習データを改善するだけでは不十分です。自然言語処理で探索されているアプローチの一つは、人間のフィードバックからの強化学習です。このアプローチでは、エキスパートが注釈付けされた比較に基づいて報酬モデルを作成し、モデルを人間の好みや価値観に沿って誘導することが目指されています。ただし、この注釈付けのプロセスには時間と労力がかかる場合があります。

これらの課題に対処するため、中国の研究チームがテキストプロンプトから画像を生成するための画像報酬(ImageReward)という新しい解決策を提案しました。彼らは、137,000のエキスパート比較に基づいた実世界のユーザープロンプトとモデルの出力に基づいて訓練された、最初の汎用テキストから画像への人間の好み報酬モデルを紹介しています。

ImageRewardを構築するために、著者らはグラフベースのアルゴリズムを使用してさまざまなプロンプトを選択し、注釈付け者にプロンプト注釈、テキスト-画像評価、および画像ランキングからなるシステムを提供しました。また、少なくとも大学レベルの教育を受けた注釈付け者を募集し、生成された画像の評価とランキングにおいて合意が得られるようにしました。著者らはテキストから画像へのモデルのパフォーマンスをさまざまなタイプのプロンプトで分析しました。彼らは8,878の有用なプロンプトのデータセットを収集し、生成された画像を3つの次元で評価しました。また、生成された画像の一般的な問題を特定し、身体の問題と繰り返し生成が最も深刻であることを発見しました。彼らはプロンプト中の「機能」単語がモデルのパフォーマンスに与える影響を研究し、適切な機能フレーズがテキスト-画像の整合性を向上させることを示しました。

実験ステップでは、画像生成モデルの好みモデルであるImageRewardを訓練しました。バックボーンにはBLIPを使用し、過学習を防ぐために一部のトランスフォーマーレイヤーを凍結しました。最適なハイパーパラメータは、検証セットを使用してグリッドサーチにより決定されました。損失関数は、各プロンプトのランキングされた画像に基づいて定式化され、人間が好む画像を自動的に選択することを目指しました。

実験ステップでは、画像の比較ペアのデータセットを使用してImageRewardモデルを訓練し、他のモデルとの比較において優先度の正確性、再現率、およびフィルタースコアを使用して評価しました。ImageRewardは他のモデルよりも優れたパフォーマンスを示し、好みの正確性は65.14%でした。論文では、注釈付け者、研究者、注釈付け者アンサンブル、およびモデル間の合意分析も含まれています。このモデルは、美的基準よりも複雑な画像の忠実度において他のモデルよりも優れたパフォーマンスを発揮し、優れた画像と劣る画像との差を最大化します。さらに、提案されたImageRewardモデルから特定のコンポーネントや特徴を削除することの影響を分析するために削除実験も行われました。削除実験の主な結果は、トランスフォーマーバックボーンを削除することがモデルの優先度の正確性に最も大きな影響を与え、トランスフォーマーの重要な役割を示しています。

本記事では、中国の研究チームがImageRewardを紹介した新しい調査を紹介しました。この汎用テキストから画像への人間の好み報酬モデルは、生成モデルの問題を人間の価値観に沿って解決します。彼らは注釈付けのプロセスと137kの比較と8,878のプロンプトのデータセットを作成しました。実験の結果、ImageRewardは既存の手法を上回り、理想的な評価指標となり得ることが示されました。チームは人間の評価を分析し、注釈付けプロセスを改善し、さらに多くのカテゴリをカバーするモデルを開発し、テキストから画像への合成の限界を押し広げるために強化学習を探求する予定です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

AIがセキュリティを向上させる方法

AIはマルウェアの検出、サイバー脅威の特定と対応、機密データの保護、そして重要なインフラストラクチャのセキュリティ向上...

データサイエンス

「VAST DataのプラットフォームがAIイノベーションの障壁を取り除く方法」

データが存在する場所に関係なく、より多くのデータへの高速アクセスは、AIに基づくアプリケーション、ソリューション、およ...

機械学習

深層学習のマスタリング:非線形性をピースワイズな推定による近似するアート パート3

皆さん、こんにちは!私のディープラーニングマスタリングシリーズの第3回目へようこそこの記事は、第1部と第2部の続きであり...

AIニュース

「LlaMA 2の始め方 | メタの新しい生成AI」

イントロダクション OpenAIからGPTがリリースされて以来、多くの企業が独自の堅牢な生成型大規模言語モデルを作成するための...

AIテクノロジー

高度なRAGテクニック:イラスト入り概要

この投稿の目標は、利用可能なRAGアルゴリズムとテクニックの概要と説明をすることなので、コードの実装の詳細には立ち入らず...

AI研究

サリー大学の研究者が新しい人工知能(AI)モデルを開発しましたこのモデルは、通信ネットワークが最大76%ものネットワークを節約できる可能性があります

オープン・ラジオ・アクセス・ネットワーク(O-RAN)は、分離されたラジオ・アクセス・ネットワーク(RAN)に知能を注入し、...