Google DeepMindは、直接報酬微調整(DRaFT)を導入しました:微分可能な報酬関数を最大化するための効果的な人工知能手法における拡散モデルの微調整

グーグルディープマインドがDRaFT(直接報酬微調整)を導入:微分可能な報酬関数を最大化する効果的なAI手法に基づく拡散モデルの微調整

拡散モデルは、さまざまなデータタイプでの生成モデリングを革新しました。ただし、テキストの説明から見た目の良い画像を生成するなどの実際のアプリケーションでは、微調整がしばしば必要です。テキストから画像への拡散モデルは、分類器フリーガイダンスやLAIONエステティックなどのキュレーションされたデータセットの技術を用いて、整列と画像の品質を向上させるための手法を採用しています。

研究では、勾配ベースのリワード微調整に対する明解で効率的な方法を提示しています。これには、拡散サンプリングプロセスを通じて微分を行うという概念を導入しています。彼らは直接リワード微調整(DRaFT)という概念を紹介し、通常50ステップの展開計算グラフとして表されるサンプリングチェーン全体に対して逆伝播を行います。効果的なメモリ管理と計算コストのために、彼らは勾配チェックポイント技術を利用し、全体のモデルパラメータを変更する代わりにLoRAウェイトを最適化します。

上記の画像は、人間の好みのリワードモデルを使用したDRaFTを示しています。さらに、著者はDRaFTメソッドの効率とパフォーマンスを向上させるための改良を紹介しています。まず、彼らはDRaFT-Kというバリエーションを提案しています。これは、微調整の勾配を計算する際にサンプリングの最後のKステップのみに逆伝播を制限するものです。実証結果は、この切り詰められた勾配アプローチが、同じトレーニングステップ数でのフル逆伝播よりも優れたパフォーマンスを発揮することを示しています。フル逆伝播は勾配の爆発という問題を引き起こすことがあるためです。

さらに、著者はDRaFT-LVという、複数のノイズサンプルを平均化して低分散勾配推定を計算するDRaFT-1の変形を導入して、アプローチの効率をさらに向上させます。

研究の著者は、DRaFTを安定拡散1.4に適用し、さまざまなリワード関数とプロンプトセットを使用して評価を行いました。彼らの勾配を活用した手法は、RLベースの微調整ベースラインと比較して、著しく効率的な利点を示しました。たとえば、LAIONエステティッククラシファイアからスコアを最大化する場合、RLアルゴリズムと比較して200倍以上の高速化が実現しました。

彼らが提案したバリエーションの1つであるDRaFT-LVは、従来の勾配ベースの微調整手法であるReFLよりも約2倍の速さで学習するという優れた効率を示しました。さらに、DRaFTモデルと事前学習モデルを組み合わせたり、ミキシングやスケーリングを通じてLoRAウェイトを調整することで、DRaFTの汎用性を示しています。

まとめると、微分可能なリワードによる拡散モデルの直接微調整は、画像、テキストなどの応用範囲において生成モデリング技術の改善に有望な手法です。その効率性、汎用性、効果性が、機械学習および生成モデリングの研究者や実践者のツールキットにおける貴重な追加要素となります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「Apache CassandraとApache Pulsarを使用した製品推薦エンジンの構築」

仮説上の請負業者がApache PulsarとApache Cassandraを使用してAIの加速化を行った方法この記事ではAI/MLへの道のりの重要な...

機械学習

「ディープラーニングモデルのレイヤーを凍結する方法 - 正しいやり方」

「モデルの微調整を行いたい場合や、処理する例に応じて一部のパラメータを固定することは、しばしば有用です以下の例で示さ...

機械学習

「Nvidiaが革命的なAIチップを発表し、生成型AIアプリケーションを急速に強化する」

技術が常に限界を押し上げる時代において、Nvidiaは再びその名を刻みました。同社はGH200 Grace Hopper Superchipを発売しま...

データサイエンス

「LangChain、Activeloop、およびDeepInfraを使用したTwitterアルゴリズムのリバースエンジニアリングのためのプレーンな英語ガイド」

このガイドでは、Twitterの推奨アルゴリズムを逆解析して、コードベースをより理解し、より良いコンテンツを作成するための洞...

AI研究

このAI論文は、MITが化学研究のために深層学習モデルのスケーリングを探究しています

MITの研究者は、化学のための生成的事前トレーニングモデル(ChemGPT)とグラフニューラルネットワークフォースフィールド(G...

AIニュース

創造性とAIに関するレフィク・アナドールとの対話

Mira Lane は、先駆的なアーティスト Refik Anadol と共に、AIが創造力を強化している方法を探求しています