マイクロソフトの研究者たちは、人間のフィードバックを用いた強化学習のためのメモリ効率の高い解決策であるHydra-RLHFを紹介しました

Microsoftの研究者は、Hydra-RLHFというメモリ効率の高い強化学習の解決策を紹介しました

知名度が高まった以来、ChatGPT、GPT-4、Llama-2ファミリーモデルは、さまざまな仕事の有用な助手としての汎用性により、ユーザーを魅了してきました。RLHFを使用したモデルの整列と、他の多くの基盤モデルは、その効果の一因です。巨大な言語モデルをトレーニングすると、多くの知識を持つネットワークが作成されます。ただし、ネットワークがその情報を区別するように教えられていないため、望ましくない行動を示す場合があり、社会的な害を引き起こすことさえあります。モデルの振る舞いを変えることにより、整列はこの問題に対処し、安全で管理可能な基盤モデルの開発において重要な要素となっています。

RLHFはモデルの整列を向上させますが、PPO中に多数のモデルを読み込みおよびトレーニングする際の高い複雑さと大きなメモリ要件により、使用は制限されています。この適用はまだ初期段階であるため、RLHFの速度とパフォーマンスの変動を評価することが重要です。彼らはこの目標を達成するために、一般的なRLHFPPOのトレーニング手順とモデルアーキテクチャを調査しました。彼らの調査では、参照/報酬モデルとアクター/クリティックモデル間でのモデル共有によるメモリ/計算コストの削減の可能性が明らかになりました。

Microsoftの研究者は、これらの結果に基づいて、PPO中に学習されたモデルと静的モデルの保存量を最小化するHydra-PPOを提案しています。これにより、これらのメモリの節約は、ランタイムとパフォーマンスの比較によれば、PPOのパーサンプルのレイテンシを最大で65%減少させるために使用できます。彼らはHydra-RLHFと呼ばれる一連のRLHFの改良を提案しています。彼らは、2つの線形ヘッドを持つデコーダベースのモデルであるHydraを作成します:

1)シーケンスの後に来るトークンを予測する因果関係ヘッド

2)同じ入力に関連する即時報酬を提供する報酬モデルヘッド

マルチヘッドモデルは、一般的に研究が進められ、強化学習においても詳細に研究されています。

彼らは、GPT-4によって測定されるいくつかのモデル整列手法の効果を評価する比較研究を実施しました。彼らは、LoRA-PPOがFFTよりも優れた整列を持つが、より高価であることを発見しました。彼らは、メモリ使用量を削減しながら速度を維持するための方法として、参照モデルと報酬モデルを組み合わせ、PPO中に現在のLoRAモジュールを動的に切り替えるHydra-RLHFを紹介しています。Hydra-RLHFにより、追加のRAMを使用してより大きなバッチサイズでトレーニングすることで、パーサンプルのレイテンシを最大で65%高速化することができます。Hydra-RLHFのおかげで、コミュニティはより広範なモデルとアプリケーションにRLHFを使用することができるようになりました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「ユーザーとの対話により、RAG使用例でのLLM応答を改善する」

最も一般的な生成AIと大規模言語モデル(LLM)の応用の1つは、特定の外部知識コーパスに基づく質問に答えることです情報検索...

AI研究

プリンストン大学の研究者が、自然界の写実的な3Dシーンの手続き生成器であるInfinigenを紹介しました

プリンストン大学の研究チームは、「プロシージャルジェネレーションを使用した無限の写実的な世界」という最近の論文で、画...

AIニュース

「AIのリスクと絶滅:AI革命の中での人類の不安定な未来」

進行中のAI革命によって引き起こされる深刻なAIのリスクを探求してください専門家は絶滅の危険性を警告しています詳しく知り...

AI研究

東京大学の研究者たちは、攻撃者から機密性の高い人工知能(AI)ベースのアプリケーションを保護するための新しい技術を紹介しました

近年、人工知能(AI)の急速な進歩により、コンピュータビジョン、音声認識など、さまざまな分野で広範な応用が行われるよう...

AIニュース

「開発者向けの15以上のAIツール(2023年9月)」

GitHub Copilot GitHub Copilotは、市場をリードするAIパワードのコーディングアシスタントです。開発者がより効率的に優れた...

データサイエンス

DLノート:勾配降下法

人工ニューラルネットワーク(ANN)は、万能関数近似器です十分なデータが与えられ、適切なアーキテクチャがあり、十分な訓練...