「Google Researchが探求：AIのフィードバックは、大規模な言語モデルの効果的な強化学習において人間の入力を置き換えることができるのか？」

「Google ResearchがAIのフィードバックについて探求」

人間のフィードバックは、機械学習モデルを改善し最適化するために不可欠です。近年、人間のフィードバックからの強化学習（RLHF）は、大規模な言語モデル（LLM）を人間の好みに合わせるのに非常に効果的であることが証明されていますが、高品質の人間の好みのラベルを収集するという重要な課題があります。Google AIの研究者たちは、研究の中でRLHFとAIフィードバックからの強化学習（RLAIF）を比較しようと試みました。 RLAIFは、人間のアノテーターに頼らずに事前に訓練されたLLMによって優先順位が付けられる技術です。

この研究では、研究者たちは要約タスクの文脈でRLAIFとRLHFを直接比較しました。彼らは、テキストが与えられた場合に2つの候補応答の優先順位ラベルを提供することを課されました。これには、市販の大規模言語モデル（LLM）を利用して推測された優先順位に基づいて報酬モデル（RM）をトレーニングし、対照的な損失を組み込むことが含まれています。最後のステップでは、強化学習の技術を用いてポリシーモデルを微調整することが求められました。上記の画像は、RLAIF（上）とRLHF（下）を示すダイアグラムを示しています。

上記の画像は、Redditの投稿に対してSFT、RLHF、RLAIFのポリシーによって生成された例の要約を示しています。SFTはキーポイントを捉えることができず、RLHFとRLAIFはより高品質の要約を生成しました。

この研究で示された結果は、次の2つの異なる方法で評価された場合に、RLAIFがRLHFと同等のパフォーマンスを達成していることを示しています：

まず、RLAIFとRLHFのポリシーはそれぞれの場合において、監視された微調整（SFT）ベースラインよりも人間の評価者から好意を受け取ったことが71％と73％のケースで観察されました。重要なことに、統計分析によって2つのアプローチ間の勝率に有意差は見られませんでした。
次に、RLAIFとRLHFによって生成された結果を直接比較するように人間に求めた場合、両方に対して同等の好みが表明され、それぞれの方法について50％の勝率となりました。これらの結果から、RLAIFは人間の注釈に依存せず、魅力的なスケーラビリティ特性を持つRLHFの代替手段であることが示唆されます。

この研究では要約タスクのみを探求しており、他のタスクへの一般化についてのオープンな問題が残されています。さらに、この研究では、費用対効果の観点から人間のラベリングと比較して大規模言語モデル（LLM）の推論がどれほど費用対効果があるかの推定は含まれていません。研究者は将来的にこの領域を探求することを望んでいます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceEditors PickLanguage modelLarge Language ModelMachine learningReinforcement LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

「Google Researchが探求：AIのフィードバックは、大規模な言語モデルの効果的な強化学習において人間の入力を置き換えることができるのか？」

Was this article helpful?

「Pandasのスピードを向上させ、ミリ秒単位で1000万行のデータセットを処理する方法」

「LLaSMと出会う：音声と言語の指示に従うクロスモーダルな対話能力を持つエンドツーエンドで訓練された大規模なマルチモーダル音声言語モデル」

AI研究

Google AIは、屋外での人間の視点によるシーン理解のためのマルチ属性ビデオデータセットであるSANPOを導入しました

「POCOと出会う：3D人体姿勢と形状推定のための画期的な人工知能フレームワーク」

「Googleの「この画像について」機能：AI生成の誤情報への解決策」

「Appleが『AppleGPT』チャットボットを使った生成AI競争に参入」

Google AIが簡単なエンドツーエンドの拡散ベースのテキスト読み上げE3-TTSを提案します：拡散に基づくシンプルで効率的なエンドツーエンドのテキスト読み上げモデルに基づくものです

NVIDIAは、Generative AIを用いて薬物探索を加速させるためにGenentechと協力