「Google Researchが探求:AIのフィードバックは、大規模な言語モデルの効果的な強化学習において人間の入力を置き換えることができるのか?」

「Google ResearchがAIのフィードバックについて探求」

人間のフィードバックは、機械学習モデルを改善し最適化するために不可欠です。近年、人間のフィードバックからの強化学習(RLHF)は、大規模な言語モデル(LLM)を人間の好みに合わせるのに非常に効果的であることが証明されていますが、高品質の人間の好みのラベルを収集するという重要な課題があります。Google AIの研究者たちは、研究の中でRLHFとAIフィードバックからの強化学習(RLAIF)を比較しようと試みました。 RLAIFは、人間のアノテーターに頼らずに事前に訓練されたLLMによって優先順位が付けられる技術です。

この研究では、研究者たちは要約タスクの文脈でRLAIFとRLHFを直接比較しました。彼らは、テキストが与えられた場合に2つの候補応答の優先順位ラベルを提供することを課されました。これには、市販の大規模言語モデル(LLM)を利用して推測された優先順位に基づいて報酬モデル(RM)をトレーニングし、対照的な損失を組み込むことが含まれています。最後のステップでは、強化学習の技術を用いてポリシーモデルを微調整することが求められました。上記の画像は、RLAIF(上)とRLHF(下)を示すダイアグラムを示しています。

上記の画像は、Redditの投稿に対してSFT、RLHF、RLAIFのポリシーによって生成された例の要約を示しています。SFTはキーポイントを捉えることができず、RLHFとRLAIFはより高品質の要約を生成しました。

この研究で示された結果は、次の2つの異なる方法で評価された場合に、RLAIFがRLHFと同等のパフォーマンスを達成していることを示しています:

  • まず、RLAIFとRLHFのポリシーはそれぞれの場合において、監視された微調整(SFT)ベースラインよりも人間の評価者から好意を受け取ったことが71%と73%のケースで観察されました。重要なことに、統計分析によって2つのアプローチ間の勝率に有意差は見られませんでした。
  • 次に、RLAIFとRLHFによって生成された結果を直接比較するように人間に求めた場合、両方に対して同等の好みが表明され、それぞれの方法について50%の勝率となりました。これらの結果から、RLAIFは人間の注釈に依存せず、魅力的なスケーラビリティ特性を持つRLHFの代替手段であることが示唆されます。

この研究では要約タスクのみを探求しており、他のタスクへの一般化についてのオープンな問題が残されています。さらに、この研究では、費用対効果の観点から人間のラベリングと比較して大規模言語モデル(LLM)の推論がどれほど費用対効果があるかの推定は含まれていません。研究者は将来的にこの領域を探求することを望んでいます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

Google AIは、屋外での人間の視点によるシーン理解のためのマルチ属性ビデオデータセットであるSANPOを導入しました

自動運転などのタスクにおいて、AIモデルは道路や歩道の3D構造だけでなく、道路標識や信号機を識別・認識する必要があります...

機械学習

「POCOと出会う:3D人体姿勢と形状推定のための画期的な人工知能フレームワーク」

写真や動画から3D人体のポーズと形状(HPS)を推定することは、現実世界の設定で人間のアクションを再構築するために必要です...

AIニュース

「Googleの「この画像について」機能:AI生成の誤情報への解決策」

AI生成の画像が氾濫する世界では、深刻な問題が浮上しています – 誤情報の拡散です。これらの非常にリアルな画像は、実...

機械学習

「Appleが『AppleGPT』チャットボットを使った生成AI競争に参入」

テック大手のAppleは、大いに期待されているAI搭載チャットボット「AppleGPT」という仮の名前で進んでいます。この革新的なプ...

機械学習

Google AIが簡単なエンドツーエンドの拡散ベースのテキスト読み上げE3-TTSを提案します:拡散に基づくシンプルで効率的なエンドツーエンドのテキスト読み上げモデルに基づくものです

機械学習において、拡散モデルは画像や音声生成のタスクによく使われる生成モデルです。拡散モデルは、複雑なデータ分布をよ...

機械学習

NVIDIAは、Generative AIを用いて薬物探索を加速させるためにGenentechと協力

ジェネンテック(ロシュグループの一員)は、 生成AI を使って新しい治療法を発見し、患者に効果的に治療を提供することを先...