RLHF:人間のフィードバックからの強化学習

RLHF 人間のフィードバックからの強化学習の向上

ChatGPTの成功要素:インストラクションデータ。

ChatGPTはその印象的な能力で世界を魅了しました。しかし、それがなぜそんなに賢くなったのでしょうか?

最近、尊敬しているソフトウェアエンジニアで元同僚の一人と話しましたが、彼はChatGPTがAGIの具現化だと信じており、その理由として、複雑なトピックを六歳児の理解レベルまで簡単に説明できる能力を挙げました。その非合理的な知能に完全には同意できないものの、私は自分の考えを書き留めることにしました。この記事では、ChatGPTの魔法が大いに訓練データに依存していることを強調したいと思います。

丹念に作成されたインストラクションデータがChatGPTの人間らしい能力の鍵です。6歳児に概念を説明すること、履歴書をLinkedInプロフィールに変換すること、アイデアをブレインストーミングすることなど、これらの能力はただ単に現れたわけではありません。それらは訓練データの形でモデルに故意にエンコードされたものです。

他の人と同様に、これが初めての閉じられた研究体験です。大学時代から、すべてのフロンティア研究はオープンで査読可能でしたが、最近はそうではありません。そして、私はオープンさが閉鎖性よりも科学の進歩につながると信じています。

もし私たちがChatGPTの性能に対してオープンソースで対抗することを目指すなら、訓練データをより真剣に取り組む必要があると考えています。ChatGPTの効果の大部分は、特定のMLアーキテクチャや微調整技術、フレームワークといった要素からではなく、むしろインストラクションデータの広がり、規模、品質から来る可能性が高いのです。

正直に言えば、凡庸なインストラクションデータで大規模な言語モデルを微調整することは計算リソースの無駄です。過去の大規模事前学習とは異なる学習手法や訓練データのフォーマットの変化について見てみましょう。

RLHFとは何ですか?

RLHFは、人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback)の略称です。主な要素は次の2つです:

  1. 強化学習(RL)
  2. 人間からのフィードバック(HF)

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more