大規模言語モデルは安全性を自己評価できるのか?RAINに会ってください:ファインチューニングなしでAIのアライメントと防御を変革する革新的な推論方法
大規模言語モデルの安全性を自己評価するRAIN:AIのアライメントと防御を変革する新しい推論方法
事前学習済み大規模言語モデル(LLM)であるGPT-3などは、人間の質問に対する理解力や返答能力に非凡な才能を持っており、コーディングの手伝いなどにも役立っています。しかし、彼らはしばしば人々が好む結果とは異なる結果を生成します。過去に、研究者たちは人間の好みに関する情報を収集し、強化学習や指示調整を用いて以前に訓練されたモデルを整列させることで、この問題を解決しようと試みてきました。これには微調整段階が必要です。追加のデータは必要ありませんが、追加のトレーニングを受けていない凍結されたLLMを整列させる方が魅力的です。
最近、研究チームは、整列していないLLMが自己評価および巻き戻し機構を含む自己改善プロセスによって直接人間の好みに合った返答を生成できることを発見しました。AIの安全性を考慮して、彼らはRewindable Auto-regressive INference(RAIN)を導入しました。これは、事前学習済みLLMが自身が生成したテキストを評価し、評価結果を逆巻き戻しと前方生成に利用する独自の推論技術です。
RAINは、モデルの整列に追加のデータを必要としません。パラメータの更新、勾配の計算、トレーニングは必要ありません。固定テンプレートのプロンプトを介して自己評価フェーズでどの人間の好みに整列するかの指示をモデルが受け取りますので、初期クエリを繰り返し調整する必要はありません。
GPT-4モデルと人間の評価者によって評価された実験結果は、RAINの成功を示しています。たとえば、HHデータセットを使用すると、RAINはLLaMA 30Bの無害率をバニラ推論と比較して82%から97%に劇的に向上させながら、有用性率を一定に保ちます。チームはRAINがLLM-ATTACKSに対する攻撃の成功率を94%から19%に下げることで、防御の新たな基準を確立したと共有しています。
RAINは、現在使用されている大規模言語モデル(LLM)の整列方法に比べていくつかの利点を提供します:
- 普遍性:RAINのアプローチは柔軟で、さまざまな言語生成の仕事に使用することができます。これは多くのLLMにとって標準的な自己回帰推論パラダイムに完全に適合しています。これにより、RAINは高度にカスタマイズ可能で使いやすく、ほとんどの現行のLLMに迅速に統合することができます。
- 凍結された重みとの整列:RAINはRLHFなどの他の整列戦略とは異なり、追加のモデルの維持や勾配データおよび計算ネットワークの保存は必要ありません。これによって生じる最小のメモリオーバーヘッドは、単純な自己回帰推論と同等です。RAINは、シンプルな実装とメモリ効率の良い設計のため、凍結された重みを持つLLMを整列させるための現実的な選択肢です。これにより、リソースを消費する微調整手順が除外されます。
- 学習不要:RAINは、ラベル付きまたは未ラベル化のデータや人間の注釈に頼る必要はありません。学習不要の方法で動作するため、多くの情報やトレーニングは必要ありません。RAINは、さまざまなタスクで整列性能を大幅に向上させ、LLMを敵対的なプロンプト攻撃に対してより耐性のあるものにします。よく知られた敵対的な攻撃手法に対して評価された場合、RAINは攻撃の成功率を大幅に低下させるため、その防御能力を示しています。
まとめると、この研究では、追加情報や手間のかかる微調整の必要なく、LLMを人間の好みに合わせて調整するためのRAINという技術が導入されました。これは、LLMが自己の出力を評価し改善できるようにすることによって達成されます。結果として、より調和のとれた安全なAI生成の応答が生まれます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles