大規模言語モデルは安全性を自己評価できるのか?RAINに会ってください:ファインチューニングなしでAIのアライメントと防御を変革する革新的な推論方法

大規模言語モデルの安全性を自己評価するRAIN:AIのアライメントと防御を変革する新しい推論方法

事前学習済み大規模言語モデル(LLM)であるGPT-3などは、人間の質問に対する理解力や返答能力に非凡な才能を持っており、コーディングの手伝いなどにも役立っています。しかし、彼らはしばしば人々が好む結果とは異なる結果を生成します。過去に、研究者たちは人間の好みに関する情報を収集し、強化学習や指示調整を用いて以前に訓練されたモデルを整列させることで、この問題を解決しようと試みてきました。これには微調整段階が必要です。追加のデータは必要ありませんが、追加のトレーニングを受けていない凍結されたLLMを整列させる方が魅力的です。

最近、研究チームは、整列していないLLMが自己評価および巻き戻し機構を含む自己改善プロセスによって直接人間の好みに合った返答を生成できることを発見しました。AIの安全性を考慮して、彼らはRewindable Auto-regressive INference(RAIN)を導入しました。これは、事前学習済みLLMが自身が生成したテキストを評価し、評価結果を逆巻き戻しと前方生成に利用する独自の推論技術です。

RAINは、モデルの整列に追加のデータを必要としません。パラメータの更新、勾配の計算、トレーニングは必要ありません。固定テンプレートのプロンプトを介して自己評価フェーズでどの人間の好みに整列するかの指示をモデルが受け取りますので、初期クエリを繰り返し調整する必要はありません。

GPT-4モデルと人間の評価者によって評価された実験結果は、RAINの成功を示しています。たとえば、HHデータセットを使用すると、RAINはLLaMA 30Bの無害率をバニラ推論と比較して82%から97%に劇的に向上させながら、有用性率を一定に保ちます。チームはRAINがLLM-ATTACKSに対する攻撃の成功率を94%から19%に下げることで、防御の新たな基準を確立したと共有しています。

RAINは、現在使用されている大規模言語モデル(LLM)の整列方法に比べていくつかの利点を提供します:

  1. 普遍性:RAINのアプローチは柔軟で、さまざまな言語生成の仕事に使用することができます。これは多くのLLMにとって標準的な自己回帰推論パラダイムに完全に適合しています。これにより、RAINは高度にカスタマイズ可能で使いやすく、ほとんどの現行のLLMに迅速に統合することができます。
  1. 凍結された重みとの整列:RAINはRLHFなどの他の整列戦略とは異なり、追加のモデルの維持や勾配データおよび計算ネットワークの保存は必要ありません。これによって生じる最小のメモリオーバーヘッドは、単純な自己回帰推論と同等です。RAINは、シンプルな実装とメモリ効率の良い設計のため、凍結された重みを持つLLMを整列させるための現実的な選択肢です。これにより、リソースを消費する微調整手順が除外されます。
  1. 学習不要:RAINは、ラベル付きまたは未ラベル化のデータや人間の注釈に頼る必要はありません。学習不要の方法で動作するため、多くの情報やトレーニングは必要ありません。RAINは、さまざまなタスクで整列性能を大幅に向上させ、LLMを敵対的なプロンプト攻撃に対してより耐性のあるものにします。よく知られた敵対的な攻撃手法に対して評価された場合、RAINは攻撃の成功率を大幅に低下させるため、その防御能力を示しています。

まとめると、この研究では、追加情報や手間のかかる微調整の必要なく、LLMを人間の好みに合わせて調整するためのRAINという技術が導入されました。これは、LLMが自己の出力を評価し改善できるようにすることによって達成されます。結果として、より調和のとれた安全なAI生成の応答が生まれます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「FlexGenに会おう:GPUメモリが限られている場合に大規模な言語モデル(LLM)を実行するための高スループットな生成エンジン」

大規模言語モデル(LLM)は最近、さまざまなタスクで印象的なパフォーマンスを発揮しています。生成型LLMの推論は以前にない...

AIニュース

「生成AIにおける高度なエンコーダとデコーダの力」

はじめに 人工知能のダイナミックな領域では、技術と創造性の融合が人間の想像力の限界を押し上げる革新的なツールを生み出し...

データサイエンス

AdaTape 適応計算とダイナミックな読み書きを持つ基礎モデル

Googleの研究インターンであるFuzhao Xueと研究科学者であるMostafa Dehghaniによって投稿されました。 適応的計算とは、機械...

データサイエンス

『FastSpeech:論文の概要と実装』

2019年、FastSpeechはニューラルテキスト音声変換のフロンティアを推し進め、推論速度を大幅に改善しながら、単語の繰り返し...

データサイエンス

データ変換ツールにおけるAIの展望

人工知能はデータ変換ツールを革新し、効率性、正確性、リアルタイム処理を向上させています

データサイエンス

説明可能なAI:ブラックボックスモデルの解明

イントロダクション 現代のデータ駆動型の世界では、機械学習はさまざまな産業でますます重要な役割を果たしています。説明可...