大規模言語モデルは安全性を自己評価できるのか?RAINに会ってください:ファインチューニングなしでAIのアライメントと防御を変革する革新的な推論方法

大規模言語モデルの安全性を自己評価するRAIN:AIのアライメントと防御を変革する新しい推論方法

事前学習済み大規模言語モデル(LLM)であるGPT-3などは、人間の質問に対する理解力や返答能力に非凡な才能を持っており、コーディングの手伝いなどにも役立っています。しかし、彼らはしばしば人々が好む結果とは異なる結果を生成します。過去に、研究者たちは人間の好みに関する情報を収集し、強化学習や指示調整を用いて以前に訓練されたモデルを整列させることで、この問題を解決しようと試みてきました。これには微調整段階が必要です。追加のデータは必要ありませんが、追加のトレーニングを受けていない凍結されたLLMを整列させる方が魅力的です。

最近、研究チームは、整列していないLLMが自己評価および巻き戻し機構を含む自己改善プロセスによって直接人間の好みに合った返答を生成できることを発見しました。AIの安全性を考慮して、彼らはRewindable Auto-regressive INference(RAIN)を導入しました。これは、事前学習済みLLMが自身が生成したテキストを評価し、評価結果を逆巻き戻しと前方生成に利用する独自の推論技術です。

RAINは、モデルの整列に追加のデータを必要としません。パラメータの更新、勾配の計算、トレーニングは必要ありません。固定テンプレートのプロンプトを介して自己評価フェーズでどの人間の好みに整列するかの指示をモデルが受け取りますので、初期クエリを繰り返し調整する必要はありません。

GPT-4モデルと人間の評価者によって評価された実験結果は、RAINの成功を示しています。たとえば、HHデータセットを使用すると、RAINはLLaMA 30Bの無害率をバニラ推論と比較して82%から97%に劇的に向上させながら、有用性率を一定に保ちます。チームはRAINがLLM-ATTACKSに対する攻撃の成功率を94%から19%に下げることで、防御の新たな基準を確立したと共有しています。

RAINは、現在使用されている大規模言語モデル(LLM)の整列方法に比べていくつかの利点を提供します:

  1. 普遍性:RAINのアプローチは柔軟で、さまざまな言語生成の仕事に使用することができます。これは多くのLLMにとって標準的な自己回帰推論パラダイムに完全に適合しています。これにより、RAINは高度にカスタマイズ可能で使いやすく、ほとんどの現行のLLMに迅速に統合することができます。
  1. 凍結された重みとの整列:RAINはRLHFなどの他の整列戦略とは異なり、追加のモデルの維持や勾配データおよび計算ネットワークの保存は必要ありません。これによって生じる最小のメモリオーバーヘッドは、単純な自己回帰推論と同等です。RAINは、シンプルな実装とメモリ効率の良い設計のため、凍結された重みを持つLLMを整列させるための現実的な選択肢です。これにより、リソースを消費する微調整手順が除外されます。
  1. 学習不要:RAINは、ラベル付きまたは未ラベル化のデータや人間の注釈に頼る必要はありません。学習不要の方法で動作するため、多くの情報やトレーニングは必要ありません。RAINは、さまざまなタスクで整列性能を大幅に向上させ、LLMを敵対的なプロンプト攻撃に対してより耐性のあるものにします。よく知られた敵対的な攻撃手法に対して評価された場合、RAINは攻撃の成功率を大幅に低下させるため、その防御能力を示しています。

まとめると、この研究では、追加情報や手間のかかる微調整の必要なく、LLMを人間の好みに合わせて調整するためのRAINという技術が導入されました。これは、LLMが自己の出力を評価し改善できるようにすることによって達成されます。結果として、より調和のとれた安全なAI生成の応答が生まれます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「AIとブロックチェーンの交差点を探る:機会と課題」

今日私たちが見ている世界を変えるAIをブロックチェーンに統合することに関連する機会と課題を探索してください

データサイエンス

Ludwig - より「フレンドリーな」ディープラーニングフレームワーク

産業用途の深層学習については、私は避ける傾向があります興味がないわけではなく、むしろ人気のある深層学習フレームワーク...

データサイエンス

クロスヘアに捧げられた ジェネレーティブAI:CISOたちが戦うサイバーセキュリティ

ChatGPTと大規模な言語モデル(LLM)は、生成型AIが多くのビジネスプロセスにどのように影響を与えるかの初期の兆候です

人工知能

プロンプトの旅:プロンプトエンジニアリングを通じた生成型AIシステムのライフサイクル

プロンプトエンジニアリングは、AIの応答を指導しますそのライフサイクルは倫理的な考慮事項を統合し、公正かつ透明なAIの未...

AIニュース

「AIは非英語母国語話者に差別的」

最近の研究で、人工知能(AI)について不安な真実が明らかになりました。エッセイや就職応募書類などの作品を検出するために...

AIニュース

イスラエルの秘密エージェントが強力な生成AIで脅威と戦う方法

イスラエルの名高いセキュリティサービス、シン・ベットは、人工知能(AI)の力を活用してその業務を強化し、重要な脅威を無...