大規模言語モデルは安全性を自己評価できるのか?RAINに会ってください:ファインチューニングなしでAIのアライメントと防御を変革する革新的な推論方法

大規模言語モデルの安全性を自己評価するRAIN:AIのアライメントと防御を変革する新しい推論方法

事前学習済み大規模言語モデル(LLM)であるGPT-3などは、人間の質問に対する理解力や返答能力に非凡な才能を持っており、コーディングの手伝いなどにも役立っています。しかし、彼らはしばしば人々が好む結果とは異なる結果を生成します。過去に、研究者たちは人間の好みに関する情報を収集し、強化学習や指示調整を用いて以前に訓練されたモデルを整列させることで、この問題を解決しようと試みてきました。これには微調整段階が必要です。追加のデータは必要ありませんが、追加のトレーニングを受けていない凍結されたLLMを整列させる方が魅力的です。

最近、研究チームは、整列していないLLMが自己評価および巻き戻し機構を含む自己改善プロセスによって直接人間の好みに合った返答を生成できることを発見しました。AIの安全性を考慮して、彼らはRewindable Auto-regressive INference(RAIN)を導入しました。これは、事前学習済みLLMが自身が生成したテキストを評価し、評価結果を逆巻き戻しと前方生成に利用する独自の推論技術です。

RAINは、モデルの整列に追加のデータを必要としません。パラメータの更新、勾配の計算、トレーニングは必要ありません。固定テンプレートのプロンプトを介して自己評価フェーズでどの人間の好みに整列するかの指示をモデルが受け取りますので、初期クエリを繰り返し調整する必要はありません。

GPT-4モデルと人間の評価者によって評価された実験結果は、RAINの成功を示しています。たとえば、HHデータセットを使用すると、RAINはLLaMA 30Bの無害率をバニラ推論と比較して82%から97%に劇的に向上させながら、有用性率を一定に保ちます。チームはRAINがLLM-ATTACKSに対する攻撃の成功率を94%から19%に下げることで、防御の新たな基準を確立したと共有しています。

RAINは、現在使用されている大規模言語モデル(LLM)の整列方法に比べていくつかの利点を提供します:

  1. 普遍性:RAINのアプローチは柔軟で、さまざまな言語生成の仕事に使用することができます。これは多くのLLMにとって標準的な自己回帰推論パラダイムに完全に適合しています。これにより、RAINは高度にカスタマイズ可能で使いやすく、ほとんどの現行のLLMに迅速に統合することができます。
  1. 凍結された重みとの整列:RAINはRLHFなどの他の整列戦略とは異なり、追加のモデルの維持や勾配データおよび計算ネットワークの保存は必要ありません。これによって生じる最小のメモリオーバーヘッドは、単純な自己回帰推論と同等です。RAINは、シンプルな実装とメモリ効率の良い設計のため、凍結された重みを持つLLMを整列させるための現実的な選択肢です。これにより、リソースを消費する微調整手順が除外されます。
  1. 学習不要:RAINは、ラベル付きまたは未ラベル化のデータや人間の注釈に頼る必要はありません。学習不要の方法で動作するため、多くの情報やトレーニングは必要ありません。RAINは、さまざまなタスクで整列性能を大幅に向上させ、LLMを敵対的なプロンプト攻撃に対してより耐性のあるものにします。よく知られた敵対的な攻撃手法に対して評価された場合、RAINは攻撃の成功率を大幅に低下させるため、その防御能力を示しています。

まとめると、この研究では、追加情報や手間のかかる微調整の必要なく、LLMを人間の好みに合わせて調整するためのRAINという技術が導入されました。これは、LLMが自己の出力を評価し改善できるようにすることによって達成されます。結果として、より調和のとれた安全なAI生成の応答が生まれます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「データ注釈は機械学習の成功において不可欠な役割を果たす」

「自動車から医療まで、AIの成功におけるデータアノテーションの重要な役割を発見しましょう方法、応用、そして将来のトレン...

機械学習

TensorFlowを使用して責任あるAIを構築する方法は?

イントロダクション 人工知能(AI)は、今週リリースされる新しいAIアプリ、機能、プラットフォームが数百あるほど、前例のな...

機械学習

「このAIニュースレターが必要なすべて #59」

今週、Zoomの利用規約の変更(3月から)が、顧客のビデオデータの使用に関する懸念が拡散したことで注目されましたZoomの利用...

AI研究

マイクロソフトの研究者が、言語AIを活用してオンライン検索エンジンを革命化するための「大規模検索モデル」フレームワークを紹介しました

現代社会はインターネット上の情報の拡散によって特徴付けられ、検索エンジンは知識を見つけたりまとめたりするために欠かせ...

機械学習

「深層学習による遺伝子制御の解明:オルタナティブスプライシングの理解に向けた新たなAIアプローチ」

オルタナティブスプライシングは、遺伝子の制御において基本的なプロセスであり、単一の遺伝子が複数のmRNAバリアントと様々...

機械学習

「SwiggyがZomatoとBlinkitに続き、生成AIを統合する」

Swiggy(スウィギー)、有名なフードデリバリープラットフォームは、生成AIの可能性を活用し、食品と食料品の発見方法を変革...