メタAIのハンプバック!LLMの自己整列と指示逆翻訳による大きな波を起こしています

MetaAIのハンプバック!LLMの自己整列と指示逆翻訳による大きな波を起こしています' Condense result 'MetaAIのハンプバック!LLMの大きな波を起こしています

大規模言語モデル(LLM)は、コンテキスト学習や思考の連鎖など、優れた一般化能力を示しています。LLMが自然言語の指示に従い、現実世界のタスクを完了するために、研究者はLLMの指示調整方法を探求しています。これは、人間の注釈付きプロンプトやフィードバック、または公開ベンチマークとデータセットを使用した監督微調整など、さまざまな関数でモデルを微調整することで実現されます。最近の研究では、人間の注釈データの品質の重要性が強調されています。しかし、そのような品質のデータセットに従って指示を注釈付けすることは、スケールするのが難しいことがわかっています。

この解決策は、LLMとの自己整列を扱います。つまり、モデルを利用して自身を改善し、モデルが書かれたフィードバック、批判、説明などの望ましい振る舞いに応じて応答を整列させることです。Meta AIの研究者は、自己整列による指示付きバックトランスレーションを紹介しました。基本的なアイデアは、大規模言語モデルを使用してWebテキストに対応する指示を自動的にラベル付けすることです。

セルフトレーニングのアプローチでは、ベースとなる言語モデル、ラベルのない例のコレクション(例えば、Webコーパス)、および少量のシードデータにアクセスできることが前提とされます。この方法の第一の前提は、この大量の人間によって書かれたテキストの一部は、いくつかのユーザー指示のための良い生成物として有用であるということです。第二の前提は、これらの応答に対して指示を予測できるということであり、これを使用して高品質の例のペアを使用して指示に従うモデルをトレーニングすることができます。

指示付きバックトランスレーション全体は、以下の手順に分割できます:

  • セルフオーグメント:ラージ言語モデルMeta AI(LLaMA)を使用して、ラベルの付いていないデータ(Webコーパスなど)のための「良い指示」を生成し、指示の調整のためのトレーニングデータ(指示、出力のペア)を生成します。
  • セルフクリエイト:LLaMAを使用して生成されたデータを評価します。

そして、このデータを使用してLLaMAを微調整し、手順を繰り返して改良されたモデルを使用します。その結果、トレーニングされたLlamaベースの指示バックトランスレーションモデルは、「ハンプバック」と呼ばれました(クジラの大規模性にちなんでいます)。 「ハンプバック」は、アルパカリーダーボードのClaude、Guanaco、Falcon-Instruct、LIMAなどに関して、すべての既存の非蒸留モデルを上回りました。

現在の手順の欠点は、高度なデータがWebコーパスから派生しているため、微調整モデルはウェブデータのバイアスを強調する可能性があるということです。結論として、この方法はトレーニングデータがなくなることは絶対にありませんし、大規模言語モデルに指示に従うための堅牢なスケーラブルなアプローチを提供します。今後の課題は、より大きな未ラベルのコーパスを考慮することで、さらなる利益が得られる可能性があることです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「今日の市場においてAIパワードモバイルアプリが際立っているのは何か?」

AIはモバイルアプリを革命し、個人の経験を提供します最新技術を駆使したアプリ開発の利点、成功、そして将来を探求してください

機械学習

AIの聴覚スキルを革命化する:清華大学とバイトダンスが、高度なオーディオ処理のための画期的なマルチモーダルニューラルネットワーク「SALMONN」を発表

さまざまな自然言語処理アプリケーションでは、テキストベースの大規模言語モデルが印象的であり、人間に近いパフォーマンス...

人工知能

チャットGPTプラグインとの安全なインタラクションの変換ガイド

イントロダクション かつては静的なコンテンツの領域であったChatGPTは、ChatGPTプラグインの注入によって革命的な変革を遂げ...

人工知能

5分で作成するLow-Code GPT AIアプリを作成する

AIとデータベースの相互作用にAIのツール、AINIROとOpenAIのGPTを組み合わせることで、5分で完全なデータベースをCRUDアプリ...

機械学習

AIの脅威:自動化された世界における見えない課題

この記事では、2023年に現れるAIの脅威、AIシステムのセキュリティーの複雑さ、そしてAI駆動の防御、規制、教育の重要性につ...

AIニュース

新たなGoogle.orgの助成金により、30万人の学生がロボット技術とAIに触れることができます

Googleの25周年記念に、Google.orgはロボットプログラムとAI教育を支援するために1000万ドルの助成金を提供しています