メタAIのハンプバック!LLMの自己整列と指示逆翻訳による大きな波を起こしています

MetaAIのハンプバック!LLMの自己整列と指示逆翻訳による大きな波を起こしています' Condense result 'MetaAIのハンプバック!LLMの大きな波を起こしています

大規模言語モデル(LLM)は、コンテキスト学習や思考の連鎖など、優れた一般化能力を示しています。LLMが自然言語の指示に従い、現実世界のタスクを完了するために、研究者はLLMの指示調整方法を探求しています。これは、人間の注釈付きプロンプトやフィードバック、または公開ベンチマークとデータセットを使用した監督微調整など、さまざまな関数でモデルを微調整することで実現されます。最近の研究では、人間の注釈データの品質の重要性が強調されています。しかし、そのような品質のデータセットに従って指示を注釈付けすることは、スケールするのが難しいことがわかっています。

この解決策は、LLMとの自己整列を扱います。つまり、モデルを利用して自身を改善し、モデルが書かれたフィードバック、批判、説明などの望ましい振る舞いに応じて応答を整列させることです。Meta AIの研究者は、自己整列による指示付きバックトランスレーションを紹介しました。基本的なアイデアは、大規模言語モデルを使用してWebテキストに対応する指示を自動的にラベル付けすることです。

セルフトレーニングのアプローチでは、ベースとなる言語モデル、ラベルのない例のコレクション(例えば、Webコーパス)、および少量のシードデータにアクセスできることが前提とされます。この方法の第一の前提は、この大量の人間によって書かれたテキストの一部は、いくつかのユーザー指示のための良い生成物として有用であるということです。第二の前提は、これらの応答に対して指示を予測できるということであり、これを使用して高品質の例のペアを使用して指示に従うモデルをトレーニングすることができます。

指示付きバックトランスレーション全体は、以下の手順に分割できます:

  • セルフオーグメント:ラージ言語モデルMeta AI(LLaMA)を使用して、ラベルの付いていないデータ(Webコーパスなど)のための「良い指示」を生成し、指示の調整のためのトレーニングデータ(指示、出力のペア)を生成します。
  • セルフクリエイト:LLaMAを使用して生成されたデータを評価します。

そして、このデータを使用してLLaMAを微調整し、手順を繰り返して改良されたモデルを使用します。その結果、トレーニングされたLlamaベースの指示バックトランスレーションモデルは、「ハンプバック」と呼ばれました(クジラの大規模性にちなんでいます)。 「ハンプバック」は、アルパカリーダーボードのClaude、Guanaco、Falcon-Instruct、LIMAなどに関して、すべての既存の非蒸留モデルを上回りました。

現在の手順の欠点は、高度なデータがWebコーパスから派生しているため、微調整モデルはウェブデータのバイアスを強調する可能性があるということです。結論として、この方法はトレーニングデータがなくなることは絶対にありませんし、大規模言語モデルに指示に従うための堅牢なスケーラブルなアプローチを提供します。今後の課題は、より大きな未ラベルのコーパスを考慮することで、さらなる利益が得られる可能性があることです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

Googleはチャットボットの使用について従業員に警告、ここにその理由があります

Googleの親会社であるAlphabet Inc.は、ChatGPTや自社製品であるBardを含むチャットボットの使用について従業員に注意を促し...

AIニュース

『Q-Starを超えて OpenAIのPPOによるAGIのブレイクスルーが可能』

人工汎用知能(AGI)はAIの領域を魅了し、人間の能力を超えるシステムを象徴しています。OpenAIは重要なAGIの研究者であり、...

AIニュース

ジェミニと共に、バードはこれまで最大のアップグレードを実現しました

「私たちは、Geminiの先進機能をBardに導入し始めています」

AI研究

マイクロソフトの研究者が提案するTaskWeaver:LLMを活用した自律エージェントの構築のためのコード優先の機械学習フレームワーク

大規模言語モデル(LLMs)は、印象的な自然言語生成および解釈能力を示しています。これらのモデルの例には、GPT、Claude、Pa...

機械学習

ドメイン固有アプリケーションのためのLLM細かい調整戦略

「LLMファインチューニングとは何か、LLMをドメイン特化アプリケーションに適応する方法、ファインチューニングの種類などを...

AI研究

「人間の活動認識におけるディープラーニング:このAI研究は、Raspberry PiとLSTMを使用した適応的なアプローチを導入し、位置に依存しない正確性を高めます」

ヒューマンアクティビティ認識(HAR)は、さまざまなセンサから収集したデータに基づいて、自動的に人間の活動を識別および分...