メタAIのハンプバック！LLMの自己整列と指示逆翻訳による大きな波を起こしています

MetaAIのハンプバック！LLMの自己整列と指示逆翻訳による大きな波を起こしています' Condense result 'MetaAIのハンプバック！LLMの大きな波を起こしています

大規模言語モデル（LLM）は、コンテキスト学習や思考の連鎖など、優れた一般化能力を示しています。LLMが自然言語の指示に従い、現実世界のタスクを完了するために、研究者はLLMの指示調整方法を探求しています。これは、人間の注釈付きプロンプトやフィードバック、または公開ベンチマークとデータセットを使用した監督微調整など、さまざまな関数でモデルを微調整することで実現されます。最近の研究では、人間の注釈データの品質の重要性が強調されています。しかし、そのような品質のデータセットに従って指示を注釈付けすることは、スケールするのが難しいことがわかっています。

この解決策は、LLMとの自己整列を扱います。つまり、モデルを利用して自身を改善し、モデルが書かれたフィードバック、批判、説明などの望ましい振る舞いに応じて応答を整列させることです。Meta AIの研究者は、自己整列による指示付きバックトランスレーションを紹介しました。基本的なアイデアは、大規模言語モデルを使用してWebテキストに対応する指示を自動的にラベル付けすることです。

セルフトレーニングのアプローチでは、ベースとなる言語モデル、ラベルのない例のコレクション（例えば、Webコーパス）、および少量のシードデータにアクセスできることが前提とされます。この方法の第一の前提は、この大量の人間によって書かれたテキストの一部は、いくつかのユーザー指示のための良い生成物として有用であるということです。第二の前提は、これらの応答に対して指示を予測できるということであり、これを使用して高品質の例のペアを使用して指示に従うモデルをトレーニングすることができます。

指示付きバックトランスレーション全体は、以下の手順に分割できます：

セルフオーグメント：ラージ言語モデルMeta AI（LLaMA）を使用して、ラベルの付いていないデータ（Webコーパスなど）のための「良い指示」を生成し、指示の調整のためのトレーニングデータ（指示、出力のペア）を生成します。
セルフクリエイト：LLaMAを使用して生成されたデータを評価します。

そして、このデータを使用してLLaMAを微調整し、手順を繰り返して改良されたモデルを使用します。その結果、トレーニングされたLlamaベースの指示バックトランスレーションモデルは、「ハンプバック」と呼ばれました（クジラの大規模性にちなんでいます）。「ハンプバック」は、アルパカリーダーボードのClaude、Guanaco、Falcon-Instruct、LIMAなどに関して、すべての既存の非蒸留モデルを上回りました。

現在の手順の欠点は、高度なデータがWebコーパスから派生しているため、微調整モデルはウェブデータのバイアスを強調する可能性があるということです。結論として、この方法はトレーニングデータがなくなることは絶対にありませんし、大規模言語モデルに指示に従うための堅牢なスケーラブルなアプローチを提供します。今後の課題は、より大きな未ラベルのコーパスを考慮することで、さらなる利益が得られる可能性があることです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceEditors PickLanguage modelLarge Language ModelMachine learningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

メタAIのハンプバック！LLMの自己整列と指示逆翻訳による大きな波を起こしています

Was this article helpful?

「IBMの「脳のような」AIチップが、環境にやさしく効率的な未来を約束します」

「Cheetorと会ってください：幅広い種類の交互に織り交ぜられたビジョン言語の指示を効果的に処理し、最先端のゼロショットパフォーマンスを達成する、Transformerベースのマルチモーダルな大規模言語モデル（MLLMs）」

機械学習

「メタは、トレーニングにLLaMAモデルを使用するために著作権のある本を使用し、著者たちは訴訟を起こしています」

「UnbodyとAppsmithを使って、10分でGoogle Meet AIアシスタントアプリを作る方法」

このAIニュースレターは、あなたが必要とするすべてです #56

複雑なAIモデルの解読：パデュー大学の研究者が、ディープラーニングの予測を位相マップに変換

新しいAIモデル、たった30BパラメーターでGPT-3を凌駕する

「2023年の最高の声クローニングソフトウェア10選」