「このAI論文は、人間ではなくLLMを使用して、複雑さの異なる大量の教示データを作成するための手段を示しています」

This AI paper demonstrates the use of LLM instead of humans to generate a large amount of instructional data with varying complexity.

オープンドメインの指示に従ってLLMをトレーニングした結果は驚異的です。ただし、この種の指示のデータを手動で開発するには時間と労力がかかります。さらに、人間は非常に複雑な指示を作成する際に支援が必要になる場合もあります。最近の自然言語処理(NLP)コミュニティの取り組みでは、大規模な言語モデルによる理解と指示の実行能力を向上させることに焦点が当てられています。最近の研究では、LLMにも教育が有益であることが示されています。そのため、この種のデータはオープンドメインでのLLMのトレーニングと微調整において、現在は定期的に使用されています。

Evol-Instructは、LLMを使用してさまざまな複雑さの指示データを大量に作成する革新的な手法です。この手法は、マイクロソフトと北京大学の研究チームによって開発されました。チームのWizardLMモデルを利用した生成された指示は、人間によって作成された指示データセットよりも高い評価を受けました。

Evol-Instructパイプラインには3つのステージがあります:

  1. 指示の進化
  2. 新たに開発された教育に基づく応答の進化
  3. 削除の進化

Evol-Instructは、単純なシード指示からより複雑な指示を生成するために、詳細な進化(制約の追加、深化、具体化、推論ステップの増加、入力の複雑化のいずれかの操作を含む)または幅広い進化(与えられた指示に基づいて新しい指示を作成すること)を実行することができます。最後のステージである削除の進化は、不適切な指示を排除するためのフィルターとして機能します。

研究者はEvol-Instructを使用して、さまざまな複雑度の指示を生成しました。それから、すべての生成された指示データを組み合わせて、LLaMA LLMを微調整し、経験的な研究でWizardLMモデルを開発しました。WizardLMは、ChatGPT、Alpaca、Vicunaなどの業界標準ツールと比較して評価されました。

研究者の主な結論は以下の通りです:

  • Evol-Instructの指示は、人間が開発したShareGPTの指示よりも優れています。WizardLMモデルは、Evol-Instructデータ(つまり70k)を使用してLLaMA 7Bを微調整する際に、Vicunaよりも12.4%高い勝率である41.3%対28.9%を達成しています。
  • 困難なテスト指示が与えられた場合、ラベラーはWizardLMの結果に対してChatGPTの結果よりも満足しています。WizardLMはテストセットでChatGPTに対して12.8%負けており、勝率は28.0%対40.8%です。ただし、WizardLMはテストセットの高難易度部分(難易度レベル8)でChatGPTに対して7.9ポイント上回っており、勝率は42.9%対35.0%です。これは、この技術が大規模な言語モデルの複雑な指示を処理する能力を大幅に向上させることを示唆しています。

研究の著者は、WizardLMモデルの出力がOpenAI ChatGPTの出力よりも優れていることを、高複雑度コンポーネントの人間の評価の結果によって示しています。結果は、AIによって進化した指示を使用した微調整が、WizardLMがいくつかの点でまだChatGPTに劣るとしても、大規模な言語モデルを強化するための潜在的な手段であることを示しています。ソースコードと出力データはhttps://github.com/nlpxucan/WizardLMで確認することができます。

研究者は次の3つのLLMを出発点として使用しています:

OpenAIは、自然で興味深い会話を促進するためにAIチャットボットChatGPTを作成しました。これは、GPT-3.5やGPT-4などのインターネットからの大量のテキストデータを使用してトレーニングされたLLMに基づいています。人間のトレーナーの監督のもとで、ChatGPTの微調整には教師あり学習と強化学習の方法が使用されています。

Alpacaは、指示に従うための自由でコミュニティ主導のパラダイムを作成・普及させるためのスタンフォード大学の取り組みです。このモデルは、OpenAIのtext-davinci003モデルにクエリを行い、52Kの指示に従って作成されたインスタンスを使用して開発されており、複数のテキストソースでトレーニングされた大規模な言語モデルであるLLaMA 7Bに基づいて構築されています。

Vicunaは、ユーザーに人間味のある興味深い返答を提供するオープンソースのチャットボットです。LLaMA 13Bに基づいており、ShareGPTでの70Kのユーザー共有トークのデータを使用して微調整されました。

研究者はChatGPTを使用して、各指示の複雑さと難易度を評価し、指示の進化プロセスにより深く入り込むことができます。LLaMAモデルのライセンスに従い、研究者は[WizardLM]の重みをデルタ重みの形で公開しています。WizardLMの重みは、デルタを初期のLLaMAの重みに加えることで取得できます。

研究者は、人間の評価セットを使用してWizardの出力を人間の評価者が生成した出力と比較しています。Wizardとコントロールとの間で盲目的なペア比較が行われました。著者の評価データ収集は、複雑なコーディング生成やデバッグから数学的な推論、複雑な形式に関する推論、学術的な執筆、そして幅広い学問分野まで、多くのユーザー中心のタスクを対象としています。

これらの結果は、Evol-InstructのAI進化指示アプローチがLLMの性能を大幅に向上させ、数学的な計算、プログラムの開発、論理的な熟考を含むような困難で複雑な指示に対処するためのモデルを装備することができることを示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more