オルカ2の内部：Microsoftが小さな言語モデルに推論を教えるための新しい方法を紹介

インサイドオルカ2：Microsoftが小型言語モデルに推論を教える革新的手法のご紹介

モデルは推論ベンチマークでより大きなLLMよりも優れたパフォーマンスを発揮します。

私は最近、AIに関連する教育的なニュースレターを始めました。すでに16万人以上の購読者がいます。TheSequenceは、5分で読める、ノンフィクション（つまり誇張やニュースはなし）で、機械学習に特化したニュースレターです。このニュースレターでは、機械学習プロジェクト、研究論文、コンセプトの最新情報を提供しています。ぜひ以下の購読ボタンから試してみてください：

TheSequence | Jesus Rodriguez | Substack

機械学習、人工知能、データの最新情報を得るのに最適なソース…

thesequence.substack.com

今年早くも、マイクロソフトリサーチは、13兆パラメータのモデルであるOrcaを発表しました。これは、他のLLMが展示する緻密な推論プロセスをエミュレートすることができます。具体的には、OrcaはGPT-4のシグナル（説明トレース、細心の段階的思考、さまざまな複雑な指示など）から学習します。数日前、マイクロソフトはその研究を拡大し、革新的な取り組みの一環としてOrca 2を発売しました。これにより、Small Language Models (SLMs)の領域にさらに深く踏み込むことが可能になり、推論の従来のアプローチに挑戦し、その可能性を広げることができます。

従来、SLMsのトレーニングは模倣学習に重きを置いており、より著名なモデルの出力を複製することを目指していました。しかし、マイクロソフトリサーチは、この模倣の強調がこれらの小さいモデルのポテンシャルを制約する可能性があると指摘しています。ここでは、小さなLMにさまざまなタスクに対して多様な解決戦略を活用させることが目標であり、それは大きなモデルとは異なるアプローチを取ることもあります。

Orca 2の核心には、2つの重要なテクニックがあります：

i. インストラクションチューニング：これは、LLM領域で注目されている最近の概念です。このテクニックでは、自然言語のタスク説明を入力とし、望ましい動作を示す出力から学習します。指示チューニングの効果は、馴染みのあるタスクや馴染みのないタスクの両方で、モデルが指示に従う能力を向上させ、生成されるコンテンツの総合的な品質を高め、ゼロショットの能力と高度な推論スキルを向上させることを証明しています。

ii. 説明チューニング：指示チューニングは非常に効率的ですが、制約もあります。具体的には、スタイル的には正しいが事実に誤りがある出力を生成する可能性があります。例えば、あまりにも簡潔なターゲットに対する指示調整は、複雑な推論プロセスの深い理解を生徒モデルから奪い、異なるタスクに対して一般化する能力を制限する可能性があります。この懸念に対処するために、Orca 1は説明チューニングを導入しました。この革新的なアプローチは、タスクのナビゲーション中に親モデルに詳細な説明を提供するようなシステムの指示を作成し、それを高レベルのガイドラインとして使用して学習モデルをトレーニングします。これらのシステム指示は、個々のユーザープロンプトとの対話時にLLMsが従う必要があり、ChatMLインターフェースの「システム」役割フラグを通じてユーザーから開始された対話とは異なります。

マイクロソフトは、これら2つのテクニックをOrca 2で組み合わせることで、SLMsで非常に効率的な推論を実現しています。

Orca 2と慎重な推論

慎重な推論とは、特定のタスクに対して最適な解決戦略を決定するプロセスを指します。この選択プロセスは、直接的な答え生成から、より熟慮された「スローリングキング」戦略（ステップバイステップの推論、推測と確認、説明してから回答するなど）まで、幅広いオプションをカバーしています。以下では、慎重な推論言語モデル（LLM）のトレーニング方法について説明します：

1) 多様なタスクのコレクションから始めて、さまざまな課題の一部を代表するものを集めましょう。

2) Orcaのパフォーマンスから得られた洞察に基づいて、直接回答、ステップバイステップ、説明してから回答など、特定の解決戦略を必要とするタスクを選び、情報をもとに意思決定を行いましょう。

3) 選択した戦略に合わせたタスク固有のシステム指示を作成し、各タスクに対する教師の反応を可能にしましょう。

4) トレーニング段階では、「プロンプトの消去」と呼ばれるプロセスを使用し、タスク固有の詳細を欠いた汎用的なシステム指示で学生の指示を置き換え、モデルの自律学習を強調しましょう。

慎重な推論プロセスは、以下の対話で明確に示されており、学生モデルが具体的な指示なしで戦略を学ぶ様子がわかります。

Orca 2を訓練するために、マイクロソフトは約817,000の訓練インスタンスを持つ全く新しいデータセットを作成しました。Orca 1が築いた基盤を元に、Orca 2は進化的な学習を経ており、オリジナルのFLAN注釈、Orca 1データセット、新しく作成されたOrca 2データセットの融合からデータのサブセットを引き出しています。この訓練データセットの土台はFLANであり、数学の課題とフューションの少量の例が加えられています。

Orca 2の訓練の核心は、進行学習と呼ばれる技術に依存しています。この技術では、LLaMA-2–7BまたはLLaMA-2–13Bのチェックポイントのいずれかから訓練を開始し、その後、FLAN-v2データセットのトレインスプリットでのファインチューニングを1エポック行います。FLAN-v2データセットには、ゼロショットおよびフューショットの問題が含まれていることに注意してください。その後、モデルはOrca 1からの5,000,000件のChatGPTデータインスタンスで3エポック訓練を受けました。最後の訓練セッションでは、Orca 1およびOrca 2の817,000のデータサンプルから成る1,000,000のGPT-4データインスタンスを含む複合データセットで4エポック訓練が行われました。

評価

マイクロソフトによる包括的な評価によって、Orca 2の能力の試金石が提供されました。この評価では、推論からテキストの補完、グラウンディング、真実性、安全性まで、さまざまなベンチマークが範囲広く評価されました。

Orca 2の作業は、SLMの推論能力を向上させる可能性を示しています。合成データの専門的な訓練により、Orca 2モデルは改善されたパフォーマンスレベルの達成可能性だけでなく、達成しています。さまざまな推論テクニックを活用し、各タスクに最も効果的な解決戦略を巧みに特定することで、これらのモデルはしばしばより大きな対応モデルを上回る、特にゼロショット推論タスクの領域での能力を示しています。基礎モデルに関連する固有の制約と制約の存在を認識しながらも、Orca 2モデルは合成データの事後訓練の戦略的な応用により、推論能力、制御、および安全性の向上の可能性を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Artificial IntelligenceGenerative AILarge Language ModelsMachine learningThesequence

Was this article helpful?

93 out of 132 found this helpful

オルカ2の内部：Microsoftが小さな言語モデルに推論を教えるための新しい方法を紹介

モデルは推論ベンチマークでより大きなLLMよりも優れたパフォーマンスを発揮します。

TheSequence | Jesus Rodriguez | Substack

機械学習、人工知能、データの最新情報を得るのに最適なソース…

Orca 2と慎重な推論

評価

Was this article helpful?

「2024年に機械学習を学ぶ方法（もし最初からやり直せるなら）」

リアルタイムで命を救うビッグデータ：IoVデータ分析が事故を予防するのを助ける

機械学習

データを中心に：Srikanth Velamakanniと共にデータドリブンの組織を築く

このAIニュースレターは、あなたが必要とするすべてです＃73

「Pixel 8 Pro」という初めてのAI搭載スマートフォンは、現在Gemini Nanoで稼働しており、さらにAIのアップデートがPixelポートフォリオにも導入されています」

このAI論文では、ディープラーニングモデルを用いたAIS（アンドロゲン不感症）のテストに関する研究が紹介されています

AIがリードジェネレーションにどのように役立つのか？

バードの未来展望：よりグローバルで、よりビジュアル的で、より統合されたもの