このAI論文では、新しい個別化留留過程を紹介していますクローズドソース相手からの適応的な学習により、オープンソースLLMsの強化を行います

このAI論文では、クローズドソースからオープンソースLLMsへの強化を目指し、新たな個別化留学プロセスを紹介します

シンガポールの南洋理工大学とセールスフォース・リサーチの研究者らは、学生モデルの初期の課題解決の試みと教師モデルによる適応的な改善に続くコード生成タスクのための個別の蒸留プロセスを紹介しています。この手法は、データのたった三分の一であっても、標準の蒸留方法を上回る優れた結果を提供します。パーソナライズされた蒸留は、CodeGen-mono-16BとStarCoderの2つのコード生成モデルでテストされ、HumanEvalの評価において大幅なパフォーマンスの向上をもたらしました。

本研究は、現代の教育原則に触発された、コード生成タスクのためのパーソナライズド蒸留を紹介しています。このプロセスでは、学生モデルが初めに課題に取り組み、教師モデルから適応的な改善を受けます。パーソナライズド蒸留は、常に標準的な手法を上回り、データの三分の一でより良い結果を達成します。経験的研究は、学生の学習にカスタマイズされたラベルの効果を確認しています。この手法は、CodeGen-mono-16BおよびStarCoderを含むオープンソースの事前学習モデルのパフォーマンスを大幅に向上させ、コード生成タスクの能力を蒸留します。

この手法は、ChatGPTやGPT-4などの閉じられたソースの大規模言語モデル（LLM）の利用可能性、コスト、倫理、データプライバシーの懸念点に対処します。個別化された学習原則に触発され、コード生成タスクのためのパーソナライズド蒸留を提案しています。この手法では、学生モデルがタスクに取り組み、実行フィードバックを受け取り、教師モデルのガイダンスをもとに改良します。パーソナライズド蒸留は、標準的な手法を上回り、少ないデータ例で優れた結果を達成し、閉じられたソースのLLMの機能をより小さいオープンソースのLLMに蒸留する解決策を提供します。

本研究では、標準的な蒸留（STAND）とパーソナライズド蒸留（PERsD）および入力パーソナライズド蒸留（INPD）の2つのアプローチを比較しました。パープーズDでは、学生が最初にタスクに取り組み、教師からカスタマイズされたフィードバックを受け取る方法を採用しています。データは、事前学習のために、code-alpacaとMBPPのシードタスクから収集されました。パフォーマンスは、pass@1やHumanEvalなどの指標を使用して、メソッドの効果を評価しました。

パーソナライズド蒸留は、コード生成タスクにおいてINPDやSTANDなどの標準的な蒸留手法を一貫して上回り、データの三分の一で大幅な改善を実現しました。データが3倍少なかったとしても、パーソナライズド蒸留は16のうち15回でSTANDを上回り、カスタマイズされたラベルの効果的な品質を示しています。PERsD-refineやPERsD-combineモデルにおいて、多段階の推論が回答品質を向上させ、実行エラーフィードバックに基づいて解決策を改善する能力を示しています。パーソナライズされていないラベルとパーソナライズされたラベルを混ぜることは一般的に悪影響を与え、カスタマイズされたタグの高い品質を強調しています。

PERsDは、学生モデルの能力にラベル付けされたデータをカスタマイズする方法を紹介し、より効果的な学習を実現します。PERsDは、HumanEvalとMBPPのデータセットにおいて、コード生成で標準的な蒸留を上回ります。これは、より高いデータ品質、マルチラウンドの蒸留、実行フィードバックによるセルフリファクションの利点によるものです。カスタマイズされたラベルの効果を強調するため、PERsDのバリアントは一貫して非パーソナライズバージョンを上回ります。この手法は、閉じられたソースのLLMの能力をオープンソースモデルに蒸留するという、モデルの蒸留のさらなる進展を示すものです。

ファインチューニング中にデータを動的に収集するためのオンラインパーソナライズド蒸留を調査し、学生モデルをより向上させる可能性を探求してください。パーソナライズされた蒸留のスケーラブルな方法を開発し、人間の注釈に頼らない方法を提案し、パーソナライズ化されたラベルと非パーソナライズ化されたラベルを混ぜることの影響という制限に対処してください。パーソナライズド蒸留を他の領域に拡張し、その効果を評価してください。また、閉じられたソースのLLMの能力をオープンソースモデルに蒸留するために使用することも検討し、モデルの蒸留をさらに進めてください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceEditors PickLanguage model

Was this article helpful?

93 out of 132 found this helpful

このAI論文では、新しい個別化留留過程を紹介していますクローズドソース相手からの適応的な学習により、オープンソースLLMsの強化を行います

Was this article helpful?

「PyMC-Marketingによる顧客のライフタイムバリュー予測」

安全ループに会いましょう：複雑なAIタスクのパフォーマンスを向上させるために少ないエネルギーを必要とするディープラーニングアクセラレータの最適な設計を特定するためのAIパワード検索ツール

機械学習

「Google Chromeは、努力を要さずに読むことができるAIによる記事の要約を表示するようになりました」

バーディーンChatGPTプラグインの使い方

「UCバークレーの研究者たちは、Chain of Hindsight（CoH）という新しい技術を提案しましたこれにより、LLMsがあらゆる形式のフィードバックから学び、モデルのパフォーマンスを向上させることが可能となります」

LangChain：LLMがあなたのコードとやり取りできるようにします

アーサーがベンチを発表：仕事に最適な言語モデルを見つけるためのAIツール

「MITの研究者が深層学習と物理学を使用して、動きによって損傷を受けたMRIスキャンを修正する」