マイクロソフトリサーチは、競合モデルよりも大幅に小さいサイズで、Pythonコーディングに特化した新しい大規模言語モデルphi-1を紹介しました

Microsoft Research introduced a new large-scale language model, phi-1, which is significantly smaller in size than competing models and specialized for Python coding.

トランスフォーマーのデザインが発見されて以来、大規模な人工ニューラルネットワークのトレーニングの技術は飛躍的に進歩してきましたが、この成果の基礎となる科学はまだ幼い段階にあります。同じ時期にトランスフォーマーがリリースされたことで、圧倒的で混乱するような結果の中に秩序が出現し、計算量またはネットワークサイズを増やすと性能が予測可能に向上するというスケーリング則が判明しました。これらのスケーリング則は、深層学習におけるスケールの調査のためのガイドとして機能し、これらの則の変化の発見により性能が急激に向上しました。

本論文では、別の軸に沿ってデータ品質をどのように改善できるかを調査しています。高品質のデータはより良い結果を生み出します。たとえば、データのクリーニングは、現在のデータセットを作成するための重要なステップであり、比較的小さなデータセットまたはデータをより多くのイテレーションに通すことができます。ニューラルネットワークに英語を教えるために人工的に作成された高品質のデータセットであるTinyStoriesに関する最近の研究は、高品質のデータの利点がこれ以上のものであることを示しています。改良されたスケーリング則により、高品質のデータは大規模なモデルの性能を、よりシンプルなトレーニング/モデルで一致させることができるようになります。

この研究では、マイクロソフトリサーチの著者たちは、良質なデータが大規模言語モデル(LLMs)のSOTAをさらに向上させながら、データセットのサイズとトレーニング計算を大幅に減らすことができることを実証しています。トレーニングが必要なモデルが小さいほど、LLMsの環境コストを大幅に削減することができます。彼らは、コーディングのためにトレーニングされたLLMsを使用して、自分のdocstringsから特定のPython関数を構築しました。後者の論文で提唱された評価基準であるHumanEvalは、コード上でLLMのパフォーマンスを比較するために頻繁に使用されています。

彼らは、1.3Bパラメータモデルをトレーニングし、phi-1と呼びます。7Bトークン以上(合計50Bトークン以上)を約8回通過した後、200Mトークン未満でファインチューニングを行い、高品質のデータが確立されたスケーリングルールを破る能力を示しました。一般的には、「教科書の品質」のデータを事前にトレーニングし、GPT-3.5を使用して人工的に生成されたデータとオンラインソースからのフィルタリングされたデータの両方を使用し、ファインチューニングには「教科書の演習のような」データを使用します。彼らは、1つのLLM生成のみを使用して、競合モデルよりもはるかに小さなデータセットとモデルサイズでありながら、HumanEvalで50.6%のpass@1精度、MBPP (Mostly Basic Python Programs)で55.5%のpass@1精度を達成しました。

彼らは、7Bトークン以上(合計50Bトークン以上)を約8回通過した後、200Mトークン未満でファインチューニングを行い、1.3Bパラメータのphi-1モデルをトレーニングすることで、高品質のデータが確立されたスケーリングルールを破る能力を示しました。一般的には、「教科書の品質」のデータを事前にトレーニングし、GPT-3.5を使用して人工的に生成されたデータとオンラインソースからのフィルタリングされたデータの両方を使用し、ファインチューニングには「教科書の演習のような」データを使用します。彼らは、1つのLLM生成のみを使用して、競合モデルよりもはるかに小さなデータセットとモデルサイズでありながら、HumanEvalで50.6%のpass@1精度、MBPP (Mostly Basic Python Programmes)で55.5%のpass@1精度を達成しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

バードが強化された機能を発表:Gmail、Drive、および他のGoogle Appsとの統合

ジェネラティブAIとの協力を革新するために、Bardはこれまでにない最先端のモデルを導入しました。この革新はゲームチェンジ...

データサイエンス

「GATE DA 2024のサンプル問題集」

導入 GATE 2024の志望者の皆さん、素晴らしいニュースです!インド科学研究所(IISc)が、今後のGATE試験のためのサンプル問...

人工知能

AIAgentに会ってみましょう:APIキーを必要とせず、GPT4によって動力を得るWebベースのAutomateGPT

AIAgentは、ユーザーが特定のタスクや目標に合わせてカスタマイズされたAIエージェントを作成する力を与える強力なWebベース...

人工知能

「スーパーアラインメントとは何か?なぜそれが重要なのか?」

「超知能システムに関連する潜在的なリスクへの対処」

AIニュース

エロン・マスクのxAIがOpenAIのChatGPTに挑戦します

ビジョン溢れる億万長者であるイーロン・マスクは、電気自動車、宇宙探査、ソーシャルメディアなどの事業を手掛ける人物で、...

AIニュース

マイクロソフト エージェントAIがIdea2Imgを導入:自己金融による多モーダルAIフレームワークで、画像の開発とデザインを自動化します

“画像の設計と生成”の目的は、ユーザーからの広範な概念に基づいて画像を生成することです。この入力のアイデア...