アップステージがSolar-10.7Bを発表:一回の会話用に深いアップスケーリングと微調整された精度を持つ先駆的な大規模言語モデルを実現

『ソーラー-10.7B』:一回の会話における高度なアップスケーリングと微調整された精度を持つ、先駆的な大規模言語モデルをアップステージが発表

韓国のAI企業、Upstageの研究者たちは、言語モデルのパフォーマンスを最大化し、パラメータを最小化するという課題に取り組んでいます。モデルのサイズがパフォーマンスと関連している大規模言語モデル(LLM)において、Upstageは10.7兆の重み付けを持つ画期的なモデル、「Solar-10.7B」を導入しました。この革新は、3000億以上のパラメータを持つモデルにおけるモデルのサイズとパフォーマンスの間に生じる相反関係に対処しています。

既存のツールと異なり、UpstageのSolar-10.7Bは、Llama 2アーキテクチャを採用し、Upstage Depth Up-Scalingという新しい技術を使用しています。この方法は、Mistral 7BからアップスケーリングされたレイヤーにMistral 7Bの重み付けを統合し、包括的な事前学習を行います。Solar-10.7Bのコンパクトな設計と優れたパフォーマンスは、Mixtral 8X7Bなどのより大きなモデルすらも上回ります。さまざまな言語のタスクにおいて適応性と堅牢性を実証するための微調整と展示に理想的なモデルです。

さらに、Upstageはシングルターンの対話に特化したファインチューニング版「SOLAR-10.7B-Instruct-v1.0」も提供しています。監視付きファインチューニング(SFT)や直接的な意志最適化(DPO)など、最新のインストラクションのファインチューニング手法を活用し、多様なデータセットをトレーニングに使用しました。このファインチューニングモデルは、驚異的なModel H6スコア74.20を達成し、シングルターンの対話シナリオにおける効果を誇示しています。

Solar-10.7Bのパフォーマンスは、その洗練されたアーキテクチャとトレーニング戦略に根ざしています。Llama 2アーキテクチャを基にしたDepth Up-Scaling技術により、30兆パラメータまでのモデルを凌駕することができます。Mistral 7Bの重み付けをアップスケーリングされたレイヤーに統合することは、その素晴らしいパフォーマンスに貢献し、Mixtral 8X7Bモデルさえも上回ります。評価結果は、Solar-10.7Bの能力を示し、Model H6スコア74.20を記録しており、自然言語処理においてさらなるパフォーマンス最適化の追求を証明しています。

ファインチューニングされたSOLAR-10.7B-Instruct-v1.0は、他のモデルに比べて優れたModel H6スコア74.20でシングルターンの対話シナリオで優れたパフォーマンスを発揮しています。教授ベースのトレーニングのために慎重に選別されたデータセットを活用するこのファインチューニングアプローチは、その適応性とパフォーマンスの向上を一層強調しています。

まとめると、Solar-10.7Bおよびそのファインチューニング版は、大規模言語モデルの領域における重要な進歩を表しています。モデルのサイズとパフォーマンスのバランスを取るという課題に取り組むために、Upstageの研究者たちは戦略的にこれらのモデルを設計し、ファインチューニングして最先端の結果を提供しています。革新的なDepth Up-Scaling技術とMistral 7Bの統合は、適応性と効率性を示しています。研究者たちが言語モデルの開発の限界を押し広げ続ける中で、Solar-10.7Bとそのファインチューニング版は、自然言語処理におけるパフォーマンス最適化の追求の証となっています。

UpstageがSolar-10.7Bを発表:Depth Up-Scalingとファインチューニングされた精度によるシングルターン対話における大規模言語モデルの先駆的な取り組み は、MarkTechPostで最初に公開されました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

UCLAとCMUの研究者が、優れた中程度範囲の天気予報のためのスキルと信頼性のあるスケーラブルなトランスフォーマーニューラルネットワーク「ストーマー」を紹介しました

現在、科学と社会が直面している主な問題の一つは天気予報です。正確な天気予報は、自然災害や極端な天候事象に対処し、回復...

機械学習

「AWSとAccelが「ML Elevate 2023」を立ち上げ、インドのAIスタートアップエコシステムを力強く支援」

Amazon Web Services(AWS)とAccelは、革新的な6週間のアクセラレータープログラム「ML Elevate 2023」を発表しました。この...

データサイエンス

サムスンはAIとビッグデータを採用し、チップ製造プロセスを革新します

世界的なメモリチップメーカーであるSamsung Electronics Co.は、最先端の人工知能(AI)とビッグデータ技術を活用して、チッ...

機械学習

「生成AIの風景を探索する」

ジェネレーティブAIは、特にニューラルネットワークを用いて、与えられたデータセット内のパターンを解読するために、さまざ...

データサイエンス

ジェネラティブAIを活用したシフトレフトテストの推進

「ジェネラティブAIがシフトレフトテストを向上させ、優れたソフトウェア開発のためのテストケースの自動生成と予測的なバグ...

機械学習

デビッドソンシーングラフにお会いください:高精度なテキストから画像へのAI評価のための革命的なAIフレームワーク

T2Iモデル(テキストから画像を生成するモデル)の評価は困難であり、しばしば質問生成と回答(QG/A)の手法に依存してテキス...