アップステージがSolar-10.7Bを発表:一回の会話用に深いアップスケーリングと微調整された精度を持つ先駆的な大規模言語モデルを実現

『ソーラー-10.7B』:一回の会話における高度なアップスケーリングと微調整された精度を持つ、先駆的な大規模言語モデルをアップステージが発表

韓国のAI企業、Upstageの研究者たちは、言語モデルのパフォーマンスを最大化し、パラメータを最小化するという課題に取り組んでいます。モデルのサイズがパフォーマンスと関連している大規模言語モデル(LLM)において、Upstageは10.7兆の重み付けを持つ画期的なモデル、「Solar-10.7B」を導入しました。この革新は、3000億以上のパラメータを持つモデルにおけるモデルのサイズとパフォーマンスの間に生じる相反関係に対処しています。

既存のツールと異なり、UpstageのSolar-10.7Bは、Llama 2アーキテクチャを採用し、Upstage Depth Up-Scalingという新しい技術を使用しています。この方法は、Mistral 7BからアップスケーリングされたレイヤーにMistral 7Bの重み付けを統合し、包括的な事前学習を行います。Solar-10.7Bのコンパクトな設計と優れたパフォーマンスは、Mixtral 8X7Bなどのより大きなモデルすらも上回ります。さまざまな言語のタスクにおいて適応性と堅牢性を実証するための微調整と展示に理想的なモデルです。

さらに、Upstageはシングルターンの対話に特化したファインチューニング版「SOLAR-10.7B-Instruct-v1.0」も提供しています。監視付きファインチューニング(SFT)や直接的な意志最適化(DPO)など、最新のインストラクションのファインチューニング手法を活用し、多様なデータセットをトレーニングに使用しました。このファインチューニングモデルは、驚異的なModel H6スコア74.20を達成し、シングルターンの対話シナリオにおける効果を誇示しています。

Solar-10.7Bのパフォーマンスは、その洗練されたアーキテクチャとトレーニング戦略に根ざしています。Llama 2アーキテクチャを基にしたDepth Up-Scaling技術により、30兆パラメータまでのモデルを凌駕することができます。Mistral 7Bの重み付けをアップスケーリングされたレイヤーに統合することは、その素晴らしいパフォーマンスに貢献し、Mixtral 8X7Bモデルさえも上回ります。評価結果は、Solar-10.7Bの能力を示し、Model H6スコア74.20を記録しており、自然言語処理においてさらなるパフォーマンス最適化の追求を証明しています。

ファインチューニングされたSOLAR-10.7B-Instruct-v1.0は、他のモデルに比べて優れたModel H6スコア74.20でシングルターンの対話シナリオで優れたパフォーマンスを発揮しています。教授ベースのトレーニングのために慎重に選別されたデータセットを活用するこのファインチューニングアプローチは、その適応性とパフォーマンスの向上を一層強調しています。

まとめると、Solar-10.7Bおよびそのファインチューニング版は、大規模言語モデルの領域における重要な進歩を表しています。モデルのサイズとパフォーマンスのバランスを取るという課題に取り組むために、Upstageの研究者たちは戦略的にこれらのモデルを設計し、ファインチューニングして最先端の結果を提供しています。革新的なDepth Up-Scaling技術とMistral 7Bの統合は、適応性と効率性を示しています。研究者たちが言語モデルの開発の限界を押し広げ続ける中で、Solar-10.7Bとそのファインチューニング版は、自然言語処理におけるパフォーマンス最適化の追求の証となっています。

UpstageがSolar-10.7Bを発表:Depth Up-Scalingとファインチューニングされた精度によるシングルターン対話における大規模言語モデルの先駆的な取り組み は、MarkTechPostで最初に公開されました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「ChatGPTが連邦取引委員会によって潜在的な被害の調査を受ける」

重要な進展として、連邦取引委員会(FTC)が人工知能(AI)スタートアップ企業であるOpenAIの調査を開始しました。OpenAIはAI...

AI研究

マイクロソフトAI研究は、分子システムの平衡分布を予測するためにDistributional Graphormer(DiG)という新しいディープラーニングフレームワークを紹介しました

分子の構造はその性質と機能を決定します。そのため、構造予測は分子科学における重要な問題です。アミノ酸配列からタンパク...

人工知能

「5つ星アプリを構築する:AIと自動化を利用したモバイルテストの向上」

ソフトウェア開発チームは、高品質なモバイルアプリ体験を提供するために、強力で低コストのツールが必要ですAIと自動化は解...

AIニュース

FitBot — フィットネスチャットボットエージェント

健康意識が最前線にあり、バランスの取れたライフスタイルの追求が普遍的な願望となっている時代において、栄養は間違いなく...

人工知能

オープンソースとオープンイノベーションによるAIシーンの破壊

AIの運命は、オープンソースとオープンイノベーションを活用する小規模なVoAGI企業によって追い越されることですGoogleやOpen...