Search Results A

マイクロソフトの研究者たちは、FP8混合精度トレーニングフレームワークを公開しました：大規模な言語モデルのトレーニング効率を超高速化します

大型言語モデルは、言語生成と理解の能力において以前に類を見ない優れた能力を示しており、論理学、数学、物理学、他の領域の先進に道を開いています。ただし、LLMのトレーニングは非常に高額です。たとえば、540Bモデルをトレーニングするには、PaLMには6,144個のTPUv4チップが必要であり、GPT-3175Bは事前トレーニングに数千ペタフロップ/秒の計算が必要です。これは、特に次世代の非常に知的なモデルを拡大するために、LLMのトレーニングコストを低くする必要性を示しています。コストを節約するための最も有望なアプローチの1つは、低精度トレーニングです。このアプローチは、高速な処理、少ないメモリ使用量、最小限の通信オーバーヘッドを提供します。現在のほとんどのトレーニングシステム（Megatron-LM、MetaSeq、Colossal-AIなど）は、デフォルトでFP16/BF16のミックス精度またはFP32の完全精度を使用してLLMをトレーニングします。大規模なモデルの場合、これは完全な精度を得るためのオプションですが、FP8はNvidia H100 GPUの登場により、次世代の低精度表現のデータ型として台頭しています。既存の16ビットと32ビットの浮動小数点ミックス精度トレーニングと比較して、FP8には理論的に2倍の高速化、50％から75％のメモリコスト削減、50％から75％の通信コスト削減の潜在能力があります。これらの結果は、次世代の基礎となるモデルのスケーリングに非常に有望です。残念ながら、FP8トレーニングへのサポートはもっと少なく、時間的に間隔のあるものが必要です。Nvidia Transformer Engineは唯一の実用的なフレームワークですが、GEMM計算にはFP8のみを使用し、マスターウェイトとグラデーションは極めて正確なFP16またはFP32のように維持します。これにより、エンドツーエンドのパフォーマンス向上、メモリの節約、および通信コストの節約は比較的少なくなり、FP8のフルポテンシャルは隠されてしまいます。 Microsoft AzureとMicrosoft Researchの研究者は、この問題を解決するためにLLMのトレーニングに非常に効率的なFP8ミックス精度フレームワークを提供しています。主なコンセプトは、ビッグモデルのトレーニングプロセス中に、計算、ストレージ、通信において低精度FP8を活用することです。これにより、以前のフレームワークと比較して、システム要件を大幅に削減することができます。より具体的には、彼らはFP8を使用して最適化ステージを3つ作成し、オプティマイザ、分散並列トレーニング、8ビットの集合通信を段階的に導入します。より大きな最適化レベルは、LLMのトレーニングプロセスでより多くのFP8が使用されたことを示しています。さらに、彼らのシステムはテンソル、パイプライン、およびシーケンスの並列性を含むFP8低ビット並列性を提供します。これにより、数千のGPUでトレーニングされたGPT-175Bなどの大規模なトレーニングが可能になり、次世代の低精度並列トレーニングの扉が開かれます。 FP8を使用したLLMのトレーニングには、作業が必要です。データオーバーフローやアンダーフローなどの問題に起因する固有のダイバージェンスや数値不安定性などの問題が発生します。これらの問題に対処するために、彼らは2つの方法を提案しています。情報の損失を防ぐための自動スケーリングと、重み、勾配、およびオプティマイザーの状態などのパラメータにおけるデータ精度の影響を分離するための精度切り離しです。最初の方法は、非精度に敏感でないコンポーネントの精度を低下させ、テンソルのスケーリング係数の動的調整により、FP8データフォーマット表現範囲内の勾配値を保持することです。これにより、全体の通信中にアンダーフローやオーバーフローの発生が防止されます。彼らは、検証のために監督付き微調整と事前トレーニングを含むGPTスタイルのモデルトレーニングに提案されたFP8低精度フレームワークを使用します。彼らのFP8手法をよく使用されるBF16ミックス精度トレーニングアプローチと比較すると、実験結果は、実メモリ使用量の27%〜42%の減少や、重み勾配通信オーバーヘッドの63%〜65%の著しい減少など、重要な改善を示しています。FP8でトレーニングされたモデルは、学習率や重み減衰などのハイパーパラメータの調整なしに、BF16の高精度を使用するモデルと同等の性能を示します。GPT-175Bモデルのトレーニングでは、彼らのFP8ミックス精度フレームワークがH100 GPUプラットフォーム上で21%少ないメモリを使用し、TEよりも17%短いトレーニング時間を節約することに注目すべきです。図1：クラスター内のNvidia H100 GPU with 80G RAMを使用した場合に達成可能な最大モデルサイズの比較。当社のFP8混合精度トレーニング方法とより一般的なBF16方法を使用しています。さらに重要なことは、Fig. 1に示すようにモデルのスケールが増加すると、低精度のFP8を使用することで得られるコスト削減をさらに向上させることができることです。事前学習されたLLMsをエンドタスクとユーザーの好みにより適合させるために、彼らは指示の微調整とヒューマンインプットによる強化学習にFP8混合精度を使用しています。特に、彼らは公開されているユーザー共有の指示に従うデータを使用して事前学習済みモデルを微調整します。彼らのFP8混合精度で調整されたモデルは、BF16の半精度を使用したモデルと比較して、AlpacaEvalとMT-Benchベンチマークで同様のパフォーマンスを発揮します。さらに、FP8混合精度はトレーニング中に多くのモデルをロードする必要があるRLHFにおいて非常に有望です。人気のあるRLHFフレームワークであるAlpacaFarmは、トレーニング中にFP8を使用することで、モデルの重量を46%減少させ、オプティマイザの状態のメモリ使用量を62%削減することができます。これは、彼らのFP8低精度トレーニングアーキテクチャの柔軟性と適応性をより一層示しています。彼らが将来の世代のLLM向けのFP8低精度トレーニングの発展に貢献している内容は以下の通りです。• FP8による混合精度トレーニングのための新しいフレームワーク。このフレームワークは使いやすく、8ビットの重み、勾配、オプティマイザ、および分散トレーニングを段階的に解除します。現在の16/32ビット混合精度の代替として、ハイパーパラメータとトレーニングレシピを変更するだけで、この8ビットフレームワークに簡単に切り替えることができます。また、数行のコードで8ビット低精度トレーニングを可能にするPytorchの実装も提供しています。新しいFP8トレーニングされたGPTスタイルモデル。彼らは提案されたFP8スキームの能力を、7Bから175Bパラメータのモデルに適用することで示しています。彼らは、テンソル、パイプライン、シーケンスの並列処理をFP8に対応させ、大規模な基礎モデルのトレーニングにFP8を使用することを可能にしています。最初のFP8…

ドックスからコードの生成には、LLMsを使用します

大規模言語モデル（LLMs）は、詳細な医師のメモを正確な医療コードに迅速に翻訳することで、効率と正確性を向上させます

データサイエンスのスキルセットを拡大するために次のステップを踏みましょう

効果的なストーリーテリングから戦略的なキャリアプランニングまで、データサイエンスのキャリアを進めるために必要なスキルは多岐に渡り、ますます学際的になっています例えば、統計学や…

「2023年に大型言語モデル（LLM）から始めましょう」

まず、もしプログラミングやAIの知識が全くない場合は、この目的に特化したガイドを参考にして戻ってきてください！このガイドは、プログラミングの少ないバックグラウンドを持つ人を対象にしています...

「データの血統と現代データ管理におけるその重要性」

データの系譜は、データの流れを理解し、品質、規制遵守、セキュリティを確保するために非常に重要ですそれは現代のデータ管理の基盤です

コンピュータービジョンによる車両損傷検出の構築方法

「2つのモデルを使用したコンピュータビジョンソリューションの設計原則を探求し、Mask R-CNNとU-Net AIアルゴリズムの能力を評価しましょう」

「MIT研究者がLILOを導入：プログラム合成のための解釈可能なライブラリを学ぶための神経シンボリックフレームワーク」

ビッグ言語モデル（LLM）は、プログラムのさまざまな文脈でプログラムする能力がますます高度になっており、部分的に書かれたコードを完成させる、人間のプログラマーとの対話、さらには競技レベルの難しいプログラミングの謎を解くことさえも可能です。しかし、ソフトウェア開発者は、現在の作業を終えるよりも、問題の領域全体を解決するために使用できるライブラリを作成することに関心があります。そのために、リファクタリングのスキルは、ソフトウェア開発の重要な要素です。リファクタリングは、コードベースをより読みやすく（ほかのプログラマーにとって直感的）、再利用可能（新しいタスクに一般化可能）、コンパクト（共有構造を統合）にする抽象化を見つけ出す能力です。この多目的最適化の問題を解決するために、現在数百万人のプログラマーが利用している現在のコード補完ツールの機能を拡張する必要があります。この研究では、言語モデルをプログラミング言語（PL）の文献の自動リファクタリングと現在のアルゴリズム開発と統合することで、再利用可能な関数抽象化のライブラリを学習します。MIT CSAIL、MIT Brain and Cognitive Sciences、Harvey Mudd Collegeの研究者は、言語観察からのライブラリ導入のための3つの相互関連モジュール（図1）で構成される神経シンボリックフレームワークであるLILO（Library Induction from Language Observations）を提案しています。・デュアルシステム合成モジュール：プログラミングの問題に対する答えを探すために、2つの異なるアプローチが使用されます。LLMによって誘導される強力なドメイン一般事前知識はシステムに導入され、列挙的な探索によってドメイン固有の式が見つかることがあります。・圧縮モジュール：高性能なシンボリック圧縮システムであるSTITCHを使用して、現在の解決セットから関連する抽象化を見つけます。・自動ドキュメンテーション（AutoDoc）モジュール：人間が理解できるドックストリングと関数名を生成し、解釈性を向上させ、後でLLMによる誘導検索を容易にします。彼らの設計は、反復的なWake-SleepアルゴリズムDREAMCODERに基づいており、プログラミングの課題の解決（Wakeフェーズ）と共通の抽象化をライブラリに書き直す（Sleepフェーズ）を交互に行うことによって、探索を導く役割を果たしています。DreamCoderは、従来の深層学習技術とは異なり、少数のサンプルから重要な一般化を引き出すことができ、学習されたライブラリはモデルの概念的な知識を象徴的に表現しています。ただし、DreamCoderの検索プロセスは計算量が非常に多く、単一のドメインの学習にCPUの使用量が2か月以上かかります。図1：LILO学習ループの概要。 (Al) プレーン言語で記述されたタスクの説明からプログラムを作成するため、LILOはデュアルシステムの検索手法を使用します。 LLMで生成された自動文書化（C）をSTITCH（B）と呼ばれる圧縮方法と組み合わせることで、プログラムソリューションの集合を再構成し、λ-抽象の解釈可能なライブラリを作成します。この検索-圧縮-文書化サイクルにより、プログラムソリューションの構造（A vs. D）がシンプルになり、後続の段階でより困難なタスクの解決が容易になります。この検索にかかる時間のかなりの部分は、「出発する」ということに費やされます。プログラマーが既によく知っているか、前のドメイン固有の問題解決の経験により迅速に理解できる抽象化の基本セットを見つける必要があります。さらに、DreamCoderのライブラリは常に解釈できるわけではありません。解読するためには、ドメインの知識とラムダ計算の理解が必要です。これらの問題に取り組むために、LILOはLLMを2つの革新的な方法で使用します：（1）検索中にプログラムソリューションをより迅速に見つけるため、（2）学習されたライブラリのドキュメンテーションを向上させ、理解しやすくします。文字列編集と正規表現、CLEVRデータセットでのシーン推論、2Dロゴタートルグラフィックス言語でのグラフィックスコンポジションという3つの難しいプログラム合成ドメインで、LILOを言語ガイドのDreamCoderと比較します。…

「2024年に注目すべきトップ10のリモートスタッフィングエージェンシー」

2024年に仕事を革新しているトップ10の遠隔スタッフィングエージェンシーを探索し、グローバルな人材と企業をつなげる

Tech

「KOSMOS-2：Microsoftによるマルチモーダルな大規模言語モデル」

イントロダクション 2023年はAIの年となりました。言語モデルから安定した拡散モデルの強化にSegMind APIを使うまで、AI技術は進化し続けています。その中で、Microsoftが開発したKOSMOS-2が注目を浴びています。これはマイクロソフトによって開発されたマルチモーダルの大規模言語モデル（MLLM）であり、テキストと画像の理解力において画期的な能力を発揮しています。言語モデルを開発することは一つのことですが、ビジョンモデルを作成することは別のことです。しかし、両方の技術を組み合わせたモデルを持つことは、さらなるレベルの人工知能を実現することになります。この記事では、KOSMOS-2の特徴と潜在的な応用について掘り下げ、AIと機械学習への影響を解説します。学習目標 KOSMOS-2のマルチモーダル大規模言語モデルの理解 KOSMOS-2のマルチモーダルグラウンディングと参照表現生成の仕組みの学習 KOSMOS-2の現実世界での応用について洞察を得る KOSMOSを使ったColabでの推論の実行この記事はデータサイエンスブログマラソンの一部として公開されました。 KOSMOS-2モデルの理解 KOSMOS-2はマイクロソフトの研究チームによる研究成果で、そのタイトルは「Kosmos-2: Grounding Multimodal Large Language Models to the World（KOSMOS-2：マルチモーダル大規模言語モデルのグラウンディング）」です。テキストと画像を同時に処理し、マルチモーダルデータとの相互作用を再定義することを目指して設計されたKOSMOS-2は、他の有名なモデルであるLLaMa-2やMistral AIの7bモデルと同様にトランスフォーマーベースの因果言語モデルのアーキテクチャを採用しています。しかし、KOSMOS-2の特徴はその独自のトレーニングプロセスです。特殊なトークンとして画像内のオブジェクトへの参照を含むテキストである、GRITと呼ばれる巨大なデータセットでトレーニングされています。この革新的なアプローチにより、KOSMOS-2はテキストと画像の新たな理解を提供することができます。マルチモーダルグラウンディングとは何ですか？ KOSMOS-2の特徴的な機能の一つは、「マルチモーダルグラウンディング」の能力です。これは、画像のオブジェクトとその位置を記述するイメージキャプションを生成することができるという意味です。これにより、言語モデルにおける「幻覚」の問題を劇的に減少させ、モデルの精度と信頼性を向上させることができます。この概念は、テキストを画像内のオブジェクトに特殊なトークンを通じて接続し、実質的にはオブジェクトを視覚的な文脈に結びつけるというものです。これにより幻覚が減少し、正確なイメージキャプションの生成能力が向上します。…

基本に戻ろう：プロビット回帰

「バイナリの結果を分析するタスクに取り組む際、私達はしばしばロジスティック回帰を手段として考えますそのため、バイナリ結果回帰に関するほとんどの記事は独占的に焦点を当てています...」

Learn more about Search Results A - Page 556