Learn more about Search Results Azure - Page 12

マイクロソフトの研究者たちは、FP8混合精度トレーニングフレームワークを公開しました:大規模な言語モデルのトレーニング効率を超高速化します

大型言語モデルは、言語生成と理解の能力において以前に類を見ない優れた能力を示しており、論理学、数学、物理学、他の領域の先進に道を開いています。ただし、LLMのトレーニングは非常に高額です。たとえば、540Bモデルをトレーニングするには、PaLMには6,144個のTPUv4チップが必要であり、GPT-3175Bは事前トレーニングに数千ペタフロップ/秒の計算が必要です。これは、特に次世代の非常に知的なモデルを拡大するために、LLMのトレーニングコストを低くする必要性を示しています。コストを節約するための最も有望なアプローチの1つは、低精度トレーニングです。このアプローチは、高速な処理、少ないメモリ使用量、最小限の通信オーバーヘッドを提供します。現在のほとんどのトレーニングシステム(Megatron-LM、MetaSeq、Colossal-AIなど)は、デフォルトでFP16/BF16のミックス精度またはFP32の完全精度を使用してLLMをトレーニングします。 大規模なモデルの場合、これは完全な精度を得るためのオプションですが、FP8はNvidia H100 GPUの登場により、次世代の低精度表現のデータ型として台頭しています。既存の16ビットと32ビットの浮動小数点ミックス精度トレーニングと比較して、FP8には理論的に2倍の高速化、50%から75%のメモリコスト削減、50%から75%の通信コスト削減の潜在能力があります。これらの結果は、次世代の基礎となるモデルのスケーリングに非常に有望です。残念ながら、FP8トレーニングへのサポートはもっと少なく、時間的に間隔のあるものが必要です。Nvidia Transformer Engineは唯一の実用的なフレームワークですが、GEMM計算にはFP8のみを使用し、マスターウェイトとグラデーションは極めて正確なFP16またはFP32のように維持します。これにより、エンドツーエンドのパフォーマンス向上、メモリの節約、および通信コストの節約は比較的少なくなり、FP8のフルポテンシャルは隠されてしまいます。 Microsoft AzureとMicrosoft Researchの研究者は、この問題を解決するためにLLMのトレーニングに非常に効率的なFP8ミックス精度フレームワークを提供しています。主なコンセプトは、ビッグモデルのトレーニングプロセス中に、計算、ストレージ、通信において低精度FP8を活用することです。これにより、以前のフレームワークと比較して、システム要件を大幅に削減することができます。より具体的には、彼らはFP8を使用して最適化ステージを3つ作成し、オプティマイザ、分散並列トレーニング、8ビットの集合通信を段階的に導入します。より大きな最適化レベルは、LLMのトレーニングプロセスでより多くのFP8が使用されたことを示しています。さらに、彼らのシステムはテンソル、パイプライン、およびシーケンスの並列性を含むFP8低ビット並列性を提供します。これにより、数千のGPUでトレーニングされたGPT-175Bなどの大規模なトレーニングが可能になり、次世代の低精度並列トレーニングの扉が開かれます。 FP8を使用したLLMのトレーニングには、作業が必要です。データオーバーフローやアンダーフローなどの問題に起因する固有のダイバージェンスや数値不安定性などの問題が発生します。これらの問題に対処するために、彼らは2つの方法を提案しています。情報の損失を防ぐための自動スケーリングと、重み、勾配、およびオプティマイザーの状態などのパラメータにおけるデータ精度の影響を分離するための精度切り離しです。最初の方法は、非精度に敏感でないコンポーネントの精度を低下させ、テンソルのスケーリング係数の動的調整により、FP8データフォーマット表現範囲内の勾配値を保持することです。これにより、全体の通信中にアンダーフローやオーバーフローの発生が防止されます。 彼らは、検証のために監督付き微調整と事前トレーニングを含むGPTスタイルのモデルトレーニングに提案されたFP8低精度フレームワークを使用します。彼らのFP8手法をよく使用されるBF16ミックス精度トレーニングアプローチと比較すると、実験結果は、実メモリ使用量の27%〜42%の減少や、重み勾配通信オーバーヘッドの63%〜65%の著しい減少など、重要な改善を示しています。FP8でトレーニングされたモデルは、学習率や重み減衰などのハイパーパラメータの調整なしに、BF16の高精度を使用するモデルと同等の性能を示します。GPT-175Bモデルのトレーニングでは、彼らのFP8ミックス精度フレームワークがH100 GPUプラットフォーム上で21%少ないメモリを使用し、TEよりも17%短いトレーニング時間を節約することに注目すべきです。 図1: クラスター内のNvidia H100 GPU with 80G RAMを使用した場合に達成可能な最大モデルサイズの比較。当社のFP8混合精度トレーニング方法とより一般的なBF16方法を使用しています。 さらに重要なことは、Fig. 1に示すようにモデルのスケールが増加すると、低精度のFP8を使用することで得られるコスト削減をさらに向上させることができることです。事前学習されたLLMsをエンドタスクとユーザーの好みにより適合させるために、彼らは指示の微調整とヒューマンインプットによる強化学習にFP8混合精度を使用しています。特に、彼らは公開されているユーザー共有の指示に従うデータを使用して事前学習済みモデルを微調整します。彼らのFP8混合精度で調整されたモデルは、BF16の半精度を使用したモデルと比較して、AlpacaEvalとMT-Benchベンチマークで同様のパフォーマンスを発揮します。さらに、FP8混合精度はトレーニング中に多くのモデルをロードする必要があるRLHFにおいて非常に有望です。 人気のあるRLHFフレームワークであるAlpacaFarmは、トレーニング中にFP8を使用することで、モデルの重量を46%減少させ、オプティマイザの状態のメモリ使用量を62%削減することができます。これは、彼らのFP8低精度トレーニングアーキテクチャの柔軟性と適応性をより一層示しています。彼らが将来の世代のLLM向けのFP8低精度トレーニングの発展に貢献している内容は以下の通りです。• FP8による混合精度トレーニングのための新しいフレームワーク。このフレームワークは使いやすく、8ビットの重み、勾配、オプティマイザ、および分散トレーニングを段階的に解除します。現在の16/32ビット混合精度の代替として、ハイパーパラメータとトレーニングレシピを変更するだけで、この8ビットフレームワークに簡単に切り替えることができます。また、数行のコードで8ビット低精度トレーニングを可能にするPytorchの実装も提供しています。 新しいFP8トレーニングされたGPTスタイルモデル。彼らは提案されたFP8スキームの能力を、7Bから175Bパラメータのモデルに適用することで示しています。彼らは、テンソル、パイプライン、シーケンスの並列処理をFP8に対応させ、大規模な基礎モデルのトレーニングにFP8を使用することを可能にしています。最初のFP8…

エンタープライズデータの力を活用するための生成AI:Amazon Kendra、LangChain、および大規模言語モデルによる洞察

広範な知識を持つ大規模言語モデル(LLM)は、ほぼあらゆるトピックについて人間らしいテキストを生成することができますしかし、大量のデータセットでの訓練は、専門的なタスクに対しての利用価値を制限します継続的な学習がなければ、これらのモデルは初期の訓練後に現れる新しいデータやトレンドに無関心ですさらに、新しいLLMを訓練するためのコストも[…]

「初めに、AWS上でMONAI Deployを使用して医療画像AI推論パイプラインを構築しましょう!」

この記事では、MONAI Deploy App SDKで構築されたアプリケーションに再利用可能なMAPコネクタを作成する方法を紹介しますこれにより、クラウドネイティブなDICOMストアから医療画像AIのワークロードへの画像データの取得を統合し、高速化することができますMONAI Deploy SDKは、病院の運用をサポートするために使用することができますさらに、MAP AIアプリケーションをSageMakerでスケールアップするための2つのホスティングオプションもデモンストレーションします

テストに合格する:NVIDIAがMLPerfベンチマークでジェネラティブAIのトレーニングをターボチャージします

NVIDIAのAIプラットフォームは、最新のMLPerf業界ベンチマークにおいて、AIトレーニングとハイパフォーマンスコンピューティングの基準を引き上げました。 多くの新記録やマイルストーンの中で、ジェネラティブAIの分野で特に注目されているのは、NVIDIA Eosです。これは、驚異的な10752基のNVIDIA H100 Tensor Core GPUとNVIDIA Quantum-2 InfiniBandネットワーキングを搭載したAIスーパーコンピュータで、GPT-3モデルに基づいた1750億個のパラメータを持つ1億トークンのトレーニングベンチマークをたったの3.9分で完了しました。 これは、約3倍の速さで、NVIDIAがわずか6か月前に記録した10.9分を大幅に上回るものです。 このベンチマークは、人気のChatGPTサービスのフルGPT-3データセットの一部を使用しており、推定によれば、Eosはたった8日間でトレーニングを完了させることができます。これは、512基のA100 GPUを使用した従来の最先端システムに比べて73倍高速です。 トレーニング時間の短縮は、コスト削減、エネルギー節約、およびマーケット投入までの時間短縮につながります。大規模な言語モデルを広く利用できるようにする重要な取り組みであり、NVIDIA NeMoといったツールを使用して、すべての企業がカスタマイズ可能なLLMを採用できるようにしています。 今回の新しいジェネラティブAIのテストでは、1024基のNVIDIA HopperアーキテクチャGPUが、2.5分でStable Diffusion text-to-imageモデルに基づいたトレーニングベンチマークを完了し、この新たなワークロードにおいてハイバーな成績を収めました。 これらの二つのテストを採用することで、MLPerfはAIのパフォーマンスを測定する業界の標準としてのリーダーシップを強化しており、ジェネラティブAIが現在の私たちの時代で最も変革的な技術であることを裏付けています。 システムの拡張が飛躍 今回の最新の結果は、MLPerfベンチマークに適用されたアクセラレータがこれまでで最も多く使用されたことによるものです。10752基のH100 GPUは、今年6月のAIトレーニングでNVIDIAが使用した3584基のHopper GPUを大幅に上回りました。 GPU数の3倍のスケーリングが、パフォーマンスの2.8倍のスケーリングをもたらしたことで、ソフトウェアの最適化にも一部助けられ、93%の効率率を実現しました。…

アリエル・カッツ、H1のCEO兼共同創設者-イスラエルとガザの支援、GenosAI、トライアルイノベーション、医療分野でのAIの影響、現代医学におけるデータの役割、スタートアップのアドバイス

「H1は医療関係者、研究者、業界パートナーをつなぎ、臨床、科学、研究情報と洞察力を提供し、医療の成果を向上させ、医療業界のイノベーションを推進します私たちは、Ariel Katz氏、H1のCEO兼共同創業者に、AIを活用した医療に関するインタビューシリーズに参加していただき、感謝していますこのインタビューでは、ArielがH1の持続的なサポート活動について議論しています... Ariel Katz氏、H1のCEO兼共同創業者 — イスラエルとガザの支援、GenosAI、臨床試験のイノベーション、AIの医療への影響、現代医療におけるデータの役割、スタートアップへのアドバイス 詳細はこちら »」

Embedchainの紹介- LLM向けのデータプラットフォーム

イントロダクション LangChainやLangFlowのようなツールを紹介することで、Large Language Modelsを使ったアプリケーションの構築が容易になりました。さまざまなLarge Language Modelsを選択してアプリケーションを構築することが容易になった一方で、データのアップロード部分では、データがさまざまなソースから取得されるため、開発者にはデータをプレーンテキストに変換してベクトルストアに注入する必要があるため、依然として時間がかかることがあります。このような場合には、Embedchainが登場します。Embedchainを使用すると、さまざまなデータタイプのデータを簡単にアップロードしてLLMを瞬時にクエリできます。この記事では、embedchainの使い方について探っていきます。 学習目標 Large Language Models(LLMs)のデータの管理とクエリに関して、embedchainの重要性を理解する。 非構造化データを効果的に統合し、embedchainにアップロードする方法を学ぶ。これにより、さまざまなデータソースでシームレスに作業を行うことができる。 embedchainがサポートしているさまざまなLarge Language Modelsとベクトルストアについて知る。 ウェブページやビデオなどのさまざまなデータソースをベクトルストアに追加し、データの取り込み方法を理解する。 この記事はData Science Blogathonの一部として公開されました。 Embedchainとは何ですか? EmbedchainはPython/JavaScriptライブラリであり、開発者はこれを使ってLarge Language Modelsと多くのデータソースをシームレスに接続することができます。Embedchainを使用すると、非構造化データをアップロード、インデックス化、検索することができます。非構造化データには、テキスト、ウェブサイト/YouTube動画へのURL、画像など、いかなるタイプのデータも含まれます。 Emdechainを使ってこれらの非構造化データをアップロードする場合、単一のコマンドでデータをアップロードし、それらに対してベクトル埋め込みを作成し、接続されたLLMと即座にクエリを開始することができます。内部では、embedchainがデータをソースからロードし、チャンキングし、ベクトル埋め込みを作成し、最終的にベクトルストアに格納する処理を行います。 Embedchainを使った最初のアプリの作成…

現代のデータエンジニアリング

現代のデータエコシステムは常に進化し、新しいデータツールが時折現れますこの記事では、データエンジニアに影響を与える重要な要素について話したいと思いますこの記事では、どのようにこれを活用するかについて議論します...

AWSを使用したジェネレーティブAIを使用したサーバーレスイメージ生成アプリケーション

このチュートリアルでは、Amazon Bedrockを使用してGoで画像生成ソリューションを構築し、AWS CDKを使用して展開する方法を学びます

「MLOPsを使用した不正取引検出の実装」

イントロダクション 現代のデジタル世界では、人々は便利さのために現金ではなくオンライン取引とデジタル決済にますます移行しています。移行の増加に伴い、詐欺も増加しています。詐欺トランザクションは、偽の身元や虚偽の情報を使用してお金を要求することが含まれるため、個人や金融機関にとって重大な問題です。このプロジェクトでは、クレジットカードのデータセットを使用して、ライブトランザクションを監視し、それらが本物か詐欺かを予測するためのMLOPsモデルを設計するために、Airflowツールを使用します。 目標 詐欺トランザクションの検出の重要性。 データのクリーニング、データセットの変換、データの前処理。 データセットの視覚的な分析から洞察を得る。 データサイエンスにおける詐欺トランザクション検出モデルの現実世界での応用。 Pythonプログラミング言語を使用した詐欺トランザクションデータの分析。 MS AzureとAirflowを使用したエンドツーエンドの詐欺検出の構築。 この記事はデータサイエンスブログマラソンの一環として公開されました。 詐欺トランザクション推定モデルとは何ですか? 詐欺トランザクションのデータセットには、トランザクションの時間、名前、金額、性別、カテゴリなどの列が含まれています。詐欺トランザクション推定モデルは、偽のトランザクションを予測するために開発された機械学習モデルで、大規模な有効なトランザクションと詐欺トランザクションのデータセットでトレーニングされています。 詐欺トランザクション分析とは何ですか? 詐欺トランザクション分析は、過去のデータセットを分析するプロセスです。データセットの分析は、データの不規則性を見つけ、データのパターンを見つけることを目指しています。詐欺トランザクション分析は、顧客を保護し、財務的な損失を減らすためにビジネスにおいて重要な役割を果たします。ルールベースの分析や異常検知など、さまざまな種類の詐欺トランザクション分析があります。 ルールベースの分析:ルールベースの分析では、無効なトランザクションをフラグ付けするためのルールを作成します。例えば、地理的な地域に基づいたルールが作成されることがあります。 異常検知:異常検知では、異常または異常なトランザクションを見つけることを目指します。例えば、新しいIPアドレスから行われたトランザクションなどです。 詐欺トランザクションの検出の重要性 詐欺トランザクションの検出は、ビジネスや金融機関が顧客を詐欺から保護し、彼らのお金を守るために重要です。詐欺トランザクションを検出することの重要な理由をいくつか挙げます。 財務的な損失の削減:詐欺トランザクションは企業に莫大な損失をもたらし、利益を減少させます。したがって、企業が詐欺トランザクションを検出することは重要です。 評判の保護:評判の維持は、ビジネスにとって重要な要素であり、潜在的なクライアントや顧客の喪失につながります。 顧客とビジネスの保護:詐欺トランザクションは顧客に財務的な損失や感情的な影響を与えることがあります。詐欺を検出することで、ビジネスは顧客と自社を守ることができます。 データの収集と前処理 データの収集と前処理は、詐欺検出モデルの開発において重要な部分です。データが収集されたら、データセットに対していくつかの手順を実行する必要があります。…

Amazon SageMaker JumpStartを使用した対話型ビジュアル言語処理

ビジュアル言語処理(VLP)は生成AIの最前線にあり、言語知能、ビジョン理解、処理を包括するマルチモーダル学習の進展を推進しています大規模な言語モデル(LLM)と大量のマルチモーダリティデータで訓練された対照的な言語-画像プレトレーニング(CLIP)との組み合わせにより、ビジュアル言語モデル(VLM)は特に画像キャプショニングなどのタスクに優れた能力を示しています

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us