Learn more about Search Results NeMo Megatron

費用効率の高いGPT NeoXおよびPythiaモデルの訓練における節約と正確性:AWS Trainiumの活用

大規模言語モデル(またはLLMs)は、日々の会話のトピックとなっていますその迅速な採用は、1億人のユーザーに到達するまでに必要な時間の量で明らかですこれが「Facebookでの4.5年」からわずかな「2ヶ月でのChatGPT」の史上最低になったことが証拠です生成型事前学習トランスフォーマー(GPT)は因果自己回帰の更新を使用します[...]

「AWS Trainiumを使用した高速で費用効果の高いLLaMA 2の微調整」

大型言語モデル(LLM)は、開発者、科学者、技術者、起業家、および様々な産業の経営者たちの想像力と注意を引いていますこれらのモデルは、問題解決、要約、翻訳などに使用することができ、カスタマーサポートの会話エージェント、マーケティングのためのコンテンツ作成、コーディングアシスタントなどの応用分野で活用されています最近、MetaはLlama 2をリリースしました

NYUとNVIDIAが協力して、患者の再入院を予測するための大規模言語モデルを開発する

退院は患者にとって重要なマイルストーンですが、時には回復への道のりの終わりではありません。米国では、初回退院後30日以内に約15%の入院患者が再入院することがあり、患者と病院の両方にとってより悪い結果や高いコストが伴うことがしばしばあります。 ニューヨーク大学の学術医療センターであるNYUランゴーンヘルスの研究者は、NVIDIAの専門家と協力して、患者の30日間の再入院リスクや他の臨床的な結果を予測する大規模言語モデル(LLM)を開発しました。 NYUランゴーンヘルスの6つの入院施設に展開されたNYUTronモデルは、今日発表された科学誌ネイチャーに掲載され、AIによる洞察力を提供することで、再入院の可能性を低減する臨床介入が必要な患者を特定する医師を支援します。 「患者を退院させる際には、再入院が必要になることは予想されません。また、もしそうだった場合は、病院に長く入院させる必要があるかもしれません」と、NYUグロスマン医学部の放射線科と脳神経外科の助教授であり、NYUTronの主要な協力者の一人であるエリック・オーマン博士は述べています。「AIモデルの分析を使用することで、私たちはクリニシャンに再入院のリスクを予測し、防止または解決するための手段を提供できるようになるでしょう。」 このモデルはNYUの医療システムで50,000人以上の患者に適用され、再入院リスクの予測結果が医師に電子メール通知で共有されています。オーマン氏のチームは、NYUTronの分析に基づく介入が再入院率を減らすかどうかを検証する臨床試験を計画しています。 急速な再入院の脅威に立ち向かう 米国政府は、30日間の再入院率を医療の質の指標として追跡しています。再入院率が高い医療機関には罰金が科され、これにより病院が退院プロセスを改善するように刺激されます。 最近退院した患者が再び入院する必要がある理由はたくさんあります。例えば、感染症、抗生物質の過剰処方、早すぎる手術ドレーンの除去などがあります。これらのリスク要因が早期に発見されれば、医師は治療計画を調整したり、患者を長期入院させたりすることで介入することができます。 「患者の再入院を予測する計算モデルは、1980年代から存在していますが、これを自然言語処理のタスクとして、臨床テキストの健康システム規模のコーパスが必要となるものとして扱っています」と、オーマン博士は述べています。「私たちは、電子健康記録の非構造化データを使用してLLMをトレーニングし、人々が以前に考慮していなかった洞察力を捕捉できるかどうかを確認しました。」 NYUTronは、NYUランゴーンヘルスの10年間の健康記録、約4十億語の臨床ノート、約40万人の患者を表す大量のデータによって事前トレーニングされました。このモデルは、再入院を予測するための最先端の機械学習モデルよりも10%以上の精度改善を達成しました。 LLMが初期の使用ケースで30日間の再入院を予測するためにトレーニングされた後、チームは1週間ほどで他の4つの予測アルゴリズムを展開することができました。これには、患者の入院期間の長さを予測すること、入院中の死亡リスク、患者の保険請求が拒否される可能性などが含まれます。 「病院を運営することは、ある意味ではホテルを管理することに似ています」と、オーマン博士は述べています。「病院がより効率的に運営できるようにする洞察力は、より多くの患者により多くのベッドとより良いケアを提供することを意味します。」 トレーニングから展開までのLLM NYUTronは、数億のパラメータを持つLLMで、NVIDIA NeMo Megatronフレームワークを使用して、NVIDIA A100 Tensor Core GPUの大規模クラスターでトレーニングされました。 「言語モデルに関する話題の多くは、数百または数千のGPUを使用して、汚いデータセットでトレーニングされた数十億のパラメータを持つ巨大で汎用的なモデルについてです」と、オーマン博士は述べています。「私たちは、高度に洗練されたデータでトレーニングされた中程度のサイズのモデルを使用して、医療特化のタスクを達成しています。」 現実の医療現場で推論を最適化するために、チームはNVIDIA Tritonオープンソースソフトウェアの変更バージョンを開発し、NVIDIA TensorRTソフトウェア開発キットを使用してAIモデルの展開を簡素化しました。…

大規模に基礎モデルをトレーニングするためのAmazon SageMaker HyperPodの紹介

基盤モデル(FMs)の構築には、数十億から数千億のパラメータを持つモデルを大量のデータで訓練するために、大規模なクラスタの構築、維持、最適化が必要ですモデルのトレーニングの進行状況を数日または数週間失わずに、障害や環境変化に対応できる堅牢な環境を構築することは、運用上の課題です

「AIのトレーニングAI:ゲータートロングPTがフロリダ大学の医療AIのイノベーションの最前線に」

臨床データが少ない状況でAIに臨床言語を理解させるにはどうすればいいのでしょうか?別のAIを訓練して、訓練データを合成します。 人工知能は医学の方法を変えつつあり、様々な臨床業務にますます使われています。 これは生成AIやGatorTronGPTのようなモデルによって推進されています。GatorTronGPTはフロリダ大学のHiPerGator AIスーパーコンピュータで訓練され、Nature Digital Medicine Thursdayで紹介された論文で詳細が説明されています。 GatorTronGPTは臨床データに基づいて訓練された大規模な言語モデル(LLMs)の一つです。研究者たちは、GPT-3のフレームワークを使用してこのモデルを訓練しました。ChatGPTでも使用されているフレームワークです。 この目的のために、彼らは2770億単語の巨大なコーパスを使用しました。訓練データには、非特定化された臨床ノートから820億単語と、様々な英文書から1950億単語が含まれています。 しかし驚きはここにあります。研究チームはGatorTronGPTを使用して、約200億語の合成臨床テキストコーパスを生成しました。この合成臨床テキストは、臨床要素に焦点を当て、医師が書いた本物の臨床ノートのように読むことができます。 この合成データは、GatorTron-SというBERTベースのモデルの訓練に使用されました。 比較評価では、GatorTron-Sは臨床概念の抽出や医療関連の抽出などの臨床自然言語理解のタスクで優れたパフォーマンスを示しており、8200億単語の臨床データセットで訓練された元のBERTベースのモデルであるGatorTron-OGが打ち立てた記録を上回っています。 さらに驚くべきことに、これを少ないデータで実現できました。 GatorTron-OGとGatorTron-Sのモデルは、フロリダ大学のHiPerGatorスーパーコンピュータでNVIDIAのMegatron-LMパッケージを実行する560台のNVIDIA A100 Tensor Core GPUで訓練されました。このプロジェクトで使用されたMegatron LMフレームワークの技術は、後にNVIDIA NeMoフレームワークに組み込まれ、GatorTronGPTの最新の研究にも活用されています。 LLMsによる合成データの使用は、いくつかの課題に対処するものです。LLMsには膨大な量のデータが必要であり、品質の高い医療データが限られています。 また、合成データはHIPAAなどの医療プライバシー規制に準拠したモデル訓練を可能にします。 GatorTronGPTの研究は、昨年ChatGPTの急速な普及と共に登場したLLMsが、さらに多くの分野で活用される可能性を示す最新の例です。 また、加速されたコンピューティングによって実現される新しいAI技術の進展の一例でもあります。…

24GBのコンシューマーGPUでRLHFを使用して20B LLMを微調整する

私たちは、trlとpeftの統合を正式にリリースし、Reinforcement Learningを用いたLarge Language Model (LLM)のファインチューニングを誰でも簡単に利用できるようにしました!この投稿では、既存のファインチューニング手法と競合する代替手法である理由を説明します。 peftは一般的なツールであり、多くのMLユースケースに適用できますが、特にメモリを多く必要とするRLHFにとって興味深いです! コードに直接深く入りたい場合は、TRLのドキュメンテーションページで直接例のスクリプトをチェックしてください。 イントロダクション LLMとRLHF 言語モデルとRLHF(Reinforcement Learning with Human Feedback)を組み合わせることは、ChatGPTなどの非常に強力なAIシステムを構築するための次の手段として注目されています。 RLHFを用いた言語モデルのトレーニングは、通常以下の3つのステップを含みます: 1- 特定のドメインまたは命令のコーパスで事前学習されたLLMをファインチューニングする 2- 人間によって注釈付けされたデータセットを収集し、報酬モデルをトレーニングする 3- ステップ1で得られたLLMを報酬モデルとデータセットを用いてRL(例:PPO)でさらにファインチューニングする ここで、ベースとなるLLMの選択は非常に重要です。現時点では、多くのタスクに直接使用できる「最も優れた」オープンソースのLLMは、命令にファインチューニングされたLLMです。有名なモデルとしては、BLOOMZ、Flan-T5、Flan-UL2、OPT-IMLなどがあります。これらのモデルの欠点は、そのサイズです。まともなモデルを得るには、少なくとも10B+スケールのモデルを使用する必要がありますが、モデルを単一のGPUデバイスに合わせるだけでも40GBのGPUメモリが必要です。 TRLとは何ですか? trlライブラリは、カスタムデータセットとトレーニングセットアップを使用して、誰でも簡単に自分のLMをRLでファインチューニングできるようにすることを目指しています。他の多くのアプリケーションの中で、このアルゴリズムを使用して、ポジティブな映画のレビューを生成するモデルをファインチューニングしたり、制御された生成を行ったり、モデルをより毒性のないものにしたりすることができます。…

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us