Learn more about Search Results OPT

「H2O.aiとOptunaを使用した高度な予測モデリングのためのスタックアンサンブル」

私たちは皆、予測モデリングにおいてアンサンブルモデルが単一のモデルよりも優れたパフォーマンスを発揮することを知っていますおそらく、バギングやブースティングといった一般的なアンサンブル手法についてはすべて聞いたことがあるでしょうさらに、ランダムフォレストなどもよく知られています…

「たった1行のコードで、Optimum-NVIDIAが驚くほど高速なLLM推論を解除します」

大規模言語モデル(LLM)は、自然言語処理を革新し、複雑な問題を解決するためにますます展開されています。これらのモデルの最適な性能を達成することは、固有の計算的要求のために非常に困難です。最適化されたLLMの性能は、応答性のある高速な体験を求めるエンドユーザーだけでなく、改善されたスループットがコスト削減に直結するスケーリング展開にとっても非常に価値があります。 それがOptimum-NVIDIAの役割です。Hugging Faceで利用できるOptimum-NVIDIAは、非常にシンプルなAPIを通じてNVIDIAプラットフォーム上のLLMの推論を劇的に高速化します。たった1行のコードを変更するだけで、NVIDIAプラットフォーム上で最大28倍の高速な推論速度と1,200トークン/秒を実現することができます。 Optimum-NVIDIAは、NVIDIA Ada LovelaceおよびHopperアーキテクチャでサポートされる新しいfloat8フォーマットを活用した最初のHugging Face推論ライブラリです。さらに、NVIDIA TensorRT-LLMソフトウェアソフトウェアの高度なコンパイル機能により、LLMの推論を劇的に高速化します。 実行方法 Optimum-NVIDIAを使用したパイプラインで、素早い推論速度でLLaMAを実行するには、わずか3行のコードで開始できます。Hugging Faceのtransformersライブラリを使用してLLaMAを実行するためのパイプラインを既に設定している場合、パフォーマンスのピークを解除するためにわずかなコードの変更のみが必要です! - from transformers.pipelines import pipeline+ from optimum.nvidia.pipelines import pipeline# transformersと同じです!pipe = pipeline('text-generation', 'meta-llama/Llama-2-7b-chat-hf',…

コマンドラインインターフェイスのsysargv、argparse、docopts、およびTyper

パイプラインを展開するには、通常、メインスクリプトまたはパイプライン全体を実行する単一のエントリポイントがありますたとえば、データサイエンスのパイプラインでは、コードリポジトリのエントリポイントが...

「Pythonの型 Optionalは必須を意味することもある」

Pythonのドキュメントによると、typing.OptionalはオブジェクトがNoneであることを示す便利な方法ですこれはこの概念を簡潔でエレガントに表現する方法ですが、それはまた明確でしょうか?さて、

ツリー構造パーゼン推定器(Hyperopt)を使ったハイパーパラメータのチューニングの向上

この記事では、機械学習におけるハイパーパラメータ調整のためのTree-Structured Parzen Estimator(TPE)の概念と、具体的な例を用いたその応用について探求します

RLHF(Reinforcement Learning from Human Feedback)において本当に強化学習(RL)は必要ですか?スタンフォード大学の新しい研究では、DPO(Direct Preference Optimization)を提案していますこれは、RLを使用せずに言語モデルを好みに基づいて訓練するためのシンプルなトレーニング方法です

巨大な教師なしLM(言語モデル)は、大量のデータセットで訓練されると、その創造者さえ驚かせるほどの能力を獲得します。ただし、これらのモデルは、多様な動機、目標、能力を持つ人々によって作成された情報で訓練されます。これらの目標や能力をすべて模倣することはできないかもしれません。信頼性の高い、効果的で管理しやすいシステムを作成するためには、モデルの望ましい応答と振る舞いを、膨大な情報とスキルの中から慎重に選択することが重要です。 スタンフォード大学とCZ研究者は、明示的な報酬モデリングや強化学習を使用せずに、言語モデルを人間の好みに合わせる方法を示しています。彼らの研究は、現在のアプローチで使用されている強化学習ベースの目標を、単純なバイナリクロスエントロピー目標で最適化する方法を示しており、好み学習プロセスを大幅に簡略化し、これを実際に行う方法を示しています。 彼らは、Direct Preference Optimization(DPO)を提案しています。この新しいアルゴリズムは、既存の強化学習ベースのアルゴリズム(報酬の最大化とKLダイバージェンス制約)と同じ目標を暗黙的に達成しますが、構築とトレーニングが容易です。DPOのアップデートは、好ましい回答と好ましくない回答の対数比を直感的に向上させる一方で、モデルの悪化を防ぐために動的な例ごとの重みも含まれています。 DPOは、他のアルゴリズムと同様に、理論的な優先モデルを使用して報酬関数の一貫性を実証的な優先データと評価します。従来のアプローチでは、優先モデルを使用して報酬モデルを訓練するために優先損失を定義しますが、DPOは代わりに変数スイッチを使用して学習された報酬モデルを最大化するポリシーを訓練します。したがって、DPOは、トレーニング中に報酬関数を明示的に学習することなく、モデルの応答に対する人間の嗜好のデータセットを使用して、単純なバイナリクロスエントロピーの目標を持つポリシーを最適化することができます。 この研究の結果は、DPOが感情調節、要約、対話などのさまざまなタスクで、6Bパラメータを含む言語モデルに対して、PPOベースのRLHF(好みに基づく学習)などの最新のアプローチと同等に効果的であることを示しています。人間の評価では、58%の人がDPOの要約をPPOの要約よりも好みます。テストセットでは、61%の人がDPOの要約を人間の評価よりも好みます。Anthropic HHでは、DPOの単一ターンの応答が選択的な補完よりも好まれる場合が60%あります。 チームは、DPOが人間の好みに基づいて言語モデルを訓練するだけでなく、さまざまなモダリティで生成モデルを訓練するためにも多くの潜在的な用途があると述べています。 提案されたモデルの評価は、6Bパラメータまで高まりますが、チームは、オーダーオブマグニチュードのデータを持つ最新のモデルにDPOをスケーリングするためのさらなる研究が必要だと考えています。研究者たちはまた、プロンプトがGPT-4の計算された勝率に影響を与えることを発見しました。将来的には、機械から専門家の意見を引き出すための最も効果的な手段を調査する予定です。

スケールにおけるトランスフォーマーの最適化ツールキット、Optimumをご紹介します

この投稿は、Hugging Faceが最先端の機械学習プロダクションパフォーマンスを民主化するための旅の第一歩です。目指すところに到達するために、私たちはハードウェアパートナーと手を組んで取り組む予定です。以下のIntelと協力しています。この旅に参加して、新しいオープンソースライブラリであるOptimumをフォローしてください! なぜ 🤗 Optimum なのか? 🤯 Transformersのスケーリングは難しい Tesla、Google、Microsoft、Facebook、これらの企業に共通するものは何でしょうか?もちろんいくつかありますが、その1つは毎日数十億のTransformerモデルの予測を実行していることです。TeslaのAutoPilotのためのTransformer、Gmailの文章補完のためのTransformer、Facebookの投稿のリアルタイム翻訳のためのTransformer、Bingの自然言語クエリに対する回答のためのTransformerなど、さまざまな用途で使用されています。 Transformerは機械学習モデルの精度を飛躍的に向上させ、NLPを征服し、SpeechやVisionなどの他のモダリティにも広がっています。しかし、これらの巨大なモデルを本番環境に持ち込み、スケールで高速に実行することは、どの機械学習エンジニアリングチームにとっても大きな課題です。 上記の企業のように、数百人の高度に熟練した機械学習エンジニアを雇っていない場合はどうでしょうか?私たちの新しいオープンソースライブラリであるOptimumを通じて、Transformerのプロダクションパフォーマンスのための究極のツールキットを構築し、特定のハードウェア上でモデルをトレーニングおよび実行するための最大の効率性を実現することを目指しています。 🏭 OptimumがTransformerを活用します 最適なパフォーマンスでモデルをトレーニングおよび提供するためには、モデルのアクセラレーション技術は対象のハードウェアと互換性が必要です。各ハードウェアプラットフォームは、パフォーマンスに大きな影響を与える特定のソフトウェアツール、機能、ノブを提供しています。同様に、スパース化や量子化などの高度なモデルアクセラレーション技術を活用するためには、最適化されたカーネルがシリコン上の演算子と互換性があり、モデルアーキテクチャから派生したニューラルネットワークグラフに特化している必要があります。この3次元の互換性行列やモデルアクセラレーションライブラリの使用方法について詳しく調査するのは、ほとんどの機械学習エンジニアにとって困難な作業です。 Optimumはこの作業を簡単にすることを目指し、効率的なAIハードウェアを対象としたパフォーマンス最適化ツールを提供し、ハードウェアパートナーとの共同開発で機械学習エンジニアをML最適化の魔術師に変えます。 Transformerライブラリでは、最先端のモデルを研究者やエンジニアが簡単に使用できるようにし、フレームワーク、アーキテクチャ、パイプラインの複雑さを抽象化しました。 Optimumライブラリでは、エンジニアが利用可能なすべてのハードウェア機能を活用し、ハードウェアプラットフォーム上でのモデルアクセラレーションの複雑さを抽象化することで、エンジニアに簡単になります。 🤗 Optimumの実践:Intel Xeon CPU向けのモデルの量子化方法 🤔 量子化の重要性と正しい方法 BERTなどの事前学習済み言語モデルは、さまざまな自然言語処理タスクで最先端の結果を達成しており、ViTやSpeech2Textなどの他のTransformerベースのモデルも、コンピュータビジョンや音声タスクで最先端の結果を達成しています。Transformerは機械学習の世界で広く使われており、今後も使われ続けます。…

Hugging Face Optimumを使用して、TransformersをONNXに変換する

ハグフェース・ハブには、毎日何百ものトランスフォーマーの実験とモデルがアップロードされています。これらの実験を行う機械学習エンジニアや学生は、PyTorch、TensorFlow/Keras、その他のさまざまなフレームワークを使用しています。これらのモデルはすでに数千の企業によって使用され、AIを搭載した製品の基盤となっています。 トランスフォーマーのモデルを本番環境で展開する場合、まずは特殊なランタイムとハードウェア上で読み込み、最適化、実行できるシリアライズされた形式にエクスポートすることをお勧めします。 このガイドでは、以下のことについて学びます: ONNXとは何か Hugging Face Optimumとは何か どのトランスフォーマーアーキテクチャがサポートされているか トランスフォーマーモデル(BERT)をONNXに変換する方法 次は何か さあ、始めましょう! 🚀 モデルを最大限の効率で実行するために最適化することに興味がある場合は、🤗 Optimumライブラリをチェックしてください。 5. 次は何か トランスフォーマーモデルをONNXに正常に変換したので、最適化および量子化ツールの全セットが使用できるようになりました。次のステップとしては、以下のことが考えられます: Optimumとトランスフォーマーパイプラインを使用した高速推論にONNXモデルを使用する モデルに静的量子化を適用して、レイテンシを約3倍改善する トレーニングにONNXランタイムを使用する ONNXモデルをTensorRTに変換してGPUパフォーマンスを向上させる … モデルを最大限の効率で実行するために最適化することに興味がある場合は、🤗 Optimumライブラリをチェックしてください。…

ディープダイブ:Hugging Face Optimum GraphcoreにおけるビジョンTransformer

このブログ投稿では、Hugging Face Optimumライブラリを使用して、事前学習済みのTransformerモデルをあなたのデータセットに簡単に微調整する方法をGraphcoreのIntelligence Processing Units(IPUs)で紹介します。例として、大規模で広く使用されている胸部X線データセットを取り上げ、ビジョンTransformer(ViT)モデルを訓練する手順とノートブックを提供します。 ビジョンTransformer(ViT)モデルの紹介 2017年、GoogleのAI研究者グループがTransformerモデルアーキテクチャを紹介する論文を発表しました。Transformerは新しいセルフアテンションメカニズムによって特徴付けられ、言語アプリケーションのための新しい効率的なモデルのグループとして提案されました。実際、過去5年間でTransformerは爆発的な人気を見ており、自然言語処理(NLP)の事実上の標準として受け入れられています。 言語のためのTransformerは、急速に進化するGPTとBERTモデルファミリーによって特に代表されています。両方とも、Hugging Face Optimum Graphcoreライブラリの一部としてGraphcore IPUs上で簡単かつ効率的に実行することができます。 Transformerモデルアーキテクチャの詳細な説明(NLPに焦点を当てたもの)は、Hugging Faceのウェブサイトで見つけることができます。 Transformerは言語で初期の成功を収めましたが、非常に多目的であり、このブログ投稿でカバーするように、コンピュータビジョン(CV)などのさまざまな目的に使用することができます。 CVは、畳み込みニューラルネットワーク(CNN)が間違いなく最も人気のあるアーキテクチャの1つです。しかし、ビジョンTransformer(ViT)アーキテクチャは、Google Researchが2021年の論文で初めて紹介された画像認識のブレークスルーであり、BERTやGPTと同じセルフアテンションメカニズムを主要なコンポーネントとして使用しています。 BERTや他のTransformerベースの言語処理モデルは、文(つまり単語のリスト)を入力として受け取りますが、ViTモデルは入力画像をいくつかの小さなパッチに分割し、言語処理における個々の単語に相当するものにします。各パッチは、Transformerモデルによって線形にエンコードされ、個別に処理できるベクトル表現に変換されます。この画像をパッチやビジュアルトークンに分割するアプローチは、CNNが使用するピクセル配列とは対照的です。 事前学習により、ViTモデルは画像の内部表現を学習し、それを下流タスクに役立つ視覚的な特徴を抽出するために使用できます。たとえば、事前学習されたビジュアルエンコーダの上に線形層を配置することで、新しいラベル付き画像データセットで分類器を訓練することができます。通常、[CLS]トークンの上に線形層を配置します。このトークンの最後の隠れ状態は、画像全体の表現と見なすことができます。 CNNと比較して、ViTモデルはより高い認識精度を持ちながら、より低い計算コストで動作し、画像分類、物体検出、セグメンテーションなどのさまざまなアプリケーションに適用されています。医療領域のユースケースには、COVID-19、大腿骨骨折、肺気腫、乳がん、アルツハイマー病などの検出と分類などが含まれます。 ViTモデル – IPUに最適なモデル GraphcoreのIPUは、データパイプライニングとモデル並列処理の組み合わせを使用して、ViTモデルに特に適しています。この大規模並列プロセスの高速化は、IPUのMIMDアーキテクチャとIPU-Fabricを中心としたスケールアウトソリューションによって可能になっています。…

🤗 Optimum IntelとOpenVINOでモデルを高速化しましょう

昨年7月、インテルとHugging Faceは、Transformerモデルのための最新かつシンプルなハードウェアアクセラレーションツールの開発で協力することを発表しました。本日、私たちはOptimum IntelにIntel OpenVINOを追加したことをお知らせできて非常に嬉しく思います。これにより、Hugging FaceハブまたはローカルにホストされるTransformerモデルを使用して、様々なIntelプロセッサ上でOpenVINOランタイムによる推論を簡単に実行できます(サポートされているデバイスの完全なリストを参照)。OpenVINOニューラルネットワーク圧縮フレームワーク(NNCF)を使用してモデルを量子化し、サイズと予測レイテンシをわずか数分で削減することもできます。 この最初のリリースはOpenVINO 2022.2をベースにしており、私たちのOVModelsを使用して、多くのPyTorchモデルに対する推論を実現しています。事後トレーニング静的量子化と量子化感知トレーニングは、多くのエンコーダモデル(BERT、DistilBERTなど)に適用することができます。今後のOpenVINOリリースでさらに多くのエンコーダモデルがサポートされる予定です。現在、エンコーダデコーダモデルの量子化は有効化されていませんが、次のOpenVINOリリースの統合により、この制限は解除されるはずです。 では、数分で始める方法をご紹介します! Optimum IntelとOpenVINOを使用してVision Transformerを量子化する この例では、食品101データセットでイメージ分類のためにファインチューニングされたVision Transformer(ViT)モデルに対して事後トレーニング静的量子化を実行します。 量子化は、モデルパラメータのビット幅を減らすことによってメモリと計算要件を低下させるプロセスです。ビット数を減らすことで、推論時に必要なメモリが少なくなり、行列乗算などの演算が整数演算によって高速に実行できるようになります。 まず、仮想環境を作成し、すべての依存関係をインストールしましょう。 virtualenv openvino source openvino/bin/activate pip install pip --upgrade pip…

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us