Search Results OPT

なぜ私たちはHugging Face Inference Endpointsに切り替えるのか、そしてあなたも切り替えるべきかもしれません

Hugging Faceは最近、Inference Endpointsをリリースしました。これは、彼らが言うように「トランスフォーマーを本番環境で解決する」というものです。Inference Endpointsは、次のことができるマネージドサービスです： Hugging Face Hub上で（ほぼ）任意のモデルをデプロイする任意のクラウド（AWS、Azure、GCPも近日中に）にデプロイする GPUを含むさまざまなインスタンスタイプで実行する私たちは、CPU上で推論を行ういくつかの機械学習（ML）モデルを、この新しいサービスに切り替えています。このブログでは、なぜ切り替えるのか、また切り替えを検討する理由について説明します。これまでの取り組み私たちがInference Endpointsに切り替えたモデルは、以前は内部で管理され、AWS Elastic Container Service（ECS）上で実行されていました。これにより、コンテナベースのタスクを実行できるサーバーレスクラスターが提供されます。私たちのプロセスは次のようなものでした： GPUインスタンスでモデルをトレーニングする（transformersでトレーニングされたCMLで供給） Hugging Face Hubにアップロードするモデルを提供するためのAPIを構築する（FastAPI） APIをコンテナにラップする（Docker）コンテナをAWS Elastic…

私たちが知っていることを蒸留する

研究者たちは、大きなGPTモデルのサイズを削減しようとしています

「AutoGPTQとtransformersを使ってLLMsを軽量化する」

大規模な言語モデルは、人間のようなテキストの理解と生成能力を示し、さまざまなドメインでのアプリケーションを革新しています。しかし、訓練と展開における消費者ハードウェアへの要求は、ますます困難になっています。 🤗 Hugging Faceの主なミッションは、良い機械学習を民主化することであり、これには大規模モデルを可能な限りアクセスしやすくすることも含まれます。bitsandbytesコラボレーションと同じ精神で、私たちはTransformersにAutoGPTQライブラリを統合しました。これにより、ユーザーはGPTQアルゴリズム（Frantar et al. 2023）を使用して8、4、3、または2ビット精度でモデルを量子化して実行できるようになりました。4ビットの量子化ではほとんど精度の低下はなく、推論速度は小規模なバッチサイズの場合にはfp16ベースラインと比較可能です。GPTQメソッドは、校正データセットのパスを必要とする点で、bitsandbytesによって提案された事後トレーニング量子化手法とは若干異なります。この統合はNvidiaのGPUとRoCm-powered AMDのGPUの両方で利用可能です。目次リソース GPTQ論文の簡潔な要約 AutoGPTQライブラリ – LLMの効率的なGPTQの活用のためのワンストップライブラリ 🤗 TransformersでのGPTQモデルのネイティブサポート Optimumライブラリを使用したモデルの量子化テキスト生成推論を介したGPTQモデルの実行 PEFTを使用した量子化モデルの微調整改善の余地サポートされているモデル結論と最終的な言葉謝辞…

光を基にした機械学習システムは、より強力で効率的な大規模言語モデルを生み出す可能性がある

MITのシステムは、現行のシステムと比較して、エネルギー効率が100倍以上向上し、計算密度が25倍向上していることを示しています

「OpenAIのWebクローラーとFTCのミスステップ」

「OpenAIは、デフォルトでオプトイン型のクローラーを起動してインターネットをスクレイピングする一方で、FTCは不明瞭な消費者の欺瞞調査を追求しています」

「Amazon SageMakerを使用したフェデレーテッドラーニングによる分散トレーニングデータを用いた機械学習」

この投稿では、分散トレーニングデータを使用してAmazon SageMakerでフェデレーテッドラーニングを実装する方法について説明します

「あらゆるプロジェクトに適した機械学習ライブラリ」

「機械学習プロジェクトで使用できる多くのライブラリが存在しますプロジェクトで使用するライブラリについての包括的なガイドを探索してください」

SaneBoxのレビュー：メールを整理して生産性を向上させる

このSaneBoxのレビューでは、AIを活用した最高のメール管理ソフトウェアの機能と利点を探求し、受信トレイを最適化します

「テーマパークのシミュレーション：Rを使って待ち時間を理解する」

長い列はいつも嫌なものです、特に宇宙を舞い上がるか、グレート・バリア・リーフを航行するために待っている時には夏休みが続く中、ほとんどの人が...

コーネル大学の研究者たちは、不連続処理を伴う量子化（QuIP）を導入しましたこれは、量子化が不連続な重みとヘシアン行列から利益を得るという洞察に基づく新しいAIの手法です

大規模言語モデル（LLM）によって、テキスト作成、フューショット学習、推論、タンパク質配列モデリングなどの領域で改善が可能になりました。これらのモデルは数百億のパラメータを持つことがあり、複雑な展開戦略が必要となり、効率的な推論技術の研究を促しています。コーネル大学の新しい研究では、LLMのパラメータをトレーニング後に量子化して実世界のシナリオでのパフォーマンスを向上させています。彼らの重要な洞察は、重みとプロキシヘシアン行列が非整合的な場合に、重みを有限の圧縮された値のセットに適応的に丸めることが容易であるということです。直感的には、重み自体と良好な丸めの精度を持つことが重要な方向は、どの座標でもあまり大きくないためです。この洞察を利用して、研究者たちは理論的に妥当でありLLMサイズのモデルにも拡張可能な2ビットの量子化技術を作成しました。この洞察に基づいて、彼らは量子化と非整合処理（QuIP）と呼ばれる新しい技術を提供しています。 QuIPには2つのフェーズがあります：効率的な事前処理と事後処理により、ヘシアン行列がランダムな直交行列のクロネッカー積によって非整合的になることを保証します。推定ヘシアンを使用して、元の重みと量子化された重みの間の誤差の二次プロキシ目的関数を最小化する適応的な丸め手順です。 “非整合処理”は、提案手法の初期処理フェーズと最終処理フェーズの両方を指します。実装の実用性に加えて、彼らはLLMサイズのモデルにスケーリングする量子化アルゴリズムのための初めての理論的研究を提供し、非整合性の影響を調査し、量子化手法が広範な丸め技術よりも優れていることを示しています。この研究では、QuIPによる非整合処理を行わない場合にOPTQという以前の技術のより効率的な実装が得られることも示しています。実験結果は、非整合処理が大規模モデルの量子化を有意に向上させ、特に高い圧縮率で優れた結果をもたらし、重みごとに2ビットのみを使用するLLM量子化手法の実現を示しています。大規模なLLMサイズ（>2Bパラメータ）では2ビットと4ビットの圧縮間に小さなギャップが観察され、モデルサイズが大きくなるにつれてこれらのギャップはさらに縮小され、LLMで正確な2ビットの推論が可能性があることを示唆しています。プロキシ目的関数では、トランスフォーマーブロック間、またはブロック内のレイヤー間の相互作用は考慮されていません。チームは、このスケールでこのような相互作用を含める利点と、それにかかる計算量の価値が現在わかっていないと述べています。

Learn more about Search Results OPT - Page 78