Learn more about Search Results huggingface.co - Page 7

無料でGoogle Colab上でQLoraを使用してLLAMAv2を微調整する

「Google Colabで最も影響力のあるオープンソースモデルの微調整方法を無料で学びましょう」

「ビルドしてプレイ!LLM搭載のあなた自身のV&Lモデル!」

大型言語モデル(LLM)はますますその価値を示しています画像をLLMに組み込むことで、ビジョン言語モデルとしてさらに有用になりますこの記事では、...

「3Dガウシアンスプラッティング入門」

3Dガウススプラッティングは、小さな画像サンプルから学習したフォトリアルなシーンをリアルタイムでレンダリングするための技術であり、3Dガウススプラッティングによるリアルタイム放射輝度フィールドレンダリングに記載されています。この記事では、その動作原理とグラフィックスの未来について解説します。 ガウススプラッティングのシーンの例については、こちらのリモートガウスビューアーをご覧ください。 3Dガウススプラッティングとは何ですか? 3Dガウススプラッティングは、本質的にはラスタライゼーション技術です。つまり: シーンを説明するデータを持つ。 データを画面に描画する。 これは、コンピュータグラフィックスの三角形ラスタライゼーションに類似しており、画面上に多くの三角形を描画するために使用されます。 ただし、三角形ではなくガウス分布を使用します。以下は、境界を明確にするために描画された単一のガウス分布のラスタライズ例です。 ガウス分布は、次のパラメータで説明されます: 位置:どこにあるか(XYZ) 共分散:どのように伸縮されるか(3×3行列) 色:何色か(RGB) アルファ:どれくらい透明か(α) 実際には、複数のガウス分布が一度に描画されます。 これが三つのガウス分布です。では、700万個のガウス分布はどうでしょうか? 以下は、それぞれのガウス分布を完全に不透明にラスタライズしたものです。 これが3Dガウススプラッティングの概要です。次に、論文で説明されている手順を詳しく見ていきましょう。 動作原理 1. Structure from Motion 最初のステップは、Structure from…

「大規模言語モデルを改善するための簡単な方法3つ」

「大規模言語モデルのパフォーマンスを向上させるための使いやすい方法を共有しますこれらの方法は、パフォーマンスを最大化するために一緒に使用することもできます!」

「GPT-4を超えて 新機能は何ですか?」

「GPT-4を超えて:生成AIの4つの主要なトレンド:LLMからマルチモーダル、ベクトルデータベースへの接続、エージェントからOSへ、そしてファインチューニングからプラグインへそして、MetaのLlama 2とCode Llama」

「Würstchenの紹介:画像生成のための高速拡散」

Würstchenとは何ですか? Würstchenは、テキスト条件付きの成分が画像の高度に圧縮された擬似モデルです。なぜこれが重要なのでしょうか?データの圧縮により、トレーニングと推論の両方の計算コストを桁違いに削減することができます。1024×1024の画像でのトレーニングは、32×32の画像でのトレーニングよりも遥かに高価です。通常、他の研究では比較的小規模な圧縮(4倍から8倍の空間圧縮)を使用しますが、Würstchenはこれを極限まで高めました。新しいデザインにより、42倍の空間圧縮を実現しました!これは以前には見られなかったものです。なぜなら、一般的な手法では16倍の空間圧縮後に詳細な画像を忠実に再構築することができないからです。Würstchenは2段階の圧縮、ステージAとステージBを採用しています。ステージAはVQGANであり、ステージBはディフュージョンオートエンコーダーです(詳細は論文を参照)。ステージAとBはデコーダーと呼ばれ、圧縮された画像をピクセル空間に戻します。高度に圧縮された潜在空間で学習される第3のモデル、ステージCも存在します。このトレーニングでは、現在の最高性能モデルに比べてずっと少ない計算リソースが必要であり、より安価で高速な推論が可能です。ステージCを事前モデルと呼んでいます。 なぜ別のテキストから画像へのモデルが必要なのですか? それは非常に高速かつ効率的です。Würstchenの最大の利点は、Stable Diffusion XLなどのモデルよりもはるかに高速に画像を生成でき、メモリの使用量も少ないことです!A100が手元にない私たち全員にとって、これは便利なツールです。以下は、異なるバッチサイズでのSDXLとの比較です: さらに、Würstchenの大幅な利点として、トレーニングコストの削減があります。512×512で動作するWürstchen v1は、わずか9,000時間のGPUでトレーニングされました。これを、Stable Diffusion 1.4に費やされた150,000時間のGPUと比較すると、コストが16倍も削減されていることがわかります。これにより、研究者が新しい実験を行う際にだけでなく、より多くの組織がこのようなモデルのトレーニングを行うことができるようになります。Würstchen v2は24,602時間のGPUを使用しました。解像度が1536まで上がっても、これはSD1.4の6倍安価です。SD1.4は512×512でのみトレーニングされました。 詳しい説明ビデオは次のリンクでご覧いただけます: Würstchenの使用方法 こちらのデモを使用して試すこともできます: または、モデルはDiffusersライブラリを介して利用可能なため、既に慣れているインターフェースを使用することができます。例えば、AutoPipelineを使用して推論を実行する方法は次のとおりです: import torch from diffusers import AutoPipelineForText2Image from diffusers.pipelines.wuerstchen import…

PyTorch FSDPを使用してLlama 2 70Bのファインチューニング

はじめに このブログ記事では、PyTorch FSDPと関連するベストプラクティスを使用して、Llama 2 70Bを微調整する方法について説明します。Hugging Face Transformers、Accelerate、およびTRLを活用します。また、AccelerateをSLURMと一緒に使用する方法も学びます。 Fully Sharded Data Parallelism(FSDP)は、オプティマイザの状態、勾配、およびパラメータをデバイス間でシャードするパラダイムです。フォワードパスでは、各FSDPユニットが完全な重みを取得するための全ギャザー操作を実行し、計算が行われた後に他のデバイスからのシャードを破棄します。フォワードパスの後、ロスが計算され、バックワードパスが行われます。バックワードパスでは、各FSDPユニットが完全な重みを取得するための全ギャザー操作を実行し、ローカルな勾配を取得するための計算が行われます。これらのローカルな勾配は平均化され、リダクション-スキャッタ操作を介してデバイス間でシャードされるため、各デバイスは自身のシャードのパラメータを更新することができます。PyTorch FSDPの詳細については、次のブログ記事を参照してください:PyTorch Fully Sharded Data Parallelを使用した大規模モデルトレーニングの加速。 (出典: リンク) 使用されたハードウェア ノード数:2。最小要件は1です。ノードあたりのGPU数:8。GPUタイプ:A100。GPUメモリ:80GB。ノード内接続:NVLink。ノードあたりのRAM:1TB。ノードあたりのCPUコア数:96。ノード間接続:Elastic Fabric Adapter。 LLaMa 70Bの微調整における課題…

🤗 Transformersにおけるネイティブサポートされた量子化スキームの概要

私たちは、トランスフォーマーでサポートされている各量子化スキームの利点と欠点を明確に示し、どれを選ぶべきかを判断するのに役立つ概要を提供することを目指しています。 現在、モデルの量子化は主に2つの目的で使用されています: 大きなモデルの推論をより小さなデバイスで実行すること 量子化モデルの上にアダプタを微調整すること 現時点で、2つの統合の取り組みが行われ、トランスフォーマーでネイティブにサポートされています:bitsandbytesとauto-gptqです。なお、🤗オプティマムライブラリでは他の量子化スキームもサポートされていますが、このブログ投稿では対象外です。 サポートされている各スキームの詳細については、以下で共有されているリソースのいずれかをご覧ください。また、ドキュメントの適切なセクションもご確認ください。 また、以下で共有されている詳細は、PyTorchモデルにのみ有効であり、TensorflowおよびFlax/JAXモデルについては現在のところ対象外です。 目次 リソース bitsandbyesとauto-gptqの利点と欠点 速度ベンチマークの詳細 結論と最終的な言葉 謝辞 リソース GPTQブログ投稿 – GPTQ量子化方法と使用方法について概説しています。 bitsandbytes 4ビット量子化ブログ投稿 – このブログ投稿では4ビット量子化と効率的なファインチューニング手法であるQLoRaについて紹介しています。 bitsandbytes 8ビット量子化ブログ投稿 –…

「T2I-Adapter-SDXL:小型で効率的な制御モデルに出会ってください」

T2I-アダプタは、完全な再学習を必要とせずにテキストから画像へのモデルを強化するプラグアンドプレイツールであり、ControlNetなどの代替手法よりも効率的です。内部の知識を外部の信号と整合させ、正確な画像編集を行います。ControlNetとは異なり、T2I-アダプタはノイズ除去プロセス中に一度だけ実行されるため、画像の生成を遅くすることなく、より速く効率的な解決策を提供します。 モデルのパラメータとストレージの要件は、この利点を明確に示しています。たとえば、ControlNet-SDXLは1,251億のパラメータと2.5 GBのストレージをfp16形式で提供しています。対照的に、T2I-Adapter-SDXLはパラメータ(7,900万)とストレージ(158 MB)を大幅に削減し、それぞれ93.69%と94%の削減を実現しています。 https://huggingface.co/blog/t2i-sdxl-adapters DiffusersチームとT2I-アダプタの研究者との最近の共同研究により、Stable Diffusion XL(SDXL)でのT2I-アダプタのサポートが実現しました。この共同研究では、SDXL上でのT2I-アダプタのスクラッチトレーニングに焦点を当て、スケッチ、キャニー、ラインアート、深度、オープンポーズなどのさまざまな条件要素において有望な結果をもたらしました。 T2I-Adapter-SDXLのトレーニングには、LAION-Aesthetics V2からの300万枚の高解像度の画像テキストペアが使用され、トレーニング設定では20,000-35,000ステップ、バッチサイズ128(データパラレルで単一のGPUバッチサイズ16)、定数学習率1e-5、混合精度(fp16)が指定されました。これらの設定は、速度、メモリ効率、画像品質のバランスを取り、コミュニティでの利用を容易にします。 Diffusersフレームワーク内でのT2I-Adapter-SDXLの利用は、一連のステップを通じて容易に行えます。まず、diffusers、controlnet_aux、transformers、accelerateなどの必要な依存関係をインストールする必要があります。次に、T2I-Adapter-SDXLを使用した画像生成プロセスは、適切な制御形式の条件画像を準備し、これらの画像とプロンプトをStableDiffusionXLAdapterPipelineに渡すという2つのステップで主に行われます。 実際の例では、Lineart Adapterがロードされ、入力画像に対してラインアートの検出が行われます。その後、定義されたプロンプトとパラメータを使用して画像生成が開始され、”adapter_conditioning_scale”や”adapter_conditioning_factor”などの引数を介して適用される条件の範囲をユーザーが制御できます。 結論として、T2I-アダプタは、事前学習済みのテキストから画像へのモデルを微調整する計算上の課題に対処する魅力的な代替手段を提供します。その小さなサイズ、効率的な動作、簡単な統合性により、さまざまな条件での画像生成のカスタマイズと制御に貢献し、人工知能の創造性とイノベーションを促進する貴重なツールとなります。

大規模言語モデル(LLM)の微調整

この投稿では、事前学習されたLLMをファインチューニング(FT)する方法について説明しますまず、FTの重要な概念を紹介し、具体的な例を示して終わります

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us