Learn more about Search Results アダプタ - Page 5

PEFTの概要:最先端のパラメータ効率の良い微調整の概要

「LoRAなどのパラメーター効率の高いファインチューニングテクニックを学んで、限られた計算リソースを使って大規模な言語モデルを効率的に適応させる方法を習得しましょう」

ミストラル7B:コンピューターでの微調整と量子化のためのレシピ

ミストラル7Bは、ミストラルAIが作成した非常に人気のある大規模言語モデル(LLM)です他の同じサイズの事前学習済みLLMを凌駕し、Llama 2 13Bなどのより大きなLLMよりも優れています...

LoRa、QLoRA、およびQA-LoRa:低ランク行列分解を通じた大規模言語モデルの効率的な適応性

大型言語モデル(LLM)は、人間のようなテキストを理解し生成するという非常に優れた能力を持つ特異な領域を切り開いてきましたLLMのすごさは、膨大な数のパラメータを持っていることに起因していますこの巨大なスケールがパフォーマンスを引き上げる一方で、特定のモデルへの適応においては課題も生じます

『冬-8Bに出会ってください:冴えたプラットフォームの背後にある非常にユニークなファンデーションモデル』

Adept.aiは、新たに誕生したAIのユニコーンの一部ですアイコニックなトランスフォーマーペーパーの著者たちによって最初に育成され、Adeptは自律型AIエージェントの領域で活動していますそのため、…

『LLMsと生成AIをマスターするための10の重要なトピック』

「生成AIは新しい分野です過去の1年間で、データサイエンティストやAIを使って何をでも開発したい人々を支援するための新しい用語、開発、アルゴリズム、ツール、フレームワークが登場しました生成AIにより深く探求したいと考えている人々には学ぶべきことがたくさんあります」

「MatFormerをご紹介します:プラットフォーム間で柔軟なモデル展開を可能にする、汎用なネストされたTransformerアーキテクチャ」

Transformerモデルは、強力なマルチアクセラレータクラスタから個々のモバイルデバイスまで、さまざまなアプリケーションで使用されます。これらの設定での推論のさまざまな要件により、開発者はPaLM 2、Llama、ViTsなどの基本モデルを異なるサイズでトレーニングします。ただし、トレーニングに関連する高いコストにより、サポートされるモデルサイズの範囲が制限されます。 大規模な基本モデルは、モバイル電話での迅速な応答や大規模なWebアプリケーションのマルチクラスタGPUでのバッチ処理など、さまざまな状況で使用されます。各モデルは、さまざまな状況に対応するために、異なるサイズで独立にトレーニングされたモデルの選択肢を提供します。これらのモデルサイズは、通常、対数スケールでおおよそ線形にグループ化されます。 そのため、Google Research、テキサス大学オースティン校、ワシントン大学、ハーバード大学の研究者グループは、最新の論文「MatFormer:Elastic InferenceのためのネストされたTransformer」で明らかにしたように、アダプタビリティのために明示的に作成されたTransformerアーキテクチャであるMatFormerを導入しました。MatFormerを使用すると、追加のトレーニングなしで多数の小さなサブモデルを生成できる統合モデルを構築することが容易になります。 彼らは、標準のTransformer内にネストされたサブ構造を組み込み、すべての粒度を共同で最適化して、単一の汎用弾性モデルを生成しています。 研究者たちは、意図的にさまざまなサイズの情報をユニバーサルなMatFormerモデルのさまざまなレイヤーに混在させることで、追加のトレーニングコストを負担せずに多くの正確なサブモデルを生成したと強調しています。MatFormerアーキテクチャの各Feed Forward Network(FFN)ブロックは、より小さなネストされたFFNブロックのコレクションで最適化されています。このトレーニングアプローチにより、異なるレイヤー間でモデルの複雑さを組み合わせて調整しました。 ネスト構造は、Feed Forward Network(FFN)ブロックの非表示表現上に実装されており、注意ヘッドが重要度の順に配置されることでモデルの能力が拡大されます。最も重要なものから最も重要でないものまで、注意ヘッド内のサブ構造が作成されます。より重要なヘッドがより多くのサブモデルに分散されるため、独立してトレーニングされた同等のTransformerベースのサブモデルに比べてトレーニングが15%加速されます。さらに、この方法は特に最適化されたサブモデルカーブと整合し、精度を維持しながら複数の小さなサブモデルの抽出を許可します。 研究者たちは、MatFormerの各レイヤーに対して異なる詳細レベルを選択することで、さまざまな正確な小さいモデルをさらなる最適化なしに生成できることを発見しました。 研究チームは、モデルの種類(デコーダとエンコーダ)、モダリティ(言語とビジョン)、およびスケール(最大26億パラメータまで)の効果を研究しました。研究者たちは、これらの小さなモデルを独立にトレーニングされた対応するモデルと比較することで、類似の検証損失とワンショットのダウンストリームパフォーマンスを実証しました。また、MatFormerは堅牢な汎化性を示し、ビジョンエンコーダ(MatViT)およびデコーダのみの言語モデル(MatLM)として優れた動作をします。精度と信頼性の面では、従来のTransformerに類似したスケーリングを実現しています。

リコグニションカスタムモデレーションの発表:データを使用して事前訓練されたリコグニションモデレーションモデルの精度を向上させます

企業は、ユーザーが生成した画像や動画をますます使用してエンゲージメントを図っています商品の画像を共有するように顧客を促す電子商取引プラットフォームから、ユーザーが生成した動画や画像を推進するソーシャルメディア企業まで、ユーザーコンテンツを活用することは、強力な戦略ですただし、このユーザーが生成したコンテンツがあなたのポリシーと一致し、[…]を育むことを確実にするのは、困難な場合もあります

AIの障壁を越える:OpenAIがLLMsをメインストリームの成功へ導くまで

「ML開発者ツール(広くはMLOpsとして分類される)が単体のビジネスとして成り立つかどうかについては常々懐疑的な意見を述べてきましたが、ごく一部の例外を除いて、私の意見は正しかったと証明されました...」

「大型言語モデル(LLM)のマスターに至る7つのステップ」

大型言語モデル(LLM)は、自然言語処理の新時代を開拓しましたでは、それについてもっと学びましょうこのガイドを使用して、大型言語モデルの基礎から始めて、7つの簡単なステップでLLMアプリを構築して展開する方法を学びましょう

CMU&Google DeepMindの研究者たちは、AlignPropという直接バックプロパゲーションベースのAIアプローチを導入しましたこのアプローチは、所望の報酬関数に適応するために、テキストからイメージへの拡散モデルの最適調整を行います

確率的拡散モデルは、連続的な領域における生成モデリングの確立された基準となっています。テキストから画像への拡散モデルの先駆者であるDALLEは、幅広いウェブ規模のデータセットで訓練することで画像を生成する能力が評価されています。本論文では、画像生成の最先端であるテキストから画像への拡散モデルの最近の台頭について説明しています。これらのモデルは大規模な非監督学習または弱教師付きのテキストから画像へのデータセットで訓練されてきました。ただし、非監督学習の性質上、人間によって知覚される画像の品質、画像とテキストの整列、倫理的な画像生成といった下流タスクの制御は困難な課題です。 最近の研究では、強化学習技術を使用して拡散モデルを微調整する試みが行われてきましたが、この手法は勾配推定子の高い分散性で知られています。そこで、本論文では「AlignProp」という方法を紹介しています。この方法では、ノイズ除去プロセス中に報酬勾配をエンドツーエンドで逆伝播することで、拡散モデルを下流の報酬関数と整列させます。 AlignPropの先進的なアプローチにより、現代のテキストから画像へのモデルを逆伝播するのに通常伴う高いメモリ要件を軽減しています。これは、低ランクアダプターウェイトモジュールの微調整と勾配チェックポイントの実装によって実現しています。 本論文では、AlignPropの性能を画像テキスト意味の整合性、美学、画像の圧縮性、生成される画像のオブジェクトの数の制御性やこれらの目的の組み合わせなど、さまざまな目的に対して微調整した拡散モデルの性能を評価しています。その結果、AlignPropは他の手法よりも高い報酬をより少ない訓練ステップで達成することが示されています。さらに、その概念的な単純さでも評価されており、興味のある異なる報酬関数に基づいて拡散モデルを最適化するための明確な選択肢となっています。 AlignPropのアプローチは、拡散モデルの微調整のために報酬関数から得られる勾配を利用することにより、サンプリング効率と計算効率の両方の向上をもたらします。実施された実験は、AlignPropがプロンプトのみでは単独で定義するのが困難なタスクを含む、幅広い報酬関数の最適化において、AlignPropの効果を一貫して実証しています。将来的な研究方向としては、これらの原則を言語モデルベースの拡散に拡張し、ヒューマンフィードバックとの整合性を向上させることが考えられます。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us