Learn more about Search Results モード - Page 44

「QLORAとは:効率的なファインチューニング手法で、メモリ使用量を削減し、単一の48GB GPUで65Bパラメーターモデルをファインチューニングできるだけでなく、完全な16ビットのファインチューニングタスクのパフォーマンスも保持します」

大規模言語モデル(LLM)は、追加または削除したい振る舞いを設定することも可能にするファインチューニングによって改善することができます。しかし、大きなモデルのファインチューニングは非常に高コストです。例えば、LLaMA 65Bパラメータモデルを標準の16ビットモードでファインチューニングすると、780GB以上のGPU RAMを消費します。最新の量子化手法はLLMのメモリフットプリントを軽減することができますが、これらの手法は推論時にのみ機能し、トレーニング時には失敗します。ワシントン大学の研究者たちは、QLORAを開発しました。QLORAは、高精度なアルゴリズムを使用して事前学習モデルを4ビットの解像度に量子化し、量子化結果に対する勾配を逆伝播させることで変更した一連の学習可能な低ランクアダプターの重みを追加します。彼らは、量子化された4ビットモデルがパフォーマンスに影響を与えずに調整できることを初めて示しています。 QLORAによって、65Bパラメータモデルのファインチューニングの平均メモリ要件を、ランタイムや予測パフォーマンスを犠牲にすることなく、16ビットの完全にファインチューニングされたベースラインから780GB以上のGPU RAMから48GBに削減することができます。これにより、これまでに公開されている最大のモデルでも単一のGPUでファインチューニングすることが可能となり、LLMのファインチューニングのアクセシビリティに大きな変化がもたらされます。彼らはQLORAを使用してGuanacoモデルファミリーを訓練し、最大のモデルは単一のプロフェッショナルGPUで24時間以上かけて99.3%の成績を達成し、VicunaベンチマークでのChatGPTに迫る成果を上げました。2番目に優れたモデルは、単一のコンシューマGPUで12時間未満の時間で、VicunaベンチマークでChatGPTのパフォーマンスレベルの97.8%に達します。 QLORAの以下の技術は、パフォーマンスを損なうことなくメモリ使用量を低減することを目的としています:(1) 4ビットNormalFloat、正規分布データのための量子化データ型であり、情報理論的に最適であり、4ビットの整数と4ビットの浮動小数点よりも優れた経験的な結果を生み出します。(2) ダブル量子化は、平均してパラメータごとに0.37ビット(または65Bモデルの約3GB)を節約し、量子化定数を量子化します。(3) ページドオプティマイザは、長いシーケンスを処理する際に勾配チェックポイントによるメモリスパイクを防ぐために、NVIDIA統一メモリを使用します。使用すると、最小のGuanacoモデル(7Bパラメータ)は、Vicunaテストで26GBのAlpacaモデルを20パーセント以上上回る性能を発揮しながら、5GB未満のメモリを使用します。 彼らはこれらの貢献をより洗練されたLoRA戦略に組み込み、以前の研究で特定された精度のトレードオフをほぼなくすようにしました。QLORAの効率性により、メモリコストのために従来のファインチューニングではできなかったモデルサイズに関する指示ファインチューニングとチャットボットのパフォーマンスをより詳細に分析することができます。その結果、彼らは80Mから65Bまでの様々な指示チューニングデータセット、モデルトポロジ、パラメータ値を使用して、1000以上のモデルをトレーニングしました。QLORAは16ビットのパフォーマンスを回復し、Guanacoという高度なチャットボットをトレーニングし、学習されたモデルのパターンを調査しました。 まず、両方が汎化後の指示を提供することを目的としているにもかかわらず、チャットボットのパフォーマンスでは、データの品質がデータセットのサイズよりもはるかに重要であることを発見しました。9kサンプルのデータセット(OASST1)は、チャットボットのパフォーマンスで450kサンプルのデータセット(FLAN v2、サブサンプリング)を上回ります。第二に、優れたMassive Multitask Language Understanding(MMLU)ベンチマークのパフォーマンスが必ずしも優れたVicunaチャットボットベンチマークのパフォーマンスにつながるわけではないこと、そしてその逆もまた同様であることを示しています。言い換えれば、特定のタスクにおいては、データセットの適切さがスケールよりも重要です。彼らはまた、人間の評価者とGPT-4を使用してチャットボットのパフォーマンスを詳細に評価しています。 モデルは、与えられた刺激に対する最適な応答を決定するために、トーナメント形式のベンチマークマッチで互いに競い合います。GPT-4または人間の注釈者がゲームの勝者を決定します。トーナメントの中でのモデルのパフォーマンスのランク付けには、GPT-4と人間の判断がほぼ一致することがわかりましたが、明確な相違点もあります。そのため、彼らはモデルベースの評価が不確実性を持つ一方で、人間の注釈よりも費用が抑えられるという事実に注意を喚起しています。 彼らはチャットボットのベンチマーク調査結果にグアナコモデルの質的分析を追加します。彼らの研究では、定量的な基準では考慮されなかった成功と失敗のインスタンスを特定します。彼らはGPT-4および人間のコメントを含むすべてのモデル世代を公開し、将来の研究を支援します。彼らは自分たちの技術をHugging Face transformersスタックに組み込み、ソフトウェアおよびCUDAカーネルをオープンソース化し、広く利用可能にします。32の異なるオープンソース化された改良モデルについて、サイズ7/13/33/65Bのモデルに8つの異なる命令従属データセットでトレーニングを行ったアダプターのコレクションを提供します。コードリポジトリは公開され、Colabでホストできるデモも提供されます。

UCバークレーの研究者たちは、ビデオ予測報酬(VIPER)というアルゴリズムを紹介しましたこれは、強化学習のためのアクションフリーの報酬信号として事前学習されたビデオ予測モデルを活用しています

手作業で報酬関数を設計することは時間がかかり、予期しない結果をもたらす可能性があります。これは、強化学習(RL)ベースの汎用意思決定エージェントの開発における主要な障害です。 従来のビデオベースの学習方法では、現在の観測値がエキスパートのものに最も似ているエージェントを報酬することができます。ただし、報酬は現在の観測値にのみ依存するため、時間を通じた意味のある活動を捉えることはできません。また、敵対的なトレーニング技術によるモードの崩壊により、一般化が妨げられます。 UCバークレーの研究者は、ビデオ予測モデルからインセンティブを抽出するための新しい方法、ビデオ予測インセンティブ強化学習(VIPER)を開発しました。VIPERは、生の映画から報酬関数を学習し、未学習のドメインにも一般化することができます。 まず、VIPERはエキスパートによって生成された映画を使用して予測モデルを訓練します。次に、ビデオ予測モデルを使用して強化学習のエージェントを訓練し、エージェントの軌跡の対数尤度を最適化します。エージェントの軌跡の分布は、ビデオモデルの分布と一致するように最小化する必要があります。ビデオモデルの尤度を直接報酬信号として使用することで、エージェントはビデオモデルと似た軌跡分布をたどるように訓練されることがあります。観測レベルの報酬とは異なり、ビデオモデルによって提供される報酬は行動の時間的一貫性を定量化します。また、尤度の評価はビデオモデルのロールアウトよりもはるかに高速であるため、より迅速なトレーニング時間枠と環境とのより大きな相互作用を可能にします。 15のDMCタスク、6のRLBenchタスク、7のAtariタスクを対象に、チームは徹底的な研究を行い、VIPERがタスクの報酬を使用せずにエキスパートレベルの制御を達成できることを示しています。調査結果によると、VIPERで訓練されたRLエージェントは、敵対的な模倣学習を上回ります。VIPERは設定に統合されているため、どのRLエージェントが使用されているかは関係ありません。ビデオモデルは、トレーニング中に遭遇しなかった腕/タスクの組み合わせにすでに一般化されています。 研究者たちは、大規模な事前学習済み条件付きビデオモデルを使用することで、より柔軟な報酬関数が可能になると考えています。生成モデリングの最近のブレークスルーのおかげで、彼らの研究は未ラベルの映画からのスケーラブルな報酬指定のためのコミュニティに基盤を提供していると信じています。

「LLMsを使用したモバイルアプリの音声と自然言語の入力」

この記事では、GPT-4の関数呼び出しを使用してアプリに高度な柔軟性のある音声理解を実現する方法について学びますこれにより、アプリのGUIと完全にシナジーを発揮することができます

「Amazon SageMakerを使用して、薬剤探索を加速するためのタンパク質折り畳みワークフローを構築する」

薬の開発は、数千種類の薬候補をスクリーニングし、計算や実験的な手法を用いてリードを評価するという複雑で長いプロセスですマッキンゼーによると、1つの薬を疾患ターゲットの同定、薬のスクリーニング、薬のターゲットの検証、そして最終的な商業化までには、10年かかり、平均で26億ドルの費用がかかるとのことです[...]

「ディープラーニングの謎を解明する:CIFAR-10データセットを用いたCNNアーキテクチャの秘密の解明」

「人工知能の絶えず進化する世界において、畳み込みニューラルネットワーク(CNN)は革命的なテクノロジーとして登場し、コンピュータビジョンと画像認識の分野を再構築しています...」

「パート1:ステップバイステップでWindowsベースのシステム上でデータパイプラインを実行するための仮想環境の作成」

「これについての投稿を書く動機は、単に忘れないためであり、また、ノートを保持する最良の方法は他の人と共有することですそれに加えて、これらの投稿は簡単には消えませんまた、…」

「フューショットラーニングの力を解き放つ」

はじめに 少数のラベル付きの例だけでタスクを征服し、データのオッズに挑む機械の領域へようこそ。このガイドでは、少数のラベル付き例で偉業を達成するための賢いアルゴリズムがどのように偉大さを実現するかについて探求します。人工知能の新たな可能性を開く少数のデータでのアプローチの概念や、従来の機械学習との違い、データが少ないシナリオでのこのアプローチの重要性について学びましょう。 学習目標 技術的な詳細に入る前に、このガイドの学習目標を概説しましょう: 概念を理解し、従来の機械学習との違い、データが少ないシナリオでのアプローチの重要性を理解する 少数のデータ学習に使用されるさまざまな手法やアルゴリズム、メトリックベースの手法、モデルベースのアプローチ、およびその基本原理を探索する さまざまなシナリオでの少数のデータ学習の技術の適用方法を理解する。効果的なトレーニングと評価のためのベストプラクティスを理解する 少数のデータ学習の現実世界の応用を発見する 少数のデータ学習の利点と制限を理解する さあ、ガイドの各セクションについて探求して、これらの目標を達成する方法を理解しましょう。 この記事はデータサイエンスブログマラソンの一部として公開されました。 Few Shot Learningとは何ですか? Few Shot Learningは、クラスまたはタスクごとに限られた数のラベル付き例からモデルを訓練して認識と一般化を行う機械学習のサブフィールドです。Few Shot Learningは、データに飢えたモデルの従来の概念に挑戦します。大量のデータセットに頼る代わりに、Few Shot Learningはわずかなラベル付きサンプルから学習することを可能にします。限られたデータから一般化する能力は、広範なラベル付きデータセットを入手することが実践的または高価でないシナリオでの驚くべき可能性を開くものです。 新しい概念を素早く把握し、オブジェクトを認識し、複雑な言語を理解し、限られたトレーニング例でも正確な予測を行うモデルを想像してみてください。Few Shot Learningはまさにそれを可能にし、さまざまなドメインでのさまざまな課題へのアプローチ方法を変えています。Few…

光ベースのコンピューティング革命:強化された光ニューラルネットワークでChatGPTタイプの機械学習プログラムを動かす

ChatGPTのいくつかの単純な問いに対して洗練されたエッセイ、メール、およびコードを生成する能力は、国際的な注目を集めています。MITの研究者たちは、ChatGPTの責任者よりもはるかに能力のある機械学習プログラムの道を開く可能性のある方法を報告しています。さらに、彼らの技術は、現在の最先端のスーパーコンピュータよりも少ないエネルギーを消費するかもしれません。 チームは、新しいシステムの最初の実験的デモンストレーションを報告しています。このシステムは、光の動きに基づいて計算を行うために数百のマイクロンスケールレーザーを使用しています。この新しいシステムは、現在の最先端のデジタルコンピュータよりもエネルギー効率が100倍以上高く、計算密度も25倍以上高くなっています。 さらに、彼らは「将来の改善のためにはさらに数桁の改善が必要」と指摘しています。これにより、科学者たちは「データセンターから分散型エッジデバイスまでの機械学習タスクを加速するための大規模な光電子プロセッサへの道を開く」と述べています。将来的には、携帯電話のような小さなデバイスでも、巨大なデータセンターでしか計算できないプログラムを実行することができるかもしれません。 脳の情報処理を模倣する大規模な機械学習モデルは、ChatGPTのような深層ニューラルネットワーク(DNN)の基礎です。機械学習が拡大する一方で、現在のDNNを駆動するデジタル技術は停滞しています。また、そのエネルギー需要が極めて高いため、これらのDNNは非常に大きなデータセンターにしか存在しません。これがコンピューティングアーキテクチャのイノベーションを推進しています。 データサイエンスの分野は、深層ニューラルネットワーク(DNN)の台頭により進化しています。従来のコンピュータハードウェアの能力を超えるこれらのDNNの指数関数的な拡大に対応するため、光ニューラルネットワーク(ONN)が最近進化して、高いクロックレート、並列処理、および最小のデータ損失でDNNタスクを実行するようになりました。低い電光変換効率、巨大なデバイスのフットプリント、およびチャネルのクロストークは、ONNの計算密度を低下させますが、インライン非線形性の欠如は大きな遅延を引き起こします。研究者は、これらの課題すべてを一度に解決するための空間-時間-多重化ONNシステムの実験的な実証を行いました。彼らは、大量に製造され、優れた電光変換特性を示す垂直共振器面射出レーザー(VCSEL)のマイクロメートルスケールのアレイを使用してニューロンエンコーディングを行っています。 研究者は、これらの3つの問題を一度に解決する小さな設計を初めて提供しています。現代のLiDARリモートセンシングとレーザープリンティングは、このアーキテクチャに基づいており、垂直面射出レーザー(VCSEL)アレイ上に構築されています。これらの措置は、将来的には2桁の改善となる可能性があります。光電子プロセッサは、集中化および分散型のインフラストラクチャ全体で機械学習プロセスの高速化に新たな機会を提供します。

アンサンブル学習:決定木からランダムフォレストへ

「私たちは決定木モデルから話を始めます次に、アンサンブル学習について説明し、最後に、アンサンブルの上に作られたランダムフォレストモデルを説明します...」

「Surfer SEO レビュー:最高のAI SEO ツール?(2023年7月)」

究極のSurfer SEOのレビューを手に入れ、このツールがあなたのオーガニックトラフィックを急上昇させる方法を学びましょうSurfer SEOのパワーを発見してください!

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us