Learn more about Search Results 勾配降下法 - Page 7

Google AIは、スケールで事前に訓練されたニューラルネットワークを剪定するための最適化ベースのアプローチ、CHITAを紹介します

今日のニューラルネットワークの成果は、言語、数学、ビジョンなど、さまざまな分野で驚くべきものです。ただし、これらのネットワークは通常、実行にリソースを多く必要とする複雑な構造を利用しています。ウェアラブルやスマートフォンなどのリソースが限られた環境では、このようなモデルをユーザーに提供することは実用的ではありません。事前学習済みのネットワークをプルーニングすることで、推論コストを下げるために重みの一部を削除します。典型的なニューラルネットワークの各重みは、2つのニューロン間のリンクを指定します。重みを削減することにより、入力はより管理しやすいリンクのサブセットを通過し、必要な処理時間を短縮します。 MITとGoogleの研究者グループによって開発されたCHITA(組合わせヘシアンフリー反復しきい値アルゴリズム)フレームワークは、大規模なネットワークのプルーニングにおける効果的な最適化ベースの戦略です。この方法は、2次ヘシアンの局所二次関数を使用して損失関数を近似する以前の研究に基づいています。他の取り組みとは異なり、彼らはヘシアン行列を計算および保存せずに最適化問題を解決するための単純で重要な洞察を活用しており、効率的に大規模なネットワークに対処します(したがって、「Hessian-free」はCHITAの名前の一部です)。 回帰の再定式化をさらに簡略化するために、彼らはアクティブセット戦略、改善されたステップサイズ選択、およびその他のテクニックを使用した新しい手法を提案して収束を加速します。スパースな学習文献で広く使用されている反復ハードしきい値技術と比較して、提案された手法は大幅な利益をもたらします。このフレームワークは、4.2Mのパラメータを持つネットワークを20%にまで削減することができます。 以下は貢献の要約です: 損失関数の局所二次近似に基づいて、研究者はネットワークのプルーニングのための最適化フレームワークであるCHITAを提案します。 大規模で密なヘシアンの保存に関連するメモリオーバーヘッドを排除するために、彼らは制約付きの疎な回帰の再定式化を提案します。 CHITAは、疎な回帰の高品質な解を得るための新しいIHTベースの手法に大きく依存しています。問題の構造を利用することで、重みのサポートの重みの迅速な更新や効果的なステップサイズ選択など、収束を加速し、プルーニングのパフォーマンスを向上させる解決策を提供します。標準的なネットワークのプルーニングアルゴリズムと比較して、これによりパフォーマンスが最大1000倍向上することがあります。 研究者によってモデルとデータセットのパフォーマンスの改善も示されています。 計算のための効率的なプルーニングの定式化 元のネットワークから一部の重みのみを保持することで、さまざまなプルーニング候補が導かれます。kはユーザーによって設定される保持する重みのパラメータを表します。すべての潜在的なプルーニング候補(つまり、k個の重みのみを持つ重みの部分集合)の中から、損失が最も小さい候補が選ばれます。これは、最良の部分集合選択(BSS)問題としてプルーニングを論理的に定式化したものです。 CHITAは、ヘシアン行列を明示的に計算せずに、そのすべての情報を利用することで、プルーニング問題(二次損失のBSS)の再定式化バージョンを使用します。これは、経験的フィッシャー情報行列が低ランクであるという事実を利用しています。この新しい形式は、ネットワーク内のニューロンの重みが回帰係数を表す、疎な線形回帰問題と考えることができます。 スケーラブルな最適化のアルゴリズム 回帰係数のうち最大k個の(絶対値が最も大きい)係数を超えるものは、IHTの勾配降下法の各更新後にゼロになります。ほとんどの場合、IHTは重み全体を最適化しながら潜在的なプルーニングの代替手段を反復的に調査することによって、満足のいく解を提供します。 結論として、研究者は、ヘシアンフリー制約回帰の唯一の形式化と組合わせ最適化技術に基づくネットワークプルーニングフレームワークであるCHITAを提案しました。シングルステージのアプローチは、ランタイムとメモリの使用を大幅に改善しながら、以前の手法と同等の結果を得ることができます。さらに、マルチステージ戦略は、シングルステージの手法を基にしているため、モデルの精度を向上させることができます。また、既存の徐々にプルーニングするフレームワークにプルーニング手法を追加することで、最新の精度を持つスパースネットワークを実現できることも示しています。

プラグ可能な回折ニューラルネットワーク(P-DNN):内部プラグインを切り替えることによって、様々なタスクを認識するために適用できるカスケードメタサーフェスを利用する一般的なパラダイム

ディープラーニングは、人間の脳に触発された機械学習技術であり、画像処理、画像認識、音声認識、言語翻訳など、さまざまな領域で応用されています。しかし、電子コンピュータに大きく依存しており、計算上の制約やフォンノイマンアーキテクチャによるパフォーマンスのボトルネックや高いエネルギー消費を引き起こします。光ニューラルネットワークは、光を最適化し、高速で並列かつエネルギー効率の良い処理を実現することで、これらの問題に対する解決策を提供します。 著者らは、ONNの再構成性の問題に対する革新的な解決策として、P-DNNを紹介しています。新しいタスクが発生した場合に完全な再学習が必要な従来の方法とは異なり、P-DNNはネットワーク内の差し替え可能な値を交換することで認識タスクを切り替えることができます。この機能により、ネットワークの柔軟性が向上し、計算リソースの消費とトレーニング時間を効果的に削減することができます。研究者らは、手書き数字およびファッションの入力を使用して、二層のカスケードメタサーフェスを使用してこのアプローチを実証しています。 P-DNNアーキテクチャには、共通の前処理層と代替のタスク固有の分類層が含まれています。システムは光学的回折理論に基づいてトレーニングされ、各層の光ニューロンはメタサーフェス内のメタアトムによって表されます。トレーニングフェーズでは、確率的勾配降下法と誤差逆伝播法を使用して、メタサーフェスのコンポーネントのパラメータを最適化します。この記事では、転移学習に基づく最適化フローが強調されており、システムがさまざまな分類タスクに対して高い精度を達成できるようになっています。P-DNNフレームワークを使用した数字およびファッションの分類タスクの結果が示されています。シミュレーションおよび実験タスクの両方で、90%以上の高い精度が示されています。 差し替え可能な回折ニューラルネットワークは、光ニューラルネットワークを活用して従来のディープラーニングの制約を解消するソリューションとなります。これにより、分類タスクに限定されず、自動運転における実物体検出や顕微鏡画像のインテリジェントなオブジェクトフィルタリングなど、さまざまな具体的なタスクに対応することができます。エネルギー効率の高い、高い計算能力を持つシステムを提供します。

組合せ最適化によるニューラルネットワークの剪定

Posted by Hussein Hazimeh、Athenaチームの研究科学者、およびMITの大学院生であるRiade Benbakiによる投稿 近代的なニューラルネットワークは、言語、数学的推論、ビジョンなど、さまざまなアプリケーションで印象的なパフォーマンスを達成しています。しかし、これらのネットワークはしばしば大規模なアーキテクチャを使用し、多くの計算リソースを必要とします。これにより、特にウェアラブルやスマートフォンなどのリソース制約のある環境では、このようなモデルをユーザーに提供することが実用的ではありません。事前学習済みネットワークの推論コストを軽減するための広く使用されている手法は、いくつかの重みを削除することによる枝刈りですが、これはネットワークの有用性にほとんど影響を与えない方法で行われます。標準的なニューラルネットワークでは、各重みは2つのニューロン間の接続を定義します。したがって、重みが剪定された後、入力はより小さな一連の接続を介して伝播し、より少ない計算リソースを必要とします。 元のネットワークと剪定されたネットワークの比較。 枝刈り手法は、ネットワークのトレーニングプロセスのさまざまな段階で適用できます。トレーニング後、トレーニング中、またはトレーニング前(つまり、重みの初期化直後)に適用できます。この投稿では、トレーニング後の設定に焦点を当てています。つまり、事前学習済みネットワークが与えられた場合、どの重みを剪定すべきかをどのように決定できるかという問題です。最も一般的な手法の1つは、マグニチュード剪定です。この手法では、最も小さい絶対値を持つ重みを削除します。効率的ではありますが、この手法は重みの削除がネットワークのパフォーマンスに与える影響を直接考慮しません。もう1つの一般的な手法は、最小化された損失関数に対する重みの影響度に基づいて重みを削除する最適化ベースの剪定です。概念的には魅力的ですが、既存の最適化ベースの手法の多くは、パフォーマンスと計算要件の間に深刻なトレードオフがあるようです。粗い近似を行う手法(例:対角ヘッシアン行列を仮定する)はスケーラブル性が高く、パフォーマンスは比較的低いです。一方、より少ない近似を行う手法はパフォーマンスが向上する傾向がありますが、スケーラブル性ははるかに低いようです。 「Fast as CHITA: Neural Network Pruning with Combinatorial Optimization」は、ICML 2023で発表された論文で、事前学習済みニューラルネットワークの剪定において、スケーラビリティとパフォーマンスのトレードオフを考慮した最適化ベースのアプローチを開発した方法について説明しています。CHITA(「Combinatorial Hessian-free Iterative Thresholding Algorithm」の略)は、高次元統計、組合せ最適化、およびニューラルネットワークの剪定など、いくつかの分野の進歩を活用しています。たとえば、CHITAはResNetの剪定において最先端の手法よりも20倍から1000倍高速であり、多くの設定で精度を10%以上向上させることができます。 貢献の概要 CHITAには、人気のある手法に比べて2つの注目すべき技術的改善点があります:…

ChatGPTの基礎を学ぶための優れたリソース

この記事では、ChatGPT(および大規模言語モデル)の中核を構成する基本的な要素について学びます

ランキングアルゴリズム入門

ランキング学習(LTR)は、クエリに対する関連性に基づいてアイテムのリストを並べ替えることを目的とした、教師あり機械学習アルゴリズムの一種です古典的な機械学習では、問題の中で...

「なぜより多くがより良いのか(人工知能において)」

「ディープニューラルネットワーク(DNN)は、機械学習の風景を根本的に変え、しばしば人工知能や機械学習の広い範囲と同義になりましたしかし...」

「ディープラーニングの解説:ニューラルネットワークへの学生の入門」

ディープラーニングは、現代の時代において最も影響力のある技術の一つとして急速に進化しています音声認識アシスタントから医療画像解析まで、その応用はさまざまな産業において持つ広範な能力と潜在力を示していますこの記事の本質は、ディープラーニングの複雑に見える世界を分かりやすい部分に分解することです... ディープラーニングの謎を解く:ニューラルネットワークへの学生の入門 詳細を読む »

GAN(Generative Adversarial Networks)

GAN(Generative Adversarial Networks)とは、まずはGANが何かを理解しましょう私は既にジェネレーティブAIについてのブログを書いており、そこではさまざまなタイプのAI、AIのハイプ、そしてなぜAIが流行しているのかについて議論しています...

「Stitch FixにおけるMLプラットフォーム構築からの学び」

この記事は元々、MLプラットフォームポッドキャストのエピソードであり、Piotr NiedźwiedźとAurimas GriciūnasがMLプラットフォームの専門家と一緒に、デザインの選択肢、ベストプラクティス、具体的なツールスタックの例、そして最高のMLプラットフォームの専門家からの実世界の学びについて話し合っていますこのエピソードでは、Stefan KrawczykがMLを構築する際に得た学びを共有しています...

「データからドルへ:線形回帰の利用」

「データに基づく意思決定はあらゆる業界の企業にとってゲームチェンジャーとなっていますマーケティング戦略の最適化から顧客行動の予測まで、データは未開拓の可能性を開く鍵を握っています...」

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us