このAI研究では、BOFT(Foundationモデルの適応のための新しい一般ファインチューニングAIメソッド)を紹介します

『BOFT(Foundationモデルの適応のための新しい一般ファインチューニングAIメソッド)を紹介するAI研究』

人工知能の分野における最近の進展、特に大規模言語モデルの導入は、ほぼすべての領域でAIの道を開いています。ChatGPTやStable Diffusionなどの基本モデルは、顕著な汎化能力を持っています。しかし、これらのモデルをゼロからトレーニングすることは、パラメータの数の増加のために難しい課題です。

モデルの微調整アプローチは、追加の推論遅延を伴わないため簡単です。しかし、従来の微調整技術では、低い学習率を持つために、重み行列の関係情報を最適に維持することが難しいです。研究者は、オーソゴナル微調整(OFT)技術を研究しており、同じ直交行列を使用して同じ層のニューロンを変換することにより、微調整中にニューロン間のペアワイズ角度を維持します。この技術には良い潜在能力がありますが、同じ制限が生じるという問題があります。それは、直交行列の高次元性から生じる訓練可能なパラメータの膨大な数です。

この課題に対処するために、研究チームはオーソゴナルバタフライ(BOFT)というパラメータ効率の向上を可能にするユニークな最新の方法を紹介しました。Cooley-Tukey高速フーリエ変換技術におけるバタフライ構造からインスピレーションを受けて、BOFTは多数の因子化スパース行列と組み立てることで密な直交行列を生成します。直交行列をスパース行列の積として表現するためには、計算時間を空間と交換する必要があります。

研究チームは、これをグリッド構造のグラフ上の情報伝達問題と比較することで理解できると共有しており、表現力を保ちながら訓練可能なパラメータを制限するさまざまなスパース行列因子化技術を使用することが可能になります。BOFTは、Cooley-Tukeyのバタフライグラフに触発されており、その主な革新はバタフライ因子化プロセスです。

この因子化を利用することで、O(log d)のスパース行列の積で密な行列を生成することができます。各スパース行列において直交性を保証することで、BOFTはO(d log d)のパラメータで効率的な直交パラメータ化を実現し、オリジナルのOFTパラメータ化から大幅に削減します。BOFTは一般的な直交微調整フレームワークを提供し、OFTを包括します。

研究チームは、OFTのブロック対角構造とBOFTを比較し、効果的な訓練可能なパラメータを削減するためにBOFTとOFTの両方が直交行列にスパース性を追加することを示しました。しかし、ダウンストリームアプリケーションでは、BOFTのバタフライ構造によって、フル直交行列と単位行列の間でよりスムーズな補間が可能な、より小さな仮説クラスが提供されます。この構造的アプローチは、ローラの低ランク構造と比較することで、低ランクとスパース行列の両方がパラメータ効率を達成する構造化アプローチであることを強調するために行われました。

研究者たちは、主な貢献を以下のようにまとめています。

  1. ダウンストリームタスクのための大規模モデルの適合性を向上させるために、直交微調整のパラメータ効率の問題を研究しました。
  1. 情報伝達のための新しいフレームワークが紹介され、パラメータ効率の高い密な直交行列の構築の問題がグリッド構造グラフ内の課題として再構成されました。
  1. パラメータ効率の高い直交微調整手法であるオーソゴナルバタフライ(BOFT)が紹介されました。
  1. BOFTによる訓練可能なパラメータの劇的な削減を保ちながら、表現力とトレーニング安定性を維持するための行列因子化と理論的な説明が議論されました。
  1. BOFTは、適応アプリケーションにおいて最先端の技術を上回り、その優れたパラメータ効率と汎化能力を示しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

テンセントAI研究所では、GPT4Videoを紹介していますこれは統合マルチモーダル大規模言語モデルであり、指示に従った理解と安全意識のある生成を目指しています

テンセントAIラボとシドニー大学の研究者たちによって、ビデオの理解と生成シナリオの問題がGPT4Videoで解決されました。この...

機械学習

富士通とLinux Foundationは、富士通の自動機械学習とAIの公平性技術を発表:透明性、倫理、アクセシビリティの先駆者

人工知能(AI)技術の急速な進展を特徴とする時代において、透明性、倫理性、アクセシビリティの問題が中心になっています。A...

AIニュース

「E.U.は画期的な人工知能規制に合意」

「A.I.アクトに関する合意は、人工知能の使用を制限する世界で最初の包括的な試みの一つを確固たるものとします」

機械学習

このAIの論文は、純粋なゼロショットの設定で、タスクの適応と未知のタスクや環境への一般化に優れたCLIN(Continuous Learning Language Agent)を紹介しています

人工知能の持続的な進化により、繊細な言語ベースのエージェントが複雑なタスクを訓練や明示的なデモなしで実行できるように...

データサイエンス

「ULTRA 知識グラフ推論のための基礎モデル」

「任意のデータセットを解決するための単一の一般的なモデルを訓練することは、特に基盤モデルの時代において、機械学習の研...

機械学習

PyTorch LSTMCell — 入力、隠れ状態、セル状態、および出力の形状

「Pytorchでは、LSTMCell(nn.LSTMCellを使用)を使用するためには、入力時系列を表すテンソル、隠れ状態ベクトル、セル状態...