このAI研究では、BOFT(Foundationモデルの適応のための新しい一般ファインチューニングAIメソッド)を紹介します

『BOFT(Foundationモデルの適応のための新しい一般ファインチューニングAIメソッド)を紹介するAI研究』

人工知能の分野における最近の進展、特に大規模言語モデルの導入は、ほぼすべての領域でAIの道を開いています。ChatGPTやStable Diffusionなどの基本モデルは、顕著な汎化能力を持っています。しかし、これらのモデルをゼロからトレーニングすることは、パラメータの数の増加のために難しい課題です。

モデルの微調整アプローチは、追加の推論遅延を伴わないため簡単です。しかし、従来の微調整技術では、低い学習率を持つために、重み行列の関係情報を最適に維持することが難しいです。研究者は、オーソゴナル微調整(OFT)技術を研究しており、同じ直交行列を使用して同じ層のニューロンを変換することにより、微調整中にニューロン間のペアワイズ角度を維持します。この技術には良い潜在能力がありますが、同じ制限が生じるという問題があります。それは、直交行列の高次元性から生じる訓練可能なパラメータの膨大な数です。

この課題に対処するために、研究チームはオーソゴナルバタフライ(BOFT)というパラメータ効率の向上を可能にするユニークな最新の方法を紹介しました。Cooley-Tukey高速フーリエ変換技術におけるバタフライ構造からインスピレーションを受けて、BOFTは多数の因子化スパース行列と組み立てることで密な直交行列を生成します。直交行列をスパース行列の積として表現するためには、計算時間を空間と交換する必要があります。

研究チームは、これをグリッド構造のグラフ上の情報伝達問題と比較することで理解できると共有しており、表現力を保ちながら訓練可能なパラメータを制限するさまざまなスパース行列因子化技術を使用することが可能になります。BOFTは、Cooley-Tukeyのバタフライグラフに触発されており、その主な革新はバタフライ因子化プロセスです。

この因子化を利用することで、O(log d)のスパース行列の積で密な行列を生成することができます。各スパース行列において直交性を保証することで、BOFTはO(d log d)のパラメータで効率的な直交パラメータ化を実現し、オリジナルのOFTパラメータ化から大幅に削減します。BOFTは一般的な直交微調整フレームワークを提供し、OFTを包括します。

研究チームは、OFTのブロック対角構造とBOFTを比較し、効果的な訓練可能なパラメータを削減するためにBOFTとOFTの両方が直交行列にスパース性を追加することを示しました。しかし、ダウンストリームアプリケーションでは、BOFTのバタフライ構造によって、フル直交行列と単位行列の間でよりスムーズな補間が可能な、より小さな仮説クラスが提供されます。この構造的アプローチは、ローラの低ランク構造と比較することで、低ランクとスパース行列の両方がパラメータ効率を達成する構造化アプローチであることを強調するために行われました。

研究者たちは、主な貢献を以下のようにまとめています。

  1. ダウンストリームタスクのための大規模モデルの適合性を向上させるために、直交微調整のパラメータ効率の問題を研究しました。
  1. 情報伝達のための新しいフレームワークが紹介され、パラメータ効率の高い密な直交行列の構築の問題がグリッド構造グラフ内の課題として再構成されました。
  1. パラメータ効率の高い直交微調整手法であるオーソゴナルバタフライ(BOFT)が紹介されました。
  1. BOFTによる訓練可能なパラメータの劇的な削減を保ちながら、表現力とトレーニング安定性を維持するための行列因子化と理論的な説明が議論されました。
  1. BOFTは、適応アプリケーションにおいて最先端の技術を上回り、その優れたパラメータ効率と汎化能力を示しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

一時的なグラフのベンチマーク (Ichijiteki na gurafu no benchimāku)

最近では、公開データセットや標準化された評価プロトコルの提供により、静的グラフにおける機械学習において重大な進展がな...

データサイエンス

なぜデータは新たな石油ではなく、データマーケットプレイスは私たちに失敗したのか

「データは新しい石油」というフレーズは、2006年にクライブ・ハンビーによって作られ、それ以来広く反復されてきましたしか...

コンピュータサイエンス

「あなたの学校の次のセキュリティガードはロボットかもしれません」

いくつかのテクノロジー企業が、アメリカの学校にセキュリティロボットの提供を開始しました

データサイエンス

データ体験の再発明:生成的AIと現代的なデータアーキテクチャを使用して、洞察を解き放つ

現代的なデータアーキテクチャを実装することで、異なるソースからのデータを統合するためのスケーラブルな方法が提供されま...

人工知能

アーティストやクリエイターにとって最高のAIツール(2023年)

Otter.AI Otter.aiは、効率的なミーティングや会話の録音と記述を行うためのAIパワードプラットフォームです。自動音声認識を...

データサイエンス

中国の研究者たちは、構造化データ上でのLLMのゼロショット推論能力を向上させるためにStructGPTを提案しています

大規模言語モデル(LLM)は、最近、自然言語処理(NLP)の分野で大きな進展を遂げています。既存の研究によれば、LLMは、タス...