私たちが知っていることを蒸留する

蒸留する' (Distilling what we know)

.fav_bar { float:left; border:1px solid #a7b1b5; margin-top:10px; margin-bottom:20px; } .fav_bar span.fav_bar-label { text-align:center; padding:8px 0px 0px 0px; float:left; margin-left:-1px; border-right:1px dotted #a7b1b5; border-left:1px solid #a7b1b5; display:block; width:69px; height:24px; color:#6e7476; font-weight:bold; font-size:12px; text-transform:uppercase; font-family:Arial, Helvetica, sans-serif; } .fav_bar a, #plus-one { float:left; border-right:1px dotted #a7b1b5; display:block; width:36px; height:32px; text-indent:-9999px; } .fav_bar a.fav_de { background: url(../images/icons/de.gif) no-repeat 0 0 #fff } .fav_bar a.fav_de:hover { background: url(../images/icons/de.gif) no-repeat 0 0 #e6e9ea } .fav_bar a.fav_acm_digital { background:url(‘../images/icons/acm_digital_library.gif’) no-repeat 0px 0px #FFF; } .fav_bar a.fav_acm_digital:hover { background:url(‘../images/icons/acm_digital_library.gif’) no-repeat 0px 0px #e6e9ea; } .fav_bar a.fav_pdf { background:url(‘../images/icons/pdf.gif’) no-repeat 0px 0px #FFF; } .fav_bar a.fav_pdf:hover { background:url(‘../images/icons/pdf.gif’) no-repeat 0px 0px #e6e9ea; } .fav_bar a.fav_more .at-icon-wrapper{ height: 33px !important ; width: 35px !important; padding: 0 !important; border-right: none !important; } .a2a_kit { line-height: 24px !important; width: unset !important; height: unset !important; padding: 0 !important; border-right: unset !important; border-left: unset !important; } .fav_bar .a2a_kit a .a2a_svg { margin-left: 7px; margin-top: 4px; padding: unset !important; }

Credit: All_Is_Magic

今日の生成事前学習トランスフォーマー(GPT)モデルの規模と複雑さは、驚くべきものです。たとえば、OpenAIのGPT-3は、おそらく1750億のパラメータを持っており、GPT-4は1兆のパラメータを持つ可能性があるという推測もあります。a

これにより、必要なクラウドリソース、計算サイクル、エネルギー消費などのオーバーヘッドが非常に大きくなります。現在、最先端の人工知能(AI)モデルをトレーニングするために必要なコンピュータのパワーは、2年ごとに15倍に上昇しています。b大規模なGPTモデルのトレーニングコストは数百万ドルになることもあります。c GPTモデルをラップトップやスマートフォンなどのデバイスに適合させるための再トレーニングは、価格をさらに上昇させる可能性があります。

そのため、重要な属性を失うことなくGPTモデルを縮小することに焦点が集まっています。多くの場合、モデルを構築するために必要な元のパラメータは、完成したGPTモデルが存在すると不要になります。そのため、量子化、スパース化、剪定などのさまざまな技術を使用して、パフォーマンスにほとんど影響を与えることなくモデルを縮小することが可能です。

2023年1月、オーストリア科学技術研究所(ISTA)の2人の研究者は、知識蒸留とモデル圧縮の限界を新たな領域に押し上げました。量子化、剪定、およびレイヤごとの蒸留の組み合わせにより、トレーニングなしでGPTモデルのサイズを50%縮小し、精度のほとんど損失を最小限に抑える方法を見つけました。SparseGPTは、1000億〜1000億パラメータのモデルの規模で効率的に機能します。

これにより達成されるディープラーニングの手法であるSparseGPT dは、特定のユーザーにカスタマイズされ、最適化されたAIシステム、たとえば旅行代理店、医師、保険調整者などにも適応し、個人の特定の行動とニーズにも適応することが可能となるかもしれません。さらに、縮小されたGPTモデルさえデバイスにロードできる能力により、クラウドから機密データを守るためのはるかに高度なセキュリティとプライバシーガードが導入されるかもしれません。

「エンドポイントデバイス上でこれらの強力な言語モデルを圧縮して実行できる能力は、強力な機能をもたらします」と、SparseGPTの学術論文の共著者であるISTAのダン・アリスター教授は述べています。「モデルが崩壊して使用できなくなるのではなく、正確で信頼性のある結果を保証する方法を見つけるために取り組んでいます。これは大きな進歩です。」

トップに戻る

モデルの崩壊

AIモデルの圧縮のアイデアは特に新しいものではありません。1980年代には、データを効率化する方法を研究するために研究者が取り組み始めました。人間の脳がシナプスを削減し、自己を再教育できるように、不要で不必要なパラメータを削除することで、推論や結果に大きな低下を目撃することなく、意味のある情報を抽出することができることがわかりました。GPTモデルの場合、モデルを縮小しながら基本的に同じ結果を提供することが目標です。

カリフォルニア大学バークレー校の大規模言語モデルとAIの研究者であるアミール・ゴラミは、「モデルを初期訓練する際には、多数のパラメータが必要です。大きなモデルの方が訓練が簡単で、データから意味のある情報を抽出する能力も高いことが経験的にわかっています」と述べています。しかし、訓練プロセスが完了し収束が起こった後は、「正確な結果を出すためにすべてのパラメータを保持する必要はなくなる」と彼は言います。

実際に、「研究者は、GPTなどの大規模言語モデルの場合、元のモデルの100倍小さいモデルでも同じパフォーマンスが得られることを発見しましたが、能力も低下しません」とゴラミは言います。問題は、どのパラメータを削除するか、そして効率的かつコスト効果の高い方法でタスクを実行するかです。これは小さな問題ではありません。なぜなら、GPTモデルの構築と再訓練には数千時間のGPUが必要であり、コストは数百万ドルにまで上昇する可能性があるからです。

データサイエンティストは、GPT-4やGoogleのBardなどのモデルを圧縮するためにいくつかのテクニックを使用しています。量子化では、パラメータを表現するために使用される精度が16ビットから4ビットに減少します。これにより、モデルのサイズが4倍に縮小されます。モデルのサイズが縮小すると、これらのモデルはより少ない数のGPUに収まり、推論の待ち時間やエネルギー需要も低下します。このアプローチは、最近のワークロードが「メモリの壁」に達するという現象を回避するのに役立ちます。ゴラミは、「これは、ボトルネックが計算を行う速さではなく、データをシステムに供給する速さになっていることを意味します。つまり、より少ないバイト数が望ましい」と説明しています。

もう一つ広く使用されている技術は、スパース性です。これは、データに影響を与えない不要な値を削除することに焦点を当てています。これはゼロビットの量子化と考えることもできます。構造化スパース性は、パラメータのグループ全体を削除することで、実装が容易になり、しばしば効率の向上に結びつきます。欠点は、大量のグループを削除することが難しいため、スピードを犠牲にして正確さを維持することです。非構造化スパース性は、スパースパターンに制約を加えずに冗長なパラメータを削除します。その結果、超高スパース度でもモデルの正確さを保持することができます。

データサイエンティストは、これらの手法やパラメータの剪定などの他の手法を使用して、これらのモデルのメモリと計算のオーバーヘッドを持続的に削減しています。その結果、蒸留された圧縮モデルはより速く動作し、より少ないエネルギーを消費し、場合によってはより良い結果を生み出すことさえあります。ゴラミは、「より小さながらより効率的なAIフレームワークが得られます」と説明しています。

トップに戻る

AIの言語を学ぶ

GPTモデルを蒸留して圧縮するために、データサイエンティストが使用するアプローチには、「教師」となるネットワークが「学生」となるネットワークを訓練する必要があります。「システムは既に存在するプログラムを近似する方法を学びます。すでに計算できる関数にマッピングします」と、コーネル大学のコンピュータ科学部の助教授であるクリストファー・デ・サは述べています。「つまり、ニューラルネットワークの場合、既存のニューラルネットワークと同じ精度を持つモデルを構築しようとしていますが、そのモデルはより小さいものです。」

スパース性は、データに影響を与えない不要な値を削除することに焦点を当てています。これはゼロビットの量子化と考えることもできます。

問題は、これらのフレームワークがしばしば調整と再訓練に膨大な投資を必要とすることです。「それらは低損失で高精度な良い小さなモデルを生成します。また、結果は必ずしも大規模モデルを代表するものではありません」とデ・サは言います。多くのアプリケーションでは、予測のいくつかの変化は受け入れられます。なぜなら、精度レベルは高いままだからです。「ただし、プライバシーやセキュリティなどの重要な要件を満たすためには、元のモデルと同じ予測をしないため、大きなネットワークは要件を満たさないことがある」と彼は付け加えました。

量子化、剪定、知識蒸留手法のスケーリングも課題となっています。ISTAの博士課程の候補生であり、SparseGPT論文の共著者であるElias Frantar氏は述べています。例えば、現在の多くのGPTモデルは数年前と比べて1,000倍も大きくなっており、その成長は猛烈なスピードで進んでいます。「これはモデルを蒸留するための手法に影響を与えます。数千億のパラメータを持つモデルを圧縮するには、異なる思考と異なる手法が必要です」と彼は述べています。

そこで、ISTAの研究者たちはSparseGPTプロジェクトを立ち上げた際、剪定、量子化、蒸留を組み合わせた「スイスアーミーナイフアプローチ」を採用しました。彼らはモジュール化の方法に焦点を当て、ネットワークのさまざまなレイヤーを別々に圧縮し、その後すべての部分を再結合して完全に圧縮されたモデルを生成しました。この方法により、大きな利益が生まれましたが、必ずしも理想的とは言えません。

「すべてを一緒に最適化できるなら、最良の結果を得ることができます」とFrantar氏は述べています。「しかし、現在はそれが不可能なので、問題は『どのようにしてリソースを使って最良の結果にたどり着けるか』ということになります」。

トップへ戻る

ノイズの低減、信号の増強

SparseGPTは完璧ではないかもしれませんが、この技術はGPTモデルの圧縮を新たな領域に押し上げました。OPT175BとBLOOM-176Bという最も大きなオープンソースモデルで実行されたSparseGPTアルゴリズムは、1750億以上のパラメータ(約320ギガバイトのデータ)を4.5時間未満で処理し、非構造化スパース性が最大60%でした。誤差の増加はほとんどなく、結果として、パフォーマンスや精度の著しい低下なしに1000億以上の重みを削減することができました。

このアルゴリズムは巧妙なアプローチに依存しています。モデル全体を圧縮するタスクを、それぞれが疎な回帰のインスタンスである個別のレイヤーの圧縮問題に分解し、削除プロセス中に発生したエラーを補償するために、残りの重みを更新しながらサブ問題に取り組みます。アルゴリズムは、アルゴリズム全体の計算リソースが最大限に活用されるようなパターンで一部の重みを固定することでさらなる効率性を実現します。その結果、1000億以上のパラメータを持つモデルに対処することが初めて可能になりました。

驚くべきことに、1つのGPUは数時間以内にモデルに必要なデータを特定し、再トレーニングなしで圧縮モデルを一度に提供します。「私たちが発見した興味深いことの1つは、これらの大規模なモデルは非常に堅牢であり、デジタルノイズに対しても耐性があるということです。実際に、ノイズはモデルを通過する際にフィルタリングされるため、圧縮に最適化されたネットワークが得られます」とAlistarh氏は述べています。

この発見は、商業アプリケーションを構築したいソフトウェア開発者やその他の人々にとって朗報です。現在、さまざまなホビイストやハッカーのコミュニティは、Raspberry PiなどのデバイスにライセンスされていないGPTモデルを読み込む方法を見つけています。また、スタンフォード大学の研究者は、US$600以下でチャットGPTを構築する方法を見つけました。ただし、スタンフォードチームは2023年4月にいわゆるアルパカチャットボットを「ホスティングコストとコンテンツフィルターの不十分さ」のために終了し、「OpenAIのCPT-3.5と非常に似たパフォーマンス」を提供していたと述べました。

ただし、知識蒸留と圧縮の次のレベルに到達するには、量子化、剪定、微調整、およびその他の手法をさらに推進する必要があります。Alistarh氏は、問題に対してより多くの計算力を投入することが役立つかもしれないが、データセットをより多くのサブグループに分割したり、アルゴリズムを微調整したり、疎な重み付けを探求したりする必要もあると考えています。これにより、90%以上の圧縮率が実現できるかもしれません。

トップへ戻る

結果が重要

現時点では、どのモデルでも最適なパフォーマンスを維持しながらどれだけの圧縮が可能かは誰も知りません。De Sa氏は、彼と他の研究者がオプションとアプローチを引き続き探求していると述べています。研究者たちは、慎重に進むことが重要だとも述べています。例えば、モデルへの変更は、結果が明確な意味を持たない可能性があるか、または完全に妥当性がある幻覚を引き起こす可能性があります。「私たちは、精度を超えて元のモデルの特性を維持することに焦点を当てる必要があります」とDe Sa氏は述べています。「同じレベルまたはより良い精度を得ることができるかもしれませんが、大きなモデルとは異なる予測や結果になる可能性があります」。

別の問題は、洗練されたAI言語モデルをデバイスに読み込み、ボットファーム、スパム、フィッシング、フェイクニュース、その他の不正な活動を含む悪意のある目的で使用する人々です。アリスターはこれが合法的な懸念であり、データサイエンスコミュニティはGPTモデルをデバイスで使用する際に関与する倫理を慎重に検討する必要があると認めています。これが多くの研究者にトレーニングパラメータやその他の情報の公開を控える動機を与えています、ゴラミは言います。将来、研究者やソフトウェア会社は、デバイスに配置するのに合理的な能力と受け入れられない結果と成果の種類を考慮する必要があります。

それにもかかわらず、SparseGPTや他の大規模言語モデルを

デジタルライブラリは、Association for Computing Machineryによって公開されています。© 2023 ACM, Inc.による著作権所有。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more