大規模言語モデル：新たなモーアの法則？

大規模言語モデル：モーアの法則再考？

数日前、MicrosoftとNVIDIAは「世界最大かつ最もパワフルな生成言語モデル」と称される、Megatron-Turing NLG 530BというTransformerベースのモデルを発表しました。

これは、間違いなく機械学習エンジニアリングの印象的なデモンストレーションです。しかし、このメガモデルのトレンドに興奮すべきでしょうか？私自身はそう思いません。以下にその理由を説明します。

これがディープラーニングの脳です

研究者は、人間の脳が平均して860億個のニューロンと100兆個のシナプスを持つと推定しています。言語に特化しているわけではないことは明らかです。興味深いことに、GPT-4は約100兆個のパラメータを持つ予定です…この例えがどれほど不正確かもしれませんが、人間の脳と同じくらいの大きさの言語モデルを構築することが最善の長期的なアプローチなのか疑問に思わないでしょうか？

もちろん、私たちの脳は進化の結果として何百万年もの間に生まれた驚異的なデバイスですが、ディープラーニングモデルは数十年しか存在していません。それでも、私たちの直感が何かが計算できないと感じるはずです。

ディープラーニング、深いポケット？

予想通り、巨大なテキストデータセットで5300億のパラメータを持つモデルをトレーニングするためには、相当なインフラストラクチャが必要です。実際に、MicrosoftとNVIDIAは数百台のDGX A100マルチGPUサーバーを使用しました。1台あたり199,000ドルで、ネットワーク機器やホスティングコストなども考慮すると、この実験を複製しようとする場合、1億ドル近く費やさなければなりません。それにつけてもフライドポテトはいかがでしょうか？

真剣に考えてみてください。どのようなビジネスケースを持つ組織が、ディープラーニングのインフラストラクチャに1億ドル、さらには1,000万ドルも費やす価値があるのでしょうか？ほとんどありません。では、これらのモデルは実際に誰のために存在するのでしょうか？

その暖かい感覚はGPUクラスターです

エンジニアリングの素晴らしさにもかかわらず、GPU上でのディープラーニングモデルのトレーニングは力技です。仕様書によると、各DGXサーバーは最大で6.5キロワット消費します。もちろん、データセンター（またはサーバールーム）には少なくとも同じくらいの冷却能力が必要です。あなたがスターク家であり、ウィンターフェルを冬の寒さから守る必要がある場合を除いて、これは別の問題です。

さらに、公衆の意識が気候変動や社会的責任の問題について高まるにつれ、組織は自らの炭素排出量を考慮する必要があります。2019年のマサチューセッツ大学の研究によれば、「GPU上でBERTをトレーニングすることは、アメリカ横断飛行とほぼ同等である」とされています。

BERT-Largeは3億4000万個のパラメータを持っています。Megatron-Turingの環境影響は計り知れません…私を知っている人たちは私を環境保護主義者とは呼ばないでしょうが、いくつかの数字は無視できません。

では？

Megatron-Turing NLG 530Bや次に登場するどんなビーストに興奮していますか？いいえ。追加のコスト、複雑さ、環境への影響を考えると、（比較的小さい）ベンチマークの改善がその価値に見合っているとは思いません。これらの巨大モデルの構築と宣伝が組織の機械学習の理解と採用に役立っていると思いますか？いいえ。

私は何のためにこれらを行っているのか疑問に思っています。科学のための科学？昔ながらのマーケティング？技術的な優位性？おそらくそれぞれの要素が少しずつ関与しているでしょう。それらに任せておきましょう。

代わりに、高品質な機械学習ソリューションを構築するために皆さんが利用できる実用的で実行可能な技術に焦点を当てましょう。

事前学習済みモデルを使用する

ほとんどの場合、カスタムのモデルアーキテクチャは必要ありません。カスタムのモデル（別のものですが）が必要な場合もありますが、それは専門家向けです。

始める良いポイントは、解決しようとしているタスクに対して事前学習されたモデルを探すことです（例えば、英語のテキストを要約するためのモデルなど）。

次に、自分のデータを予測するためにいくつかのモデルを素早く試してみるべきです。メトリクスがうまく機能するモデルがあれば、それで終わりです！より高い精度が必要な場合は、モデルの微調整を検討する必要があります（これについては後述します）。

小さなモデルを使用する

モデルを評価する際には、必要な精度を提供できる最も小さいモデルを選ぶべきです。予測が速くなり、トレーニングと推論に必要なハードウェアリソースも少なくなります。節約は大いに役立ちます。

これもまた新しいことではありません。コンピュータビジョンの実践者は、2017年にSqueezeNetが登場したことを覚えているでしょう。AlexNetと比較してモデルサイズを50倍に削減しながら、その精度を満たすか超えることに成功しました。なんて賢いんでしょう！

自然言語処理のコミュニティでも、転移学習の技術である知識蒸留など、サイズを縮小する取り組みが進んでいます。DistilBERTは、おそらく最も広く知られている成果でしょう。元のBERTモデルと比較して、言語理解の97%を保持しながら、40%小さく、60%高速化されています。こちらで試すことができます。同じアプローチが他のモデルにも適用されており、例えばFacebookのBARTもあります。こちらでDistilBARTを試すことができます。

ビッグサイエンスプロジェクトの最近のモデルも非常に印象的です。研究論文に含まれているこのグラフでもわかるように、彼らのT0モデルはGPT-3を多くのタスクで上回りながら、16倍小さいです。

こちらでT0を試すことができます。こういった研究がもっと必要なのです！

モデルの微調整

モデルを専門化する必要がある場合、ゼロからトレーニングする理由はほとんどありません。代わりに、自分自身のデータに対してわずかなエポックだけトレーニングする、つまり微調整するべきです。データが少ない場合は、これらのデータセットのいずれかを使って始めることができるでしょう。

収集、保存、クリーニング、注釈付けするデータが少なくなる
実験と反復が速くなる
本番で必要なリソースが少なくなる

つまり、時間とお金とハードウェアリソースを節約するのです！

チュートリアルが必要な場合は、Hugging Faceのコースがすぐに始められます。

クラウドベースのインフラストラクチャの利用

好きであろうとなかろうと、クラウド企業は効率的なインフラストラクチャの構築方法を知っています。持続可能性の研究によれば、クラウドベースのインフラストラクチャはエネルギーや炭素の面で代替手段よりも効率的です。AWS、Azure、Googleをご覧ください。Earth.orgによれば、クラウドインフラストラクチャは完璧ではありませんが、[代替手段よりも]エネルギー効率的であり、環境に有益なサービスと経済成長を可能にしています。

クラウドは、利用の容易さ、柔軟性、従量課金といった点で多くの利点があります。また、思っていたよりも環境にやさしいです。GPUが不足している場合は、Amazon SageMakerを使用してHugging Faceモデルを微調整することを試してみましょう。これはAWSのマネージドサービスであり、機械学習における豊富な例が用意されています。

モデルの最適化

コンパイラから仮想マシンまで、ソフトウェアエンジニアは長い間、自分のコードを実行しているハードウェアに対して自動的に最適化するツールを使用してきました。

しかし、機械学習コミュニティはまだこのトピックに苦しんでおり、それは理にかなったことです。サイズと速度の最適化は、異常に複雑なタスクであり、次のような技術が関与しています。

トレーニングを高速化する専門のハードウェア（Graphcore、Habana）や推論を高速化する専用ハードウェア（Google TPU、AWS Inferentia）
プルーニング：予測結果にほとんどまたはまったく影響を与えないモデルパラメータを削除する
フュージョン：モデルレイヤーを統合する（例えば、畳み込みと活性化）
量子化：モデルパラメータをより小さな値で保存する（例えば、32ビットではなく8ビット）

幸いなことに、OptimumというオープンソースのライブラリやInfinityというコンテナ化されたソリューションなど、自動化ツールが登場し始めています。これらは1ミリ秒のレイテンシでTransformerの精度を提供します。

結論

大型言語モデルのサイズは、過去数年間で10倍増加しています。これは別の「ムーアの法則」のように見えてきました。

私たちは以前にも同じ状況を経験しており、この道は収益の減少、高コスト、複雑さの増加、新たなリスクへとつながることを知っているはずです。指数関数は最後は上手くいきません。MeltdownやSpectreを覚えていますか？AIにおいてそれがどのようなものかを知りたいと思いますか？

兆パラメータモデルに追いつく代わりに（賭けをしてください）、すべての開発者が実世界の問題を解決するために使用できる実用的で効率的なソリューションを構築する方が、より良い結果になるのではないでしょうか？

Hugging Faceがお手伝いできるようであれば、[email protected]までご連絡ください（リクルーターやセールスのプレゼンテーションはご遠慮ください）。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

大規模言語モデル：新たなモーアの法則？

これがディープラーニングの脳です

ディープラーニング、深いポケット？

その暖かい感覚はGPUクラスターです

では？

事前学習済みモデルを使用する

小さなモデルを使用する

モデルの微調整

クラウドベースのインフラストラクチャの利用

モデルの最適化

結論

Was this article helpful?

コース開始コミュニティイベント

1Bのトレーニングペアで文埋め込みモデルをトレーニングする

機械学習

AI倫理の役割：革新と社会的責任のバランス

「良い説明がすべてです」

「Oktaの顧客アイデンティティで優れたデジタル体験を提供し、新たな価値を開放しましょう」

エッジMLのタイプとエンタープライズのユースケース

TensorFlowを使用して責任あるAIを構築する方法は？

「Bard」を活用するための10の役立つ方法