AWSのエミリー・ウェバーによる大規模言語モデルの事前学習について

AWSのエミリー・ウェバーによる言語モデルの事前学習

新しい分野がデータサイエンス内で出現し、まだ把握するのが難しい場合、専門家やパイオニアと話すことが最善です。最近、私たちはAWSの主任機械学習スペシャリストソリューションアーキテクトであるエミリー・ウェバーさんと話しました。彼女は「Pretrain Vision and Large Language Models in Python: End-to-end techniques for building and deploying foundation models on AWS」という本の著者です。このインタビューでは、Pythonでのビジョンと大規模言語モデル(LLMs)の事前学習について話しました。以下に、エミリー・ウェバーさんとの2つの興味深い質問のトランスクリプトを読むことができます。

Q: LLMsは2022年の後半まで人気が出ませんでした。LLMsの台頭前にこの本の執筆を始めるアイデアは何から生まれたのですか?

エミリー・ウェバー: 私にとって興奮した瞬間は、スケーリングの法則です。もちろん、LLMsとの対話やモデルから出力される高性能言語に関心がありますが、私はスケーリングの法則に特に感銘を受けました。

機械学習では、私たちの作業の大部分は実験的です。一つ試して、正確性を得て、結果を評価し、また試行を繰り返します。これは非常に反復的で実験的な作業ですが、一定の期間後にモデルがどれほどの性能を発揮するかを正確に知る方法はほとんどありません。

そこで、私は2020年初頭にジャレッド・カプランのスケーリングの法則を見たとき、それが実際には変化だったと思いました。スケーリングの法則は、モデルの性能を推定する方法を提供してくれます。具体的には、加速器の数、データセットのサイズ、そしてモデルのサイズから「正確性はどうなるか?」という式を使って推定できます。そして、その式があれば、より簡単に実験を行い、モデルの良さを定量化することができます。

基本的には、それを見て、私は自分の機械学習の旅を再評価しました。モデルが大きくなり、最適化のストックが改善されるにつれて、これはさまざまな方法で何度も出てきました。そして、私は多くの年を顧客と共に働いてきました。AWSでは、それがクールになる前から大規模なモデリングプロジェクトを行っている顧客と一緒に働いていますが、彼らは利益を見ていたので、このトレンドも見えていたのです。そのため、これが本当に未来だと信じるようになりました。

Q: AIの他の進展に注目する価値があるものはありますか?

エミリー・ウェバー: ある意味、過去10年以上の間にAIで最も興味深く、最も最先端のパフォーマンスを見ると、それはスケールに関係しています。データセットを最適化し、ニューラルネットワークとモデルを大規模に最適化するための手法を使用して、本当に優れた分散システムを構築することが重要です。

明らかに強化学習の父とされるリチャード・サットンは、2019年に有名なブログ投稿をしました。彼はそれを「The Bitter Lesson」と呼んでいます。そして、リチャード・サットンの苦い教訓は、最後の70年のAI研究を経て、最も影響力のあるのは「最も計算を使用するもの」だということです。

私にとって、何よりも効率の問題です。基礎モデルは効率的であり、数百、数千の小さなツリーやロジスティック回帰、ブースティング、RNNやCNNの代わりに、すべてのことを行う巨大なモデルを作成し、それをフロントロードし、それをすべてに使用することができます。

SageMakerやAmazonで顧客と一緒に働く中で、機械学習プロジェクトをアイデアからスケーリング、運用、製品ライフサイクルと管理まで取り組むことは大変です。基礎モデルは効率的であり、リソースの効率的な使用方法です。AWSでの仕事を通じて、これが明確に前進する方向性だと確信しました。

大規模言語モデルについてもっと学ぶ方法

もし、まだ大規模言語モデルに取り組んでいないか、既存の知識をさらに深めたい場合は、ODSC Westが最適なカンファレンスです。今年の10月30日から11月2日まで、NLPや大規模言語モデルなどに関連するセッションを数多くチェックすることができます。以下にいくつか確定したセッションをご紹介しますが、他にもたくさんのセッションが予定されています:

  • 特徴ストアを使用したLLMsのパーソナライズ:Jim Dowling | CEO | Hopsworks
  • 大規模言語モデルの評価技術:Rajiv Shah, PhD | Machine Learning Engineer | Hugging Face
  • 大規模モデルのランドスケープを理解する:Lukas Biewald | CEO and Co-founder | Weights & Biases

チケットを手に入れるのをお急ぎください!60%オフは間もなく終了します!こちらから登録してください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

シカゴ大学と東京大学との量子コンピューティングパートナーシップ

東京大学、シカゴ大学、そしてGoogleは、量子情報科学とエンジニアリングに関する戦略的パートナーシップを確立しました

AIテクノロジー

フリートテクノロジーのためのAI駆動エッジインサイトの実装

「エッジインサイトをフリートテクノロジーに導入し、効率と安全性を向上させ、ドライバーとフリートマネージャーにほぼリア...

機械学習

「Underrepresented Groupsの存在下での学習について」

「ICML 2023で受け入れられた最新の成果をご紹介いたします『Change is Hard A Closer Look at Subpopulation Shift』という...

AI研究

「MITの研究者が深層学習と物理学を使用して、動きによって損傷を受けたMRIスキャンを修正する」

MRI(磁気共鳴画像)スキャンは、大型磁石、電波、およびコンピュータを使用して体内の構造を明確に映し出すテストです。医療...

データサイエンス

「データの血統と現代データ管理におけるその重要性」

データの系譜は、データの流れを理解し、品質、規制遵守、セキュリティを確保するために非常に重要ですそれは現代のデータ管...

機械学習

「Mozilla Common Voiceにおける音声言語認識 — 音声変換」

これは、Mozilla Common Voiceデータセットに基づく話し言葉認識に関する3番目の記事です第1部では、データの選択とデータの...