「HuggingFaceへの入り口」

「HuggingFaceによるワクワクの始まり」

初心者のための段階的な基本ガイド

Unsplashからの画像

HuggingFaceは、学習するための出発点がわからないと、複雑で複雑になることがあります。HuggingFaceリポジトリへの入り口の1つは、run_mlm.pyrun_clm.pyスクリプトです。

この記事では、run_mlm.pyスクリプトを解説します。このスクリプトは、HuggingFaceからマスキング言語モデルを選び、データセットに対してファインチューニングを行います(またはスクラッチからトレーニングします)。初心者でHuggingFaceのコードにほとんど触れたことがない場合、この記事は基礎理解を助けるでしょう。

マスキング言語モデルを選び、HuggingFaceからデータセットをロードし、モデルをデータセットに対してファインチューニングします。最後に、モデルを評価します。これはコード構造を理解するためのものであり、特定のユースケースに焦点を当てていません。

さあ、始めましょう。

ファインチューニングについて少し

ファインチューニングは、ディープラーニングにおける一般的な技術であり、事前に学習されたニューラルネットワークモデルを修正して、新しいデータセットやタスクに適したものにします。

ファインチューニングは、データセットが十分に大きくない場合に効果的です!すでに学習されたベースモデルから始めます。

ファインチューニングでは、大規模なデータソース(例:画像の場合はImageNet、NLPの場合はBooksCorpusなど)で事前に学習されたモデルを取り、そのモデルを自分のタスクに適応するためにデータセットで追加のトレーニングを続けます。これには、ランダムな重みからトレーニングするよりもはるかに少ない追加データとエポックが必要です。

HuggingFaceでのファインチューニング

HuggingFace(HF)には、数行のコードで事前に学習されたモデルをファインチューニングするための多くの組み込み関数があります。主なステップは次のとおりです:

  1. 事前に学習されたモデルをロードする
  2. 事前に学習されたトークナイザーをロードする
  3. ファインチューニングに使用するデータセットをロードする
  4. 上記のデータセットをトークナイザーを使ってトークン化する
  5. トークン化されたデータセットで事前に学習されたモデルをトレーニングするためにトレーナーオブジェクトを使用する

コード内の各ステップを見ていきましょう。詳細の多くは省略して、全体の構造を概観するだけにします。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more