「HuggingFaceのデータ収集者たち」
「HuggingFaceのデータ収集チーム」
彼らが何であるか、そして彼らが何をするか
HuggingFaceを学び始めたとき、データコレータは私にとって最も直感的でないコンポーネントの1つでした。私は彼らを理解するのに苦労しましたし、十分に説明してくれるような良いリソースも見つけられませんでした。
この記事では、データコレータとは何か、それらの違い、そしてカスタマイズされたデータコレータを作成する方法について見ていきます。
データコレータ:高レベル
データコレータはHuggingFaceにおけるデータ処理の重要な部分です。データをトークン化した後、データコレータを使用してモデルのトレーニングオブジェクトにデータを渡す前に、私たちはすべてデータコレータを使っています。
要するに、彼らはサンプルのリストをミニバッチにまとめます。彼らが行うことは、彼らが定義されたタスクによって異なりますが、最低限、すべてのミニバッチ内のサンプルが同じ長さになるように、入力サンプルをパッドまたは切り詰めます。典型的なミニバッチのサイズは、モデルのサイズ、データ、およびハードウェアの制約によって異なり、16から256の範囲になります。
データコレータはタスク固有です。次のタスクごとにデータコレータがあります:
- 因果推論言語モデリング(CLM)
- マスキング言語モデリング(MLM)
- シーケンス分類
- Seq2Seq
- トークン分類
一部のデータコレータはシンプルです。例えば、「シーケンス分類」タスクでは、データコレータはミニバッチ内のすべてのシーケンスを同じ長さにするために単にパッドする必要があります。その後、それらを1つのテンソルに連結します。
一部のデータコレータは非常に複雑です。なぜなら、それらはそのタスクのデータ処理を処理する必要があるからです。
基本的なデータコレータ
最も基本的なデータコレータの2つは次の通りです:
1)DefaultDataCollator:これはパディングや切り詰めを行いません。すべての入力サンプルが同じ長さであることを前提としています。入力サンプルの長さが異なる場合、エラーが発生します。
import torchfrom transformers import DefaultDataCollatortexts = ["Hello world", "How are you?"]# Tokenizefrom transformers import AutoTokenizertokenizer =…
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 2023年のランダムフォレスト:パワフルな手法の最新拡張
- アリエル・カッツ、H1のCEO兼共同創設者-イスラエルとガザの支援、GenosAI、トライアルイノベーション、医療分野でのAIの影響、現代医学におけるデータの役割、スタートアップのアドバイス
- 「Pythonによる3D地理空間データ統合:究極のガイド」
- あなたのラップトップでデータサイエンスのポテンシャルを引き出す
- 「では、なぜ私たちはレコメンデーションシステムを気にする必要があるのでしょうか…?フィーチャリング:トンプソンサンプリングへの優しい紹介」
- 「VSCodeをDatabricksと統合して、データエンジニアリングのパイプラインとモデルを構築および実行する」
- 「LLMsを活用してリコメンデーション知識グラフを完成させる」