「パンドラの箱をのぞいてみよう:『ホワッツインマイビッグデータ(WIMBD)』で言語モデルのデータセットの隠された複雑さを明らかにする」

「魅力とファッションの世界に踏み込もう:『ホワッツインマイビッグデータ(WIMBD)』で垣間見る言語モデルのデータセットの秘められた奥深さ」

機械学習はその基盤としてデータに依存しています。新しいデータセットは、研究や革新的なモデルの開発において重要な要素です。大規模なデータセット上で大きなモデルをトレーニングすることは、AIの実験の計算コストを時の経過とともに大幅に増加させています。現在、最も影響力のあるデータセットのいくつかは、公にアクセス可能なインターネット全体からテキストを抽出することによって生成されています。通常、これらのデータベースには内容の記述はなく、生成方法の説明のみが提供されます。

これは重要な違いであり、現在、大規模なテキストコーパス上でモデルがトレーニングされているが、それに含まれる概念、主題、有害性、または個人情報を知る手段がないということを意味します。一方、言語モデルは現在、世界中の個人によって日常的に広範に利用されています。これらのAIシステムは人々の生活に直接的な影響を与えるため、それらの利点と欠点を理解することは今や重要です。モデルはそれらがトレーニングされたデータからのみ学ぶことができますが、事前トレーニングコーパスの非公開性と膨大な量は、それらを分析することを困難にしています。ウェブスケールのコーパスの内容を評価する作業では、通常、わずかな重要な側面に焦点が当てられますが、同じ側面でいくつかのデータセットを分析するためにはさらなる作業が必要です。

そのため、機械学習の実践者は、データセットの違いをより有用に説明するための方法が必要です。本研究では、Allen Institute for AI、ワシントン大学、カリフォルニア大学の研究者らが、マイビッグデータ(WIMBD)と呼ばれるツールのコレクションを利用して、大規模な言語データセットを迅速に調査することで、大規模なテキストコーパスの内容を研究するための手助けをすることを提案しています。また、彼らはこの技術を使用して、複数のウェブスケールのデータセットを比較した初めての直接的に比較可能な指標を提供しています。

WIMBDには2つのパートがあります:(1) Elasticsearch(ES)ベースの検索ツールで、クエリを含むドキュメントをプログラムで検索することができます。ESは、コーパス内の文字列を検索し、それらが出現したテキストや回数とともに見つけることができる検索エンジンです。(2) MapReduceに基づいたカウント機能で、データセット全体を高速にイテレーションし、ドキュメントの文字数の分布、重複、ドメインの数、個人情報(PII)の特定など、関連するデータを抽出することができます。WIMBDのコードはオープンソースで、github.com/allenai/wimbdでアクセス可能です。これは拡張可能で、大規模なスケールで異なるコーパスをインデックス化、カウント、分析するために使用することができます。彼らは、これらの技術を使用して、C4、The Pile、RedPajamaなどの10の異なるコーパス上で16の研究を実施し、言語モデルのトレーニングに使用されています。

彼らはその分析を以下の4つのカテゴリに分類しています:

  1. データの統計(トークンの数やドメインの分布など)。
  2. データの品質(重複ドキュメントの測定や最も頻出のn-gramの計測など)。
  3. コミュニティおよび社会に関連する測定(ベンチマークの汚染や個人情報の検出など)。
  4. コーパス間の分析(ドキュメントの重複や最も一般的なn-gramの比較など)。

図1はWIMBDの概要を示しています。彼らの研究では、データの分布や異常に関する多くの洞察が提供されています。

図1:WIMBDの概要。CountとSearchの2つの主要機能を提供し、大規模なテキストコーパスへの迅速な処理とアクセスを容易にし、さまざまな分析を可能にします。

たとえば、ドキュメントの長さの分布を調べることにより、近隣の長さと比較してある長さが過剰に表示される異常が明らかになることがあります。これらの異常は、ほぼ正確に2倍のテンプレートから作成されるテキストや、特定の文字数に意図的に切り詰められたドキュメントに関連することがよくあります。また、最も一般的なn-gramとして句読点の連続もあります。たとえば、The Pileでは、最も一般的な10-gramは「-」(ダッシュ)が10回繰り返されたものです。WIMBDは、より高品質なコーパスのキュレーション、モデルの行動の遡及的なドキュメンテーションやアンカリングに実践的な洞察を提供します。また、wimbd.apps.allenai.orgでは、彼らの分析の一部をハイライトするインタラクティブなデモが提供されており、この公開とともにリリースされています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more