『GenAI:より良い結果と低コストでデータを1000倍速く合成する方法』

『GenAI:データを1000倍速く合成する効果的で低コストな方法』

エディターの注意:Vincent Granvilleは10月30日から11月2日までのODSC Westの講演者です。彼の講演「GenAIのブレイクスルー:高速で高品質な表形式データの合成」もぜひチェックしてください!

データの合成には2つの側面があります。まず、どのように結果を評価し、シンセサイザーを比較するのでしょうか?次に、トレーニングを実質的に排除することにより、アルゴリズムの処理速度を数オーダー向上させる方法はありますか?これにより、GPUが不要となり、クラウドの利用時間も大幅に削減されます。私はまず評価に焦点を当て、次に高速アーキテクチャについて説明します。ここでは概要のみを提供しますが、詳細は私の新しい書籍「Statistical Optimization for Generative AI and Machine Learning」で確認できます(リンク)。新しい評価尺度および新しいデータシンセサイザーは、それぞれ「GenAI Evaluation」と「NoGAN Synthesizer」というオープンソースライブラリとして利用可能です。コンテキストは表形式データの生成です。

イベント – ODSC West 2023

対面およびバーチャルカンファレンス

10月30日から11月2日まで

LLMからデータ分析、機械学習から責任あるAIまで、最新のデータサイエンスとAIのトレンド、ツール、技術について深く掘り下げましょう。

合成データの評価

表形式合成データの品質を評価するためには、多くのメトリクスが利用できます。これらのメトリクスは、統計的分布の観点から、元のデータと合成データの類似性を測定します。目標は、両方の経験分布関数(ECDF)で計算される2つの結合経験分布間の距離を最小化することです。ECDFは経験的分布関数(EPDF)に基づく距離よりも利点があります。具体的には、以下のような特徴があります。

  • ECDFは常に存在します。
  • 積分であるため、エラーに対してより感度が低いです。
  • カテゴリカル、順序、連続的な特徴の混在を容易に処理できます。

結合(多変量)ECDF間の距離、ここではコルモゴロフ・スミルノフ距離(KS)と呼ばれるものは、収束問題について長い間研究されてきました。ただし、数値データとカテゴリカルデータの両方を組み合わせた3以上の次元で、実データを使った実用的な実装を見たことはありません。私のNoGANアルゴリズムは、おそらく初めて、全変数のKS距離を最大次元に調整して結果を評価します。また、この距離は0(最適な適合)から1(最悪の適合)の値を返します。使用された近似KSの収束性は、すべてのテストで明らかですが、未解決の理論的な問題です。

この複雑さにもかかわらず、この距離を実装する理由は、偽陰性を回避するためです。ベンダーが使用するメトリクスは、深さの不足により頻繁に質の低い合成を優れたものと評価します。一般的な技術とは異なり、多変量のECDFは、複数の次元にわたる線形および非線形な特徴の依存性をすべて捉えるため、この問題を排除します。さらに、すべての評価はクロスバリデーションを使用して行われました:実データをトレーニングセットと検証セットに分割し、合成化にはトレーニングデータのみを使用し、検証セットを使用してパフォーマンスを評価します。

合成データの生成

NoGANは、GANなどのニューラルネットワークをベースにしない一連の高性能で高速なシンセサイザーの最初のアルゴリズムです。このアルゴリズムは入力データを一度だけ参照し、特徴空間での疎な作業領域を効率的にカバーする最小数の多変量ビンまたはハイパーレクタングルを作成します。これらの静的なビンの形状は特徴の分位数に基づいて事前に決定されます。ビンの総数は観測値の数と等しくなります。すべてのカテゴリカル特徴は、効率的なスキーム(「スマートエンコーディング」)を使用して共同符号化されます。

合成データを生成するために、私は多項分布を使用してビンのカウントをサンプリングし、実データで推定された平均を中心とした一様または切り捨てられたガウス分布を使用して各ビン内の合成データを生成します。

図1:合成データ(左)と実データ(右)、通信キャリアのデータセット

メインのハイパーパラメーターベクトルは、各特徴に使用する分位点の数を指定します(各特徴ごとに1つ)。自動調整が可能で、微調整が容易です。実際に、この全体の技術は説明可能なAIを象徴しています。例えば、カテゴリカルな特徴が観測の1%しか占めていない場合、対応するハイパーパラメータの値は少なくとも100(1%の逆数)である必要があります。これにより、合成データで見逃されることがないようになります。

大きなハイパーパラメータ値は常にうまく機能しますが、過学習やその他の問題を引き起こすことがあります。特に合成データと検証セットとを比較する場合には注意が必要です。経験的な経験則としては、希望する品質を達成するために可能な限り小さい値を使用するのが最善です。小さい値はまた、予測アルゴリズムの性能を向上させるために拡張データを使用する際に有益です。

GenAI上の著者について:

Vincent Granvilleは、先駆的なGenAI科学者であり、機械学習の専門家であり、Data Science Central(2020年に上場企業に買収された)の共同創設者であり、MLTechniques.comのChief AI Scientistであり、元のベンチャーキャピタルに資金提供された役員であり、著者であり、特許所有者でもあります(LLMに関連する特許の1つ)。Vincentの過去の企業経験には、Visa、Wells Fargo、eBay、NBC、Microsoft、CNETなどがあります。

Vincentはまた、ケンブリッジ大学と国立統計科学研究所(NISS)での元ポスドクでもあります。彼は「数論のジャーナル」、「王立統計学会のジャーナル」(シリーズB)、および「電子情報通信学会のパターン認識と機械知能のトランザクション」で発表しています。彼は多数の書籍の著者であり、「合成データと生成AI」(エルゼビア、2024年)を含みます。Vincentはワシントン州に住んでおり、確率過程、力学系、実験数学、確率的数論に関する研究を楽しんでいます。彼は最近、参加者に対して最先端の企業グレードのプロジェクトを提供するGenAI認定プログラムを立ち上げました。

 

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more