「全体的な実験の影響を推定する」
Estimating the overall impact of experiments.
組織の総合的な影響を測定する際に、偽発見と選択バイアスをコントロールする方法
はじめに
データ駆動型の組織は、常に数百または数千の実験を実施していますが、これらの実験の総合的な影響は何でしょうか?素朴なアプローチは、有意な正の処置効果をもたらし、本番環境に展開されたすべての実験の平均差を合計することです。しかし、この推定値は非常にバイアスがかかる可能性があります。個々の実験間に相関がないと仮定しても、この素朴なアプローチでは実際の影響が45%も過大評価されることを10,000回のシミュレーションを実行して示します!
我々は、LeeとShenによる理論的なバイアス補正式[1]を検討します。しかし、このアプローチには2つの欠点があります。第一に、理論的にはバイアスがないとされていますが、元の問題と同じ理由で対応するプラグイン推定量には相当なバイアスがあることを示します。第二に、個々のレベルの実験に影響を帰属させることはできません。
この記事では、以下の2つのバイアス要因を探求します:
- 偽発見バイアス — 偽陽性により推定値が過大評価される;
- 選択バイアス — 決定基準によって導入されるバイアスにより、処置効果の過小評価(偽陰性)が発生し、過大評価が報酬とされる。
偽発見に対処するために、与えられた結果が実際にゼロでない確率を構築します。この確率は、p値の分布を真のヌルからの参照残差密度と比較することで構築されます。
- 「生成AIの時代における品質保証の再考」
- 「驚くべき進化:メルセデス・ベンツがNVIDIA Omniverse、MB.OS、および生成AIと共にネクストジェンプラットフォームのためのデジタルプロダクションシステムを準備中」
- ポーと一緒に蹴りの効いた中間プロンプト
選択バイアスに対処するために、各実験結果に対して事後分布を計算します。経験的な分布を使用し、偽発見が補正された事前分布とします。
このプロセスにより、シミュレートされた一連の実験の平均的な実験的影響の正確な推定値が得られ、経験的な測定値のみを使用して元の45%の誤差が0.4%の誤差に削減されます。
効果の分布
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles