マーク外：AI進捗競争におけるメトリクスゲーミングの落とし穴

AI進捗競争におけるメトリクスゲーミングの落とし穴：マークされないもの

私のお気に入りの忠告の一つは、ソビエトの釘工場の都市伝説です。物語によれば、レーニン時代の釘不足の際、ソビエトの工場は生産された釘の数に応じてボーナスを受け取っていました。この知らせを聞いた工場は、生産数を水増しするために小さな無駄な釘を作り始めたと言われています。そのため体制は、月ごとに出荷される釘の重量に基づくボーナス支払いに切り替えました — そして工場は単純に巨大で過剰な重さの釘を生産し続け、同じく無駄なものとなりました。このおかしくも考えさせられる話は、中央計画経済が市場の需要とのつながりを失うことを示した例として、長年にわたり共有されてきました。しかし、私自身のテックスタートアップとの仕事の経験に基づいて言えることは、これはどんな組織にとっても一般的な落とし穴です。ソビエトの官僚たちが意味のない小さな釘で溢れた倉庫に当惑するように、基準と現実世界の価値の乖離は、私たちは今でも取り組むべき課題です。

期待するものではなく、点検するものを得る

過去に、私はB2Bテクノロジーファームのマーケティング部門にデジタル広告スペースを販売するスタートアップで働いていました。私たちのプラットフォームは、テクノロジーベンダーが世界中の中小企業とVoAGIビジネスの数百万のITプロフェッショナルにリーチすることを可能にしました。これらのマーケターは、営業チームのためにより多くのリードを生成することを四半期ごとに目標としていました。その目標を達成するために、彼らは潜在的な顧客をフォームの記入やホワイトペーパーのダウンロードへ誘導するキャンペーンを設計していました。

考え方は、これらの「マーケティングに適格なリード」が有望な潜在的な購買者を表し、営業チームが受け取るためにスクリーニングおよびプライミングされたものであるということでした。しかし、ある研究セッションで、私たちは世界最大手のテクノロジーベンダーの営業チームと座りました。営業担当者は、マーケティングリードは彼らの目的に対してほとんど無価値で、無視されていると私たちに話しました。

マーケティング部門は四半期ごとにリードの生成数を押し上げることにプレッシャーを感じていました。そのため、彼らはフォームの記入を最大化するためにキャンペーンを最適化しました。それは私の最初の話での釘工場に似ており、実際の顧客のニーズではなく、中央計画者が測定する1つの指標に単一に焦点を当てていました。

メトリクスのメタゲーム：LLMsの戦いで疑問のある勝利

最近のアナウンスと報道で騒がれているGoogleの新しいジェミニ言語モデルを読んでいると、メトリクスが誤った方向に進んだ前例に思いを馳せずにはいられませんでした。ジェミニの製品ページは、GPT-4の86.4%に対してMMLUベンチマークで90%スコアを達成したことを見せびらかしています。しかし、細かい字で書かれた文書によれば、GoogleはGPT-4の結果には適用されていない異なるプロンプト手法を使用してジェミニをテストしました。実際の研究論文を分析すると、同じ5ショットプロンプトを使用した場合、GPT-4は83.7%に対してジェミニを86.4%上回っています。