マーク外:AI進捗競争におけるメトリクスゲーミングの落とし穴

AI進捗競争におけるメトリクスゲーミングの落とし穴:マークされないもの

私のお気に入りの忠告の一つは、ソビエトの釘工場の都市伝説です。物語によれば、レーニン時代の釘不足の際、ソビエトの工場は生産された釘の数に応じてボーナスを受け取っていました。この知らせを聞いた工場は、生産数を水増しするために小さな無駄な釘を作り始めたと言われています。そのため体制は、月ごとに出荷される釘の重量に基づくボーナス支払いに切り替えました — そして工場は単純に巨大で過剰な重さの釘を生産し続け、同じく無駄なものとなりました。このおかしくも考えさせられる話は、中央計画経済が市場の需要とのつながりを失うことを示した例として、長年にわたり共有されてきました。しかし、私自身のテックスタートアップとの仕事の経験に基づいて言えることは、これはどんな組織にとっても一般的な落とし穴です。ソビエトの官僚たちが意味のない小さな釘で溢れた倉庫に当惑するように、基準と現実世界の価値の乖離は、私たちは今でも取り組むべき課題です。

期待するものではなく、点検するものを得る

過去に、私はB2Bテクノロジーファームのマーケティング部門にデジタル広告スペースを販売するスタートアップで働いていました。私たちのプラットフォームは、テクノロジーベンダーが世界中の中小企業とVoAGIビジネスの数百万のITプロフェッショナルにリーチすることを可能にしました。これらのマーケターは、営業チームのためにより多くのリードを生成することを四半期ごとに目標としていました。その目標を達成するために、彼らは潜在的な顧客をフォームの記入やホワイトペーパーのダウンロードへ誘導するキャンペーンを設計していました。

考え方は、これらの「マーケティングに適格なリード」が有望な潜在的な購買者を表し、営業チームが受け取るためにスクリーニングおよびプライミングされたものであるということでした。しかし、ある研究セッションで、私たちは世界最大手のテクノロジーベンダーの営業チームと座りました。営業担当者は、マーケティングリードは彼らの目的に対してほとんど無価値で、無視されていると私たちに話しました。

マーケティング部門は四半期ごとにリードの生成数を押し上げることにプレッシャーを感じていました。そのため、彼らはフォームの記入を最大化するためにキャンペーンを最適化しました。それは私の最初の話での釘工場に似ており、実際の顧客のニーズではなく、中央計画者が測定する1つの指標に単一に焦点を当てていました。

メトリクスのメタゲーム:LLMsの戦いで疑問のある勝利

最近のアナウンスと報道で騒がれているGoogleの新しいジェミニ言語モデルを読んでいると、メトリクスが誤った方向に進んだ前例に思いを馳せずにはいられませんでした。ジェミニの製品ページは、GPT-4の86.4%に対してMMLUベンチマークで90%スコアを達成したことを見せびらかしています。しかし、細かい字で書かれた文書によれば、GoogleはGPT-4の結果には適用されていない異なるプロンプト手法を使用してジェミニをテストしました。実際の研究論文を分析すると、同じ5ショットプロンプトを使用した場合、GPT-4は83.7%に対してジェミニを86.4%上回っています。

ジェミニのウェブサイトには、ジェミニウルトラがGPT-4よりも優れていると表示されています。
今日利用可能なジェミニプロモデルは、GPT-4よりも性能が低いです<figcaption a

AI プロジェクトへの投資が増えるにつれて、成果を示す圧力も高まります。これにより、ベンチマークのゲームプレーが促進されます。BloombergGPT を考えてみましょう。2022 年、Bloomberg は独自のデータを利用して、金融サービスのタスクでリードするために 5000 億パラメータのモデルを訓練しました。

さわやかさがありますが、Bloomberg の ML 責任者であるデイビッド・ローゼンバーグ氏は、技術的なプロセスについて率直なプレゼンテーションを行いました。彼のチームは 2022 年の年末までという厳しい締め切りと最大 1.3 百万 GPU 時間の予算を与えられました。彼らは野心的な 7100 億トークンの訓練データで開始し、そのうち約半分は Bloomberg の独占コーパスから得られました。BLOOM のオープンソースのベースラインモデルを活用しながら、チームはゼロからモデルを訓練する競争に挑みました。しかし、モデルの訓練は困難です。最初の 2 回の試みは失敗し、3 回目が有望な結果を示しました。42 日間の安定した訓練の後、モデルのパフォーマンスが低下し、ローゼンバーグ氏のチームは予算とスケジュールの枯渇に苦慮しました。最終的に、彼らは手に入れたものを凍結し、「BloombergGPT」と名付けました。

では、どのようなパフォーマンスを示したのでしょうか?一般的な NLP ベンチマークでは、BloombergGPT は BLOOM と類似の結果を示しました。しかし、技術論文によれば、特化した「金融タスク」では大きな進歩があったと主張されています。しかし、よく見てみると、これらの比較は古いオープンソースモデルとのみ行われており、最新技術の GPT-3 は除外されています。1 年後、訓練の継続がない場合、BloombergGPT はおそらく GPT-4 や Gemini のような先進モデルに大きく遅れをとっているでしょう。

金融領域のタスクでの BloombergGPT の比較。SOTA の GPT-3 モデルはどこにある?

ネイルを生産するソビエト工場から現代の AI ラボまで、実世界の価値よりも指標の最適化への圧力が存在します。これは Goodhart の法則の一例です。「計測が目標となると、その計測は有効な計測でなくなる」というものです。残念ながら、私たちは実際の状況を把握するためにより詳しく見る必要があります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「2023年にデータサイエンスFAANGの仕事をゲットする方法は?」

データサイエンスは非常に求められる分野となり、FAANG(Facebook、Amazon、Apple、Netflix、Google)企業での就職は大きな成...

人工知能

Diginiのスマートセンスの社長、ガイ・イエヒアブによるインタビューシリーズ

ガイ・イハイアヴ氏は、ビジネスの成功に最も重要な資産を保護するためにインターネット・オブ・シングス(IoT)の力を活用す...

人工知能

『ジュリエット・パウエル&アート・クライナー、The AI Dilemma – インタビューシリーズの著者』

『AIのジレンマ』は、ジュリエット・パウエルとアート・クライナーによって書かれましたジュリエット・パウエルは、著者であ...

人工知能

キャルレールの最高製品責任者、ライアン・ジョンソンへのインタビューシリーズ

ライアンは、初期のスタートアップからフォーチュン100の組織まで、多様なテクノロジーと製品開発のリーダーシップ経験を15年...

人工知能

スコット・スティーブンソン、スペルブックの共同創設者兼CEO- インタビューシリーズ

スコット・スティーブンソンは、Spellbookの共同創設者兼CEOであり、OpenAIのGPT-4および他の大規模な言語モデル(LLM)に基...

人工知能

「サティスファイラボのCEO兼共同創設者、ドニー・ホワイト- インタビューシリーズ」

2016年に設立されたSatisfi Labsは、会話型AI企業のリーディングカンパニーです早期の成功は、ニューヨーク・メッツ、メイシ...