マーク外:AI進捗競争におけるメトリクスゲーミングの落とし穴

AI進捗競争におけるメトリクスゲーミングの落とし穴:マークされないもの

私のお気に入りの忠告の一つは、ソビエトの釘工場の都市伝説です。物語によれば、レーニン時代の釘不足の際、ソビエトの工場は生産された釘の数に応じてボーナスを受け取っていました。この知らせを聞いた工場は、生産数を水増しするために小さな無駄な釘を作り始めたと言われています。そのため体制は、月ごとに出荷される釘の重量に基づくボーナス支払いに切り替えました — そして工場は単純に巨大で過剰な重さの釘を生産し続け、同じく無駄なものとなりました。このおかしくも考えさせられる話は、中央計画経済が市場の需要とのつながりを失うことを示した例として、長年にわたり共有されてきました。しかし、私自身のテックスタートアップとの仕事の経験に基づいて言えることは、これはどんな組織にとっても一般的な落とし穴です。ソビエトの官僚たちが意味のない小さな釘で溢れた倉庫に当惑するように、基準と現実世界の価値の乖離は、私たちは今でも取り組むべき課題です。

期待するものではなく、点検するものを得る

過去に、私はB2Bテクノロジーファームのマーケティング部門にデジタル広告スペースを販売するスタートアップで働いていました。私たちのプラットフォームは、テクノロジーベンダーが世界中の中小企業とVoAGIビジネスの数百万のITプロフェッショナルにリーチすることを可能にしました。これらのマーケターは、営業チームのためにより多くのリードを生成することを四半期ごとに目標としていました。その目標を達成するために、彼らは潜在的な顧客をフォームの記入やホワイトペーパーのダウンロードへ誘導するキャンペーンを設計していました。

考え方は、これらの「マーケティングに適格なリード」が有望な潜在的な購買者を表し、営業チームが受け取るためにスクリーニングおよびプライミングされたものであるということでした。しかし、ある研究セッションで、私たちは世界最大手のテクノロジーベンダーの営業チームと座りました。営業担当者は、マーケティングリードは彼らの目的に対してほとんど無価値で、無視されていると私たちに話しました。

マーケティング部門は四半期ごとにリードの生成数を押し上げることにプレッシャーを感じていました。そのため、彼らはフォームの記入を最大化するためにキャンペーンを最適化しました。それは私の最初の話での釘工場に似ており、実際の顧客のニーズではなく、中央計画者が測定する1つの指標に単一に焦点を当てていました。

メトリクスのメタゲーム:LLMsの戦いで疑問のある勝利

最近のアナウンスと報道で騒がれているGoogleの新しいジェミニ言語モデルを読んでいると、メトリクスが誤った方向に進んだ前例に思いを馳せずにはいられませんでした。ジェミニの製品ページは、GPT-4の86.4%に対してMMLUベンチマークで90%スコアを達成したことを見せびらかしています。しかし、細かい字で書かれた文書によれば、GoogleはGPT-4の結果には適用されていない異なるプロンプト手法を使用してジェミニをテストしました。実際の研究論文を分析すると、同じ5ショットプロンプトを使用した場合、GPT-4は83.7%に対してジェミニを86.4%上回っています。

ジェミニのウェブサイトには、ジェミニウルトラがGPT-4よりも優れていると表示されています。
今日利用可能なジェミニプロモデルは、GPT-4よりも性能が低いです<figcaption a

AI プロジェクトへの投資が増えるにつれて、成果を示す圧力も高まります。これにより、ベンチマークのゲームプレーが促進されます。BloombergGPT を考えてみましょう。2022 年、Bloomberg は独自のデータを利用して、金融サービスのタスクでリードするために 5000 億パラメータのモデルを訓練しました。

さわやかさがありますが、Bloomberg の ML 責任者であるデイビッド・ローゼンバーグ氏は、技術的なプロセスについて率直なプレゼンテーションを行いました。彼のチームは 2022 年の年末までという厳しい締め切りと最大 1.3 百万 GPU 時間の予算を与えられました。彼らは野心的な 7100 億トークンの訓練データで開始し、そのうち約半分は Bloomberg の独占コーパスから得られました。BLOOM のオープンソースのベースラインモデルを活用しながら、チームはゼロからモデルを訓練する競争に挑みました。しかし、モデルの訓練は困難です。最初の 2 回の試みは失敗し、3 回目が有望な結果を示しました。42 日間の安定した訓練の後、モデルのパフォーマンスが低下し、ローゼンバーグ氏のチームは予算とスケジュールの枯渇に苦慮しました。最終的に、彼らは手に入れたものを凍結し、「BloombergGPT」と名付けました。

では、どのようなパフォーマンスを示したのでしょうか?一般的な NLP ベンチマークでは、BloombergGPT は BLOOM と類似の結果を示しました。しかし、技術論文によれば、特化した「金融タスク」では大きな進歩があったと主張されています。しかし、よく見てみると、これらの比較は古いオープンソースモデルとのみ行われており、最新技術の GPT-3 は除外されています。1 年後、訓練の継続がない場合、BloombergGPT はおそらく GPT-4 や Gemini のような先進モデルに大きく遅れをとっているでしょう。

金融領域のタスクでの BloombergGPT の比較。SOTA の GPT-3 モデルはどこにある?

ネイルを生産するソビエト工場から現代の AI ラボまで、実世界の価値よりも指標の最適化への圧力が存在します。これは Goodhart の法則の一例です。「計測が目標となると、その計測は有効な計測でなくなる」というものです。残念ながら、私たちは実際の状況を把握するためにより詳しく見る必要があります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「Prolificの機械学習エンジニア兼AIコンサルタント、ノラ・ペトロヴァ – インタビューシリーズ」

『Nora Petrovaは、Prolificの機械学習エンジニア兼AIコンサルタントですProlificは2014年に設立され、既にGoogle、スタンフ...

人工知能

ベイリー・カクスマー、ウォータールー大学の博士課程候補 - インタビューシリーズ

カツマー・ベイリーは、ウォータールー大学のコンピュータ科学学部の博士課程の候補者であり、アルバータ大学の新入教員です...

人工知能

「Ntropyの共同創設者兼CEO、ナレ・ヴァルダニアンについて - インタビューシリーズ」

「Ntropyの共同創設者兼CEOであるナレ・ヴァルダニアンは、超人的な精度で100ミリ秒以下で金融取引を解析することを可能にす...

人工知能

「Zenの共同創設者兼CTO、イオン・アレクサンドル・セカラ氏によるインタビューシリーズ」

創業者兼CTOであるIon-Alexandru Secaraは、Zen(PostureHealth Inc.)の開発を牽引しており、画期的な姿勢矯正ソフトウェア...

データサイエンス

アステラソフトウェアのCOO、ジェイ・ミシュラ - インタビューシリーズ

ジェイ・ミシュラは、急速に成長しているエンタープライズ向けデータソリューションの提供企業であるAstera Softwareの最高執...

人工知能

ギル・ジェロン、Orca SecurityのCEO&共同創設者-インタビューシリーズ

ギル・ゲロンは、オルカ・セキュリティのCEO兼共同設立者ですギルは20年以上にわたりサイバーセキュリティ製品をリードし、提...