なぜデータは新たな石油ではなく、データマーケットプレイスは私たちに失敗したのか

データは新たな石油ではなく、データマーケットプレイスはなぜ失敗したのか

リアルタイムプログラムデータ交換がすべてを変える方法

「データは新しい石油」というフレーズは2006年にクライブ・ハンビーによって作られ、それ以来広く使われています。しかし、この類推は一部の側面(例:両方の価値は精製と共に増加する)においてのみ妥当性を持ち、データの広範な経済的影響は一部のテック企業や金融企業を除いては鈍いものとなっています。しかし、石油とデータの実際の違いは根本的です。

特に、石油は商品です。その品質は標準化され、測定可能であり、異なる源からの石油は代替品となります(経済的には「均質な商品」です)。石油は普遍的で、確立された価格があります。そして何よりも、石油のバレルがあれば、単純にコピーして別のものを作ることはできません。石油は地下から取り出す必要がある限定された資源です。

一方、データは異種の商品です。無制限の種類であり、各出現の価値は客観的に測定することはできません。2つの当事者が商品を交換する場合、売り手は価格を設定し、買い手は支払いの意志を確立しなければなりません。これはデータの2つの属性によって複雑になります:

同じデータを別の買い手に販売するマージナルコストはゼロです。データの生産コストは非常に変動します(ゲノムのシーケンスは体温を測るよりも高価です)、しかし一旦存在すると、そのコストは固定費となります。他の買い手にそれを販売するプロセスは、コピーするという単純な行為であり、実質的にはゼロです。

データの価値を「消費」せずに確立するのは難しいです。セールスリードのデータベースは、実際の販売に結びつかなければ価値がありません。さらに悪いことに、まったく同じデータセットの価値は買い手(またはその使用目的)に非常に依存します。この点で、データは実際には書籍や休暇のような「体験商品」に近いのです。

この投稿では、データが最も活用されていないために最も価値が低く評価されている商品の1つであると主張します。私はアドバイスしている新しい会社の中心にあるリアルタイムプログラムデータ交換を概説し、データ経済に重大な影響を与える可能性があると述べます。

「データは最も活用されていないために最も価値が低く評価されている商品の1つです。」

なぜデータの経済に関心を持つ必要があるのでしょうか?

第1者データと第3者データの区別

私の知り合いはデータの重要性に反対する人はいません。しかし、「データは資産である」という物語は一般的になりつつありますが、データはおそらく最も活用されていないために最も価値が低く評価されている商品の1つです。

ほとんどのビジネスがデータについて考えるとき、彼らは自分たちが所有しているデータについて考えます。この第1者データ(1PD)は通常、ウェブサイト、CRM / ERPシステム、顧客とのやり取りなどから収集されます。一部の第1者データセットは他のものよりも価値が高いです:Googleの検索およびクリック履歴の宝庫は彼らの1PDコーパスの一部です。

Image by author

明らかなことは、直接所有していないデータである第3者データ(3PD)の存在量は、あなたの1PDよりも何桁も大きいということです。私が主張するのは、多くの人々が自分のビジネスにおける3PDの価値に気付いていないということです。このポイントを説明するために、例を使いましょう。

メールスパムの検出(およびあなたの1PDだけが思っているほど価値があるとは限らない理由)

メールスパムの検出において、最も予測力のあるシグナルは何だと思いますか?最も一般的な回答には、タイプミス、文法、またはv1agraのような特定のキーワードの言及が含まれます。少し優れた回答は「送信者があなたの連絡先に含まれているかどうか」です-それが真実であるためではありません(連絡先に含まれていないスパムの有効な送信者は連絡先に含まれているものよりも多いです)が、それはメール自体の外部データソース、つまり連絡先を考慮に入れています。

この逸話のためだけに、送信者のドメインの経過時間が実際にはメールスパムの検出において最も重要なシグナルであると仮定しましょう。一度述べられると、これは直感的です。スパマーは頻繁に新しいドメインを登録し、短期間でメールプロバイダにブロックされます。

なぜほとんどの人々がこの答えを考えつかないのでしょうか?それは、送信者のドメインの年齢が「1stパーティのデータセット」の一部ではないからです。このデータセットには、送信者と受信者のメールアドレス、件名、およびメール本文などが含まれています。しかし、ドメイン名について何か知っている人なら誰でも、この情報が容易に入手可能であり、無料であることを知っています。ドメインを取得し、ドメイン登録業者に行けば、登録日時を調べることができます(例:gmail.comは1995年8月13日に登録されました)。

実際には、所有しているデータ(1PD)は、他の誰かが所有するデータ(3PD)と組み合わせることで、おそらくより価値があるということがわかります。

Image by author

メールスパムから量的取引(そしてそれ以上?)へ

送信者のドメインの年齢をデータセットに追加するだけで、電子メールスパムをより良く検出できるというアイデアを推測すると、同じ原理を適用できる無限の方法が想像できます。以下は、住所から見つけることができるデータの単純な例(少なくとも米国では)です。

Image by author

もちろん、これは新しいアイデアではありません。ヘッジファンドは数十年にわたり「代替データ」を使用してきました。RenTechは、衛星画像、ウェブスクレイピング、および他の創造的なデータセットを活用して取引における優位性を得るために、最初の企業の一つでした。UBSは衛星画像を使用して大手小売業者の駐車場を監視し、自動車の交通量と四半期の収益を相関させ、発表前の収益をより正確に予測することができました。

おそらくこれから何が起こるのか予想できるでしょう。米国だけでも30万以上のデータプロバイダーが存在し、おそらく何十億ものデータセットがあります。それらの多くは、予測または分析しようとしていることにおいて競争上の優位性を提供する可能性があります。唯一の制限はあなたの創造力です。

(主観的な)外部データの価値

外部データの価値は、量的取引企業にとっては即座かつ重要ですが、他の産業のエグゼクティブは同じ認識に至るまでに時間がかかりました。思考実験を行ってみましょう。ビジネスにとって最も重要な予測タスクのいくつかを考えてみてください。Amazonの場合、ある顧客が次に購入する可能性のある商品を特定することが重要です。石油探査会社の場合、次の油田を発見する場所が重要です。食料品チェーンの場合、特定の商品の需要をいつでも予測することが重要です。

次に、その予測タスクのパフォーマンスとビジネスへの価値を向上させるために回すことができる魔法のダイヤルがあると想像してみてください。食料品チェーンは食品の約10%を腐敗させてしまっています。需要をより正確に予測できれば、供給チェーンを改善し、腐敗を減らすことができます。20%の粗利益率で、腐敗を1ポイント減らすことで、粗利益率を0.8ポイント改善することができます。したがって、Albertsonsのような会社にとって、需要の予測を1ポイント改善することは、推定で年間640百万ドルの価値があるかもしれません。代替データはそれに役立つかもしれません。

食料品チェーンに数億ドルの節約をもたらす同じデータは、商業不動産開発業者にとってさらに価値があるかもしれません。ただし、データマーケットプレイスはその価値(価格差別を通じて)を抽出することができなかったため、実際のビジネスアプリケーションからは遠く離れています。彼らは、最終的な使用に関係なく、在庫に一律の価格を設定しなければなりません。

それにもかかわらず、外部データは50%の年間成長率で推定5億ドルの市場になり、それらのデータを取引するマーケットプレイスはさらに10億ドルの市場を表しています。これは、少なくとも2つの理由で潜在的な市場規模のわずかな一部に過ぎません:(1)すべての企業が3PDから利益を得ることができるはずですが、3PDを利用するための最も分析的に成熟した企業だけがその利益を享受しています。 (2)試みる勇気のある人々は、古風なプロセスによって3PDを発見し購入するのが遅くなっています。そのポイントを説明するために、広告購入プロセスへの短い紹介を行いましょう。

プログラマティック広告がデータ経済を改善する方法について教えてくれること

広告購入プロセスの進化

それほど昔ではない2014年、プログラマティック広告の購入はデジタル広告費の半分以下でした。広告はどのように購入されていたのでしょうか?広告主は、どのような対象視聴者に到達したいかを代理店に伝えました。その後、代理店は協力している出版社とその「在庫」(雑誌のページ、広告看板、テレビ広告枠など)を見て、要件を満たすためにキャンペーンを実施する場所の計画を立てました。いくつかの交渉の後、企業と代理店は最終的に契約を結びました。広告のクリエイティブは開発され、レビューされ、承認されました。挿入オーダーが提出され、最終的に広告キャンペーンが実施されました。数か月後、企業は代理店の考えるキャンペーンの成果についてのレポートを受け取りました(サンプルデータセットに基づいて)。

そして、Googleが登場し、プログラマティック広告の購入を一般化しました。Googleは独自の広告取引所(AdX)を作成し、さまざまな出版社の在庫を異なる広告ネットワークと接続しました。ユーザーが検索を行ったりウェブサイトを訪れたりすると、ウェブページの読み込み時間内にリアルタイムオークションが行われ、すべての広告主が競り合い、最も高い入札者(実際には2番目に高い入札者)が広告を表示するように選択されました。

こうして、広告購入は、数か月にわたる困難な手続きで人間が関与し、ほとんど透明性がなかったものから、リアルタイムのトランザクションに変わり、価格(オークションを通じて)を設定し、インプレッション(そして時にはコンバージョンさえ)の瞬時の測定結果を提供するものとなりました。この速度、流動性、透明性のレベルが、オンライン広告市場の爆発を引き起こし、プログラマティック広告の購入は現在、デジタル広告予算の約90%を占めています。

時代遅れのデータ購入プロセス

実際、今日のデータ購入は、20年前の広告購入よりも苦痛です。

Image by author

発見:まず、3PDが非常に価値があることに気付く必要があります。メールスパムの例を覚えていますか?次に、1PDを補完するために使用できる可能性のあるすべての3PDを考える創造性が必要です。小売業者の売上を予測するために駐車場の衛星画像を考慮に入れたでしょうか?その後、必要なものを探すためにすべてのデータプロバイダーを訪れ、ほとんどの「データマーケットプレイス」が基本的には説明文の自由なテキスト検索であることに気付きます。次に、データのスキーマを見て、必要なものが含まれているか、必要な粒度であるか(例えば、1時間ごとではなく分ごとのフットトラフィックが必要な場合があります)、適切なカバレッジがあるか(適切な日付範囲や地理的領域のためのカバレッジがあるか)を確認する必要があります。

調達:必要なものを見つけたら、そのデータをどのように調達するかを考える必要があります。単純な「クリックして購入」の手続きではないことに驚くでしょう。データプロバイダーと話し合い、データライセンスについて学び(このデータを予定された目的で使用できるのか?)、契約条件を交渉し、契約に署名する必要があります。異なるプロバイダーからの異なる3PDについて、異なる契約、条件、ライセンスがあるため、このプロセスを何度も繰り返す必要があります。データがあなたの郵便受けにフロッピーディスクで届くのを待ちます(冗談です)。

統合:最後に必要なデータを取得します。データエンジニアリングチームが1PDと結合するのを数週間待ちますが、実際には希望通りには役立たないことがわかります。費やした時間とお金は無駄になり、もう一度試すことはありません。または、さらに苦痛なことに、3PDが有益な改善をもたらすことがわかり、予測モデルを本番環境に導入すると、必要なのは毎時ごとの新鮮なデータであり、使用したデータソースの1つが週ごとに更新されるだけであることがわかります。もう一度試す場合、スキーマに基づいて粒度をチェックするだけでなく、リフレッシュレートも考慮する必要があることがわかります。

このプロセスは数カ月から1年以上かかる場合があります。より速い方法を構築するために、一部のコンサルティング会社は「データソーシングチーム」を雇い、データ集約業者との関係を構築することを提案しています。

データ経済はリアルタイムなプログラマティックデータ取引所を必要としています

プログラムによる広告の購入の例を挙げた理由は、データエコノミーが同様の方法で進化する可能性があるという強い確信からです。それによって、同様に深い経済的影響が生まれるでしょう。

ディスカバリーと調達: すべてのデータプロバイダー(「在庫」)を集め、ライセンスを合理化し、プログラムによる取引を容易にするデータ交換所を考えてみましょう。データ消費者は任意の1PDを提供し、興味のあるタスク(例:需要予測)を表明し、改善の各単位にどのような価値を置くかを提供します(需要予測の1ppの改善は Albertsons にとって640Mドルの価値があります)。データ交換所は、そのタスクに対して計測可能な改善を提供する3PDを自動的に特定し、データ消費者の予算に基づいてリアルタイムオークションを実施し、要件を満たす3PDのサブセットを最適に選択します。この実際のタスク(および関連する価値)への近接性により、データを商品としてではなく、経験として扱う既存のデータマーケットプレイスの発見と価値抽出の問題が解決されます。

継続的な統合と改善: 最も価値のある予測タスクは連続的な性質を持っているため(例:需要を定期的に予測する必要があり、一度だけではありません)、データ交換所は新しいデータプロバイダーや消費者がエコシステムに参入するにつれて、時間の経過と共にさらなる価値を提供する取引の中心になります。予測タスクを実行するたびにオークションを実施すること(データを購入するデータを選択するだけでなく)、新しいデータプロバイダーがすぐに流通に到達し、データ消費者が最新のデータ在庫と価格発見の恩恵を受けることができます。広告の購入がオフラインおよび手動から進化したように、データ取引はリアルタイムでプログラム可能であり、最も重要なことには計測可能です。

Image by author

この「リアルタイムプログラム可能データ交換」は、マーケットプレイスのすべての参加者に経済的インセンティブを提供します:

  • データプロバイダーと消費者の両方が、発見性の向上によって利益を得ることができます。データマーケットプレイスには長尾の問題があります。膨大な量と種類のデータがあり、既存の方法ではどのタスク/アプリケーションに最も関連性のあるデータを見つけることはほとんど不可能です。
  • プログラムによって取引が行われるように、用語とライセンスを標準化することで、データエコノミーの速度と流動性が向上し、購入プロセスに摩擦がなくなり、より広い範囲の人々に開放されるようになります。その結果、全体の市場は大幅に拡大します。
  • 各データ消費者の主観的な価値に基づいてオークションで価格を設定することにより、同様の種類のデータの価値を異なる方法で評価する消費者にとってはより良い条件になり、プロバイダーは同じ種類のデータの価値を異なる消費者間で価格差別化することができます。
  • 1つのプラットフォームでデータ消費者からの需要を集約することで、データプロバイダーにとって貴重な洞察が得られます。たとえば、需要側からのすべてのタスクと支払い意思に基づいて、データ交換所はプロバイダー側が欠けているデータを正確に推測することができ、データの取得と作成の優先順位付けに役立ちます。注意してください、合成データプロバイダーの皆さん!

解決すべき困難な課題

データの発見性と価格設定を解決するだけでなく、広告に対して Google が行ったように、このプログラム可能なデータ交換所はライセンスとデリバリーにも取り組む必要があります。音楽に対して Spotify が行ったように。ただし、解決すべき困難な問題がいくつかあるため、興味深く意義のある取り組みになるのです。

商業

  • データライセンスは比較的新しいものです。 データライセンスには標準化がほとんど存在しないようです。すべてのデータプロバイダーは独自の特別なライセンスを持っており、他のライセンスと互換性がありません。交換を容易にするために、ライセンスを効率化する必要があります。
  • データマーケットプレイスは仲介を恐れる場合があります。 データエコシステムは複雑です。データプロバイダーにとって、これは全く新しい流通チャネルです。彼らは発見性の問題に苦しんでおり、この交換所は代替データを考えることのなかった何百万もの新しい消費者に市場を開放するかもしれません。一方、データマーケットプレイスと集約業者は、プログラム可能なデータ交換所へのデータプロバイダーの直接アクセスをブロックしたいと考えるかもしれません。
  • 「古い」産業に新しい価格モデルを導入することは困難です。 プログラム可能な交換の流動性メカニズムによって、需要側と供給側の両方が大幅に拡大し、価格メカニズムによって価値の捕捉が最適化されます。総じて、プログラム可能なデータ交換所はデータプロバイダーにとって有益なものとなります。

技術

  • セマンティックタイプの検出は過去にとどまっています。 データのセマンティックタイプを自動的に識別するためには、まずデータのセマンティックタイプを理解する必要があります。たとえば、何かが単なる数字、郵便番号、または通貨であるかどうかを理解する必要があります。ほとんどのセマンティックタイプの検出はヒューリスティックに基づいていますが、より現代的なアプローチも存在します。
  • データの発見をブルートフォースで行うことはできません。 実は、非常にたくさんのデータが存在します。タスクに最も利益をもたらす可能性のある3PDを見つけるための素朴なアプローチは、単にすべてのデータを試して、どれが最も価値を提供するかを特定することです。幸いにも、情報理論やデータ要約などの分野で現代のブレークスルーがあり、この問題を取り扱えるようになりました。
  • データの結合は難しいです。 セマンティックタイプを知っており、3PDが有意義な利益を提供する可能性を特定する仕組みを持っている場合、興味深い方法で1PDと3PDを結合する必要があります。天気データには、フライト遅延を予測したい空港と一致しない天気観測所の経度と緯度が付いている場合があります。また、フットトラフィックデータは毎時や日毎の集計に平均値、最大値、またはn番目のパーセンタイルを使用するかどうかを決定する必要があります。
  • データのセキュリティ。 データプロバイダーはデータを提供することを好みません(データは簡単に複製できるため)。しかし、フェデレーテッドラーニングなどの技術を使用することで、データのアクセスとプライバシーを保護しながら予測の拡張が可能となります。

私はリアルタイムのプログラムによるデータの交換の影響が大きいと考えています。幸いにも、AIの最近の進歩によって上記の課題に対する解決策が提供されています。私はデータが商品ではなく体験の一部としての未来を楽しみにしています。

この投稿で表明されている意見は私個人のものであり、私の雇用主の意見ではありません。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more