なぜデータは「新しい石油」ではなく、データマーケットプレイスは私たちに失敗したのか
データとデータマーケットプレイスの失敗の理由
リアルタイムプログラマティックデータ交換がすべてを変える方法
「データは新しい石油である」というフレーズは、クライブ・ハンビーによって2006年に作られ、それ以来広く引用されてきました。しかし、この類推はいくつかの側面で妥当性を持っていますが(例えば、両方の価値は通常、洗練されるほど高まります)、データのより広範な経済的影響は、選ばれた数社のテック企業や金融企業の外では鈍化しています。しかし、石油とデータの実際の違いは基本的です。
特に、石油は商品です。その品質は標準化され、測定可能であり、異なる出所の石油は代替品です(経済的には「均質な商品」と呼ばれます)。石油は普及しており、確立された価格があります。そして何よりも、石油のバレルを持っていても、単にコピーを作って別のものを生産することはできません-石油は地中から掘り起こされる必要がある限定された資源です。
一方、データは異質な商品です。無限のバラエティで提供され、各事例の価値は客観的に測定することはできません。2つの当事者が商品を交換する際、売り手は価格を設定し、買い手は支払いの意思を確立する必要があります。そのためには、データの2つの属性が複雑さを増します。
同じデータを別の買い手に売るための限界費用はゼロです。データの生産コストは非常に変動します(ゲノムのシーケンシングは体温を測るよりも費用がかかります)、しかし、一度存在すると、そのコストは固定費用です。それを別の買い手に売るプロセスは、実質的にはコピーを作成する単純な行為であり、コストはゼロです。
- アップリフトモデリング—クレジットカード更新キャンペーンの最適化ガイド データサイエンティストのための
- 「生物カメラは画像を保存します」
- スコア! チームNVIDIAが推薦システムでトロフィーを獲得しました
データの価値を「消費」せずに確立することは困難です。セールスリードのデータベースは、実際の販売結果がある場合にのみ価値があります。さらに悪いことに、まったく同じデータセットの価値は、買い手(またはその使用目的)に高度に依存しています。この点では、データは実際には「本やバケーションのような経験商品」に近いのです。
この記事では、データが最も活用されていない財産の1つであり、その結果、過小評価されていることを主張します。私はアドバイスしている新しい会社の中心にあるリアルタイムプログラマティックデータ交換を概説し、データ経済に重大な影響を与える可能性があると述べます。
「データは最も活用されていない財産の1つであり、その結果、過小評価されているものです。」
データの経済についてなぜ関心を持つ必要があるのか?
1stパーティデータと3rdパーティデータの区別
私の知る限り、データの重要性に反対する人はいません。しかし、「データは資産である」という物語は一般的になってきましたが、データはおそらく最も活用されていない財産であり、その結果、過小評価されているものです。
ほとんどの企業がデータを考えるとき、彼らが所有するデータについて考えます。この1stパーティデータ(1PD)は通常、ウェブサイト、CRM / ERPシステム、顧客とのやり取りなどから収集されます。一部の1stパーティデータセットは他のものよりも価値が高いです。たとえば、Googleの検索履歴やクリック履歴の宝庫は彼らの1PDコーパスの一部です。
明らかなことは、直接所有していないデータである存在する3rdパーティデータ(3PD)の量が、あなたの1PDよりも桁違いに大きいということです。私が言うのは、ほとんどの人々が自分のビジネスにおける3PDの価値に気付いていないということです。このポイントを説明するために、例を使いましょう。
メールスパムの検出(およびあなたの1PDだけでは思っているほど価値がない理由)
メールスパムの検出において、最も予測的な信号は何だと思いますか?最も一般的な回答には、タイプミス、文法、またはv1agraのような特定のキーワードの言及が含まれます。少しより良い回答は「送信者が連絡先に属しているかどうか」です- それが真実であるわけではありません(連絡先にないスパムの有効な送信者のほうが多いです)、しかし、それは電子メール自体の外部データソース、つまり連絡先を考慮しています。
この逸話のためだけに、送信者のドメインの年齢がメールスパムを検出する際に最も重要な信号であるとしましょう。これを述べると、直感的に思われるかもしれません:スパマーは頻繁に新しいドメインを登録し、短期間で電子メールプロバイダによってブロックされます。
なぜほとんどの人がこの答えを考えないのか?それは、送信者のドメインの年齢があなたの「1stパーティデータセット」の一部ではないからです。このデータセットには、送信者と受信者のメールアドレス、件名、メール本文などが含まれますが、ドメイン名に関する知識がある人なら誰でも、この情報が容易に入手可能であり、無料であることを説明します。ドメインを取得し、ドメイン登録業者に行けば、登録日を調べることができます(たとえば、gmail.comは1995年8月13日に登録されました)。
実際には、あなたが所有するデータ(1PD)は、他の誰かが所有するデータ(3PD)と組み合わせることで、おそらくより価値のあるものになるでしょう。
メールスパムから量子取引へ(そしてそれ以上?)
送信者のドメインの年齢をデータセットに追加することで、メールスパムをより正確に検出できるという考えを推し測ると、同じ原則を適用できる無限の方法が想像できます。以下は、住所から見つけることができるデータの簡単な例(少なくともアメリカでは)です。
もちろん、これは新しい考えではありません。ヘッジファンドは数十年にわたり「代替データ」を使用してきました。RenTechは、衛星画像、ウェブスクレイピング、その他の創造的なデータセットを利用して取引に優位性を持たせるために代替データを使用した最初の企業の一つでした。UBSは、衛星画像を使用して大規模小売業者の駐車場をモニターし、自動車の通行量と四半期の収益を関連づけ、発表前の収益予測をより正確に行うことができました。
おそらく、これがどこに向かっているのかはおわかりいただけるかと思います。アメリカだけでも30万以上のデータプロバイダーが存在し、おそらく数十億のデータセットがあります。それらの多くは、予測や分析をする上で競争上の優位性を提供する可能性があります。唯一の制限はあなたの創造力です。
外部データを使用する(主観的な)価値
量子取引企業にとって外部データの価値は即座で重要ですが、他の産業の経営者は同じ気づきに遅れています。思考実験をしてみましょう:あなたのビジネスにとって最も重要な予測タスクのいくつかを考えてみてください。Amazonの場合、それは与えられた顧客が次に購入する可能性のある商品です。石油探査会社の場合、それは次の油田を発見する場所かもしれません。食品スーパーチェーンの場合、それは特定の商品の需要です。
次に、予測タスクのパフォーマンスとビジネスへの価値を向上させるために回せる魔法のダイヤルがあると想像してみてください。食品スーパーチェーンは、食品の約10%を腐敗で失っています。需要をより正確に予測できれば、供給チェーンを改善し腐敗を減らすことができます。総利益率20%であれば、腐敗の1%減少は総利益率を0.8pp改善します。したがって、Albertsonsのような企業にとって、需要予測の1%改善は年間約6億4000万ドルの見積もりになります。そのためにも代替データの利用が役立ちます。
食品スーパーチェーンに数億ドル以上の価値をもたらす同じデータは、商業不動産開発業者にとってさらに価値があるかもしれません。ただし、データの市場価値を引き出す(価格差別を通じて)ことができなかったデータマーケットプレイスは、実際のビジネスアプリケーションからかなり離れています。彼らは、将来の使用に関係なく、在庫に一律の価格を設定する必要があります。
それにもかかわらず、外部データは年間50%の成長率で推定5億ドルの市場になり、それらのデータを取引するマーケットプレイスは別の10億ドルの市場を形成しています。これは、少なくとも2つの理由から見れば、潜在的な市場規模のほんの一部に過ぎません:(1)すべての企業が3PDから利益を得ることができるはずですが、分析的に成熟した企業だけが3PDを活用する方法を知っています。(2)試みる者たちは、3PDを発見し購入するための時代遅れのプロセスによって遅延されています。この点を説明するために、広告購入プロセスについての短い回り道をしましょう。
プログラマティック広告からデータ経済を改善する方法について学ぶことができること
広告購買プロセスの進化
それほど昔ではない2014年、プログラマティック広告購買はデジタル広告費の半分以下を占めていました。当時、人々はどのように広告を購入していたのでしょうか? 彼らは広告を購入したい対象の観客をエージェンシーに伝えました。そしてエージェンシーは彼らが協力しているパブリッシャーや彼らの「在庫」(雑誌のページ、広告看板、テレビ広告枠など)を見て、要件を満たすためにキャンペーンを実施する場所の計画を立てました。交渉の後、会社とエージェンシーは最終的に契約を締結しました。広告のクリエイティブは開発、レビュー、承認されました。挿入オーダーが提出され、広告キャンペーンが実施されました。数か月後、会社はエージェンシーがどのように進行したと考えたかについてのレポートを受け取りました(小規模なサンプルデータセットに基づいて)。
そして、Googleが登場し、プログラマティック広告購買として知られるものを普及させました。Googleは独自の広告取引所(AdX)を作成し、さまざまなパブリッシャーの在庫とさまざまな広告ネットワークを接続しました。ユーザーが検索を行ったりウェブサイトを訪れたりするたびに、ウェブページの読み込みにかかる時間内でリアルタイムオークションが行われ、すべての広告主が互いに競り合い、最高入札者(実際には2番目に高い入札者)が広告を表示することが選ばれました。
こうして、広告購買は、長期にわたる手続きと限られた透明性を持つものから、リアルタイムの取引に変わり、価格(オークションを通じて)を設定するだけでなく、インプレッション(そして時にはコンバージョンさえ)の瞬時の計測を提供するようになりました。このような速度、流動性、透明性のレベルは、オンライン広告市場の急増をもたらし、プログラマティック広告購買は現在、デジタル広告予算の約90%を占めています。
時代遅れのデータ購買プロセス
実際のところ、現在のデータ購買は20年前の広告購買よりも苦痛です。
発見: まず、3PDが非常に価値があることに気づく必要があります。メールスパムの例を思い出してください。次に、1PDを補完するために使用できる可能性のあるすべての3PDを考える創造力が必要です。小売業者の収益を予測するために駐車場の衛星画像を考慮したことはありますか? 次に、必要なデータを提供しているデータプロバイダーをすべて探す必要があります。ほとんどの「データマーケットプレイス」は、実際には説明文の自由なテキスト検索です。次に、データのスキーマを見て、必要な項目が含まれているか、必要な粒度(例えば、時間ごとのフットトラフィックが必要な場合など)であるか、適切な範囲(例えば、適切な日付範囲や地理的領域のため)であるかを確認する必要があります。
調達: 必要なデータを見つけたら、そのデータをどのように調達するかを考える必要があります。単純な「クリックして購入」ではないことに驚かれるかもしれません。データプロバイダーと話し合い、データライセンスについて学び(このデータを予定された目的に使用できるかどうかを確認できますか?)、契約条件を交渉し、契約に署名する必要があります。異なるプロバイダーから異なる3PDを複数回にわたって同じプロセスを繰り返すことになりますが、それぞれが異なる契約、条件、ライセンスを持っています。そして、データを受け取るために数週間待ってください(ただし、フロッピーディスクで郵便受けに届くわけではありません)。
統合: ついに望んでいたデータを手に入れました。データエンジニアリングチームが1PDと統合するのを数週間待ちますが、実際には期待したほど有用ではないことがわかります。費やした時間とお金は無駄になり、二度と試さなくなります。または、もっと苦痛なことに、3PDが有用な改善をもたらすことを発見し、予測モデルを本番化しようとすると、毎時新しいデータが必要であり、使用したデータソースのうちの1つは週ごとに更新されるだけだということがわかります。再度試す場合、スキーマに基づいて粒度をチェックするだけでなく、リフレッシュレートも考慮する必要があることがわかります。
このプロセスには数ヶ月以上かかる場合があります。より速い手段を構築しようとする試みとして、一部のコンサルティング企業は「データソーシングチーム」を雇用し、データ集約業者との関係を築くことが解決策であると提案しています。
データ経済のためにリアルタイムなプログラマティックデータ取引所が必要です
プログラムによる広告購入の例を引用した理由は、データ経済が同様の方法で進化する可能性があり、それによって同様に深い経済的影響が生じることを強く信じているからです。
ディスカバリーと調達:すべてのデータプロバイダー(「在庫」)を一つのデータ取引所に集め、ライセンスを合理化し、プログラムを用いた取引を容易にすることができるデータ取引所を考えてみましょう。データ消費者は1PDを提供し、興味のあるタスク(たとえば需要予測)を表現し、改善の各単位にどれだけの価値を置くかを示します(需要予測の1ppの改善はAlbertsonsにとって640Mドルの価値があります)。データ取引所は、どの3PDがそのタスクに計測可能な改善をもたらすかを自動的に特定し、データ消費者の予算に基づいてリアルタイムオークションを実施し、要件を満たす3PDのサブセットを最適に選択します。この実際のタスク(および関連する価値)に近い接触により、データを商品としてではなく、経験豊かなものとして扱わなければならない既存のデータマーケットプレイスの発見と価値抽出の問題が解決されます。
継続的な統合と改善:価値のある予測タスクのほとんどは連続的な性質を持っているため(たとえば、需要を定期的に予測する必要があり、一度だけではありません)、取引所は新しいデータプロバイダーと消費者がエコシステムに参入するたびに時間とともにより多くの価値を提供する反復的な取引の中心になります。予測タスクを実行するたびに(データを購入するデータを選択するときだけでなく)、オークションを実施することで、新しいデータプロバイダーがすぐに配布範囲に入り、データ消費者は最新のデータ在庫と価格の発見を利益にすることができます。広告購入がオフラインで手動から進化したように、データ取引もリアルタイムでプログラム可能であり、何よりも計測可能であるようになるでしょう。
この「リアルタイムプログラム可能データ取引所」は、マーケットプレイスのすべての参加者に経済的なインセンティブを提供します:
- データプロバイダーと消費者の両方が発見性を向上させることができます。データマーケットプレイスには長尾の問題があります。大量かつ多様なデータがあり、既存の方法では任意のタスク/アプリケーションに最適なデータを見つけることはほとんど不可能です。
- 取引がプログラムで行われるように用語とライセンスを標準化することで、データ経済の速度と流動性が向上し、購入プロセスの摩擦がなくなり、より広範な利用者に開放されるようになります。その結果、全体の市場が大幅に拡大します。
- データ消費者ごとの主観的な価値に基づいてオークションで価格を設定することにより、同様の種類のデータの価値を異なるように評価する消費者にとってはお得な取引ができ、プロバイダーは同じ種類のデータの価値を異なるように評価する消費者に価格差別化を行うことができます。
- データ消費者からの需要を1つのプラットフォームで集約することで、データプロバイダーにとって非常に貴重な情報を提供することができます。たとえば、需要側からのすべてのタスクと支払い意思に基づいて、データ取引所はプロバイダー側から欠けているデータを正確に推測し、データの取得と作成の優先順位を付けるのに役立ちます。合成データプロバイダーの方、ご注意ください!
解決すべき難問
データの発見性と価格設定を解決するだけでなく、広告業界でGoogleが行ったように、このプログラム可能なデータ取引所はライセンスと配信の問題にも取り組む必要があります。音楽業界でSpotifyが行ったように、しかし、解決すべき難問がいくつかあるからこそ、このプログラム可能なデータ取引所は興味深く意義のある取り組みとなるのです。
商業的な問題
- データライセンスは比較的新しいものです。私の知る限りでは、データライセンスには標準化があまりありません。各データプロバイダーは独自のライセンスを持っており、他と互換性がありません。取引を容易にするためには、ライセンスの手続きを合理化する必要があります。
- データマーケットプレイスは、仲介を恐れるかもしれません。データエコシステムは複雑です。データプロバイダーにとって、これはまったく新しい流通チャネルです。彼らは発見性の問題を痛感しており、この取引所は代替データを考慮しなかったであろう何百万もの新しい消費者に市場を開放する可能性があります。一方、データマーケットプレイスや集約業者は、プログラム可能なデータ取引所へのデータプロバイダーの直接アクセスをブロックしたいと考えるかもしれません。
- 「古い」産業に新しい価格モデルを導入することは難しいです。プログラム可能な取引所の流動性メカニズムは、需要側と供給側を大幅に拡大し、価格メカニズムは価値の最適化を行います。集計されたプログラム可能なデータ取引所はデータプロバイダーにとって有利なものになるでしょう。
テクニカル
- セマンティックタイプの検出は過去にとどまっています。 データセットを自動的に結合できるかどうかを特定するには、まずデータのセマンティックタイプを理解する必要があります。 たとえば、何かは単なる数値、郵便番号、または通貨なのかを自動的に特定する必要があります。 ほとんどのセマンティックタイプの検出はヒューリスティックベースですが、より新しいアプローチもあります。
- データの探索にブルートフォースは使えません。 実際には、非常に多くのデータがあります。 タスクに最も効果的な3PDを見つけるための素朴なアプローチは、単にすべてのデータを「試してみる」ことで、どれが最も価値を提供するか特定することです。 幸いにも、情報理論やデータの要約などの分野で最近の突破口があり、この問題は取り扱い可能になっています。
- データの結合は難しいです。 セマンティックタイプがわかっており、どの3PDが有益な利益をもたらすかを特定するメカニズムがある場合、1PDと3PDを興味深い方法で結合する必要があります。 天気データには、フライト遅延を予測したい空港と一致しない天気観測所の経度と緯度が含まれている場合があります。また、フットトラフィックデータは毎時提供される場合があり、日次の集計には平均、最大値、またはnthパーセンタイルを使用するかを決定する必要があります。
- データのセキュリティ。 データプロバイダは、データが簡単に複製できるため、データを提供することを好みません。 ただし、フェデレーテッドラーニングなどの技術を使用することで、データへのアクセスとプライバシーを保護しながら予測の拡張が可能です。
私は、リアルタイムのプログラムデータ交換の影響が大きくなると信じています。幸いにも、AIの最近の進歩により、上記の課題に対する解決策が提供されています。私自身は、データが商品としてではなく、エクスペリエンスの一環としての将来に期待しています。
この投稿で表明された意見は私自身のものであり、私の雇用主の意見ではありません。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles