「非構造化データファンネル」

「美容とファッションのエキスパートによる非構造化データファンネル」

どこまで下げるかで支払額が決まります。Ricardo Gomez Angel氏の写真、Unsplashより

ファネルはデータの主要プレーヤーの攻防戦の中心なのか

紹介

非構造化データはさまざまな形式を取ります。通常、テキストが中心ですが、日付や数字、辞書などのデータも含まれることがあります。データエンジニアは普段、非構造化データを深くネストされたJSON形式で遭遇します。ただし、「非構造化」データとは非表形式のデータ全般を指すことが多く、実際には世界のデータの80%以上が非構造化であると言われています。

非構造化データは私たちデータ専門家には無害に思えるかもしれませんが、マクロレベルでは大きな波紋を広げています。実際、GPTモデルは非構造化データで訓練されています。これはTomasz Tunguz氏がSnowflakeの収益コールについて最近の記事で正しく指摘したことです:

Tomasz Tunguz氏の「Snow Angels」より

財務およびマクロ経済の文脈で非構造化データを見るのは奇妙に思えるかもしれません。私の最初の仕事は投資銀行であり、そのようなことを読むと懐かしく感じます。非構造化データは成長エンジンかもしれません – 本当に大きな市場の追風のようです!

ただし、パワーポイントのボックスを整列する作業は随分と経ってしまいました。概念的には、非構造化データは現在、深く入れ子にされたJSONで処理を待っているということです。ただし、収益コールから明らかなように、非構造化データは今ではJSONだけではなく(以前からではありましたか?)、テキスト、ドキュメント、動画などの形式も含まれるのです。

今回明らかになったのは、このデータが将来重要なユースケースに利用されること、そしてデータ業界の2大プレーヤーであるDatabricksとSnowflakeにとって、どこで処理されるかが最も重要な要素であるということです。それでは、詳細を見てみましょう。

なぜ非構造化データは重要なのか?

GPTモデルはデータに基づいています。具体的には、彼らは非構造化データを利用しています。これにはテキストドキュメント、HTMLファイル、コードスニペットなどが含まれます。企業が本番環境でLLMsを導入することをますます検討するにつれて、このデータの処理の価値は需要の増加に伴い増加しています。したがって、SnowflakeやDatabricksなどのベンダーにとっての価値も上がっていくのです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more