「非構造化データファンネル」
「美容とファッションのエキスパートによる非構造化データファンネル」
ファネルはデータの主要プレーヤーの攻防戦の中心なのか
紹介
非構造化データはさまざまな形式を取ります。通常、テキストが中心ですが、日付や数字、辞書などのデータも含まれることがあります。データエンジニアは普段、非構造化データを深くネストされたJSON形式で遭遇します。ただし、「非構造化」データとは非表形式のデータ全般を指すことが多く、実際には世界のデータの80%以上が非構造化であると言われています。
非構造化データは私たちデータ専門家には無害に思えるかもしれませんが、マクロレベルでは大きな波紋を広げています。実際、GPTモデルは非構造化データで訓練されています。これはTomasz Tunguz氏がSnowflakeの収益コールについて最近の記事で正しく指摘したことです:
財務およびマクロ経済の文脈で非構造化データを見るのは奇妙に思えるかもしれません。私の最初の仕事は投資銀行であり、そのようなことを読むと懐かしく感じます。非構造化データは成長エンジンかもしれません – 本当に大きな市場の追風のようです!
ただし、パワーポイントのボックスを整列する作業は随分と経ってしまいました。概念的には、非構造化データは現在、深く入れ子にされたJSONで処理を待っているということです。ただし、収益コールから明らかなように、非構造化データは今ではJSONだけではなく(以前からではありましたか?)、テキスト、ドキュメント、動画などの形式も含まれるのです。
- LLM説明性への道:なぜ私のモデルはこの出力を出したのか?
- 『Amazon SageMaker を使用して、Talent.com の ETL データ処理を効率化する』
- 「AI戦略にデータ管理を実装する方法」
今回明らかになったのは、このデータが将来重要なユースケースに利用されること、そしてデータ業界の2大プレーヤーであるDatabricksとSnowflakeにとって、どこで処理されるかが最も重要な要素であるということです。それでは、詳細を見てみましょう。
なぜ非構造化データは重要なのか?
GPTモデルはデータに基づいています。具体的には、彼らは非構造化データを利用しています。これにはテキストドキュメント、HTMLファイル、コードスニペットなどが含まれます。企業が本番環境でLLMsを導入することをますます検討するにつれて、このデータの処理の価値は需要の増加に伴い増加しています。したがって、SnowflakeやDatabricksなどのベンダーにとっての価値も上がっていくのです。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles