「企業がデータにアプローチする方法を変えるジェネラティブAIの5つの方法(そして変えない方法)」

「企業のデータアプローチを変えるジェネラティブAIの5つの方法(と変わらない方法)」

ベンチャーキャピタル、スノーフレークなどの専門家が、ジェネレーティブAIがデータチームにどのような利益をもたらし、解決すべき課題について議論しています。

画像は著者によるものです。DiffusionBeeによって生成されました。

ジェネレーティブAIは新しい概念ではありません。数十年にわたり研究され、限定的な能力で適用されてきました。それは、2022年末にChatGPTが私たちの共同意識を揺さぶりました。

それでも、ラザニアのレシピを生成することは、ビジネス全体にジェネレーティブAIの能力を組み込むことや、大規模な言語モデル(LLM)をデータエンジニアリングのワークフローに統合することとはまったく異なるプロセスです。

変化が訪れていますが、組織がデータに取り組む方法にどのような影響があるのか、そして今でも克服しなければならない課題は何なのかについて考えましょう。そのために、次のような専門家たちを集めました:

  • Kristen Werner、データサイエンスおよびエンジニアリングディレクター、スノーフレーク
  • Tomasz Tunguz、パートナー、Theory Ventures
  • Lior Gavish、共同創業者兼CTO、Monte Carlo

彼らの経験は、新しい技術の創造、多くのGenAIスタートアップの資金調達、および数千の顧客がデータからより多くの価値を引き出すためにAIを活用するのを支援することを含んでいます。

パネリスト全員が「ジェネレーティブAIのどれくらいが宣伝に過ぎないのか」というスペクトラムで50%から20%まで見積もりが異なっていましたが、この変革的な技術が今日実用的な応用があり、大きな可能性を秘めているという点では全員が一致しました。では、いくつかの共通のテーマを見てみましょう。

この記事の内容:

5つのジェネレーティブAIの利点

  • #1- データのアクセシビリティの向上
  • #2- データとチャート分析からの洞察の抽出
  • #3- 非構造化データの活用
  • #4- データパイプラインの開発の加速
  • #5- コスト削減(および収益の生成)

5つのジェネレーティブAIの課題

  • #1- 幻覚、信頼性、信頼
  • #2- 自己の問題の解決
  • #3- セキュリティとプライバシー
  • #4- インフラストラクチャとソリューションの早期
  • #5- スキルセットの変化

5つのジェネレーティブAIの利点

Gen AIに関しては、事実とフィクションを分けること、実用的な応用とスネークオイルを区別することは困難です。以下は、ジェネレーティブAIが組織やデータチームに現在および近い将来にどのように価値を提供しているか、いくつかの例です。

#1- データのアクセシビリティの向上

データの世界でのジェネレーティブAIにとって最も簡単な目標は、非技術的なユーザーが自然言語のプロンプトを入力し、特定のデータポイントを取得するためのSQLクエリを生成できるようにすることです。

「Text to SQLは至る所にあります」とTomaszは言います。「OpenAIがそれを開発しています。BIレイヤーにありますし、データ探索ツールにもあります。それは非常に簡単なものです。」

SQLクエリの自動化は、非技術的なユーザーによるデータのアクセス可能性を劇的に向上させ、その結果、価値を迅速に創出します。

「AIによって、データに詳しくない人たちが意味のあるデータ、有益な洞察にアクセスできる可能性が広がると思います」とLiorは言います。「SQLを知っている人々にとっても、そのプロセスを加速するでしょう。つまり、より多くの人々にデータを手に入れることができるようになるのです。」

Snowflakeなどのデータプラットフォームは、ジェネレーティブAIがSQLだけでなく、ユーザーとデータの体験を再構築する方法に投資しています。Kristenは、現在開発中であるデータクラウドの実験的な機能の1つについて話しました。それはLLM、SQLクエリ、およびデータの可視化をリンクさせることを目指しています。

「価値連鎖は適切なデータを生成し、それから満足のいくエンドユーザーエクスペリエンスを得るまでにかなりの時間がかかることがあります。それはプッシュ通知なのか、ダッシュボードなのか、BIレポートなのか?」と彼女は言います。「私はAIがこれらのステップのいくつかを効率化し、エンドユーザーがより良いエンドエクスペリエンスをもっと迅速により垂直に達成できるようにする能力について本当に興奮しています… 今は実現していませんが、実現すると思います。」

#2- データとチャート分析からの洞察の抽出

チャートと分析はまもなく Gen AI によって行われるかもしれません。写真は Chris Liverani 氏による Unsplash でのものです。

生成 AI は、データのクエリと可視化にとどまらず、次のステップとして洞察を抽出することで影響を与えることができます。実際、それはすでにトマシュによって採用されているプロセスです。

「ChartGPT は、データのチャート作成に特化した製品です。もし [ChatGPT] Code Interpreter で遊んだことがあるなら、それはかなりクレイジーです」と彼は言います。「公開企業のエクセルスプレッドシートを取り上げて、Code Interpreter にアップロードし、「Google の収益後の状況」を要約するように依頼すると、かなり重要な洞察が得られます。」

#3- 非構造化データの活用

すべての専門家パネリストは、生成 AI が非関係性のソースから価値を抽出するためにデータチームや組織に可能性をもたらすことに興奮していました。

「世界には非構造化データがたくさんあります。テキストや画像データは、それを分析するために専門的なスキルとツールが必要です」と Lior は述べました。「Gen AI は、テキストや画像データセットから構造を抽出し、関係データと同様に活用することができると想像できます。」

トマシュは、このプロセスを「情報の掘削」と表現しています。

「Theory [彼のベンチャーファーム] では、スタートアップに関する約10,000件のドキュメントを収集しています…。そして、約2週間前に、ジェネレーティブ RPA という領域の最初の投資メモの要約を作成しました。そのすべては、多くのテキストファイルと共にこの情報を掘削することで生み出されました」と彼は述べています。

Snowflake およびその他のデータプラットフォームは、データチームがこれを現実化する能力を加速する機能をリリースしています。

「Document AI は、Applica の買収による成果として成長しているプロジェクトであり、そのユースケースは主にドキュメントの読み取りと解釈です」と彼女は述べています。「これは人事や調達契約などのためのものです…。私が出会う顧客は、[データ] を保持しており、その価値を引き出したいと考えています。」

Document AI は、上記の Snowflake Summit で紹介されました。写真は筆者によるものです。

#4- データパイプラインの開発を加速する

生成 AI は、データパイプラインのアーキテクチャを革命化するかどうかはわかりませんが、データエンジニアがそれらをより迅速に構築および展開することは確かです。

「Gen AI は既に SQL、Python、Scala などを書くのに非常に優れています。したがって、GenAI によってエンジニアがより効果的で速くソリューションを構築できるようになるでしょう」と Lior は言います。「10倍効果的かどうかはわかりませんが、確かに20%または30%効果的であり、それは多くのチームにとって意味のあるものです。」

ただし、データモデリングやデータソースの理解は、AIによって実行される活動ではないと Lior は指摘しました。「それは将来の予測では、人間が行う活動であると思います。」

#5- コスト削減(および収益の生成)

コスト削減の環境であり、多くの組織がジェネレーティブ AI がその取り組みにどのように役立つかを優先しています。

「収益面を改善するには2つの方法があります。1つは収益面であり、これはより外向きで多くの問題に直面することになります」と Kristen は言います。「もう1つの方法は、内部のコストを削減することです…。多くの人々がAIを使用して内部のコストを削減する方法を尋ねています。そうすれば、より外向きで収益を生み出すユースケースへの道筋を築くための多くの教訓が得られるでしょう。」

5つの生成型AIの課題

AIの可能性に酔いしれてきたところで、現実的な課題と制約に冷静になる時が来ました。これらには以下が含まれます:

#1- 幻覚、信頼性、信頼

大規模な言語モデルは、幻覚を見る、つまり自信を持って誤った結果を出力することが理解されています。これは、しばしば良く考えられた議論と正しい議論を混同することがあるため、課題となることがあります。

「私たちはいくつかの課題を見てきました。たとえば、幻覚やジェンAIを一般用途ではない非常に特定の領域で動作させるための課題など…これらはまだ重要な課題であると思います」とトマシュは述べています。

しかし、幻覚だけではありません。分析ダッシュボードや機械学習アプリケーションと同様に、生成型AIモデルはアクセスするまたはトレーニングに使用される基礎データに頼るため、信頼性と信頼性はそのデータによって決まります。これらは新しい問題ではありませんが、より一般的になり、よりスケーラブルな解決策が必要とされるでしょう。

「どのデータセットを使用するか、どのように検証するか、どのようにクリーンアップするか、どのようにそれをまとめるか、ビジネスの質問に答えるために[アナリストが少なくなっている状況で]、現在存在するガバナンスの問題を悪化させることになるでしょう」とリオールは述べています。「どのデータセットが信頼できるか、どのデータセットが有用か、どのように適切なメタデータとドキュメントを持ってモデルにデータを有用にするか、どのように特定のビジネスルールをデータスタックの基盤層に組み込むのか?」

基礎データスタックは、生成型AIが基礎データを理解するための重要なガイドとなります。

「モデルに自分のビジネスを世界の他の部分がどのように理解しているかを尋ねる場合、他の部分の世界はあなたのビジネスをどのように解釈するかは知りません」とクリステンは述べています。「ビジネスロジックをデータスタックの基礎層に適用する場所はどこですか?それはすべての後続のレイヤーに提供されるでしょうか?私は、ビジネスに関連するエンティティや関係を埋め込んだビジネスロジックをデータスタックの基礎層に整理することが、[モデルの速度と精度の両方に役立つ]であろうと思います。」

#2- 自身の問題の解決

トマシュは、より広範なタスクに生成型AIを使用する際の課題について関連する経験を共有しました:

「私はプレゼンテーションの準備をしていて、特定のGitHubリポジトリのスターの成長をグラフ化したかったのです。そのためには2つまたは3つのコードの断片を作る必要がありました。したがって、ロボットに情報を取得するためのクローラーを作成するように頼みました。そして、実際にそれをプロットするための別の部分があり、それからリポジトリのリストを与えて自動化したかったのです」と彼は言いました。「それは、そのような大きな問題を個々のタスクに分解し、それを構築することが非常に困難でした。」

また、彼はGen AIモデルが間違いを犯した後、行き詰まる傾向にあることにも不満を表明しました。

「[コードが実行されない間違った道に進んだ]場合、それは自分が犯した間違いを忘れるのが非常に困難であり、改善し続けたいと思っていますが、セッションを再起動する必要があります。非常に持続的なメモリを持っています」と彼は言いました。

#3- セキュリティとプライバシー

これは、Tomaszによれば、Gen AIの普及における最大の障壁です。

「[Fortune 2000の多くの銀行や企業は]Gen AIを完全にブロックしています。多くの人々は、AI製品がAzure VPC内で出荷されるのを待っていると思います。それによって制御できるようになります」と彼は言いました。「クラウドでは、複数の顧客が同じマシン上に存在するマルチテナンシーに移行しました…LLMでは、顧客はそれを受け入れるのでしょうか、それとも顧客ごとにLLMが必要なのでしょうか?」

業界はこれらの問題を解決するための初期段階にありますが、これまでに4つの主要な方法でセキュリティとプライバシーの課題を解決してきました:

  • 禁止する
  • 定期的にLLMに「私のすべてのデータを忘れてトレーニングに使用しないでください」と伝える
  • 個人を特定できる情報を傍受するための中間層を使用する
  • リスクを受け入れる

解決策は、使用ケースによってしばしば決まります。テンプレート化されたウェブサイトを生成することは、顧客情報やクレジットカードが処理される顧客サービスほどリスクが少ないです。

そしてもちろん、関連するxkcdのSQLインジェクションの話題が出てこなければ、生成型AIの議論ではありませんでした。

#4- インフラストラクチャーとソリューションにおいてはまだ早い段階です

ガバナンス、信頼性、セキュリティなど、他の生成型AIの課題に対処するためには、現在はまだ存在しない堅牢なインフラストラクチャーが必要です。

「インフラストラクチャーとソリューションの側面では、まだ初期段階です。現時点では、Gen AIについて話すとき、ほとんどの人にとってはOpenAIのAPIを使用することを意味します。一部の人々はいくつかのオープンソースモデルやベクトルデータベースで遊んでいるかもしれませんが、それに関連するツールはまだかなり初期段階だと思います」とLiorは述べています。

分類とアクセス制御は、サポートインフラストラクチャーが役立つ他の2つの課題です。

「データの分類は難しい問題です。アクセス制御とスケールで考えると、分類の理解をすでに持っている必要があります」とKristenは述べています。「この領域には多くの時間を費やしており、Snowflakeにもネイティブの機能がいくつかあります。

個人識別情報(PII)を特定するのは実際にはそんなに難しくありませんが、企業内部で取引秘密や顧客データが何を構成するのかを考えると、カスタム分類器の作成を可能にすることに焦点を当てていると思います。なぜなら、宇宙は無限であり、取引秘密や顧客データの構成要素は会社によって変動するからです」と述べています。

#5- スキルセットの変化

議論は、新興の生成型AIスキルセットへの需要と、これらの大規模な言語モデルを企業全体に展開することによって生じる労働力の変化について中心に展開されました。

大きな勝者はデータチームであり、特に異なる生成型AIモデルの評価や微調整のために彼らのサービスへの指数関数的な需要が見込まれます。

「私は、責任の一部はデータチームに移行すると思います。彼らは出力が正確であり、使用されているソリューションがビジネスに適用される規制との適合性を確保する必要があります」とTomaszは述べています。「そして、彼らは最初の評価から継続的なメンテナンスまで責任を負う人々になるでしょう。だから、データチームは成長するでしょう。」

Liorは、過去の技術の進歩から、データの価値をより多く生み出すために、データの人々が減るのではなく増えることが予想されると指摘しました。

「私たちは過去に何度もソフトウェアでそれを見てきました。アセンブリからより生産的なPythonに進んできました。しかし、それはソフトウェアエンジニアが少なくなったことを意味しましたか?いいえ、むしろ彼らは増え、世界中にソフトウェアが増えたと思います。そして、それは将来の予測においても同様だと私は思います」と彼は述べています。

Kristenは、成長する需要に対する課題の1つはスキルギャップを埋めることだと強調しました。

「私が見てきた勢いは、OpenAIの前の時代にもっと多くの人々がSQLを使えるようにすることでスキルギャップを埋めようとしているように思います。インフラストラクチャーやモデルなど、私たちがLLMで話したすべてを管理することは、より深いスタックになっています…それはSQLアナリスト以上のものではなく、異なるパーソナリティです」と彼女は述べています。

データチームにとって興奮の時

専門家パネルが明確に示したように、生成型AIは組織がデータについて考え、価値を抽出する方法に大きな影響を与えるでしょう…ただし、それはTwitterの投稿が示唆するよりも少し時間がかかるかもしれません。

データの領域である今、これらの重要な課題を解決する機会を持つことは興奮するものです。

お読みいただきありがとうございました! VoAGIで私のデータエンジニアリング、データ品質、関連トピックについてのさらなるストーリーをフォローしてください。 メールで私のストーリーを受け取るためにサブスクリプションをしてください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more