アステラソフトウェアのCOO、ジェイ・ミシュラ

Jay MishraはAstera Softwareの最高執行責任者（COO）であり、急成長中のエンタープライズ向けデータソリューションの提供業者です。彼らはユーザーフレンドリーでハイパフォーマンスなデータ抽出、データ品質、データ統合、データウェアハウジング＆電子データ交換ソリューションを提供し、中規模企業からフォーチュン500社までの幅広い業界で利用されています。

コンピュータサイエンスに最初に興味を持ったきっかけは何でしたか？

私は数学のバックグラウンドから来ています。実際に、私は数学とコンピュータサイエンスの学士号を持っています。最初から数学に魅了され、それは論理と数学の拡張であり、コンピュータサイエンスに入るためのものでした。だから、私は学士課程で教育を受けました。そして、アルゴリズムがどのように機能するか、高度なアルゴリズムなど、コンピュータサイエンスの特定の領域が非常に魅力的でした。私はその領域で専門化をしたかったので、アルゴリズムに特化したコンピュータサイエンスの修士号を取得しました。それ以来、非常に密接な関係があり、私はまだフィールドの最新情報を把握しています。

現在、AsteraのCOOを務めていますが、日々の役割について共有していただけますか？

私の正式な役職はCOOです。私たちは成長モードにありますが、長い間製品を構築してきましたし、会社の異なる領域すべてに関与してきました。実際に製品をコーディングする製品を構築することから始まり、機能が顧客の要件を満たしていることを確認し、顧客との緊密な連携、そして営業とマーケティングも含まれています。それがその延長のようなものです。

最初からほぼすべての領域に関与しており、現時点では、収益目標を達成し、市場を拡大するために適切な機能と製品を追加していることを確認するなど、その他の責任もあります。それは、ビルディングとマーケットへの導入というコア責任に加えての追加の責任です。

この用語に馴染みのない読者のために、データウェアハウジングとは何ですか？

データウェアハウジングは、エンタープライズデータを一元化して、ビジネスの現状を示す分析やダッシュボードを生成するためのアーキテクチャパターンです。ビジネスの将来の予測にも役立ちます。データを一元化するために、データを特定の方法でまとめ、そのアーキテクチャはデータウェアハウスと呼ばれます。

実際の生活の倉庫から取られた用語であり、製品を持ち込んで整理し、データを保存するために使用する棚がありますが、データの世界では、データをさまざまなソースから持ち込みます。製品データ、ウェブサイト、顧客、営業とマーケティング、財務部門、人事部門からデータを持ち込みます。すべてのデータを一元化し、1つの場所に持ち込み、それがデータウェアハウスと呼ばれるものです。時間軸に基づくレポートが容易になるように、特定の方法で設計されています。それがデータウェアハウスの核心目的です。

現在のデータウェアハウジングの主なトレンドは何ですか？

データウェアハウジングは過去20〜25年でかなり進化してきました。約10年前、データモデルの構築、データウェアハウスの構築、およびポピュレーションにソフトウェア製品を使用する自動化データウェアハウジングが始まり、過去2〜3年間でかなり加速しました。焦点は自動化にあります。既にパターンは分かっています- パターンは長い間存在しており、パターンは繰り返されます。繰り返しのタスクが多くあり、自動化の目標は、ユーザーが繰り返しの前に時間を費やす必要がないようにすることです。それらのタスクは既に定義されているため、自動化ツールを使用してそれらを処理できます。これにより、データウェアハウスの構築と維持に費やされる時間とリソースが減少します。自動化は、過去数年間で主要なトレンドであり、デザインからデータウェアハウスの構築、データのロードとメンテナンスまで、すべてを自動化できます。

私たちの製品は、ETLパイプラインとデータモデリング、およびスタースキーマやデータウォールにデータを自動的にロードし、CDCを使用してメンテナンスすることができる製品の1つです。それが主なトレンドの1つであり、最近のトレンドの1つは、人工知能の追加を行い、AI、特に生成AIを使用して自動化をさらに向上させることです。データウェアハウジングアーティファクト、パイプライン、およびユーザーがどの方法を選択すべきか、選択ポイントのいくつかについての設定を人工知能を使用して対応することができます。最近、人工知能とデータウェアハウジングの間には多くの交差点が見られ、1年ほど前から非常に良い状況でした。

ビジネスがデータウェアハウスの開発に考慮すべき四つの基本原則は何ですか？

どのようなデータが必要ですか？
アーキテクチャのパターン
ツールセット
チーム

企業がモダンなデータスタックを必要とする理由は何ですか？

それは「モダン」という言葉の定義によって異なります。そして、それは年々、月々、そして最近では日々変化しています。私は、私たちが受け取っている新時代のデータの要件を考慮して設計されたモダンなツールセットは、過去数年間で変化してきたと言えます。そして、もちろんその量も変化しています。今ではビッグデータがあり、あなたのECサイト、製造データベース、そしてビジネスのさまざまな領域に送信されるデータなど、データの性質自体も変わっています。以前はほとんど構造化データでしたが、今では非構造化データが多くなってきています。そのため、データの速度も変化しています。

データが生成される速度、データが利用可能になる速度、そしてデータの性質が変化しているため、私たちは常に最新のツールセットを見つめ続けなければなりません。

新しいデータスタックまたはモダンなデータスタックは、データの構造と速度の変動に対応するために設計されており、過去数年間に出現した新しいアーキテクチャのパターンに対応しています。また、データの世界で起こっている進歩に基づいています。

データを最大限に活用したい場合、データスタックを近代化する必要があります。これが新しいデータの課題に追いつく唯一の方法です。

さらに、私たちは時々解決策を作成することが問題を解決する方法であることを発見しましたが、データ自体の性質は常に変化するため、変化に対応する必要があります。既存の解決策ではそれを行うことができないこともあるため、進歩を見つめ続け、それに追加していく必要があります。

業界で見られる現在のデータ管理の課題は何ですか？

スピード
さまざまなデータ形式
データの公開

Asteraは顧客のワークフローにAIをどのように統合していますか？

Gen AIを使用して使いやすさを向上させる
RMや他のモジュールでのAIの統合
AI機能をツールセットとして使用する

大企業のデータ管理においてAIとMLモデルを活用するためのベストプラクティスは何ですか？

大規模言語モデルの領域はまだ進化中であり、非常に急速に進化しています。私たちはこの領域の最初の利用者であり、自社製品の使いやすさを向上させるために生成型AIを使用し、特定のユースケースに対応しようとしました。私たちは内部でOpen AIを使用し、現在はLamaなどの他の大規模言語モデルとも使用しています。

このLLMSの微調整を使用することで、80億から130億パラメータのモデルなど、小規模なモデルをローカルに展開することができます。これは私たちにとって非常にうまく機能しているものであり、私たちはお勧めします。単に他のモデルを取得するだけでなく、さまざまなベースモデルと構成を試して、どれが最適かを見つけることをお勧めします。

私たちが行っているのは、開発者やデータサイエンティストがオープンソースライブラリで作業し、独自のデータサイエンスの旅を経験するときに利用できるものをすべて私たちの製品に取り込んだ設定を作成しています。

さまざまな大規模言語モデルとさまざまな構成を試し、テストし、展開し、あなたのシナリオに合ったものを見つけることができます。私たちの経験からは、モデルを微調整してローカルに展開することをお勧めします。それはAPIに依存するよりも優れていると言えます。なぜなら、APIには遅延があり、データ中心の製品にとっては許容できないからです。特に大量のデータの場合、問題になります。

オープンソースライブラリのすべての可能なオプションを試して、微調整されたモデルを保持し、シナリオに合わせてカスタマイズすることをお勧めします。

Asteraが競合プラットフォームよりも優れたソリューションである理由は何ですか？

使いやすさ（コードフリーでのドラッグアンドドロップのUI、およびAIを使用した使いやすさの向上）
自動化
統合されたエンドツーエンドのデータ管理プラットフォーム

素晴らしいインタビュー、さらに学びたい読者の皆様は、Astera Softwareをご覧ください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

asteradata warehousingInterview

Was this article helpful?

93 out of 132 found this helpful

アステラソフトウェアのCOO、ジェイ・ミシュラ – インタビューシリーズ

Was this article helpful?

高度なPython：関数

「Excelでウォーターフォールチャートを作成する方法」

データサイエンス