「データアクセスはほとんどの企業で大きな課題であり、71%の人々が合成データが役立つと考えています」

Data access is a major challenge for most companies, with 71% of people believing that synthetic data is useful.

スポンサードポスト

 

MOSTLY AIは、データサイエンスAI/MLコミュニティで初めてのシンセティックデータ調査を実施しました。私たちの目標は、2023年のシンセティックデータの状況を把握することです。企業がAI/MLを成功裏に採用しスケールさせるのをまだ妨げているものは何でしょうか?AI生成のシンセティックデータの概念はどれくらい理解されていますか?AI/MLビルダーが助けが必要なのはどのようなデータの課題ですか?2023年におけるデータアクセスはどのように機能していますか?シンセティックデータはデータのギャップを埋めることができるのでしょうか?技術者がどれくらい早くこの技術を採用するのでしょうか?

調査はVoAGI、データサイエンス、機械学習、AI、アナリティクスコミュニティとの協力のもと、300人以上の参加者を対象に2023年の上半期に実施されました。

 

2023年のデータアクセスとシンセティックデータの状況

   

要約すると、平均してAI/MLモデルのうちのわずか15%が本番環境で稼働しています。AI/MLプロジェクトの失敗の理由については、35%がAI/MLの才能の不足を挙げ、28%がデータアクセスの不足を非難しました。回答者の61%が品質の高いデータにアクセスするまでに数か月かかると述べ、71%がシンセティックデータがAI/MLプロジェクトの成功に必要な欠けている要素であると同意しました。

2023年のシンセティックデータの状況は、生成AIのハイプとAIパワードテクノロジーの普及に強く影響を受けています。MOSTLY AIでは、ChatGPTが一般的になったことにより、問い合わせや一般的な照会の数が急増しています。

人々は日常の業務でAIを活用することに興奮し、生成AIの力を通じて構造化データの代替手段を求めています。LLMは完全に異なる存在ですが、事前学習済みのモデルと教師あり学習を使用したAIパワードのシンセティックデータ生成器は、元のデータの代わりに使用できる代表的なシンセティックデータへのデータアクセスを提供することができます。シンセティックデータは、データアクセスの民主化と特定の目的に合わせたデータセットの拡張において、プライバシーを保護する方法を提供します。その結果、データへのアクセス時間が短縮され、データアクセスが容易になり、データサイエンスのタスクが自動化されます。

シンセティックデータ生成器は、データサイエンティストからAI/MLエンジニアまで、構造化データを扱う人々に既に助けを提供しています。しかし、このカテゴリーはどれくらい理解されており、フルスケールの採用はどれくらい進んでいるのでしょうか?

MOSTLY AIのCEOであるTobi Hannは次のように述べています。

シンセティックデータプラットフォームは、あらゆる業界でデータに基づくAI/MLの開発方法とも働き方を変えています。銀行、保険、医療など、多くの機密データやビジネスクリティカルなデータが扱われる分野で、最も高い採用率が見られます。今年はシンセティックデータの領域で興味がさらに拡大しており、少なくとも一部はChatGPTが生成AIのシーンにもたらした注目によるものだと思います。

 

しかし、データアクセスは多くの組織にとって課題となっており、プライバシーへの懸念は以前よりも切迫しています。AIを採用しスケールさせるという緊急性は、あらゆる業界で実感されていますが、データのプライバシー問題やシンセティックデータといったプライバシーを向上させる技術に対する認識の不足が、多くの企業がAIをサポートする作業やサービスに資本化することを妨げています。

 

なぜAI/MLプロジェクトは具体化しないのか

  AIパワードツールを技術スタックに取り入れる人々が増える一方で、AI/MLモデルの大規模な展開はまだ限られた特権です。進展は見られますが、AI/MLを本番環境に移行することはまだ困難です。それでも、企業はこれを実現するために今まで以上に必死です。AIや洗練されたMLを開発しスケールさせるプロジェクトは数年前はまれでしたが、今では誰もが新たな緊急性を持ってこれらのプロジェクトを具体化しようとしています。その野心にもかかわらず、成功はまだ簡単には訪れません。

私たちは、AI/MLプロジェクトが具体化しない理由を調査対象者に尋ねました。回答者の35%がAI/MLの才能の不足を挙げ、28%がデータアクセスの不足を非難しました。これらの問題を解決することは容易なことではありませんが、私たちはAI生成のシンセティックデータが両面で役立つと心から信じています。

 

データアクセス:最大のボトルネック

   

アンケートで収集された最も衝撃的なデータは次のとおりです:回答者のわずか18%しか、品質の高いデータへのアクセスに問題がないと答えていませんでした。20%の人にとっては数週間、61%の人にとっては数ヶ月もデータアクセスに時間がかかっています。データ中心のプロジェクトがなかなか進展しないのも当然です。

OpenAIは公開されているコーパスでLLMをトレーニングすることは簡単ですが(もちろん著作権の問題は保留中です)、一般のデータチームにとっては社内のデータ資産すらも内部ポリシーによって制限され、データのマスキングによって破壊され、特定のユースケースでしか利用できない状態になっています。企業がAI競争についていくためには、これは速やかに変わる必要があります。AI/MLの専門知識やドメイン知識を成長させるためにも、AI/MLの専門家もデータにアクセスする必要があります。

おもちゃのデータセットだけでは限界があります、特にデータサイエンスの旅を始め、仮説をテストしたい場合です。社内の人材育成と市民データサイエンティストの台頭は、意味のあるデータ民主化の取り組みなしでは実現できません。これはまた、データアクセスの問題でもあります。

 

AI/MLパズルの欠けている一部分

   

 

332人のアンケート回答者のうち72%が、次の数年以内にAIを活用した合成データジェネレーターを使用する予定であり、ほぼ40%が次の3ヶ月以内に使用する予定です。ほとんどの人々がデータ拡張を主なユースケースとして挙げています(46%)。興奮は高まっていますが、調査結果は合成データの利点、制限、およびユースケースについてデータコミュニティに対する教育の必要性を強調しています。

 

誤解は広範囲に広がっています、AI/MLの専門家でも

  「合成データ」という用語についてはまだ多くの混乱があります。回答者の59%が、ルールベースとAI生成の合成データの違いを知りませんでした。これは、合成データ企業がデータ消費者に教育責任を負っており、実際のデータセットの合成バージョンを使用する際の取り組み方やそれをうまく行う方法を直接学ぶ必要があることを示しています。MOSTLY AIの合成データプラットフォームのような、使いやすいUIとAPIオプションを備えた無料で堅牢な合成データジェネレーターは、一般の人々に教育を行う可能性が最も高いです。

「私たちは人々に教育をする必要があります。私たちは合成データと日々の仕事をしているので、関連する知識は当たり前のように扱っていますが、深いレベルまで話が進むと、時にはエンジニアでさえ合成データ生成の方法や解決できるユースケースについての基本的な誤解があることに気付きます。私たちの最優先事項は、人々が合成データ技術と日常のタスクを実際に手に入れることであり、私たちが考えていなかった合成データの使い方を見つけることさえもあります」とTobi Hannは語りました。

 

合成データのポテンシャル

  49%の回答者は、データ匿名化のためにデータマスキングを使用していると回答しました。20%は、データセットからPIIを単純に削除しています- これはプライバシーの観点からだけでなく、高品質なトレーニングデータに必要なデータの有用性も損なう危険なアプローチです。同様に、同型暗号化、AI生成の合成データなどのプライバシー強化技術は31%を占めています。

データの匿名化やデータの準備については、成長し習慣を変える余地があることは確かです。MOSTLY AIのチームは引き続き合成データのトレンドに注意を払い、来年も調査を繰り返します。合成データに関する最新の研究結果や規制、ビジネスの側面など、最新のニュースについて知りたい場合は、月刊合成データニュースレターに登録してください!

会社でデータアクセスを加速し、最新のデータ拡張機能を試してみたい場合は、MOSTLY AIの使いやすく安全な合成データプラットフォームへの無料アカウント登録を行ってください。私たちのチームは、合成データ生成の可能性を最大限に引き出すためにアプリから直接サポートを提供します。  

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more