「データの必要量はどのくらいですか? 機械学習とセキュリティの考慮事項のバランス」

『データ量の適切な範囲はいくつ必要ですか?機械学習とセキュリティの考慮』

データサイエンティストにとって、データは多いほどいいものはありません。しかし、組織のコンテキストを広く見ると、目標と他の考慮事項をバランスさせなければなりません。

Trnava Universityによる写真

データサイエンス vs セキュリティ/IT:進化の闘い

データサイエンティストとして、データの獲得と保持は私たちの精神的エネルギーの大部分を占めています。データサイエンティストに「この問題を解決できますか?」と尋ねると、ほとんどの人は「データはありますか?」という最初の質問をし、「どれくらいのデータがありますか?」と続けます。私たちはデータを収集したいのです。なぜなら、それは私たちがしたい種類の作業の前提条件であり、貴重なモデルや有益な結果を生み出すために必要だからです。私たちはそのデータを掘り下げ、実際に何がそこに含まれているのか、それがどのように生成または収集されたのか、またそれから一般化できる結論を導き出すために学びたいのです。

しかし、データプライバシーの観点を真剣に考えると、私たちの習慣や選択肢は異なる文脈に置かれます。データサイエンティストの本能や欲望は、データプライバシーやセキュリティのニーズとしばしば対立します。モデルを構築するためにデータベースやデータウェアハウスへのアクセスを得るために戦ったことのある人なら共感できるでしょう。私たちの仕事を行う上で、非常に過度に注意が払われるような障壁が立ちはだかるような感じがするかもしれません。結局、データを持っているのは学ぶためにモデル化するためなのではないでしょうか?私たちの主要な目標がプライバシーやセキュリティの領域にあり、データレイクを探索することと競合する部門を時には悪者扱いすることさえあります。

しかし、現実には、データサイエンティストは常にヒーローというわけではなく、ITおよびセキュリティチームも悪者というわけではありません。私たち両者は重要な目標に取り組んでおり、その追求において少し狭視野になることもあります。両者の立場を見ることで、お互いの利害関係と緊張を理解するのに役立ちます。

データサイエンスの視点

データサイエンスの視点からすると、大量のデータが必要なことはよくあります。一般化可能なモデルを構築するには、本番で対応する必要のあるデータの種類の多くの例が必要です。何十万、何百万ものケースを探し求めることは、全く非現実的な量ではありません。しかし、この作業を本当に成果に結び付けるには、データサイエンティストはそのデータを徹底的に調査する必要があります。大量のデータを持つことは素晴らしいことですが、それが本当に何を表しているのか、その起源と純度が分からない場合、効果的なデータサイエンスの実施には困難が伴います。

セキュリティの視点

一方、セキュリティを重視した視点で考えると、特にデータの保管システムやデータに影響を及ぼすプロセスが複数存在する場合、データ漏洩のリスクは大きくなります。基本的に、データが多ければ多いほど、一部のデータが欠落したり、不適切な人物によってアクセスされる可能性が高くなります。さらに、多くの人がデータにアクセスできる場合、人間が技術システムにおける最も大きなリスク要素であるため、データ漏洩やデータ損失の機会も増えます。

では、これは一体何を意味するのでしょうか?私は中間地点が必要であると主張します。データがたくさんあるほど、私たちは実際にはそれを深く理解するために取り組んでいない可能性が低くなりますし、現在の時間とツールでは理解することもできないかもしれません。ただ何でもかんでも蓄積してしまうと、全てのデータを理解することが不可能になり、同時に漏洩リスクが最も高くなります。何も保存しないか、不十分に保存すると、データサイエンスが提供する素晴らしい価値にアクセスすることが不可能になります。

したがって、この中間地点がどこにあるのかを見つける必要があります。データエンジニアリングとデータ保持のベストプラクティスは存在しますが、即興で多くの決定をする必要もあります。データ保持と使用について考える原則を持つことは、このような状況で私たちを導くために重要です。

制度的考慮事項

データ管理の話題について話している最中に、最近新たな役割をスタートさせました!私はDataGrailという会社の初の上級機械学習エンジニアです。DataGrailは、企業が顧客データを保護し管理するためのB2Bサービスの一連の提供を行っています。このことにより、データの保存とプライバシーに関する問題が私の頭の前面に浮かび上がり、自身のキャリアの中でさまざまな成熟度レベルの企業での経験と、彼らがデータを扱う方法について考えさせられました。

企業がデータの貯め込み屋になることは非常に簡単です。データが不足している状態から始まり、目的決定や戦略策定のために取引や業務活動などのデータを収集していきます。まだ機械学習を行っていなくても、将来の潜在能力が見えるし、準備をしたいと考えるでしょう。ですから、データシステムを構築し、テーブルやトピックにデータを詰め込んでいくのは合理的であり、むしろ重要なことです。

しかし、これは持続可能な手法ではありません。数年が経過すると膨大な量のデータが溜まってしまうかもしれません。おそらく、SnowflakeやAWSのようなクラウドストレージプロバイダーにスケールアップする必要があり、必要なペースでこのデータをアクセス可能にすることが求められるかもしれません。もちろん、データを使用しているでしょう!もしかしたら、機械学習プログラムを開始したか、あるいは高度な分析やビジネスインテリジェンスを行っているかもしれません。これらは、うまく実施されればビジネスの効果を大いに高めるでしょう。ただし、インフラストラクチャのコストについて考え始め、おそらくビーストを管理するためのデータエンジニアリングスタッフを雇う必要が出てくるでしょう。

残念ながら、以前は十分に把握していたデータであっても、今ではよくわからないデータが蓄積されてしまいました。ドキュメントは更新されなくなってしまうか、全く存在しなかったかもしれませんし、かつてシステムを構築したスタッフも離職してしまっているかもしれません。このテーブルはどういう意味ですか?その列の由来は何ですか?解釈できないデータは、理解できないデータからは効果的に学ぶことができないため、ほとんど価値が生まれません。

この時点で意思決定をしなければなりません。データシステムの将来を戦略的に計画するためにどうしますか?コストが急上昇することを防ぐために、おそらくデータアーキテクチャに取り組む必要がありますが、データの保持はどうしますか?すべてのデータを永久に保持しますか?もしそうでない場合、何をどのタイミングで削除しますか?ただし、ビジネスの意思決定と製品をサポートするためには、効果的な機械学習と分析機能を持つためにかなりの量のデータを保持することは譲れない要件です。すべてを捨ててこのような騒ぎを避ける、という選択肢はありません。

同時に、このデータを持つことに適用される規制や法的枠組みについても考える必要があります。一部の管轄区域では、顧客が自分に関するデータをすべて削除するよう求める場合、あなたはどうしますか?多くの組織は、これに真剣に取り組むことはありませんでしたが、すでに遅すぎるまでそうしませんでした。これについて前もって対処するためには、データアーキテクチャを後から追加して、このデータが対象とする規制要件を処理できるようにするという困難な課題が待ち受けています。

規制についてちょっと余談

最近のデータセキュリティ規制の増加により、企業にとって私が説明したシナリオの課題が増えています。ある意味では、私たち自身の行動が原因です。過去数年間にわたり、様々な企業がデータ侵害やセキュリティの甘さ、透明性のない同意ポリシーを行ってきたことが、一般の要求につながり、政府が穴を埋めた結果です。ブランドの信頼性と安全性だけでは、多くの企業がデータ保護に関して船を固める動機にならなかったようです。私にとっては、個人データと機密情報の適切な保護が保証されるために法律が必要だということは理解しています。

しかし、データサイエンティストとして、このコラムで最初に議論した緊張感を認識しなければなりません。私はすべてのデータを求めており、自由に探求することができるようにしたいのです。なぜなら、それが私の仕事を効果的に行う方法だからです。しかし、私はまた、顧客であり市民でもあります。私のデータを慎重に保護してもらいたいのです。機械学習の約束と力が、あなたやあなたの習慣に関するデータから進歩をもたらしていることを考えると、それは少し明確ではなく感じられます。この役割は、直接的にセキュリティではないため、達成しやすいですが、消費者としての私の嗜好については十分に強い意識を持つ必要があります。

私のアドバイスは、私たちは消費者/セキュリティの視点とデータサイエンティストの視点の両方を手元に置いておくことです。機械学習のためのデータ蓄積と顧客のプライバシーとデータセキュリティのためのデータ保持のバランスを保つ必要があります。「どれくらい保持すべきか」という質問に対する完璧な答えはないため、データストレージに関するすべての決定で両方の利益を調整するしか選択肢はありません。

私は休暇のためにこのコラムを一時的に休みますが、1月中旬に次の記事で戻ってきます。

私の他の作品はwww.stephaniekirmer.comでご覧いただけます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more