「MITの研究者が、おそらくほぼ正確な(PAC)プライバシーによる機械学習モデルのプライバシー保護において、ブレークスルーを達成」

MITの研究者が、PACプライバシーによる機械学習モデルのプライバシー保護において、ブレークスルーを達成

MITの研究者たちは、機械学習モデル内にエンコードされた機微なデータを保護するという課題について、大きな進歩を遂げました。科学者のチームは、肺スキャン画像から患者ががんを持っているかどうかを正確に予測できる機械学習モデルを開発しました。しかし、このモデルを世界中の病院と共有することは、悪意のある者によるデータ抽出の重大なリスクを伴います。この問題に対処するため、研究者たちは、PACプライバシーという新しいプライバシーメトリックを導入し、機微なデータを保護するために必要な最小限のノイズを決定するフレームワークを開発しました。

従来のプライバシーアプローチ(ディファレンシャルプライバシーなど)は、大量のノイズを追加することで特定のデータの使用を区別できなくすることに焦点を当てていますが、これによりモデルの精度が低下します。PACプライバシーは、ノイズが追加された後も、敵対者が機微なデータの一部を再構築する難しさを評価するという異なる視点を持っています。たとえば、もし機微なデータが人間の顔である場合、ディファレンシャルプライバシーは敵対者がデータセット内の特定の個人の顔を特定することを防ぎます。一方、PACプライバシーは、敵対者が特定の個人の顔として認識できる近似のシルエットを抽出できるかどうかを探求します。

PACプライバシーを実装するために、研究者たちは、モデルに追加する最適なノイズの量を決定するアルゴリズムを開発しました。このアルゴリズムは、敵対者の視点から元のデータの不確実性またはエントロピーに依存しています。データをサブサンプリングし、機械学習のトレーニングアルゴリズムを複数回実行することで、アルゴリズムは異なる出力間の分散を比較し、必要なノイズの量を決定します。分散が小さいほど、より少ないノイズが必要とされます。

PACプライバシーアルゴリズムの主な利点の1つは、モデルの内部動作やトレーニングプロセスの知識を必要としないことです。ユーザーは、敵対者が機微なデータを再構築する能力に関する所望の信頼レベルを指定し、アルゴリズムはその目標を達成するための最適なノイズの量を提供します。ただし、アルゴリズムはモデルにノイズを追加することによる精度の損失を推定しません。さらに、PACプライバシーを実装することは、さまざまなサブサンプリングされたデータセットでの繰り返しトレーニングにより、計算上の負荷が高くなる可能性があります。

PACプライバシーを強化するために、研究者たちは、サブサンプルの出力間の分散を減少させることで安定性を高める機械学習のトレーニングプロセスを変更することを提案しています。このアプローチにより、アルゴリズムの計算上の負担が軽減され、必要なノイズの量が最小限に抑えられます。さらに、より安定したモデルは一般化エラーが低くなり、新しいデータに対するより正確な予測が可能となります。

研究者たちは、安定性、プライバシー、および一般化エラーの関係についてさらなる探索が必要であることを認識していますが、彼らの研究は、機械学習モデルにおける機微なデータの保護に向けた有望な一歩を示しています。PACプライバシーを活用することで、エンジニアは実世界のアプリケーションにおいても精度を維持しながらトレーニングデータを保護するモデルを開発することができます。必要なノイズの量を大幅に削減する可能性があるため、この技術は医療分野やその他の分野での安全なデータ共有の新たな可能性を開拓します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

アリババAIは、Qwen-1.8B、Qwen-7B、Qwen-14B、Qwen-72B、およびQwen Chatシリーズを含むQwenシリーズをオープンソース化しました

最新モデルを持つ Alibaba Cloud の Qwen シリーズのオープンソース AI モデルを使用して、AI 技術の可能性をさらに押し上げ...

データサイエンス

マイクロソフトの研究者たちは、ラベル付きトレーニングデータを使用せずにパレート最適な自己監督を用いたLLMキャリブレーションの新しいフレームワークを提案しています

最近の進展により、大規模言語モデル(LLM)の能力が著しく向上しており、生成事前トランスフォーマー(GPT)モデルは大きな...

機械学習

このAIニュースレターは、あなたが必要とするすべてです#71

今週、ジョー・バイデン大統領は人工知能の規制を再び注目させるために、人工知能の監督を目的とする行政命令に署名しました...

機械学習

「ニューラルネットワークの多様性の力を解き放つ:適応ニューロンが画像分類と非線形回帰で均一性を上回る方法」

ニューラルネットワークは、人間の脳に触発された方法でデータを処理するための人工知能の手法です。ニューラルネットワーク...

データサイエンス

FraudGPT AIを活用したサイバー犯罪ツールの驚異的な台頭

インターネットの暗く不気味な一角で、サイバー犯罪者たちは再び人工知能の力を利用して悪意ある目的を追求しています。悪名...

データサイエンス

学習トランスフォーマーコード入門:パート1 - セットアップ

あなたについてはわかりませんが、コードを見ることの方が論文を読むよりも簡単なことがありますAdventureGPTに取り組んでい...