「MITの研究者が、おそらくほぼ正確な(PAC)プライバシーによる機械学習モデルのプライバシー保護において、ブレークスルーを達成」

MITの研究者が、PACプライバシーによる機械学習モデルのプライバシー保護において、ブレークスルーを達成

MITの研究者たちは、機械学習モデル内にエンコードされた機微なデータを保護するという課題について、大きな進歩を遂げました。科学者のチームは、肺スキャン画像から患者ががんを持っているかどうかを正確に予測できる機械学習モデルを開発しました。しかし、このモデルを世界中の病院と共有することは、悪意のある者によるデータ抽出の重大なリスクを伴います。この問題に対処するため、研究者たちは、PACプライバシーという新しいプライバシーメトリックを導入し、機微なデータを保護するために必要な最小限のノイズを決定するフレームワークを開発しました。

従来のプライバシーアプローチ(ディファレンシャルプライバシーなど)は、大量のノイズを追加することで特定のデータの使用を区別できなくすることに焦点を当てていますが、これによりモデルの精度が低下します。PACプライバシーは、ノイズが追加された後も、敵対者が機微なデータの一部を再構築する難しさを評価するという異なる視点を持っています。たとえば、もし機微なデータが人間の顔である場合、ディファレンシャルプライバシーは敵対者がデータセット内の特定の個人の顔を特定することを防ぎます。一方、PACプライバシーは、敵対者が特定の個人の顔として認識できる近似のシルエットを抽出できるかどうかを探求します。

PACプライバシーを実装するために、研究者たちは、モデルに追加する最適なノイズの量を決定するアルゴリズムを開発しました。このアルゴリズムは、敵対者の視点から元のデータの不確実性またはエントロピーに依存しています。データをサブサンプリングし、機械学習のトレーニングアルゴリズムを複数回実行することで、アルゴリズムは異なる出力間の分散を比較し、必要なノイズの量を決定します。分散が小さいほど、より少ないノイズが必要とされます。

PACプライバシーアルゴリズムの主な利点の1つは、モデルの内部動作やトレーニングプロセスの知識を必要としないことです。ユーザーは、敵対者が機微なデータを再構築する能力に関する所望の信頼レベルを指定し、アルゴリズムはその目標を達成するための最適なノイズの量を提供します。ただし、アルゴリズムはモデルにノイズを追加することによる精度の損失を推定しません。さらに、PACプライバシーを実装することは、さまざまなサブサンプリングされたデータセットでの繰り返しトレーニングにより、計算上の負荷が高くなる可能性があります。

PACプライバシーを強化するために、研究者たちは、サブサンプルの出力間の分散を減少させることで安定性を高める機械学習のトレーニングプロセスを変更することを提案しています。このアプローチにより、アルゴリズムの計算上の負担が軽減され、必要なノイズの量が最小限に抑えられます。さらに、より安定したモデルは一般化エラーが低くなり、新しいデータに対するより正確な予測が可能となります。

研究者たちは、安定性、プライバシー、および一般化エラーの関係についてさらなる探索が必要であることを認識していますが、彼らの研究は、機械学習モデルにおける機微なデータの保護に向けた有望な一歩を示しています。PACプライバシーを活用することで、エンジニアは実世界のアプリケーションにおいても精度を維持しながらトレーニングデータを保護するモデルを開発することができます。必要なノイズの量を大幅に削減する可能性があるため、この技術は医療分野やその他の分野での安全なデータ共有の新たな可能性を開拓します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

アマゾンがベッドロックを展開:AIモデルの評価と人間のベンチマーキング

開発において、Amazon Bedrockは、特定のニーズに合わせて選択し、比較し、最適なファウンデーションモデル(FM)を選択する...

データサイエンス

「LLMsの実践的な導入」

「これは、実践で Large Language Models (LLMs) を使用するシリーズの最初の記事ですここでは、LLMs の紹介とそれらとの作業...

AI研究

UC BerkeleyとDeepmindの研究者は、SuccessVQAという成功検出の再構成を提案しましたこれは、Flamingoなどの事前学習済みVLMに適したものです

最高のパフォーマンス精度を達成するためには、トレーニング中にエージェントが正しいまたは望ましいトラック上にあるかどう...

データサイエンス

Pythonを使用したデータのスケーリング

モデル構築に適したデータをスケーリングする方法

データサイエンス

新しい研究は、ソフト自己駆動摩擦電気ナノ発電装置と深層学習支援データ分析に基づく水中3次元触覚テンセグリティ(U3DTT)を提案しています

「AUV」とは「自律型水中無人機」の略で、深海の下にあるものを発見するために広範な応用があります。この深海の下にあるもの...

データサイエンス

MLがDevOpsと出会うとき:MLOpsの理解方法

この記事では、機械学習とDevOpsの統合、モデルの管理、ベストプラクティス、成功した解決策について取り上げています