「MITの研究者が、おそらくほぼ正確な(PAC)プライバシーによる機械学習モデルのプライバシー保護において、ブレークスルーを達成」

MITの研究者が、PACプライバシーによる機械学習モデルのプライバシー保護において、ブレークスルーを達成

MITの研究者たちは、機械学習モデル内にエンコードされた機微なデータを保護するという課題について、大きな進歩を遂げました。科学者のチームは、肺スキャン画像から患者ががんを持っているかどうかを正確に予測できる機械学習モデルを開発しました。しかし、このモデルを世界中の病院と共有することは、悪意のある者によるデータ抽出の重大なリスクを伴います。この問題に対処するため、研究者たちは、PACプライバシーという新しいプライバシーメトリックを導入し、機微なデータを保護するために必要な最小限のノイズを決定するフレームワークを開発しました。

従来のプライバシーアプローチ(ディファレンシャルプライバシーなど)は、大量のノイズを追加することで特定のデータの使用を区別できなくすることに焦点を当てていますが、これによりモデルの精度が低下します。PACプライバシーは、ノイズが追加された後も、敵対者が機微なデータの一部を再構築する難しさを評価するという異なる視点を持っています。たとえば、もし機微なデータが人間の顔である場合、ディファレンシャルプライバシーは敵対者がデータセット内の特定の個人の顔を特定することを防ぎます。一方、PACプライバシーは、敵対者が特定の個人の顔として認識できる近似のシルエットを抽出できるかどうかを探求します。

PACプライバシーを実装するために、研究者たちは、モデルに追加する最適なノイズの量を決定するアルゴリズムを開発しました。このアルゴリズムは、敵対者の視点から元のデータの不確実性またはエントロピーに依存しています。データをサブサンプリングし、機械学習のトレーニングアルゴリズムを複数回実行することで、アルゴリズムは異なる出力間の分散を比較し、必要なノイズの量を決定します。分散が小さいほど、より少ないノイズが必要とされます。

PACプライバシーアルゴリズムの主な利点の1つは、モデルの内部動作やトレーニングプロセスの知識を必要としないことです。ユーザーは、敵対者が機微なデータを再構築する能力に関する所望の信頼レベルを指定し、アルゴリズムはその目標を達成するための最適なノイズの量を提供します。ただし、アルゴリズムはモデルにノイズを追加することによる精度の損失を推定しません。さらに、PACプライバシーを実装することは、さまざまなサブサンプリングされたデータセットでの繰り返しトレーニングにより、計算上の負荷が高くなる可能性があります。

PACプライバシーを強化するために、研究者たちは、サブサンプルの出力間の分散を減少させることで安定性を高める機械学習のトレーニングプロセスを変更することを提案しています。このアプローチにより、アルゴリズムの計算上の負担が軽減され、必要なノイズの量が最小限に抑えられます。さらに、より安定したモデルは一般化エラーが低くなり、新しいデータに対するより正確な予測が可能となります。

研究者たちは、安定性、プライバシー、および一般化エラーの関係についてさらなる探索が必要であることを認識していますが、彼らの研究は、機械学習モデルにおける機微なデータの保護に向けた有望な一歩を示しています。PACプライバシーを活用することで、エンジニアは実世界のアプリケーションにおいても精度を維持しながらトレーニングデータを保護するモデルを開発することができます。必要なノイズの量を大幅に削減する可能性があるため、この技術は医療分野やその他の分野での安全なデータ共有の新たな可能性を開拓します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

『Google Vertex AI Search&Conversationを使用してRAGチャットボットを構築する』

「Googleは最近、彼らの管理されたRAG(Retrieval Augmented Generator)サービス、Vertex AI Search&ConversationをGA(一...

AI研究

NVIDIAとテルアビブ大学の研究者が、効率的な訓練時間を持つコンパクトな100 KBのニューラルネットワーク「Perfusion」を紹介しました

テキストから画像への変換(T2I)モデルは、自然言語の入力を通じて創造プロセスを指示する力をユーザーに与えることで、技術...

機械学習

xAIはPromptIDEを発表しました:Promptエンジニアリングと人工知能AIの透明性における新たなフロンティア

人工知能開発における画期的な一手として、xAIはPromptIDEを公開しました。PromptIDEは、プロンプトエンジニアリングと機械学...

機械学習

『ScaleCrafterを知る:事前学習済みの拡散モデルによる超高解像度画像合成の解放』

画像合成技術の開発は、近年著しい上昇を経験し、学術界や産業界から大きな関心を集めています。テキストから画像を生成する...

機械学習

ミストラルの最先端言語モデル、Mixtral 8x7bをご紹介しますGPT-3.5を超えるオープンアクセスAIです

大容量の言語モデルの領域は、Mixtral 8x7bの登場により、大きな進歩を遂げました。 Mistral AIは、印象的な機能と独自のアー...

機械学習

NVIDIA AIがSteerLMを発表:大規模言語モデル(LLMs)の推論中にユーザーが応答をカスタマイズできる新たな人工知能(AI)メソッド

人工知能の絶えず進化する風景の中で、開発者やユーザーの双方を悩ませる課題があります: 大規模言語モデルからよりカスタマ...