この人工知能論文は、画像認識における差分プライバシーの高度な手法を提案し、より高い精度をもたらします

This AI paper proposes advanced methods for differential privacy in image recognition, leading to higher accuracy.

機械学習は、近年のパフォーマンスにより、さまざまな領域で大幅に増加しました。現代のコンピュータの計算能力とグラフィックスカードのおかげで、ディープラーニングによって、専門家が与える結果を上回ることもあります。しかし、医療や金融などの機密性の高い領域での使用は、機械学習モデルへのアクセス権を持つ攻撃者が特定のトレーニングポイントのデータを取得することを禁止する形式的なプライバシーガラントである差分プライバシー(DP)による機密性の問題を引き起こします。画像認識における差分プライバシーの最も一般的なトレーニングアプローチは、差分プライベート確率的勾配降下法(DPSGD)ですが、現在のDPSGDシステムによって引き起こされるパフォーマンスの低下により、差分プライバシーの展開は制限されています。

差分プライバシーを持つディープラーニングの既存の方法は、目的関数の値が改善されない場合でも、すべてのモデルの更新を許可するため、さらなる改善が必要です。いくつかのモデルの更新では、勾配にノイズを追加することが目的関数の値を悪化させることがありますが、特に収束が迫っている場合には、その影響により結果としてモデルが悪化します。最適化の対象が劣化し、プライバシー予算が無駄になります。この問題に対処するため、中国の上海大学の研究チームは、候補更新がアップデートの品質とイテレーションの数に依存する確率で受け入れられるシミュレーテッドアニーリングベースの差分プライバシーアプローチ(SA-DPSGD)を提案しています。

具体的には、モデルの更新が目的関数の値を改善する場合は受け入れられます。それ以外の場合、更新は一定の確率で拒否されます。局所的な最適解に収束するのを防ぐために、著者らは確定的な拒否ではなく確率的な拒否を使用し、連続した拒否の数を制限することを提案しています。そのため、シミュレーテッドアニーリングアルゴリズムは、確率的勾配降下法のプロセス中に確率でモデルの更新を選択するために使用されます。

以下に、提案されたアプローチの高レベルな説明を示します。

1- DPSGDはイテレーションごとにアップデートを生成し、その後、目的関数の値が計算されます。前回のイテレーションから現在のイテレーションへのエネルギーシフトと承認されたソリューションの総数を使用して、現在のソリューションの受け入れ確率を計算します。

2- エネルギー変化が負の場合、受け入れ確率は常に1のままです。つまり、正しい方向に進むアップデートは受け入れられます。ただし、モデルのアップデートがノイズを含んでいる場合でも、トレーニングが収束する方向に主に移動することが保証されます。実際のエネルギーは非常に小さい確率で正になる可能性もあります。

3- エネルギー変化が正の場合、受け入れ確率は承認されたソリューションの数が増えるにつれて指数関数的に減少します。この状況では、ソリューションを受け入れるとエネルギーが悪化します。ただし、決定的な拒否は最終的なソリューションが局所的な最適解になる可能性があります。したがって、著者らは、確率的な拒否を使用してエネルギー変化が正のアップデートを小さく、減少する確率で受け入れることを提案しました。

4- 連続した拒否が多すぎる場合、アップデートはまだ許可されます。連続した拒否の数が制限されているため、受け入れ確率は非常に低くなり、収束に近づくにつれて正のエネルギー変化を持つほとんどのソリューションを拒否する可能性があり、局所的な最大値に達する可能性さえあります。拒否の数を制限することで、必要な場合にはソリューションを受け入れることでこの問題を防止します。

提案手法の性能を評価するために、SA-DPSGDは3つのデータセット、MNIST、FashionMNIST、およびCIFAR10で評価されます。実験の結果、SA-DPSGDは、プライバシーコストまたはテスト精度の観点で、最先端の手法DPSGD、DPSGD(tanh)、およびDPSGD(AUTO-S)を大幅に上回ることが示されました。

著者によれば、SA-DPSGDは、プライベートおよび非プライベートの画像の分類精度のギャップを大幅に埋めることができます。ランダムなアップデートスクリーニングを使用することで、差分プライベート勾配降下法は各イテレーションで正しい方向に進み、得られる結果がより正確になります。同じハイパーパラメータでの実験では、SA-DPSGDはMNIST、FashionMNIST、CI-FAR10のデータセットで高い精度を達成し、最先端の結果と比較しても高い精度を実現します。自由に調整可能なハイパーパラメータの場合、提案手法はさらに高い精度を達成します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

『周期的な時間特徴のエンコード方法』

多くの予測タスクでは、モデルの入力として時間情報が必要です小売会社のレモネードの売上を予測するための回帰モデルを考え...

AI研究

「スタンフォード大学の新しいAI研究は、言語モデルにおける過信と不確実性の表現の役割を説明します」

自然言語システムが日常のシナリオでますます普及するにつれて、これらのシステムは適切に不確実性を伝える必要があります。...

データサイエンス

『nnU-Netの究極ガイド』

「画像セグメンテーションの主要なツールであるnnU-Netについて、詳細なガイドに深く入り込んでください最先端の結果を得るた...

人工知能

「ネクサスフローのNexusRaven-V2がGPT-4を自分のゲームで打ち負かす方法!」

人工知能の急速に進化する風景の中で、確立されたAIモデルの支配に挑戦する新たな候補が現れました。テックサークルで話題の...

データサイエンス

「テーマパークのシミュレーション:Rを使って待ち時間を理解する」

長い列はいつも嫌なものです、特に宇宙を舞い上がるか、グレート・バリア・リーフを航行するために待っている時には夏休みが...

データサイエンス

Distributed Tracing Best Practices'の日本語訳は以下の通りです: 分散トレーシングのベストプラクティス

分散トレーシングは現代の観測スタックでの定番となっていますマイクロサービスへの移行に伴い、私たちはサービス同士の相互...