Privacy aware learning 隱私感知／保護學習，讓AI可靠又隱密｜BIIC Lab - NTHU

BLOG・Algorithm 演算法

Privacy 隱私

Privacy aware learning 隱私感知／保護學習，讓AI可靠又隱密

AUG

2020

3343

害怕AI帶來的個資泄露嗎？擔心在AI時代個體會最終毫無隱私嗎？

概念

自步入大數據時代以來，我們逐漸習慣於讓機器從巨量資料中學習其運行規則，機器學習廣汎應用於醫學、自動駕駛、語音識別等領域，進而造福人類。然而，在大量資料被收集、被用來訓練模型的過程中，我們也面臨到日益嚴峻的隱私泄露問題。

在 1997 年，美國麻薩諸塞州的 Group Insurance Commission 公佈了一個記錄個體就醫情況的資料集，發佈之前他們做了簡單的匿名化處理：去除了姓名、住址和社會保險號碼等明顯的特徵。然而，當時一名 computer science 的畢業生 Latanya Sweeney 卻在這份資料中準確地找到了當時任麻省州長 William Weld 的記錄。不僅如此，她還在 2000 年證明了 87%（沒有開玩笑）的美國人都可以用——郵遞區號、生日和性別——這三個特徵被唯一鎖定。

近年來，各互聯網公司的隱私泄露事件更是層出不窮： 2016 年，劍橋分析公司將從 Facebook 獲得的資料用於美國總統大選[1]；2019年，Google 語音助理的對話錄音被外泄給比利時廣播電視公司 VRT，後者聲稱可以通過語音資料識別説話者[2]。

那麽，個資是如何被泄露的呢？

對惡意的攻擊者來説，開發出來的模型的參數本身帶有大量訓練資料的訊息，可以從訓練好的參數去反推資料；對開發者來説，若以傳統的訓練方式，這些資料是完全透明的；對資料竊取者來説，可以在傳輸的過程中，攔截竊取原始資料……。

科學家們一直致力於研究在有效保護隱私的情況下，最優化模型的方法，近年來也確實有了很多成果。本文針對隱私泄露的幾個管道，整理了一些應對方向。

主要方法

Adversarial learning 對抗學習 Federated learning 聯盟學習／聯合式學習 Anonymization 匿名化處理

Adversarial learning對抗學習

實驗發現，明文資料經過編碼器所得到的表徵還是有可能攜帶大量敏感訊息[3]，進而在模型準確率高的情況下泄露隱私。而對抗學習可以使模型在保證準確率的情況下，有效保護個資。

對抗學習，即一次訓練兩個模型，使得最終結果在兩個目標上皆為最佳的一種訓練方式。

在 privacy preserving learning 裡面該如何運用呢？那當然是以準確性爲一個目標函數，資料隱私性為另一個目標函數一起進行訓練囉！

截圖自原論文[1]

圖截自原論文[3:2]。

以 Brij Mohan Lal Srivastava 等在2019年發表的論文爲例[3:3]，作者使用一個模型同時擁有ASR（automatic speech recognition）以及speaker-adversarial的兩個 branch 共同組成 decoder，如圖所示。

ASR 是基於 CTC 和 attention mechanism 所建立的語音辨識模型，目標函數如下：

$min_{theta_e,theta_c,theta_a}L_{asr}(theta_e,theta_c,theta_a)=lambda L_c(theta_e,theta_c)+(1-lambda)L_a(theta_e,theta_a)$
其中 $theta_e$ 為encoder 參數， $theta_c$ 為decoder 中 CTC 的參數， $theta_a$ 為 decode 中 attention mechanism 的參數。

speaker-adversarial branch 扮演一個攻擊者的角色，意在用 encoder 的輸出 $Phi(X)$ 去反推説話者的特徵，目標函數如下：

$L_{spk}(theta_e,theta_s)=-ln{P(z_i|X_i;theta_e,theta_s)}$

最終，decoder 的目標為兩者的結合，表達爲：

$min_{theta_e,theta_c,theta_a}max_{theta_s}L_{asr}(theta_e,theta_c,theta_a)-alpha L_{spk}(theta_e,theta_s)$
其中， $alpha geq 0$ 是 trade-off 係數。

作者用 word error rate（WER）評估 ASR 模型的優劣，以 speaker classification accuracy（ACC）和 speaker verification equal error rate（EER）判斷speaker-adversarial 模型的成效。最終他們發現在 WER 可接受的情況下，語者辨識的 ACC 可以很低，這意味著一個攻擊者無法從模型去對説話者進行分類，同時又能有效辨識這段語音資料。然而，他們也發現語者驗證任務上的 EER 卻降低了，即驗證説話者身份的錯誤率降低，他們認為主因是 speaker adversarial 的方法沒有對未出現於訓練資料庫中的語者做最佳化，造成無法減少語者驗證的模型能力。

由此可見，對抗學習在隱私保護的路上還有可發展的空間。

Federated learning 聯盟學習／聯合式學習

對抗學習可以保護隱私，但是開發者本身卻依然可以接觸到這些資料。爲了使得開發者能夠在不接觸資料的情況下，有效訓練模型，Google 的研發人員提出了聯合式學習的概念[4]。

Federated learning 聯盟學習或聯合式學習，是指將模型、訓練資料分爲多個子集分別給不同用戶保管，用戶們可以在本地用各自的資料訓練模型，用以更新在雲端上的一個共同模型的參數，使得準確度提升但又不用泄露資料給其他用戶。

Lingjuan Lyu 等人在 2020 年寫了一篇綜述[5]，詳細地描述了聯盟學習。聯盟學習可分爲以下三類型：

horizontally federated learning（HFL）各用戶有不同樣本的相同特徵
vertically federated learning（VFL）各用戶有相同樣本的不同特徵
federated transfer learning（FTL）各用戶有不同樣本的不同特徵

截圖自原論文[2]

圖截自原論文[5:2]。

由上圖可以看到，聯盟學習主要的步驟是，

用戶各自訓練模型並將參數加密傳輸至雲端
雲端整合參數，更新模型
回傳模型更新參數到用戶端，更新用戶端模型

各個步驟也都有相應的研究，例如只回傳權重到雲端而不傳梯度[6]，模型訓練可以是異步或同步[7][8][9]，安全聚合梯度[10]等。

同時，該文提到，在聯盟學習中，攻擊者可能以以下方式搞破壞：

佯裝用戶進行錯誤的訓練，進而上傳錯誤參數到雲端，使模型被汙染
攻擊雲端伺服器獲取其他用戶的原始資料
從其他用戶所訓練的模型參數回推原始資料的一些特徵

此外，目前的 FL 系統也沒有很健全的隱私保障設置，在模型更新的過程中有資料泄露的可能[11][12]。所以，聯盟學習還有發展空間。

Anonymization 匿名化處理

除了保護模型不被有意者取來回推資料，或泄露好不容易訓練好的模型給任意開發者，或解決資料本身在傳輸的過程中很容易被攔截取得的現象，對資料的匿名化處理是一種有效的方式。

匿名化處理，類似脫敏處理，旨在將資料在可接受程度上混淆，使得訓練者不能獲取真實資料，但又能保證模型的準確度。

方法有很多，介紹以下兩種，

將資料在傳輸之前加入噪聲，訓練的時候遵循一定的方法降噪這個方法很直觀，在雲端訓練時降噪，回傳到本地端又是加了噪聲的，使得開發人員不能獲得真實資料，攻擊者也不能從中途截取資料。
差分隱私 differential privacy 這是密碼學中的一種手段，旨在提供一種當從統計資料庫查詢時，最大化資料查詢的準確性，同時最大限度減少辨識其記錄的機會[13]。

舉個例子，我們問一群被調查者一個問題（像是是否有癌症），該問題涉及隱私，所以被調查者不會希望別人知道自己的回答。

差分隱私的處理方式為：

請被調查者投擲一枚硬幣，正面朝上的話照實回答
反面朝上的話，再擲一次，如果正面朝上就照實回答，否則就說相反的回答。

我們可以由調查的結果：有癌症的人佔 P調查，去推測真實的結果 P真實，基於以下對應：

P調查 = 0.5 P真實 + 0.25

這樣一來，我們就能準確地得知有癌症的人的分佈，並且我們不能從被調查者的回答結果準確地判斷他是否真的有癌症。

未來發展

總結一下，我們大致有以下3種隱私保護學習方向，

用對抗學習模式進行訓練可以有效隱藏資料含有的隱私
聯盟學習提供一套多人協作的訓練模式，使得資源得以被有效利用，同時，訓練資料和訓練結果都受到一定程度的保護
匿名化加密資料，讓資料本身不泄露隱私

有了 privacy-aware／privacy-preserving learning，研發人員就可以更多去研究與人類息息相關的議題，而不用受限於資料隱私問題。

甚至我們可以用數億部手機，一起做聯盟學習。這樣的資料來源更直接，且模型訓練不必受限於處理器的運算能力。事實上，Google 在 2017 年就有在 Android 的 Gboard 上利用聯盟學習根據使用者當前的輸入推薦查詢語句，並且這個反饋也被用在下一輪的學習中[4:1]。

REFERENCE

01. 臉書——劍橋分析醜聞

02. Google承認語音助理的對話錄音被外洩！

03. Privacy-Preserving Adversarial Representation Learning in ASR: Reality or Illusion?

04. Federated Learning: Collaborative Machine Learning without Centralized Training Data

05. Threats to Federated Learning: A Survey

06. Privacy-Preserving Deep Learning via Weight Transmission

07. Large Scale Distributed Deep Networks

08. Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour

09. Don't Decay the Learning Rate, Increase the Batch Size

10. Practical Secure Aggregation for Privacy-Preserving Machine Learning

11. Protection Against Reconstruction and Its Applications in Private Federated Learning

12. Model inversion attacks that exploit confidence information and basic countermeasure

13. 差分隱私-維基百科