BLOG + NEWS

HOME BLOG
Privacy aware learning 隱私感知/保護學習,讓AI可靠又隱密
BLOG・Algorithm 演算法
SHARE
Privacy aware learning 隱私感知/保護學習,讓AI可靠又隱密
Privacy aware learning 隱私感知/保護學習,讓AI可靠又隱密
14
AUG
2020
2178
Jeng-Lin Li Yvette


害怕AI帶來的個資泄露嗎?擔心在AI時代個體會最終毫無隱私嗎?
 

 

概念

自步入大數據時代以來,我們逐漸習慣於讓機器從巨量資料中學習其運行規則,機器學習廣汎應用於醫學、自動駕駛、語音識別等領域,進而造福人類。然而,在大量資料被收集、被用來訓練模型的過程中,我們也面臨到日益嚴峻的隱私泄露問題。

 

在 1997 年,美國麻薩諸塞州的 Group Insurance Commission 公佈了一個記錄個體就醫情況的資料集,發佈之前他們做了簡單的匿名化處理:去除了姓名、住址和社會保險號碼等明顯的特徵。然而,當時一名 computer science 的畢業生 Latanya Sweeney 卻在這份資料中準確地找到了當時任麻省州長 William Weld 的記錄。不僅如此,她還在 2000 年證明了 87%(沒有開玩笑)的美國人都可以用——郵遞區號、生日和性別——這三個特徵被唯一鎖定。

 

近年來,各互聯網公司的隱私泄露事件更是層出不窮: 2016 年,劍橋分析公司將從 Facebook 獲得的資料用於美國總統大選[1];2019年,Google 語音助理的對話錄音被外泄給比利時廣播電視公司 VRT,後者聲稱可以通過語音資料識別説話者[2]。

 

那麽,個資是如何被泄露的呢?

對惡意的攻擊者來説,開發出來的模型的參數本身帶有大量訓練資料的訊息,可以從訓練好的參數去反推資料;對開發者來説,若以傳統的訓練方式,這些資料是完全透明的;對資料竊取者來説,可以在傳輸的過程中,攔截竊取原始資料……。

 

科學家們一直致力於研究在有效保護隱私的情況下,最優化模型的方法,近年來也確實有了很多成果。本文針對隱私泄露的幾個管道,整理了一些應對方向。

 

主要方法

Adversarial learning 對抗學習 Federated learning 聯盟學習/聯合式學習 Anonymization 匿名化處理

 

Adversarial learning對抗學習

實驗發現,明文資料經過編碼器所得到的表徵還是有可能攜帶大量敏感訊息[3],進而在模型準確率高的情況下泄露隱私。而對抗學習可以使模型在保證準確率的情況下,有效保護個資。

 

對抗學習,即一次訓練兩個模型,使得最終結果在兩個目標上皆為最佳的一種訓練方式。

 

在 privacy preserving learning 裡面該如何運用呢?那當然是以準確性爲一個目標函數,資料隱私性為另一個目標函數一起進行訓練囉!

 

截圖自原論文[1]

圖截自原論文[3:2]。

 

以 Brij Mohan Lal Srivastava 等在2019年發表的論文爲例[3:3],作者使用一個模型同時擁有ASR(automatic speech recognition)以及speaker-adversarial的兩個 branch 共同組成 decoder,如圖所示。

 

  • ASR 是基於 CTC 和 attention mechanism 所建立的語音辨識模型,目標函數如下:

min_{theta_e,theta_c,theta_a}L_{asr}(theta_e,theta_c,theta_a)=lambda L_c(theta_e,theta_c)+(1-lambda)L_a(theta_e,theta_a)
其中 theta_e為encoder 參數,theta_c 為decoder 中 CTC 的參數,theta_a 為 decode 中 attention mechanism 的參數。
 
  • speaker-adversarial branch 扮演一個攻擊者的角色,意在用 encoder 的輸出 Phi(X) 去反推説話者的特徵,目標函數如下:
 
L_{spk}(theta_e,theta_s)=-ln{P(z_i|X_i;theta_e,theta_s)}
 
  • 最終,decoder 的目標為兩者的結合,表達爲:
 
min_{theta_e,theta_c,theta_a}max_{theta_s}L_{asr}(theta_e,theta_c,theta_a)-alpha L_{spk}(theta_e,theta_s)
其中,alpha geq 0 是 trade-off 係數。

 

作者用 word error rate(WER)評估 ASR 模型的優劣,以 speaker classification accuracy(ACC)和 speaker verification equal error rate(EER)判斷speaker-adversarial 模型的成效。最終他們發現在 WER 可接受的情況下,語者辨識的 ACC 可以很低,這意味著一個攻擊者無法從模型去對説話者進行分類,同時又能有效辨識這段語音資料。然而,他們也發現語者驗證任務上的 EER 卻降低了,即驗證説話者身份的錯誤率降低,他們認為主因是 speaker adversarial 的方法沒有對未出現於訓練資料庫中的語者做最佳化,造成無法減少語者驗證的模型能力。

 

由此可見,對抗學習在隱私保護的路上還有可發展的空間。

 

Federated learning 聯盟學習/聯合式學習

對抗學習可以保護隱私,但是開發者本身卻依然可以接觸到這些資料。爲了使得開發者能夠在不接觸資料的情況下,有效訓練模型,Google 的研發人員提出了聯合式學習的概念[4]。

 

Federated learning 聯盟學習或聯合式學習,是指將模型、訓練資料分爲多個子集分別給不同用戶保管,用戶們可以在本地用各自的資料訓練模型,用以更新在雲端上的一個共同模型的參數,使得準確度提升但又不用泄露資料給其他用戶。

 

Lingjuan Lyu 等人在 2020 年寫了一篇綜述[5],詳細地描述了聯盟學習。聯盟學習可分爲以下三類型:

  1. horizontally federated learning(HFL) 各用戶有不同樣本的相同特徵
  2. vertically federated learning(VFL) 各用戶有相同樣本的不同特徵
  3. federated transfer learning(FTL) 各用戶有不同樣本的不同特徵

 

截圖自原論文[2]

圖截自原論文[5:2]。

 

由上圖可以看到,聯盟學習主要的步驟是,

  1. 用戶各自訓練模型並將參數加密傳輸至雲端
  2. 雲端整合參數,更新模型
  3. 回傳模型更新參數到用戶端,更新用戶端模型

 

各個步驟也都有相應的研究,例如只回傳權重到雲端而不傳梯度[6],模型訓練可以是異步或同步[7][8][9],安全聚合梯度[10]等。

 

同時,該文提到,在聯盟學習中,攻擊者可能以以下方式搞破壞:

  • 佯裝用戶進行錯誤的訓練,進而上傳錯誤參數到雲端,使模型被汙染
  • 攻擊雲端伺服器獲取其他用戶的原始資料
  • 從其他用戶所訓練的模型參數回推原始資料的一些特徵

 

此外,目前的 FL 系統也沒有很健全的隱私保障設置,在模型更新的過程中有資料泄露的可能[11][12]。所以,聯盟學習還有發展空間。

 

Anonymization 匿名化處理

除了保護模型不被有意者取來回推資料,或泄露好不容易訓練好的模型給任意開發者,或解決資料本身在傳輸的過程中很容易被攔截取得的現象,對資料的匿名化處理是一種有效的方式。

 

匿名化處理,類似脫敏處理,旨在將資料在可接受程度上混淆,使得訓練者不能獲取真實資料,但又能保證模型的準確度。

 

方法有很多,介紹以下兩種,

  • 將資料在傳輸之前加入噪聲,訓練的時候遵循一定的方法降噪 這個方法很直觀,在雲端訓練時降噪,回傳到本地端又是加了噪聲的,使得開發人員不能獲得真實資料,攻擊者也不能從中途截取資料。
  • 差分隱私 differential privacy 這是密碼學中的一種手段,旨在提供一種當從統計資料庫查詢時,最大化資料查詢的準確性,同時最大限度減少辨識其記錄的機會[13]。

 

舉個例子,我們問一群被調查者一個問題(像是是否有癌症),該問題涉及隱私,所以被調查者不會希望別人知道自己的回答。

 

差分隱私的處理方式為:

  1. 請被調查者投擲一枚硬幣,正面朝上的話照實回答
  2. 反面朝上的話,再擲一次,如果正面朝上就照實回答,否則就說相反的回答。

 

我們可以由調查的結果:有癌症的人佔 P調查,去推測真實的結果 P真實,基於以下對應:
 

P調查 = 0.5 P真實 + 0.25
 

這樣一來,我們就能準確地得知有癌症的人的分佈,並且我們不能從被調查者的回答結果準確地判斷他是否真的有癌症。

 

未來發展

總結一下,我們大致有以下3種隱私保護學習方向,
 

  • 對抗學習模式進行訓練可以有效隱藏資料含有的隱私
  • 聯盟學習提供一套多人協作的訓練模式,使得資源得以被有效利用,同時,訓練資料和訓練結果都受到一定程度的保護
  • 匿名化加密資料,讓資料本身不泄露隱私

 

有了 privacy-aware/privacy-preserving learning,研發人員就可以更多去研究與人類息息相關的議題,而不用受限於資料隱私問題。

 

甚至我們可以用數億部手機,一起做聯盟學習。這樣的資料來源更直接,且模型訓練不必受限於處理器的運算能力。事實上,Google 在 2017 年就有在 Android 的 Gboard 上利用聯盟學習根據使用者當前的輸入推薦查詢語句,並且這個反饋也被用在下一輪的學習中[4:1]。

SHARE