BLOG + NEWS

HOME BLOG
Privacy aware learning 隱私感知/保護學習,讓AI可靠又隱密
BLOG・Algorithm 演算法
SHARE
Privacy aware learning 隱私感知/保護學習,讓AI可靠又隱密
Privacy aware learning 隱私感知/保護學習,讓AI可靠又隱密
14
AUG
2020
2017
Jeng-Lin Li Yvette


害怕AI帶來的個資泄露嗎?擔心在AI時代個體會最終毫無隱私嗎?
 

 

概念

自步入大數據時代以來,我們逐漸習慣於讓機器從巨量資料中學習其運行規則,機器學習廣汎應用於醫學、自動駕駛、語音識別等領域,進而造福人類。然而,在大量資料被收集、被用來訓練模型的過程中,我們也面臨到日益嚴峻的隱私泄露問題。

 

在 1997 年,美國麻薩諸塞州的 Group Insurance Commission 公佈了一個記錄個體就醫情況的資料集,發佈之前他們做了簡單的匿名化處理:去除了姓名、住址和社會保險號碼等明顯的特徵。然而,當時一名 computer science 的畢業生 Latanya Sweeney 卻在這份資料中準確地找到了當時任麻省州長 William Weld 的記錄。不僅如此,她還在 2000 年證明了 87%(沒有開玩笑)的美國人都可以用——郵遞區號、生日和性別——這三個特徵被唯一鎖定。

 

近年來,各互聯網公司的隱私泄露事件更是層出不窮: 2016 年,劍橋分析公司將從 Facebook 獲得的資料用於美國總統大選[1];2019年,Google 語音助理的對話錄音被外泄給比利時廣播電視公司 VRT,後者聲稱可以通過語音資料識別説話者[2]。

 

那麽,個資是如何被泄露的呢?

對惡意的攻擊者來説,開發出來的模型的參數本身帶有大量訓練資料的訊息,可以從訓練好的參數去反推資料;對開發者來説,若以傳統的訓練方式,這些資料是完全透明的;對資料竊取者來説,可以在傳輸的過程中,攔截竊取原始資料……。

 

科學家們一直致力於研究在有效保護隱私的情況下,最優化模型的方法,近年來也確實有了很多成果。本文針對隱私泄露的幾個管道,整理了一些應對方向。

 

主要方法

Adversarial learning 對抗學習 Federated learning 聯盟學習/聯合式學習 Anonymization 匿名化處理

 

Adversarial learning對抗學習

實驗發現,明文資料經過編碼器所得到的表徵還是有可能攜帶大量敏感訊息[3],進而在模型準確率高的情況下泄露隱私。而對抗學習可以使模型在保證準確率的情況下,有效保護個資。

 

對抗學習,即一次訓練兩個模型,使得最終結果在兩個目標上皆為最佳的一種訓練方式。

 

在 privacy preserving learning 裡面該如何運用呢?那當然是以準確性爲一個目標函數,資料隱私性為另一個目標函數一起進行訓練囉!

 

截圖自原論文[1]

圖截自原論文[3:2]。

 

以 Brij Mohan Lal Srivastava 等在2019年發表的論文爲例[3:3],作者使用一個模型同時擁有ASR(automatic speech recognition)以及speaker-adversarial的兩個 branch 共同組成 decoder,如圖所示。

 

  • ASR 是基於 CTC 和 attention mechanism 所建立的語音辨識模型,目標函數如下:

min_{theta_e,theta_c,theta_a}L_{asr}(theta_e,theta_c,theta_a)=lambda L_c(theta_e,theta_c)+(1-lambda)L_a(theta_e,theta_a)
其中 theta_e為encoder 參數,theta_c 為decoder 中 CTC 的參數,theta_a 為 decode 中 attention mechanism 的參數。
 
  • speaker-adversarial branch 扮演一個攻擊者的角色,意在用 encoder 的輸出 Phi(X) 去反推説話者的特徵,目標函數如下:
 
L_{spk}(theta_e,theta_s)=-ln{P(z_i|X_i;theta_e,theta_s)}
 
  • 最終,decoder 的目標為兩者的結合,表達爲:
 
min_{theta_e,theta_c,theta_a}max_{theta_s}L_{asr}(theta_e,theta_c,theta_a)-alpha L_{spk}(theta_e,theta_s)
其中,alpha geq 0 是 trade-off 係數。

 

作者用 word error rate(WER)評估 ASR 模型的優劣,以 speaker classification accuracy(ACC)和 speaker verification equal error rate(EER)判斷speaker-adversarial 模型的成效。最終他們發現在 WER 可接受的情況下,語者辨識的 ACC 可以很低,這意味著一個攻擊者無法從模型去對説話者進行分類,同時又能有效辨識這段語音資料。然而,他們也發現語者驗證任務上的 EER 卻降低了,即驗證説話者身份的錯誤率降低,他們認為主因是 speaker adversarial 的方法沒有對未出現於訓練資料庫中的語者做最佳化,造成無法減少語者驗證的模型能力。

 

由此可見,對抗學習在隱私保護的路上還有可發展的空間。

 

Federated learning 聯盟學習/聯合式學習

對抗學習可以保護隱私,但是開發者本身卻依然可以接觸到這些資料。爲了使得開發者能夠在不接觸資料的情況下,有效訓練模型,Google 的研發人員提出了聯合式學習的概念[4]。

 

Federated learning 聯盟學習或聯合式學習,是指將模型、訓練資料分爲多個子集分別給不同用戶保管,用戶們可以在本地用各自的資料訓練模型,用以更新在雲端上的一個共同模型的參數,使得準確度提升但又不用泄露資料給其他用戶。

 

Lingjuan Lyu 等人在 2020 年寫了一篇綜述[5],詳細地描述了聯盟學習。聯盟學習可分爲以下三類型:

  1. horizontally federated learning(HFL) 各用戶有不同樣本的相同特徵
  2. vertically federated learning(VFL) 各用戶有相同樣本的不同特徵
  3. federated transfer learning(FTL) 各用戶有不同樣本的不同特徵

 

截圖自原論文[2]

圖截自原論文[5:2]。

 

由上圖可以看到,聯盟學習主要的步驟是,

  1. 用戶各自訓練模型並將參數加密傳輸至雲端
  2. 雲端整合參數,更新模型
  3. 回傳模型更新參數到用戶端,更新用戶端模型

 

各個步驟也都有相應的研究,例如只回傳權重到雲端而不傳梯度[6],模型訓練可以是異步或同步[7][8][9],安全聚合梯度[10]等。

 

同時,該文提到,在聯盟學習中,攻擊者可能以以下方式搞破壞:

  • 佯裝用戶進行錯誤的訓練,進而上傳錯誤參數到雲端,使模型被汙染
  • 攻擊雲端伺服器獲取其他用戶的原始資料
  • 從其他用戶所訓練的模型參數回推原始資料的一些特徵

 

此外,目前的 FL 系統也沒有很健全的隱私保障設置,在模型更新的過程中有資料泄露的可能[11][12]。所以,聯盟學習還有發展空間。

 

Anonymization 匿名化處理

除了保護模型不被有意者取來回推資料,或泄露好不容易訓練好的模型給任意開發者,或解決資料本身在傳輸的過程中很容易被攔截取得的現象,對資料的匿名化處理是一種有效的方式。

 

匿名化處理,類似脫敏處理,旨在將資料在可接受程度上混淆,使得訓練者不能獲取真實資料,但又能保證模型的準確度。

 

方法有很多,介紹以下兩種,

  • 將資料在傳輸之前加入噪聲,訓練的時候遵循一定的方法降噪 這個方法很直觀,在雲端訓練時降噪,回傳到本地端又是加了噪聲的,使得開發人員不能獲得真實資料,攻擊者也不能從中途截取資料。
  • 差分隱私 differential privacy 這是密碼學中的一種手段,旨在提供一種當從統計資料庫查詢時,最大化資料查詢的準確性,同時最大限度減少辨識其記錄的機會[13]。

 

舉個例子,我們問一群被調查者一個問題(像是是否有癌症),該問題涉及隱私,所以被調查者不會希望別人知道自己的回答。

 

差分隱私的處理方式為:

  1. 請被調查者投擲一枚硬幣,正面朝上的話照實回答
  2. 反面朝上的話,再擲一次,如果正面朝上就照實回答,否則就說相反的回答。

 

我們可以由調查的結果:有癌症的人佔 P調查,去推測真實的結果 P真實,基於以下對應:
 

P調查 = 0.5 P真實 + 0.25
 

這樣一來,我們就能準確地得知有癌症的人的分佈,並且我們不能從被調查者的回答結果準確地判斷他是否真的有癌症。

 

未來發展

總結一下,我們大致有以下3種隱私保護學習方向,
 

  • 對抗學習模式進行訓練可以有效隱藏資料含有的隱私
  • 聯盟學習提供一套多人協作的訓練模式,使得資源得以被有效利用,同時,訓練資料和訓練結果都受到一定程度的保護
  • 匿名化加密資料,讓資料本身不泄露隱私

 

有了 privacy-aware/privacy-preserving learning,研發人員就可以更多去研究與人類息息相關的議題,而不用受限於資料隱私問題。

 

甚至我們可以用數億部手機,一起做聯盟學習。這樣的資料來源更直接,且模型訓練不必受限於處理器的運算能力。事實上,Google 在 2017 年就有在 Android 的 Gboard 上利用聯盟學習根據使用者當前的輸入推薦查詢語句,並且這個反饋也被用在下一輪的學習中[4:1]。

SHARE
Article Tags
Privacy 隱私 Federated Learning 聯合式學習 ASR 語音辨識 Emotion Recognition 情緒辨識 Psychology 心理學 Healthcare 醫療 Algorithm 演算法 Edge Computing 終端運算 Human Behavior 人類行為 Multimedia 多媒體 NLP 自然語言處理 Signal Processing 訊號處理