Privacy aware learning 隱私感知/保護學習,讓AI可靠又隱密


:
: 明明就 Yvette 
: 演算法

作者:特約編輯 明明就 Yvette

害怕AI帶來的個資洩漏嗎?擔心在AI時代個體會最終毫無隱私嗎?

概念

自步入大數據時代以來,我們逐漸習慣於讓機器從巨量資料中學習其運行規則,機器學習廣泛應用於醫學、自動駕駛、語音識別等領域,進而造福人類。然而,在大量資料被收集、被用來訓練模型的過程中,我們也面臨到日益嚴峻的隱私洩漏問題。

在 1997 年,美國麻薩諸塞州的 Group Insurance Commission 公佈了一個記錄個體就醫情況的資料集,發佈之前他們做了簡單的匿名化處理:去除了姓名、住址和社會保險號碼等明顯的特徵。然而,當時一名 computer science 的畢業生 Latanya Sweeney 卻在這份資料中準確地找到了當時任麻省州長 William Weld 的記錄。不僅如此,她還在 2000 年證明了 87%(沒有開玩笑)的美國人都可以用——郵遞區號、生日和性別——這三個特徵被唯一鎖定。

近年來,各互聯網公司的隱私泄露事件更是層出不窮:
2016 年,劍橋分析公司將從 Facebook 獲得的資料用於美國總統大選[1]
2019年,Google 語音助理的對話錄音被外洩給比利時廣播電視公司 VRT,後者聲稱可以通過語音資料識別説話者[2]

那麽,個資是如何被洩漏的呢?

對惡意的攻擊者來説,開發出來的模型的參數本身帶有大量訓練資料的訊息,可以從訓練好的參數去反推資料;對開發者來説,若以傳統的訓練方式,這些資料是完全透明的;對資料竊取者來説,可以在傳輸的過程中,攔截竊取原始資料……。

科學家們一直致力於研究在有效保護隱私的情況下,最優化模型的方法,近年來也確實有了很多成果。本文針對隱私洩露的幾個管道,整理了一些應對方向。

主要方法

Adversarial learning 對抗學習
Federated learning 聯盟學習/聯合式學習
Anonymization 匿名化處理

Adversarial learning 對抗學習

實驗發現,明文資料經過編碼器所得到的表徵還是有可能攜帶大量敏感訊息[3],進而在模型準確率高的情況下泄露隱私。而對抗學習可以使模型在保證準確率的情況下,有效保護個資。

對抗學習,即一次訓練兩個模型,使得最終結果在兩個目標上皆為最佳的一種訓練方式。

在 privacy preserving learning 裡面該如何運用呢?那當然是以準確性爲一個目標函數,資料隱私性為另一個目標函數一起進行訓練囉!

截圖自原論文

圖截自原論文[3:2]

以 Brij Mohan Lal Srivastava 等在2019年發表的論文為例[3:3],作者使用一個模型同時擁有ASR(automatic speech recognition)以及speaker-adversarial的兩個 branch 共同組成 decoder,如圖所示。

  • ASR 是基於 CTC 和 attention mechanism 所建立的語音辨識模型,目標函數如下:minθe,θc,θaLasr(θe,θc,θa)=λLc(θe,θc)+(1λ)La(θe,θa)
    其中 θe為encoder 參數,θc 為decoder 中 CTC 的參數,θa 為 decode 中 attention mechanism 的參數。

  • speaker-adversarial branch 扮演一個攻擊者的角色,意在用 encoder 的輸出 Φ(X) 去反推説話者的特徵,目標函數如下:Lspk(θe,θs)=lnP(zi|Xi;θe,θs)

  • 最終,decoder 的目標為兩者的結合,表達爲:minθe,θc,θamaxθsLasr(θe,θc,θa)αLspk(θe,θs)

    其中,
    α是 trade-off 係數。

作者用 word error rate(WER)評估 ASR 模型的優劣,以 speaker classification accuracy(ACC)和 speaker verification equal error rate(EER)判斷speaker-adversarial 模型的成效。最終他們發現在 WER 可接受的情況下,語者辨識的 ACC 可以很低,這意味著一個攻擊者無法從模型去對説話者進行分類,同時又能有效辨識這段語音資料。然而,他們也發現語者驗證任務上的 EER 卻降低了,即驗證説話者身份的錯誤率降低,他們認為主因是 speaker adversarial 的方法沒有對未出現於訓練資料庫中的語者做最佳化,造成無法減少語者驗證的模型能力。

由此可見,對抗學習在隱私保護的路上還有可發展的空間。

Federated learning 聯盟學習/聯合式學習

對抗學習可以保護隱私,但是開發者本身卻依然可以接觸到這些資料。爲了使得開發者能夠在不接觸資料的情況下,有效訓練模型,Google 的研發人員提出了聯合式學習的概念[4]

Federated learning 聯盟學習或聯合式學習,是指將模型、訓練資料分爲多個子集分別給不同用戶保管,用戶們可以在本地用各自的資料訓練模型,用以更新在雲端上的一個共同模型的參數,使得準確度提升但又不用泄露資料給其他用戶。

Lingjuan Lyu 等人在 2020 年寫了一篇綜述[5],詳細地描述了聯盟學習。聯盟學習可分爲以下三類型:

  1. horizontally federated learning(HFL)
    各用戶有不同樣本的相同特徵
  2. vertically federated learning(VFL)
    各用戶有相同樣本的不同特徵
  3. federated transfer learning(FTL)
    各用戶有不同樣本的不同特徵

截圖自原論文

圖截自原論文[5:2]

由上圖可以看到,聯盟學習主要的步驟是,

  1. 用戶各自訓練模型並將參數加密傳輸至雲端
  2. 雲端整合參數,更新模型
  3. 回傳模型更新參數到用戶端,更新用戶端模型

各個步驟也都有相應的研究,例如只回傳權重到雲端而不傳梯度[6],模型訓練可以是異步或同步[7][8][9],安全聚合梯度[10]等。

同時,該文提到,在聯盟學習中,攻擊者可能以以下方式搞破壞:

  • 佯裝用戶進行錯誤的訓練,進而上傳錯誤參數到雲端,使模型被汙染
  • 攻擊雲端伺服器獲取其他用戶的原始資料
  • 從其他用戶所訓練的模型參數回推原始資料的一些特徵

此外,目前的 FL 系統也沒有很健全的隱私保障設置,在模型更新的過程中有資料泄露的可能[11][12]。所以,聯盟學習還有發展空間。

Anonymization 匿名化處理

除了保護模型不被有意者取來回推資料,或泄露好不容易訓練好的模型給任意開發者,或解決資料本身在傳輸的過程中很容易被攔截取得的現象,對資料的匿名化處理是一種有效的方式。

匿名化處理,類似脫敏處理,旨在將資料在可接受程度上混淆,使得訓練者不能獲取真實資料,但又能保證模型的準確度。

方法有很多,介紹以下兩種,

  • 將資料在傳輸之前加入噪聲,訓練的時候遵循一定的方法降噪
    這個方法很直觀,在雲端訓練時降噪,回傳到本地端又是加了噪聲的,使得開發人員不能獲得真實資料,攻擊者也不能從中途截取資料。
  • 差分隱私 differential privacy
    這是密碼學中的一種手段,旨在提供一種當從統計資料庫查詢時,最大化資料查詢的準確性,同時最大限度減少辨識其記錄的機會[13]

舉個例子,我們問一群被調查者一個問題(像是是否有癌症),該問題涉及隱私,所以被調查者不會希望別人知道自己的回答。

差分隱私的處理方式為:

  1. 請被調查者投擲一枚硬幣,正面朝上的話照實回答
  2. 反面朝上的話,再擲一次,如果正面朝上就照實回答,否則就說相反的回答。

我們可以由調查的結果:有癌症的人佔 P調,去推測真實的結果 P,基於以下對應:

P調=0.5P+0.25

這樣一來,我們就能準確地得知有癌症的人的分佈,並且我們不能從被調查者的回答結果準確地判斷他是否真的有癌症。

未來發展

總結一下,我們大致有以下3種隱私保護學習方向,

  • 對抗學習模式進行訓練可以有效隱藏資料含有的隱私
  • 聯盟學習提供一套多人協作的訓練模式,使得資源得以被有效利用,同時,訓練資料和訓練結果都受到一定程度的保護
  • 匿名化加密資料,讓資料本身不泄露隱私

有了 privacy-aware/privacy-preserving learning,研發人員就可以更多去研究與人類息息相關的議題,而不用受限於資料隱私問題。

甚至我們可以用數億部手機,一起做聯盟學習。這樣的資料來源更直接,且模型訓練不必受限於處理器的運算能力。事實上,Google 在 2017 年就有在 Android 的 Gboard 上利用聯盟學習根據使用者當前的輸入推薦查詢語句,並且這個反饋也被用在下一輪的學習中[4:1]

參考文獻


  1. 臉書——劍橋分析醜聞 

  2. 🎙Google承認語音助理的對話錄音被外洩! 

  3. Privacy-Preserving Adversarial Representation Learning in ASR: Reality or Illusion? 

  4. Federated Learning: Collaborative Machine Learning without Centralized Training Data 

  5. Threats to Federated Learning: A Survey 

  6. Privacy-Preserving Deep Learning via Weight Transmission 

  7. Large Scale Distributed Deep Networks 

  8. Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour 

  9. Don't Decay the Learning Rate, Increase the Batch Size 

  10. Practical Secure Aggregation for Privacy-Preserving Machine Learning 

  11. Protection Against Reconstruction and Its Applications in Private Federated Learning 

  12. Model inversion attacks that exploit
    confidence information and basic countermeasure
     

  13. 差分隱私-維基百科 

Back