現在,許多企業會收集越來越多的敏感數據,不可避免地會遭遇數據泄露的問題,隱私成為當下科技界備受關注的一個熱門話題。隱私是指個人有權利控制或影響其信息如何被收集、使用和存儲,以及誰可以披露這些信息、如何披露。第三方不得通過某人提供的數據直接追溯其身份,或者通過統計信息來追溯。這最后一個要求使企業難以收集和分析用戶數據以洞察用戶行為、改進決策流程以及衡量產品、臨床試驗或廣告活動的效果。
為了繼續使用這些數據,遵守CCPA和GDPR等數據隱私和保護法規,并避免因違規而挨罰,許多組織紛紛采用隱私增強技術(Privacy Enhancing Technology,簡稱“PET”)。PET可確保個人或敏感信息在整個生命周期內保持私密性。PET涵蓋一系列廣泛的技術,旨在遵守隱私和數據保護原則,同時保持從用戶提供的數據中提取價值的能力。為此,大多數PET采用的方法是,使用加密和統計技術來混淆敏感數據,或減少所處理的實際數據量。
以下是一些最常見的加密和統計PET及其用途。
加密隱私增強技術
•差分隱私
差分隱私將處理過的干擾信息添加到數據集,這樣既可以識別數據集中的組模式,同時保持個人的匿名性。這使得龐大數據集可以發布用于公共研究。科技公司也使用差異隱私來分析大量用戶數據,并從中獲得洞察力。
•同態加密
同態加密能夠對加密數據進行計算操作。任何分析的結果都保持加密狀態,只有數據所有者才能解密和查看。這種加密方法使企業能夠分析云存儲中的加密數據,或與第三方共享敏感數據。谷歌已發布了開源庫和工具,對加密數據集執行同態加密的操作。
•安全多方計算(SMPC)
安全多方計算(Secure multiparty computation,簡稱“SMPC”)是同態加密的一個子領域,將計算分布到諸多系統和多個加密數據源上。這項技術確保任何一方都看不到整個數據集,并限制了任何一方可以獲得的信息。OpenMined在其PyGrid對等平臺中使用SMPC,用于私密數據科學和聯合學習。
•零知識證明(ZKP)
零知識證明(Zero-Knowledge Proof或Zero-Knowledge Protocol,簡稱“ZKP”)是一組加密算法,可以在不泄露證明信息的數據這種情況下驗證信息。它在身份認證中起到了至關重要的作用。比如說,可以使用ZKP驗證某人的年齡,而不透露其實際出生日期。
統計隱私增強技術
•聯合學習
聯合學習是一種機器學習技術,它使單個設備或系統能夠協同學習共享的預測模型,同時將數據保存在本地。比如說,手機下載當前模型,通過學習手機上的數據來改進該模型,然后僅將匯總后的變更內容上傳到集中式模型。之后,變更內容結合其他設備上的更新內容,改進共享的模型。聯合學習減少了需存儲在集中式服務器或云存儲的數據量。谷歌在Android/ target=_blank class=infotextkey>安卓的Gboard中使用了聯合學習。
•生成式對抗網絡(GAN)
生成式對抗網絡(GAN, Generative Adversarial.NETworks,簡稱“GAN”)生成模擬真實數據集的新合成數據實例。這種方法為分析人員、研究人員和機器學習系統提供了大量高質量的合成數據。GAN識別數據中復雜模式的能力被用于快速發現醫療測試和網絡流量中的異常情況。
•假名化/混淆/數據屏蔽
多種方法可以用來通過將敏感數據與虛構性、分散注意力或誤導性的數據相結合,從而替換或隱藏敏感信息,包括假名化、混淆和數據屏蔽等方法。這是企業用來保護用戶的敏感數據、遵守隱私法規的一種常見做法。但是某些匿名化措施(比如僅僅刪除含有個人身份信息即PII的列或屏蔽數據),可能會使處理后的數據仍有機會通過“再識別”還原信息,從而追蹤到提供數據的個人。
•設備端學習
可以分析用戶在設備端的操作來識別模式,無需將個人數據發送到遠程服務器。設備端學習可用于使算法更智能化,比如自動更正。蘋果的Face ID就使用設備端學習來收集有關用戶臉部不同外觀的數據,因此其識別方法更準確更安全。
•合成數據生成(SDG)
合成數據生成(Synthetic Data Generation,簡稱“SDG”)是從具有相同統計特征的原始數據集中人工創建的數據。由于SDG數據集可能遠大于原始數據集,除了用于人工智能和機器學習外,這項技術還用于測試環境,以減少數據共享和所需的實際數據量。
結語
PET是多方共享和分析數據的一種安全方式,這對用戶、組織和社會具有巨大的潛在好處,因為高質量數據的可訪問性和可用性是創新的第一步。PET已經用于不同方面,比如應用程序和系統測試,尤其是在物聯網、金融交易和醫療保健服務等領域。
英國數據倫理和創新中心已發布《PET采用指南》,旨在幫助組織考慮PET如何為數據驅動的創新帶來機遇。負責監督GDPR執行的歐洲數據保護委員會和歐盟網絡安全管理局也發布了技術指南,支持SMPC作為一種有效的隱私保護措施,并列出了在醫療保健和網絡安全領域的用途。