2022年,隱私計算商業(yè)化和技術(shù)迭代雙提速。近日,在“機(jī)器之心”舉辦的「AI科技年會」上,聯(lián)邦學(xué)習(xí)FATE開源社區(qū)技術(shù)指導(dǎo)委員會主席、加拿大工程院及加拿大皇家科學(xué)院兩院院士楊強(qiáng)教授提出,聯(lián)邦學(xué)習(xí)研究進(jìn)入新階段,下一個重點(diǎn)目標(biāo)是如何實(shí)現(xiàn)“可信聯(lián)邦學(xué)習(xí)”。
可信聯(lián)邦學(xué)習(xí)的三大要素
2022年將成為一個新的技術(shù)分水嶺——從聯(lián)邦學(xué)習(xí)到可信聯(lián)邦學(xué)習(xí)。
針對近兩年來隱私計算和聯(lián)邦學(xué)習(xí)發(fā)展和應(yīng)用中面臨的安全、效率等挑戰(zhàn),楊強(qiáng)教授及團(tuán)隊對聯(lián)邦學(xué)習(xí)的理論進(jìn)行了持續(xù)豐富和拓展,形成了“可信聯(lián)邦學(xué)習(xí)”。據(jù)楊強(qiáng)教授介紹,可信聯(lián)邦學(xué)習(xí)是安全可信的聯(lián)邦學(xué)習(xí),是能夠滿足用戶和監(jiān)管等各方面需求的分布式機(jī)器學(xué)習(xí)范式。
在此范式中,隱私保護(hù)、模型性能、算法效率是核心的三角基石,并且與模型的決策可解釋性和模型的可監(jiān)管性兩大支柱,共同構(gòu)成了更加安全可信的聯(lián)邦學(xué)習(xí)。數(shù)據(jù)安全可證明、模型性能可使用、機(jī)器學(xué)習(xí)效率可控、決策可解釋、模型可監(jiān)管和普惠是可信聯(lián)邦學(xué)習(xí)的核心特征。
隱私安全方面,需要可證的隱私安全,并且具有抗攻擊能力;模型性能方面,參與聯(lián)邦學(xué)習(xí)的模型性能效用最優(yōu),不能因為保護(hù)隱私而導(dǎo)致模型性能的大幅下降;算法效率方面,聯(lián)邦學(xué)習(xí)應(yīng)該是一個高效的過程,要盡可能地提升通訊和計算的效率;可解釋和可監(jiān)管方面,則需要機(jī)制透明,結(jié)果可說明、可溯源、可審計、可追責(zé);普惠方面,利用開源等方式,降低隱私保護(hù)AI應(yīng)用的門檻。
可信聯(lián)邦學(xué)習(xí)是技術(shù)融合的必然走向
隱私計算有多個技術(shù)分支,近年來,研究者在每個細(xì)分領(lǐng)域都付出了大量努力,實(shí)現(xiàn)隱私計算從0到1的開拓。在技術(shù)不斷發(fā)展成熟過程中,“可信聯(lián)邦學(xué)習(xí)”的提出,是首次將安全、性能,效率等要素統(tǒng)一在共同的理論框架下。
過往有部分觀點(diǎn)錯誤地認(rèn)為,安全多方計算(MPC)、同態(tài)加密(HE)、可信執(zhí)行環(huán)境(TEE)、差分隱私(DP)、聯(lián)邦學(xué)習(xí)等,各技術(shù)分支之間是“非此即彼”的關(guān)系。一種更極端片面的觀點(diǎn)甚至認(rèn)為,聯(lián)邦學(xué)習(xí)技術(shù)是通過犧牲安全性來追求效率,并以此作為反對聯(lián)邦學(xué)習(xí)的理由。
對此,楊強(qiáng)教授及團(tuán)隊提出了隱私與模型性能的"No-free-lunch安全-收益恒定"定律(論文鏈接:https://arxiv.org/abs/2203.05816),從信息論的角度為隱私泄露和效用損失的權(quán)衡提供了一個通用的理論框架。
針對多方機(jī)器學(xué)習(xí)中不同的潛在攻擊行為和對安全可能的威脅,這一理論框架揭示了對于滿足“貝葉斯隱私”的多方計算系統(tǒng)而言,都滿足“|安全|+|效能|≤常數(shù)” 這一“安全-效益恒定定律”,表明天下沒有免費(fèi)的午餐,想同時不泄露隱私和不降低模型性能是不可能的,但可以找到均衡點(diǎn)。基于這一理論框架的可信聯(lián)邦學(xué)習(xí),既不會犧牲對數(shù)據(jù)的安全保護(hù),也不會放任模型性能和學(xué)習(xí)效率的大幅下降,而是利用安全-效益恒定定律所揭示的內(nèi)在關(guān)系,將安全-性能-效率三者形成有機(jī)整體,以實(shí)現(xiàn)更高質(zhì)量的隱私保護(hù)。
楊強(qiáng)教授表示,任何多方參與進(jìn)行人工智能建模的過程,都繞不開可信聯(lián)邦學(xué)習(xí)這一通用的機(jī)器學(xué)習(xí)范式。基于此理論框架,能夠量化分析隱私計算各種技術(shù)保護(hù)方案的優(yōu)劣,進(jìn)而指導(dǎo)隱私保護(hù)算法設(shè)計。合理運(yùn)用包括安全多方計算(MPC)、同態(tài)加密(HE)、可信執(zhí)行環(huán)境(TEE)、差分隱私(DP)等技術(shù)手段來進(jìn)行合理配置,結(jié)合分布式機(jī)器學(xué)習(xí)和人工智能算法,找到聯(lián)合建模可信、可行及可控的解決方案,這就是“可信聯(lián)邦學(xué)習(xí)”的核心命題。此外,通過可信聯(lián)邦學(xué)習(xí)中模型的“版權(quán)保護(hù)”(FedIPR),實(shí)現(xiàn)數(shù)據(jù)版權(quán)的保護(hù)和結(jié)果可溯源、可審計、可解釋;通過開源、開放和共享,實(shí)現(xiàn)普惠。這些方面將共同構(gòu)建起可信聯(lián)邦學(xué)習(xí)的內(nèi)涵和外延。可信聯(lián)邦學(xué)習(xí)將在各種場景下使隱私計算應(yīng)用成為現(xiàn)實(shí),極大降低隱私計算的成本,提升隱私計算應(yīng)用質(zhì)量,推動隱私計算的加速發(fā)展。