2022年,隱私計算商業化和技術迭代雙提速。近日,在“機器之心”舉辦的「AI科技年會」上,聯邦學習FATE開源社區技術指導委員會主席、加拿大工程院及加拿大皇家科學院兩院院士楊強教授提出,聯邦學習研究進入新階段,下一個重點目標是如何實現“可信聯邦學習”。
可信聯邦學習的三大要素
2022年將成為一個新的技術分水嶺——從聯邦學習到可信聯邦學習。
針對近兩年來隱私計算和聯邦學習發展和應用中面臨的安全、效率等挑戰,楊強教授及團隊對聯邦學習的理論進行了持續豐富和拓展,形成了“可信聯邦學習”。據楊強教授介紹,可信聯邦學習是安全可信的聯邦學習,是能夠滿足用戶和監管等各方面需求的分布式機器學習范式。
在此范式中,隱私保護、模型性能、算法效率是核心的三角基石,并且與模型的決策可解釋性和模型的可監管性兩大支柱,共同構成了更加安全可信的聯邦學習。數據安全可證明、模型性能可使用、機器學習效率可控、決策可解釋、模型可監管和普惠是可信聯邦學習的核心特征。
隱私安全方面,需要可證的隱私安全,并且具有抗攻擊能力;模型性能方面,參與聯邦學習的模型性能效用最優,不能因為保護隱私而導致模型性能的大幅下降;算法效率方面,聯邦學習應該是一個高效的過程,要盡可能地提升通訊和計算的效率;可解釋和可監管方面,則需要機制透明,結果可說明、可溯源、可審計、可追責;普惠方面,利用開源等方式,降低隱私保護AI應用的門檻。
可信聯邦學習是技術融合的必然走向
隱私計算有多個技術分支,近年來,研究者在每個細分領域都付出了大量努力,實現隱私計算從0到1的開拓。在技術不斷發展成熟過程中,“可信聯邦學習”的提出,是首次將安全、性能,效率等要素統一在共同的理論框架下。
過往有部分觀點錯誤地認為,安全多方計算(MPC)、同態加密(HE)、可信執行環境(TEE)、差分隱私(DP)、聯邦學習等,各技術分支之間是“非此即彼”的關系。一種更極端片面的觀點甚至認為,聯邦學習技術是通過犧牲安全性來追求效率,并以此作為反對聯邦學習的理由。
對此,楊強教授及團隊提出了隱私與模型性能的"No-free-lunch安全-收益恒定"定律(論文鏈接:https://arxiv.org/abs/2203.05816),從信息論的角度為隱私泄露和效用損失的權衡提供了一個通用的理論框架。
針對多方機器學習中不同的潛在攻擊行為和對安全可能的威脅,這一理論框架揭示了對于滿足“貝葉斯隱私”的多方計算系統而言,都滿足“|安全|+|效能|≤常數” 這一“安全-效益恒定定律”,表明天下沒有免費的午餐,想同時不泄露隱私和不降低模型性能是不可能的,但可以找到均衡點。基于這一理論框架的可信聯邦學習,既不會犧牲對數據的安全保護,也不會放任模型性能和學習效率的大幅下降,而是利用安全-效益恒定定律所揭示的內在關系,將安全-性能-效率三者形成有機整體,以實現更高質量的隱私保護。
楊強教授表示,任何多方參與進行人工智能建模的過程,都繞不開可信聯邦學習這一通用的機器學習范式。基于此理論框架,能夠量化分析隱私計算各種技術保護方案的優劣,進而指導隱私保護算法設計。合理運用包括安全多方計算(MPC)、同態加密(HE)、可信執行環境(TEE)、差分隱私(DP)等技術手段來進行合理配置,結合分布式機器學習和人工智能算法,找到聯合建模可信、可行及可控的解決方案,這就是“可信聯邦學習”的核心命題。此外,通過可信聯邦學習中模型的“版權保護”(FedIPR),實現數據版權的保護和結果可溯源、可審計、可解釋;通過開源、開放和共享,實現普惠。這些方面將共同構建起可信聯邦學習的內涵和外延。可信聯邦學習將在各種場景下使隱私計算應用成為現實,極大降低隱私計算的成本,提升隱私計算應用質量,推動隱私計算的加速發展。