7月27日,由中國互聯(lián)網(wǎng)協(xié)會(huì)指導(dǎo)、微博和新浪新聞主辦的人工智能領(lǐng)域峰會(huì)——2022新智者大會(huì)在線上召開。在主旨演講中,加拿大工程院院士、加拿大皇家科學(xué)院院士,香港科技大學(xué)講席教授楊強(qiáng)分享了他在可信聯(lián)邦學(xué)習(xí)領(lǐng)域的研究。
2022新智者大會(huì)-楊強(qiáng)院士做主題演講
以下為楊強(qiáng)教授演講實(shí)錄,內(nèi)容經(jīng)編輯略有刪減:
大家好,很高興跟大家討論可信聯(lián)邦學(xué)習(xí),這是我今天要講座的主題。
首先,我們來看一下今天的人工智能面臨很多挑戰(zhàn),其中一個(gè)瓶頸就是人工智能還過度地依賴中心化的數(shù)據(jù)。
我們知道中心化的數(shù)據(jù)在過去一段時(shí)間激勵(lì)了人工智能的發(fā)展,因?yàn)橛泻芏嗪锰?,包括樣本多,樣本的質(zhì)量好,特征也足夠的多和好,并且處理起來方便。像今天的大模型,像BERT、GPT-3、悟道等等,都是基于中心化的數(shù)據(jù)來做的,但是我們真實(shí)世界不是這樣的,真實(shí)世界的數(shù)據(jù)是多元的,數(shù)據(jù)分布在各地,并且每一個(gè)數(shù)據(jù)源有不同的屬主,他的利益也不同的,數(shù)據(jù)的格式,數(shù)據(jù)的質(zhì)量,數(shù)據(jù)特征也是異構(gòu)的。
那么隨著時(shí)間推移,數(shù)據(jù)也在發(fā)生變化,同時(shí)有很多額外的要求,比方說我們要保護(hù)用戶隱私,我們要尊重法律的邊界,我們要保證我們的過程能夠被監(jiān)管和審計(jì)等等。
所以真實(shí)的世界有很多重要的要求,在中心化的數(shù)據(jù)里面沒有體現(xiàn)。
同時(shí)國內(nèi)外的數(shù)據(jù)監(jiān)管又趨嚴(yán),比方說我們在國外熟知的是《通用數(shù)據(jù)保護(hù)法案(GDPR)》,保護(hù)個(gè)人對(duì)數(shù)據(jù)的擁有權(quán)和對(duì)模型里面所用數(shù)據(jù)的所有權(quán)。
美國也有相應(yīng)的加州消費(fèi)者隱私法案,那么在我們國內(nèi),尤其是去年,我們有三個(gè)重要的立法,一個(gè)是《數(shù)據(jù)安全法》,一個(gè)是《個(gè)人信息保護(hù)法》,還有就是《網(wǎng)絡(luò)安全法》。
那么這些加在一起,就為我們數(shù)據(jù)的流通和數(shù)據(jù)要素的使用提出了一個(gè)挑戰(zhàn),這也是我們希望能夠通過技術(shù)手段結(jié)合法律和行政手段一起來解決的問題。
那么,我們從技術(shù)上來說,我們要解決的問題相當(dāng)于“魚和熊掌都要兼得”,也就是說我們既要計(jì)算結(jié)果準(zhǔn)確,又要這個(gè)過程是安全的。因此我們就引入數(shù)據(jù)可用不可見這樣的概念,就是在數(shù)據(jù)里面,有一部分?jǐn)?shù)據(jù)是可用的,有一部分是不可用的,那么可用和不可用之間是法律來定的邊界。
那在可用的數(shù)據(jù)里,可見和不可見,又是法律和利益來定的邊界,那么哪些數(shù)據(jù)可用,同時(shí)又不可讓其他參與方看見,同時(shí)你們要聯(lián)合起來計(jì)算一個(gè)結(jié)果,那么就屬于隱私計(jì)算的范疇了。那么在范疇里有幾個(gè)不同的大的研究方向,一個(gè)叫做安全多方計(jì)算,一個(gè)叫做差分隱私,一個(gè)叫做安全硬件執(zhí)行環(huán)境,還有一個(gè)叫做聯(lián)邦學(xué)習(xí)。
那么我們在做這幾個(gè)方面合作的時(shí)候,數(shù)據(jù)持有方、使用方也分別采用不同的角色,比方說甲方的角色就是數(shù)據(jù)的使用方,包括金融機(jī)構(gòu),包括醫(yī)療機(jī)構(gòu),還有政務(wù)部門。
那么還有乙方就是數(shù)據(jù)的擁有方,比方說,有一些特殊的行業(yè)數(shù)據(jù),一些政府?dāng)?shù)據(jù),還有一些是像醫(yī)療,政務(wù)等等,那還有就是技術(shù)的提供方,有時(shí)候技術(shù)的提供方就是甲方,有時(shí)候技術(shù)提供方就是乙方,也有單獨(dú)的丙方作為技術(shù)提供方,叫隱私計(jì)算的服務(wù)機(jī)構(gòu)。
那么隱私計(jì)算,作為目標(biāo)來講,就是數(shù)據(jù)可用而不可見。尤其是在聯(lián)合建模,建人工智能模型的時(shí)候,不僅原始數(shù)據(jù)不可以讓對(duì)方看見,同時(shí)我們在做模型的訓(xùn)練和模型的使用的時(shí)候,我們也不希望模型的關(guān)鍵參數(shù)被對(duì)方看見,這個(gè)也是隱私計(jì)算和聯(lián)邦學(xué)習(xí)的共同目的。
那么我們這么多年的發(fā)展也形成了一個(gè)很大的工具包,這個(gè)里面包括差分隱私,可信執(zhí)行環(huán)境,縱向橫向的聯(lián)邦學(xué)習(xí),聯(lián)邦遷移學(xué)習(xí),同態(tài)加密,還有安全多方計(jì)算的各個(gè)維度,包括秘密共享,混淆電路,不經(jīng)意傳輸,零知識(shí)證明等等。
那么我們看隱私計(jì)算,技術(shù)的發(fā)展歷程,也是經(jīng)歷了不同的階段,首先從理論的角度來說,安全多方計(jì)算最先得到了發(fā)展,他的特點(diǎn)是安全可證明,但是如果全程、全生命周期都使用就很難來建立大模型,那么當(dāng)數(shù)據(jù)庫大量的多方查詢發(fā)生了以后,就有差分隱私出現(xiàn)。
但是差分隱私,同時(shí)對(duì)建模非常的不友好,因?yàn)樗鼤?huì)使模型的效果降低,硬件廠商推出了集中加密計(jì)算,像TEE,但也會(huì)使各方的數(shù)據(jù)一定要出本地,就增加了安全風(fēng)險(xiǎn),但是它的一個(gè)好處是特別能支持這種集中計(jì)算,像云計(jì)算。那隨著AI的發(fā)展,從2016年以后,多方分布式的,同時(shí)安全可信的聯(lián)合模型計(jì)算就被提出來,2016年谷歌提出了橫向聯(lián)邦學(xué)習(xí)。
2018年,我們中國的學(xué)者提出了縱向聯(lián)邦學(xué)習(xí)和聯(lián)邦遷移學(xué)習(xí)。
今年,我們又提出可信聯(lián)邦學(xué)習(xí),包括知識(shí)產(chǎn)權(quán)保護(hù)。
聯(lián)邦學(xué)習(xí)的目的是利用多方本地的數(shù)據(jù)聯(lián)合計(jì)算一個(gè)模型,并且聯(lián)合使用模型。我們要求是模型不泄露任何本地的數(shù)據(jù),同時(shí),本地的數(shù)據(jù)又不出各自的本地。在此過程中,我們模型同時(shí)能夠得到高效的成長,就像我們率領(lǐng)一只羊能夠去拜訪各地的草場,能夠讓羊成長,同時(shí)草料不出農(nóng)場。
我們特別要強(qiáng)調(diào)的是,原始數(shù)據(jù)和模型的私密數(shù)據(jù)都不動(dòng)和不可見,也就是說,我們這只羊在訪問一個(gè)草場,他離開的時(shí)候,他也不帶走任何草場的隱私,泄露給其他的參與方。
那么隱私計(jì)算的技術(shù)和聯(lián)邦學(xué)習(xí)的算法,應(yīng)該說來自很多很多家的努力,包括同態(tài)加密,包括剛才所說的安全多方計(jì)算,還有分布式的機(jī)器學(xué)習(xí),各種機(jī)器學(xué)習(xí)算法,包括橫向縱向的聯(lián)邦學(xué)習(xí),包括利用MPC和同態(tài)加密的方式來做這種PSI,包括優(yōu)化算法和博弈論的算法。
那么這個(gè)近年來有很多不同的發(fā)展。那么我剛才多次提到谷歌提出橫向聯(lián)邦學(xué)習(xí),它的大意是當(dāng)我們有多個(gè)終端設(shè)備,各自擁有一部分?jǐn)?shù)據(jù),大家如何來聯(lián)合更新一個(gè)本地模型,同時(shí)能夠計(jì)算一個(gè)通用模型,那么假設(shè)我們有一個(gè)服務(wù)器來做一個(gè)coordinator的時(shí)候,我們就可以把各自的模型,本地模型進(jìn)行加密,并且把加密的package傳輸給服務(wù)器。
服務(wù)器在加密的狀態(tài)下可以進(jìn)行各種統(tǒng)計(jì)計(jì)算,可以計(jì)算出一個(gè)加密的通用模型,這個(gè)通用模型又可以在加密的狀態(tài)傳輸?shù)礁鞯氐谋镜厝ジ卤镜氐哪P?,這個(gè)過程叫做橫向聯(lián)邦。
原因是因?yàn)樗喈?dāng)于對(duì)一個(gè)數(shù)據(jù)表格進(jìn)行用戶間的,樣本間的切割。那么每一個(gè)樣本模塊都分布到一個(gè)不同的終端設(shè)備上,縱向聯(lián)邦是由于企業(yè)間的合作需求所引發(fā)的,也就是說,當(dāng)我們每一個(gè)企業(yè)有不同的特征,這個(gè)時(shí)候我們可以考慮企業(yè)間的樣本有重合,但是他們的特征卻沒有重合,在這種狀態(tài)下,我們可以讓兩邊聯(lián)合建模,就像右邊圖所示。
在這個(gè)過程中,我們需要更新溝通一些模型的參數(shù),比方說梯度,我們也要強(qiáng)調(diào),這個(gè)梯度的溝通一定要是在加密狀態(tài)下進(jìn)行的。同時(shí)我們還考慮到生態(tài)的建設(shè),數(shù)據(jù)生態(tài),那么這個(gè)時(shí)候就要建立一個(gè)很好的機(jī)制,就是數(shù)據(jù)定價(jià),模型定價(jià),模型貢獻(xiàn)度的決策和計(jì)算。這個(gè)機(jī)制可以通過一個(gè)博弈論和信息論來進(jìn)行。
多方的參與,會(huì)不會(huì)有安全的隱患?人工智能本身是可以被攻擊的,我們知道,一個(gè)模型有一個(gè)訓(xùn)練過程,也有一個(gè)使用過程,在訓(xùn)練過程和使用過程當(dāng)中,都有一些可能的關(guān)鍵節(jié)點(diǎn),是有可能被不謀好意者攻擊的。比方說某一個(gè)參與方可以推斷對(duì)方的訓(xùn)練數(shù)據(jù),那么這個(gè)就屬于一種半誠實(shí)的攻擊,還有就是叫拜占庭攻擊,就是一個(gè)參與方,他參與的一個(gè)目標(biāo)就是來損害模型的質(zhì)量。還有就是在模型的使用推理的時(shí)候進(jìn)行攻擊來欺騙模型,以達(dá)到某種個(gè)人的目的。
因此,我們在聯(lián)邦學(xué)習(xí)設(shè)計(jì)的時(shí)候,就特別的有必要來設(shè)計(jì)一個(gè)對(duì)抗攻擊的一個(gè)算法,那么攻擊的例子,叫做半誠實(shí)攻擊。比方說在共同建立一個(gè)計(jì)算機(jī)人臉識(shí)別模型的時(shí)候,一個(gè)參與方可以根據(jù)雙方溝通的梯度來反猜對(duì)方的原始人臉數(shù)據(jù)。
在MIT的一個(gè)工作當(dāng)中,叫做深度泄漏攻擊,他兩邊模型的交流用的是梯度的交流,并且對(duì)梯度進(jìn)行加噪音的這樣的一種梯度保護(hù),但是實(shí)踐表明,如果噪音加的不夠多,那么就會(huì)使得模型的總體安全性下降。
其實(shí)不僅僅有這種半誠實(shí)的攻擊,還可能有其他的攻擊,包括外在和內(nèi)在的攻擊,惡意的攻擊,訓(xùn)練和推理時(shí)候的攻擊。
那么我們提出可信聯(lián)邦學(xué)習(xí)就是要增大攻擊方的成本,使之大于攻擊所獲得的收益,那么這樣就可以勸退攻擊方,使得他無利可圖,所以我們就說,如果我們要保障模型的安全,我們就需要來制定這個(gè)方案,我們首先要有一個(gè)威脅模型,我們要知道模型來自什么地方,模型攻擊的對(duì)象是什么,模型攻擊的模型是什么,還有就是我們采取哪些保護(hù)措施,當(dāng)這些變量定下來以后,我們就可以對(duì)整個(gè)的保護(hù)機(jī)制來定一個(gè)安全等級(jí),這個(gè)也是我們建立標(biāo)準(zhǔn)的一個(gè)基礎(chǔ)。
所以可信聯(lián)邦學(xué)習(xí),是在聯(lián)邦學(xué)習(xí)分布式聯(lián)合建模的基礎(chǔ)上,要加入安全可信的機(jī)制,同時(shí),又能夠保證整個(gè)的模型是高效可用,可管理,可審計(jì),并且是普惠的。我們剛才所說的半誠實(shí)攻擊,就是可以用可信聯(lián)邦學(xué)習(xí)來增大攻擊者成本的一個(gè)例子。
我們最近也做出一個(gè)理論的結(jié)果,隱私計(jì)算是要滿足一個(gè)叫所謂的“no free lunch”,就是“沒有免費(fèi)午餐”的這樣的一個(gè)定理,如果我們要安全和效能全部都提到100%最高是不可能的,因此安全和效能一定要做一個(gè)非常巧妙的平衡,使得我們既安全又高效。那么這樣就是對(duì)框架算法設(shè)計(jì)者的一個(gè)考驗(yàn),這個(gè)考驗(yàn)也取決于我們要建立一個(gè)標(biāo)準(zhǔn),在標(biāo)準(zhǔn)之下,我們用一些標(biāo)準(zhǔn)來建立我們的聯(lián)邦學(xué)習(xí)框架,就可以保證既安全又高效。
這就好像我們蓋房子是用一些標(biāo)準(zhǔn)件來蓋的,雖然每一個(gè)標(biāo)準(zhǔn)件都很安全,但是整個(gè)房子的安全是取決于我們是不是滿足某種安全標(biāo)準(zhǔn)。
如果我們有這樣的一種共同的安全機(jī)制來幫助我們,那么城市基建的速度就會(huì)大為提升,因此,聯(lián)邦學(xué)習(xí)這種新基建,標(biāo)準(zhǔn)化相比于定制化系統(tǒng)的建立,效率就會(huì)大為的提升。
比方說我們可以用博弈論來設(shè)計(jì)這種攻防的機(jī)制,中間我們看到一個(gè)矩陣,這個(gè)矩陣就是攻擊者和防御者他們采取不同的策略的時(shí)候,所獲得最后的結(jié)果。
我們要問的問題,是什么條件下攻擊者不愿意發(fā)起攻擊,那么最后發(fā)現(xiàn)如果我們有一個(gè)有效的溝通機(jī)制,使得攻擊者能夠明白我們一些防御的措施,就可以阻止攻擊者,這也是我們在設(shè)計(jì)算法的時(shí)候所需要采納的一個(gè)方式。
像左邊的這個(gè)方式,我們有了一個(gè)安全的機(jī)制,我們可以對(duì)全世界公布一些安全措施,使得攻擊者可以望而止步。
那么我們的措施也做了各種的實(shí)驗(yàn),這里的綠色的區(qū)域,在圖里面。
一個(gè)是安全防護(hù),一個(gè)是效果效率。
在這兩個(gè)方面,如何能夠得到一個(gè)最佳的平衡,我們?nèi)绻到y(tǒng)整個(gè)的參數(shù)是調(diào)到綠色的區(qū)域,我們就能保證這種平衡和這種安全和效率的平衡得到滿足。
剛才所說的這種系統(tǒng)的設(shè)計(jì),也可以有效地用在這種惡意攻擊的防御上,比方說拜占庭攻擊,就像我們圖里面,我們有眾多的參與者,每一個(gè)小的綠色模塊都是一個(gè)參與者,其中有兩個(gè)是壞人,并且他們可以參與一個(gè)共謀機(jī)制。
我們就可以設(shè)計(jì)一種機(jī)制,能夠防止他們在共謀的狀態(tài)下,非常難以防御的狀態(tài)下,有效地攻擊我們的服務(wù)器。
那么我們主要采取的方法是一個(gè)圖計(jì)算,機(jī)器學(xué)習(xí)的功能,使得我們能夠區(qū)分這種惡意的共謀組與正常的合作組的合作特性,使得我們能夠在以圖分解的形式,把這種共謀的壞人的小組給孤立出來,并且把他們剔除出去。
實(shí)驗(yàn)表明,這樣的一個(gè)結(jié)果,能夠保證系統(tǒng)安全可信、可靠地運(yùn)行。
第二個(gè),可信聯(lián)邦學(xué)習(xí),要保證我們模型版權(quán)是被保護(hù)的,整個(gè)過程是被審計(jì)的,是透明的,可解釋的。那么版權(quán)保護(hù)也就是說我們的模型如果有一個(gè)輸出,也是大家多方共同參與建設(shè)一個(gè)模型,真正的參與方都應(yīng)該有他們自己的一個(gè)審計(jì)的烙印。我們稱這種烙印叫做“模型水印”。當(dāng)我們一個(gè)模型有10個(gè)參與方,但是真正參與貢獻(xiàn)的只有3個(gè)參與方,其他7個(gè)都是打醬油的,在這種情況下,通過3個(gè)參與方的水印,我們就可以清楚的知道,這3個(gè)參與者才是對(duì)模型真正的貢獻(xiàn)者。這個(gè)機(jī)制也可以幫助我們做數(shù)據(jù)的確權(quán)和數(shù)據(jù)的定價(jià),因?yàn)槲覀冎?,這3個(gè)參與者應(yīng)該得到最大的收益。
如何能夠把水印放到模型里面?在多方建模的過程當(dāng)中,訓(xùn)練當(dāng)中就在進(jìn)行。我們設(shè)計(jì)了在深度學(xué)習(xí)的多層神經(jīng)網(wǎng)絡(luò)的狀態(tài)下,能夠秘密地把水印植入到模型里面,同時(shí)滿足以下三個(gè)方面:
第一,模型的效率和效果都不被受影響;
第二,我們植入的水印是秘密的,很難被其他的惡意參與者給剔除掉;
第三,通過水印我們可以做模型和數(shù)據(jù)的確權(quán)。
比方說,對(duì)于深度學(xué)習(xí)模型,我們有這個(gè)工具,能夠確保最大水印的維度,保證不同的參與者,他們的水印不互相影響,并且保證水印不影響模型的效果,同時(shí),我們有一個(gè)檢測機(jī)制,當(dāng)一個(gè)模型被購買來的時(shí)候,我們能夠檢測模型真正的擁有者是誰,它的源頭是哪些,他的數(shù)據(jù)來自哪些參與者的數(shù)據(jù),也就是能夠給一個(gè)全面的審計(jì)結(jié)構(gòu)。
聯(lián)邦學(xué)習(xí)因?yàn)槭嵌喾絽⑴c的,因此離不開一個(gè)標(biāo)準(zhǔn)的建設(shè),那么我們也是積極的領(lǐng)銜建立了相關(guān)標(biāo)準(zhǔn),像IEEE在去年三月份就發(fā)布了全球第一個(gè)聯(lián)邦學(xué)習(xí)的國際標(biāo)準(zhǔn)。
信通院也發(fā)布了團(tuán)體標(biāo)準(zhǔn),現(xiàn)在正在建立國家標(biāo)準(zhǔn),我們也建立了世界上首個(gè)隱私計(jì)算的聯(lián)邦學(xué)習(xí)開源社區(qū),社區(qū)叫FATE。那么現(xiàn)在也是開源開放和數(shù)字化轉(zhuǎn)型的一個(gè)有力工具,也是有很多很多的工程師和參與者貢獻(xiàn)的結(jié)果。
中國信通院的調(diào)查顯示,55%的國內(nèi)隱私計(jì)算產(chǎn)品是基于或參考了開源項(xiàng)目,其中以FATE開源項(xiàng)目為主。
可信聯(lián)邦學(xué)習(xí)雖然是一個(gè)新的技術(shù),但是它的案例卻非常快速的積累起來。
在互聯(lián)網(wǎng)金融的服務(wù)場景,在這個(gè)場景,有很多的機(jī)器人,比方說有KYC,就是安全反欺詐的機(jī)器人,包括人臉識(shí)別,語音識(shí)別。還有服務(wù)機(jī)器人,還有坐席的培訓(xùn)和審計(jì),客服質(zhì)量檢測機(jī)器人,這些機(jī)器人他們的訓(xùn)練和更新都使用了聯(lián)邦學(xué)習(xí),因?yàn)閿?shù)據(jù)來自很多的數(shù)據(jù)源。
在醫(yī)療領(lǐng)域,多個(gè)醫(yī)院和醫(yī)療機(jī)構(gòu)可以利用各自的數(shù)據(jù),可以形成一個(gè)橫向或者縱向聯(lián)邦可以建立一個(gè)共同的模型,共同建的模型可以做各種醫(yī)療診斷,可以做各種生物學(xué)的科學(xué)研究,可以為用戶提供更好的個(gè)性化醫(yī)療方案。
在廣告營銷場景,聯(lián)邦學(xué)習(xí)也可以聯(lián)合廣告方和平臺(tái)方,甚至可以聯(lián)合多個(gè)數(shù)據(jù)源來做更好的新聞推薦、產(chǎn)品推薦等,推薦更個(gè)性化并且能夠保證用戶隱私不被泄露。
我們也積極地建立這樣的生態(tài),一個(gè)例子是我們建立了一個(gè)叫開放群島的開源社區(qū),開放群島是由深圳數(shù)據(jù)交易所聯(lián)合國家智庫,國家單位,大型金融機(jī)構(gòu),高校,大型互聯(lián)網(wǎng)公司等50家機(jī)構(gòu)建立起來的一個(gè)國際化的自主可控的隱私計(jì)算的開源社區(qū),能夠推動(dòng)互聯(lián)互通,數(shù)據(jù)要素流通,數(shù)字化轉(zhuǎn)型有效的發(fā)展。
可信聯(lián)邦也有一個(gè)特性,就是決策過程應(yīng)該是可解釋的??山忉屓斯ぶ悄芤渤蔀樾乱淮斯ぶ悄艿囊粋€(gè)特征,最近我們也出版了一本書叫做《可解釋人工智能導(dǎo)論》,我們不管在開源軟件上,在學(xué)術(shù)研究上都積極的正在推動(dòng)可解釋的聯(lián)邦學(xué)習(xí)。力圖把聯(lián)邦學(xué)習(xí)的決策機(jī)制解釋給不同的角色的聽眾,包括用戶,包括監(jiān)管,也包括工程師和和數(shù)據(jù)的使用者。
這里舉的一個(gè)醫(yī)療的例子,就是對(duì)于醫(yī)療欺詐的檢測,可以對(duì)病人和醫(yī)生分別給出不同的解釋。
我的講座到此結(jié)束,謝謝大家聆聽。
<結(jié)束>