近日,平安科技聯邦學習技術團隊的論文《Empirical Studies of Institutional Federated Learning For Natural Language Processing》(聯邦學習框架中自然語言處理模型的實證研究)被自然語言處理(NLP)方向的國際學術會議EMNLP 2020收錄。
一年一度的全球學術大會EMNLP是計算機語言學和自然語言處理領域最受關注的國際學術會議之一,由國際語言學會(ACL)旗下SIGDAT組織。其中,會議涵蓋的語義理解、文本理解、信息提取、信息檢索和機器翻譯等多項技術主題,是當今學術界和工業界備受關注的熱點方向。EMNLP 2020一共收到投稿3114篇,其中錄用754篇,錄用率不到25%。在即將召開的EMNLP學術會議,來自全球的杰出學者及研究人員將共聚一堂,展示自然語言處理領域的前沿研究成果。這些成果,將代表著相關領域和技術細分中的研究水平以及未來發展方向。
平安聯邦學習技術團隊近來已發布多項頗具顯示度和開創性的科研成果,而這篇論文也是業界發表的在聯邦學習框架下實現NLP模型訓練的創新性研究成果,是繼聯邦學習團隊在咳嗽檢測COVID-19智能系統、Occam自動化機器學習平臺研發后獲得的又一個創新性的突破,再一次得到了全球專家的認可,同時也成功部署到蜂巢聯邦智能平臺計算引擎中,該項成果代表著團隊在聯邦學習和自然語言處理結合領域的技術領先地位。
業內聯邦學習NLP模型重磅發布
聯邦學習為深度學習提供了一種數據可用不可見的訓練方式,因而在深度學習領域激起了新的熱潮。利用大量的訓練樣本,深度學習能夠學習到幾乎任意任務的數學模型。然而,由于用戶隱私政策、數據監管法規的限制,很多數據碎片化地保存在不同機構的數據庫里,傳統的深度學習方法將無法在這樣的數據上進行訓練,聯邦學習正是為了解決這樣的數據孤島問題應運而生。
圖1 差分隱私保護的聯邦學習系統架構圖
(圖中不同灰度的背景顏色代表著不同的安全保護邊界)
隨著新的訓練方法和計算硬件的發展,聯邦學習被越來越多地應用到圖像、語音、文本等多種數據的任務訓練中。在論文中,團隊在支持GPU的服務器群集上成功部署了聯邦自然語言處理網絡。以一個常用的NLP模型:TextCNN為例,展示了聯邦學習在自然語言處理領域的應用潛力。此外,團隊在聯邦網絡訓練過程中引入了可管理的差分隱私技術,有效保護了聯邦學習參與者的數據安全(見圖1)。與現有的客戶端級別的隱私保護方案不同,團隊提出的差分隱私是定義在數據集樣本級別的,這與目標場景——機構間的聯邦合作訓練是一致的。通過綜合大量實驗分析,團隊研究了聯邦學習框架下TextCNN模型的超參數的最佳設置并評估了在不均衡數據負載情況下,差分隱私要求對聯邦TextCNN模型的性能影響。
實驗表明,在聯邦模型訓練過程中,本地訓練使用的采樣率對FL模型的性能有很大的影響,可能導致測試精度下降達38.4%。
另一方面,聯邦學習對差分隱私使用的不同的噪聲乘數級別具有較強的魯棒性,在一系列不同噪聲級別的實驗中,測試精度的變化小于3% (見圖2)。然而,聯邦訓練對客戶端數據集之間的數據負載均衡性比較敏感。當數據負載不均衡時,模型性能最多下降了10%。這些重要的實驗數據展示出,在聯邦學習系統中部署一個實際可用的具有差分隱私保護的自然語言處理深度模型的可行性,并揭示了在不同程度的差分隱私保護要求下對系統參數的調整策略,為模型的實際部署提供了可靠的數據支撐。
圖2 實驗結果圖
(在不同的差分隱私保護程度σ設置下,聯邦TextCNN模型的訓練和測試精度變化記錄。在σ限制不同時,固定相同的batch size,對應不同的client數據集大小可能導致訓練迭代次數的限制,因此部分訓練曲線在未完全收斂時被迫中止)
蜂巢聯邦智能平臺
人工智能的發展需要大量數據,而大數據時代下,隱私是最易觸犯的紅線。如何有效解決當下人工智能領域發展的難題?聯邦學習成為當下最熱門的技術研究方向之一。在這樣的背景下,平安科技聯邦學習技術團隊自主研發的蜂巢聯邦智能平臺也成為了解決當下數據難題與隱私保護的一大利器。
圖3 蜂巢聯邦智能平臺示意圖
橫縱建模,多角度為打破數據孤島
在實際的數據運用中,即便是同一家公司內的不同子公司或部門,也需要保護數據隱私。以平安集團為例,平安的財險和壽險各自擁有不同維度的用戶數據,卻很難把數據直接合并在一起來做建模。從“蜂巢”最初的架構設計上,平安科技就考慮到平安集團各個業務線與子公司之間存在數據壁壘的問題。同樣的“數據不通”也反應在企業與企業、企業與政府之間,每家機構都有自己的數據,而基于隱私保護等原因,企業或政府數據不能對外進行共享。
平安科技聯邦學習技術團隊研發的聯邦智能平臺蜂巢,就是解決企業數據孤島問題的商用級解決方案。它能夠讓參與方在不共享原始數據的基礎上聯合建模,從技術上打破數據孤島,從而綜合化標簽數據,豐富用戶畫像維度,從整體上提升模型的效果,實現 AI 協作。
“蜂巢”下的加密運算,兼顧隱私保護與使用效率
如何在聯邦智能平臺保護數據隱私?數據加密是聯邦學習的一個重要環節。假設用戶的一個是數字“12”,經過公鑰加密后會變成一個16位的字符串,這是加密最普遍的方式之一。平安科技聯邦智能平臺蜂巢可以在保護用戶隱私的前提下建模,讓原始數據不離開用戶,建模所交換的是模型的中間參數和梯度,這便能做到最大程度保護用戶隱私。同樣是數據加密的問題,由于將數據本身復雜化,平臺所耗費的計算資源也比原來更大。對此平安科技聯邦智能平臺蜂巢則采用GPU等異構計算芯片來加速聯邦學習的加密和通信過程,從而達到效率升級的效果。
對于用戶數據隱私保護,不同行業有著不同的加密要求。在銀行領域,銀保監會建議對數據進行國密加密,對加密的穩定性、安全性、合規性要求更高。而平安科技是為數不多的支持國密級加密的企業平臺。平安科技聯邦智能平臺蜂巢充分支持了國密SM2、國密SM4以及混淆電路、差分隱私和同態加密等不同的加密方式,以滿足企業各個業務場景的不同需求。
聯邦學習作為一個重要的新技術方向,未來有著廣闊的發展空間,但在實際落地中,在保護數據隱私的前提下進行 AI 協同,無論是底層技術還是整個部署環節,還有大量的挑戰需要克服。平安科技聯邦智能平臺蜂巢,也將不斷深耕技術,幫助企業在數據融合及隱私保護上實現進一步突破。同時,自然語言處理是人工智能最受矚目的發展方向之一,在金融、零售、醫療等領域有著廣闊的應用場景,也是智能座席、智能客服的重要技術基礎。聯邦學習在自然語言處理的初步嘗試,展示了未來聯邦學習系統在該方向聯合多方個人用戶數據,突破現有技術瓶頸的潛力。