1月28日,iDASH-2021國際隱私計算大賽結果正式公布,騰訊云Angel PowerFL和騰訊安全聯合項目團隊提交的方案,憑借領先的模型準確率和最快的推理速度獲得差分隱私賽道冠軍。在2020年的iDASH可信計算賽道上,騰訊云也斬獲冠軍,成為中國企業屆首次在可信計算(SGX)賽道上奪冠的技術團隊。
iDASH比賽是隱私計算國際最權威的比賽,已經舉辦八屆,是由美國國立衛生研究院 (NIH)主辦,專注于云環境下的隱私計算問題和面向隱私保護的機器學習問題,已成為全球基因組數據隱私保護和安全共享領域最高規格的國際競賽。
歷年來,iDASH國際隱私計算大賽吸引了包括麻省理工學院、耶魯大學、谷歌、IBM等在內的學界及業界的頂尖團隊參賽。今年更有EPFL、華盛頓大學、天普大學、新加坡A*STAR、IBM、三星集團、螞蟻集團等在內的來自15個國家的69支參賽隊伍參與角逐,在區塊鏈、同態加密、差分隱私三個賽道中展開比拼。
其中,在差分隱私賽道,大賽組委會要求參賽團隊實現基于差分隱私的兩方橫向聯邦學習模型訓練,用于通過已知表型樣本預測野生型轉甲狀腺素蛋白淀粉樣心肌病。這里的主要挑戰是要滿足差分隱私要求,訓練數據具有很稀疏的特征,并且兩方擁有的數據是非獨立同分布的。
值得一提的是,今年iDASH-2021差分隱私賽道吸引了來自世界各地的30個頂級團隊報名參與競逐,其中有9個參賽團隊提交了技術方案和實現代碼,并獲得了有效的比賽成績。騰訊云Angel PowerFL和騰訊安全聯合團隊提交的技術方案在合理的時間內完成了滿足差分隱私要求的兩方聯邦學習模型訓練,獲得了領先的模型準確率,且具有最快的模型推理速度。
在實際應用中,離線模型訓練可以在允許的時間內完成,而在線模型推理需要最優速度,且模型準確率(或AUC)是首要指標。在騰訊提交的方案里,首先,聯邦學習各參與方利用指數機制篩選重要特征用于建模,從而提高模型準確率和加快模型推理。其次,參與方在其本地基于所選擇的特征生成多個邏輯回歸模型,并基于指數機制選擇模型發送給對方。最后,參與方通過對多個模型輸出結果進行平均的方式生成聯邦集成學習模型。傳統的基于聯邦平均的聯邦學習方案不能很好的處理非獨立同分布數據,會導致聯邦模型效果差。騰訊提供的聯邦集成學習方案,可以有效應對非獨立同分布數據問題,提升聯邦模型的準確率。
據了解,騰訊Angel PowerFL團隊是國內較早開展聯邦學習研究和應用的團隊,在大數據、分布式計算、分布式機器學習、分布式消息中間件、安全多方計算、密碼學等領域都有豐富的研發和應用經驗,已發表近10篇聯邦學習研究論文,提交了50多件聯邦學習技術發明專利申請,完成多個商用隱私計算和聯邦學習的產品研發。
騰訊云安全隱私計算平臺Angel PowerFL源于騰訊的大數據和安全技術生態,支持超大規模數據量的多方聯合建模和聯合統計分析,擁有高性能和高容錯性,且不依賴于可信中心節點,目前已經在騰訊內外部眾多業務場景中落地應用,并取得了良好的效果。