近日,星云Clustar主導的論文“聯邦安全矩陣分解框架(Secure Federated Matrix Factorization)”正式被《IEEE Intelligent Systems》期刊收錄。在論文中,星云Clustar 算法工程師柴迪、星云Clustar AI科學家王樂業等人基于聯邦學習環境提出一個名為FedMF的安全矩陣分解框架,在不犧牲任何準確度的前提下,保護用戶的隱私信息。該論文首次從數學上驗證了矩陣分解在橫向聯邦學習中交換梯度明文信息會造成隱私泄露,并提出了使用同態加密對梯度信息進行保護的解決方案。
IEEE(電氣和電子工程師協會)是世界最大的非營利性專業技術學會,據IEEE官方2019年統計數據顯示,其會員人數超過40萬人,遍布160多個國家。IEEE致力于電氣、電子、計算機工程和與科學有關的領域的開發和研究,在航空航天、信息技術、電力及消費性電子產品等領域擁有近1300余個正在開發的行業標準及項目,現已發展成為具有較大影響力的國際學術組織。IEEE Intelligent Systems 是其出版的極具含金量的學術期刊之一,關注包括自然語言處理、機器學習、數據挖掘、自適應和智能機器人技術、以及與智能系統相關領域的研究進展。
大數據紅利已經滲透到各行各業,而光鮮的數據繁榮背后卻是隱私泄露和安全管理的重重隱患,提升對數據隱私與安全的保護力度已成為世界性的議題。近年來,新興的人工智能基礎技術——聯邦學習(Federated Learning)應勢而生,作為一種加密的機器學習范式,聯邦學習能夠在滿足數據隱私、安全以及政府監管的前提下,使得各參與方的數據得以保留在本地,并在安全可信的數據保護措施下打破數據孤島難題,讓企業數據無論在內外部均能安全有序地交互和聚合,實現共同獲益的“數據聯邦”。
目前在隱私保護機器學習領域,推薦系統是一個廣受關注的研究課題,而矩陣分解是常見的技術手段。星云Clustar團隊在論文中證明,在傳統的矩陣分解推薦系統中,當用戶將梯度信息以明文形式發送到服務器,仍有泄露用戶的評分信息、特征向量等信息的可能性,進而暴露用戶的年齡、性別、地址等等隱私數據,造成難以預估的嚴重風險。為此,星云Clustar團隊設計了一個用戶級的分布式矩陣分解框架FedMF,采用同態加密來增強該分布式矩陣分解框架,并用一個真實的電影分級數據集對其進行了測試,結果驗證了FedMF對于一個誠實但好奇的服務器是安全可靠的,并且精度相對于用戶原始數據的矩陣分解并無二致。
FedMF的創新性見解已落地于FATE。FATE(Federated AI Technology Enabler)是微眾銀行推出的全球首個工業級別的開源聯邦學習框架,旨在推進安全合規的AI協作生態建設。星云Clustar合作設計了基于FATE的聯邦推薦算法庫(FedRec),使得聯邦學習在推薦系統中的應用更加明確化。這一算法庫包含了6種常用的推薦算法,包括5種縱向聯邦學習算法和1種橫向聯邦學習算法,可用于解決聯邦學習場景下的推薦問題,如評分預測、物品排序等。FedRec廣泛支持各種推薦場景,對于開放者而言,可以顯著提高產品分發效率和算法預測效果,優化用戶體驗,還可解決數據不足和標簽短缺等問題。
星云Clustar近年來在聯邦學習領域不斷創新求索,賦能AI數據協作生態。在技術普及與規范上,星云Clustar攜手微眾銀行、創新工場、騰訊云、小米、華為、華大基因等三十余家海內外知名企業與研究機構共同推進IEEE聯邦學習國際標準,其中星云Clustar榮獲IEEE聯邦學習工作組秘書長單位,負責制定聯邦學習的底層系統架構標準并積極進行聯邦學習生態推廣。在產品形態上,星云Clustar提供從硬件到軟件的全生命周期解決方案,實現同態加密環境下的無損運算,能以高效計算、超低延時的算力加速聯邦學習場景中海量密態數據處理過程。
近年來,聯邦學習技術以破竹之勢備受行業矚目,為有效解決數據孤島分布現象、以及滿足日益加強的隱私監管力度提供了新的技術思路。作為聯邦學習賽道的積極探索者,星云Clustar未來將繼續以高性能網絡和聯邦學習技術助力人工智能產業發展與技術突破,深掘聯邦學習落地場景的可能性,推進聯邦學習帶來的技術紅利落實于各行各業,使企業與機構的多方安全協作更具可得性。
論文作者介紹
“聯邦安全矩陣分解框架(Secure Federated Matrix Factorization)”論文第一作者是星云Clustar算法工程師柴迪,星云Clustar AI科學家、北京大學助理教授、博士生導師王樂業(按姓名字母排序);第二作者為星云 Clustar創始人、香港科技大學教授陳凱;第三作者為微眾銀行首席人工智能官、香港科技大學教授楊強。
此前,此論文也發表在IJCAI 2019 Federated Machine Learning Workshop,IJCAI 國際人工智能聯合會議是全球人工智能領域最權威的學術會議之一。