OpenAI開發的人工智能應用ChatGPT自2022年11月發布以來,持續受到了全球的廣泛矚目,甚至被認為開啟了第四次工業革命。
而在2023年3月22日,ChatGPT卻被曝出存在用戶隱私漏洞,用戶能夠看到其他用戶對話歷史記錄的標題,引發了公眾對ChatGPT隱私泄露風險的擔憂。3月31日,意大利個人數據保護局宣布禁止使用ChatGPT,德國等其他歐洲國家也陸續跟進發聲,表示會考慮禁止ChatGPT收集數據。
近年來,數據安全問題成為社會焦點,數據泄露、濫用等數據安全事件頻繁發生,人工智能技術在信息泄露等方面的社會性風險,則因為其使用的龐大數據規模而被進一步放大。如何在人工智能模型訓練、智能化應用發展的同時兼顧數據安全,使得人工智能產品滿足安全合規要求,成為業界持續關注的熱點問題,隱私計算技術因其能夠提供隱私安全條件下的聯邦學習等機制而受到重點關注。
01人工智能模型訓練面臨哪些隱私安全風險?
人工智能模型訓練需要經過數據采集、存儲、共享、計算等階段,分別面臨不同的隱私安全風險:
采集階段
主要面臨樣本數據隱私過度采集的風險,按照信息安全法規,企業在采集、保存、使用用戶數據時應遵循“用戶自愿原則”和“最小化原則”,需要依法依規判定數據的隱私合規性,否則將面臨數據隱私違規過度采集的風險;
存儲階段
隨著數據安全相關法律法規的完善,數據的分級安全管理等逐漸成為硬性要求,在樣本數據存儲時,“大匯聚”的數據集中存儲模式將承擔更大的數據安全管理責任,大規模樣本數據的分級、權限管理極其復雜,稍有不慎就會出現影響惡劣的隱私泄露事件,將極大地增加隱私數據安全合規風險;
共享階段
由于模型訓練對數據規模和質量的較高要求,樣本數據往往需要跨多個數據所有者進行共享傳輸,隱私數據可能遭受的攻擊面擴大,存在數據越權訪問、數據泄露、數據濫用等風險;
計算階段
不同類型的模型訓練任務需要分別構建標注樣本集,在執行有監督機器學習時需要由人參與樣本集的構建等工作,樣本數據集的交叉使用過程中存在隱私數據濫用的風險,最終訓練完成的模型在面對模型萃取、成員推理等攻擊時,也存在隱私數據和模型成果泄露的風險。
02利用隱私計算機為人工智能隱私安全保駕護航
國務院2022年1月印發的《“十四五”數字經濟發展規劃》明確提出“鼓勵重點行業創新數據開發利用模式,在確保數據安全、保障用戶隱私的前提下,調動行業協會、科研院所、企業等多方參與數據價值開發”。隱私計算技術由于其既能促進數據流通又能保護隱私安全的特性,被廣泛認為是當前破解數據流通困境的最佳手段。
隱私計算技術融合了人工智能、密碼學、數據科學等眾多領域,通過結合安全多方計算、聯邦學習、同態加密、差分隱私和機密計算等為代表的現代密碼學和信息安全技術,能夠在保護數據本身不對外泄露的前提下,實現對數據處于加密狀態或非透明狀態下的計算和分析,達到對數據“可用、不可見”的目的。
在應用場景方面,隱私計算能夠在數據本體不動的條件下,以“數據不動,算法跑路”的方式,在各參與方“數據不出門”的條件下,充分利用多個數據所有方的數據進行人工智能模型訓練,為多個數據所有方之間的計算過程提供隱私保護,從而使得既能夠有效釋放各方數據的潛在價值,又能夠規避數據傳輸相關的責任和風險。所以,隱私計算非常適用于一些數據敏感度高、隱私要求的人工智能模型訓練場景,比如制造業利用多方生產數據進行工藝優化智能模型訓練、醫院利用多機構患者診療數據進行疾病智能預測模型訓練、金融業利用多源信用數據進行風控評級智能模型訓練等,這些場景下各方數據都屬于不希望被他人獲取的敏感數據,同時存在強烈的智能化模型計算需求。
在智能化模型訓練方面,隱私計算技術已經在金融、政務、醫療等行業的智能化模型訓練中進行了廣泛應用,比如在金融領域,隱私計算能夠在智能風險控制應用的模型訓練過程中能夠發揮重要作用,在“數據不出門”的前提下實現了政府機構、銀行、企業間的數據協同計算,將分布式模型計算應用部署在各單位數據中心,智能化模型訓練的全過程只交互模型計算結果,通過將個人和企業的稅務、水電繳費、征信、消費等多種維度的數據進行融合分析,能夠建立跨機構聯合風控模型,在各方數據“不出門”的前提下實現信用風險評估畫像,有效規避人工智能模型訓練過程中的隱私數據泄露和濫用風險。目前,工商銀行、交通銀行、華夏銀行等金融機構都在積極探索隱私計算技術在融資風控、跨境結算、金融保險黑名單安全查詢、金融監管等場景下的應用。
03國內人工智能模型訓練領域的隱私計算應用實踐
據IDC預測,2025年中國隱私計算市場規模將達到145.1億元,相比2021年的8.6億元,有超過十倍的增長空間,年復合增長率高達102.7%。據華經產業研究院數據調研統計,隱私計算的應用需求迫切,金融、通信、政務、醫療、互聯網、能源領域隱私計算需求分別占比53%、17%、13%、9%、5%、3%,當前國內主要隱私計算廠商重點聚焦在金融、醫療、政務三大領域。
我們以八分量為浙江省玉環市建設的“智能閥門產業互聯網平臺”為例,從應用實踐角度進一步加深對工智能模型訓練領域隱私計算應用的理解。
水暖閥門產業是玉環市第二大產業支柱,現有各類閥門加工企業900多家,產業產值接近350億元,為當地提供了大量就業崗位。然而,在市場多重挑戰下,玉環市的水暖閥門產業面臨銅棒等原材料價格波動大、小微企業融資難、數據共享信息化基礎薄弱等問題,使得產業鏈上的企業的采購議價能力弱、市場敏感度低、貸款融資不及時等問題,亟需打通整條產業鏈上下游的數據通路,運用數字化、智能化等手段實現產業賦能,為企業運營提供堅實的智能化數據和金融服務。
在此背景下,八分量針對玉環市水暖閥門產業的數字化轉型需求,建設了“智能閥門產業互聯網平臺”,運用隱私計算、區塊鏈、人工智能等技術,在“數據不出域”的條件下實現了智能閥門產業互聯網平臺、智能閥門產業互聯網平臺、閥門產業大數據平臺等三方數據的融合計算,完成了多個智能化模型的協同訓練。
其中,政府大數據平臺貫通了經信、工商、稅務、商務等部門數據,提供當地水暖閥門、熔煉企業基礎數據信息庫,為實現水暖閥門產業鏈上資源整合、數據流通、對接等夯實基礎;閥門產業大數據平臺提供不同時段“銅采選”“銅加工”“銅價格”“銅消費行業數據”“銅冶煉”等相關數據,為閥門企業的生產銷售和前瞻性分析提供垂直產業信息資訊、上下游產品價格預警、國內外產業輿情分析等數據支撐;智能閥門產業互聯網平臺提供產業要素流通過程中的訂單、倉單、運單、發票、銀行回單等數據,同時通過區塊鏈對企業的靜態數據、動態數據、歷史數據等進行了可信存證。通過打通上述三大平臺的信息,在“數據不出域”的前提下完成了以下模型的計算:
智能企業畫像模型
建立了800多家水暖閥門、熔煉企業的智能企業畫像,為實現水暖閥門產業鏈上資源整合、對接等夯實了基礎。
采購需求預測模型
通過數據的融合,可對生產所需的上游生產材料、生產設備等進行預估測算,可由閥門協會牽頭,通過集體采購的方式來獲得更高的議價權。
企業信用評估模型
為金融機構提供了真實可信的應收賬款、預付款等供應鏈數據作為企業資產信用背書,利用隱私計算技術融合多方數據,建立了企業信用評估模型,降低小微企業貸款融資難度,促進普惠金融政策落實,提高了產業轉化效率。
通過隱私計算技術的應用,確保了整個智能閥門產業互聯網平臺相關模型的訓練過程中,原始明文數據都沒有出本地,真正保護了各方隱私數據。平臺通過隱私計算技術保護各個數據源提供的數據不會被其他方獲取,參與方只能使用數據而不能獲取原始數據,避免了訓練過程中各機構間交互明文數據,一勞永逸地解決了智能模型訓練在數據采集、存儲、共享、計算各階段的隱私安全問題。
04隱私計算將成為數字化時代激發數據要素價值的利器
人工智能作為這個時代最具影響力的技術進步,已經在逐步改變全球經濟的方方面面,隨著人工智能技術不斷取得突破,人類社會將逐漸邁入強人工智能階段,而隱私計算技術也將作為人工智能模型的重要安全訓練手段快速成長并驅動人工智能應用發展。
同時,我國數字經濟“十四五”規劃強調強調了充分發揮數據要素價值的必要性,隱私計算技術能夠為充分發揮海量數據和豐富應用場景優勢,有力促進數字技術與經濟社會發展各領域融合發展,加快實現數字化發展、建設數字中國的遠景目標提供重要技術基礎,成為數字化時代激發數據要素價值的利器。