醫療人工智能的最大挑戰是:醫療機構之間的數據無法互通,任何一家醫院(或數據中心)數據量都是有限的,形成了大大小小的很多“數據孤島”。本文將介紹如何利用聯邦學習技術在數據不出數據中心的情況下,進行模型的學習,達到或接近數據集中情況下的效果?
醫療領域的不可能三角
在很多領域都存在不可能三角(Impossible trinity)。不可能三角可以理解為在其他外部因素不變的情況下,有三個目標無法同時滿足,決策中需要彼此權衡。在金融政策上有蒙代爾-弗萊明模型,資本自由流動、匯率穩定和貨幣政策獨立性三者不可能兼得。醫療領域的不可能三角的三個目標分別為降低醫療費用(Cost)、增加醫療可及性(Accessibility)和提高醫療服務質量(Quality),我們可以稱之為CAQ模型。其中,CAQ模型中的醫療費用比較好理解,不再贅述;可及性可以理解為患者在地理、物質和經濟上能得到醫療保健的程度,比如說到醫院的距離、排隊掛號的難度、報銷的比例等;服務質量也可以進行量化,如用再入院率、治愈率、存活時間等這些指標衡量。
AI技術有望打破醫療不可能三角
在2016年世界衛生組織(WHO)發布的報告中,美國醫療占GDP的比例為16.9%,中國僅為6%。在成本差距巨大的前提下,如何在可及性和服務質量上形成彎道超車?在所有新技術中,人工智能有潛力打破醫療不可能三角。AI可以通過技術路徑把專家的智慧標準化、程序化、智能化,提高診斷、治療的準確性和工作效率。以腦部影像分割任務為例,影像科醫生通常需要花3天以上,不一致性為16%;經過訓練的AI算法可以在10分鐘內完成,同時保證不一致率小于1%。
法律對隱私的保護 對獲取數據造成巨大障礙
一個魯棒性高、性能好的AI模型往往需要大規模數據的訓練。但在如GDPR等一系列涉及用戶隱私保護的法律出臺后,醫療AI遇到一個最大的問題是醫療數據很難出院、出機構、出市、出省、出國。
在國外,1996年,克林頓政府簽署了經過參議院和眾議院通過的醫療保險改革法案:HIPAA/1996;2000年,HIPAA公布了個人健康信息的隱私保護標準和實施指南;2016年,歐盟發布并于2018年實施的GDPR是目前最全面、應用最廣的隱私保護法規,界定了數據主體權利、數據控制方、處理方的權利和義務,向第三國轉移個人數據法規,獨立檢察機關角色,關于合作原則等;美國加州在2018年頒布,2020年執行了CCPA,授予消費者了解收集了什么信息以及與誰共享了信息的權利。
HIPAA:Health Insurance Portability and Accountability Act/1996,Public Law 104-191
GDPR:General Data Protection Regulation
CCPA:California Consumer Private Act
我國有關保護患者隱私權的法律規定對醫療人工智能獲取患者數據同樣有很多限制。2010年施行的《中華人民共和國侵權責任法》規定,醫療機構及其醫務人員應當對患者的隱私保密,要求泄露患者隱私或者未經患者同意公開其病歷資料,造成患者損害的,應當承擔侵權責任。保護每一個人數據安全的法律體系的逐漸完備對醫療人工智能產品落地變得更加艱難。
國內外公司數據泄露事件頻發 遭受處罰或股價受累
2017年7月,英國皇家NHS信托基金會在沒有征得患者同意的前提下,向合作公司——DeepMind人工智能創業公司,提供了超過160萬名患者的數據,違反了數據隱私法。
2018年3月17日,Facebook上超5000萬用戶信息在用戶不知情的情況下,被政治數據公司“劍橋分析”獲取并利用。在截至2018年3月23日當周,Facebook股價累計跌13.89%。
2018年,我國科技部公布國內某基因科技服務有限公司違規“通過網絡將基因信息傳遞到境外”造成了基因數據泄露,可能會對國家安全造成嚴重的傷害。
2019年1月22日,法國監管機構對google開出了首筆GDPR罰款,金額達5000萬歐元(約3.85億元人民幣)——這是自2018年GDPR法規生效以來首次對美國科技巨頭實施的重大處罰。
聯邦學習重塑醫療數據生態
一方面,醫療服務走到數據驅動年代,數據開放共享需求強;另一方面,醫學數據具有強私密性,需采取高度保護措施。醫療數據管理方往往要求醫療數據不離國/省/市/機構。因此,在醫療數據利用方面不得不面對一個不可避免的問題:單一組織缺乏足夠可用樣本用于人工智能算法的訓練。
聯邦學習是一種有效打破“數據孤島”的技術途徑。聯邦學習是一種具有以下特征的用來建立機器學習模型的算法框架。具有以下幾個特點:
- 多方參與:有兩個以上參與協作構建一個共享的機器學習模型。每個參與方都擁有若干能夠用來訓練模型的數據
- 數據不動:聯邦學習模型相關信息能夠以加密方式在各方之間進行傳輸和交換,并保證任何參與方不能推測出其他方的原始數據
- 性能無損:聯邦學習模型性能能夠充分逼近理想模型(數據集中訓練)的性能
聯邦學習的概念最早由Google提出。Google在一個針對Android/ target=_blank class=infotextkey>安卓系統中預測下一個輸入詞的應用中設計了聯邦學習模型,用來更新數據聯合建模方案:在單個用戶使用安卓手機時,不斷在本地更新模型參數并將參數上傳到云上,從而使特征維度相同的各數據擁有建立聯合模型的能力。聯邦學習這一概念在2018年后被廣泛應用于計算機視覺、自然語言處理和推薦系統中。開源生態逐漸萌芽,業內推出了基于Tensorflow和PyTorch的一系列聯邦學習開源平臺,并于2019年成立IEEE 聯邦學習工作組開展相關標準的制定。
橫向聯邦 VS 縱向聯邦
橫向聯邦學習適用于聯邦學習的參與方的數據有重疊的數據特征,即數據特征在參與方之間是對齊的,參與方數據樣本不同。
上圖為橫向聯邦學習的數據結構。比如多家醫院希望聯合開展一項某項疾病的因素分析。每家醫院的數據都不足以完成這個任務,但合起來的病歷足夠豐富,且每家醫院采集的因素相似度較高。這種情況非常適橫向聯邦學習的應用。
縱向聯邦學習 適用于聯邦學習參與方的訓練數據有重疊的數據樣本,即參與方之間的數據樣本對齊的,但數據特征上不同。
上圖為縱向聯邦學習的數據結構。比如醫保局在分析醫保欺詐的時候,支付數據不足以支撐欺詐識別的準確性,希望利用同樣用戶群的醫院就診數據和金融信用數據,但這兩部分數據無法完全共享。這種情況非常適縱向聯邦學習的應用。
聯邦學習在醫療場景的應用
數據不足和標注不足是實現醫療AI的瓶頸。各醫療機構希望按照約定好的隱私保護條例共享各自的數據,并獲得相應的收益,聯邦學習是實現這一目標的非常重要的解決方案。作者Kim Y等人在論文《Federated Tensor Factorization for Computational Phenotyping》中在保證無數據離開本地醫院的情況下,利用多醫院的數據聯合分析發現特定患者人群的表型。研究表明,單獨使用UCSD醫院1的數據或UCSD醫院2的數據與聯合利用兩家醫院的數據分析得出的結果差異較大,如果利用聯邦學習的方式,在數據不出醫院的情況下,仍然可以得到令人滿意的結果。在聯邦學習的情況下,算法可以找到單獨利用一家醫院無法找到的表征“鐮刀型細胞/慢性疼痛”,避免由于人群差異和樣本過小對結果產生的偏差。
作者Huang L等人在論文《Patient Clustering Improves Efficiency of Federated machine Learning to Predict Mortality and Hospital Stay Time Using Distributed Electronic Medical Records》中研究通過利用特征自編碼器、患者聚類的方式提高聯邦學習用來預測死亡率和住院時間的性能。聚類后的患者群映射到二維空間后的分布如圖所示。患者聚類的操作可以大大降低在聯邦學習梯度傳輸的通信負載。
另外一個經典案例是Intel支持的多個醫療組織聯合開展的腦部腫瘤分割任務,利用多家機構的頭部MRI數據,在數據不出院的情況下,訓練影像分割模型,達到集中訓練的效果。性能的收斂曲線見下圖。
總結與展望
聯仁健康非常重視在醫療人工智能方向的自主研發與產業合作,致力于醫療大數據的價值的深度挖掘。公司利用累積的海量醫療數據訓練并對外發布業界具有影響力的中文電子病歷預訓練模型、醫學專業術語特征向量,在命名實體識別、關系抽取、醫療知識圖譜構建等方面形成突破,打造電子病歷結構化、智能搜索、相似病歷查詢等核心能力,全面賦能臨床、醫藥、保險等行業。
醫療人工智能和大數據的發展涉及對人類社會的社會責任,需要兼顧算法性能、經濟利益和對隱私和安全的嚴格要求。面對這一挑戰,聯仁健康致力于提供一個隱私安全計算的環境,使得各方在保護用戶隱私和信息安全的前提下提升系統效率。
參考文獻:
https://federated.withgoogle.com/
Qiang Yang, et. al, Federated Learning, Publisher: Morgan & Claypool. 2019
Kim Y , Sun J , Yu H , et al. Federated Tensor Factorization for Computational Phenotyping, the 23rd ACM SIGKDD International Conference. ACM, 2017.
Huang L , Shea A L , Qian H , et al. Patient Clustering Improves Efficiency of Federated Machine Learning to Predict Mortality and Hospital Stay Time Using Distributed Electronic Medical Records[J]. Journal of Biomedical Informatics, 2019, 99:103291.
https://www.intel.ai/federated-learning-for-medical-imaging/