自從ChatGPT橫空出世以來,大語言模型成為整個人工智能行業的高頻詞。從大語言模型的特征分析,其先進的算法、規模龐大的參數、精準強大的語言理解能力、生產能力和邏輯推理能力,已經有足夠的潛力給醫療領域帶去深遠影響。無論是與自然語言相關的病歷信息記錄與檢索系統,還是臨床診療決策輔助支持,都將因大語言模型的產生為提高患者就醫體驗,提升醫生診斷效率,提效臨床數據治理提供全新的可能性。有數據顯示,盡管不同背景創業者和投資人看到的醫療未來并不相同,但對大語言模型能夠給醫療行業帶來的變化,“顛覆性”、“賦能”、“變革”成為常見的關鍵詞。
聯仁健康醫療大數據科技股份有限公司(以下簡稱“聯仁健康”)作為由國家衛健委統一部署的專業的健康醫療大數據企業,基于多年數據科技能力沉淀,進行深度的數據挖掘、清洗和分析,持續探索醫療大數據質量提升、醫院數據資產化實踐等領域,實現數據醫學價值挖掘放大以及商業價值延伸。聯仁健康創新數據治理模式,充分運用大數據、云計算、人工智能等先進技術,形成高度自動化數據處理能力,構建“仁云、仁數、仁醫、仁芯、仁康”五大科技平臺,從醫療數據專屬云、大數據平臺、醫學知識體系、人工智能能力等多方面支撐醫療大數據的應用,實現技術與行業的深度融合。
|醫學臨床數據治理,難在哪?
電子病歷在現代醫療系統中扮演著至關重要的角色,為醫療機構提供了大量的患者信息和醫療記錄。病歷信息結構化處理是醫院信息化和醫療智能化發展的重要環節,是使計算機能像醫生一樣進行診斷和判斷的基礎。然而,電子病歷中對以自然語言文本描述的非結構化數據進行的關鍵信息提取并非易事,例如不同醫院、科室甚至醫生的記錄風格和用詞可能不同,文本信息之間可能存在復雜的關聯性和依賴性,同一個描述可能在不同上下文中有不同的含義等等。隨著醫療數據的快速積累和多樣性,傳統的數據治理方法面臨著挑戰。數據的復雜性和巨大量使得數據的結構化變得非常困難。
一方面,病歷信息的語義環境復雜且結構細碎,呈現異構性和難互通特征,使得數據的完整性、一致性和準確性都難以保證;另一方面,由于標準化認知和遵循不足,醫學術語標準化程度不高,導致大量信息資料無法檢索,統計結果將缺乏普遍性和客觀性。同時,數據質量管理體系建設較為滯后,缺乏專業化的數據治理組織機構以及明確的責任人體系,尚未形成良好的決策機制和管理機制,使得數據質量和共享水平亟待提升。可以說,電子病歷數據的規模化、復雜性、多樣性、動態性、非標化都是醫學臨床數據治理的絆腳石。總而言之,在醫療這一特殊領域,必須突破數據治理技術的“卡點”,才能充分發揮數據的價值,實現數據價值的最大化利用以及信息化技術和臨床知識的有機融合。
| 聯仁健康的臨床數據治理技術,強在哪?
針對電子病歷進行數據的治理,聯仁健康引入大模型技術,從自然語言結構化,醫學術語標準化,數據質量規范化三個方面,著力降低數據治理成本,落實數據治理規范,穩定數據治理質量。從而形成全新的數據后治理模式。
· 大模型讓電子病歷文本結構化更高效
電子病歷數據后治理的第一步便是對大段文本進行信息提取,包括從入院記錄、出院小結、手術記錄、病程記錄等提取醫生需要的臨床指標數據。與直接提取詞語的實體識別技術不同,醫學文本結構化需要大模型理解這段文本,然后輸出這段文本中的對應信息,進而將非結構化的輸入最終轉化為結構化輸出。
大語言模型本質上是一種生成式模型,在生成文本時,即便是目前最優秀的GPT-4也會生成非預期的輸出(幻覺現象),這為實際應用帶來了潛在風險。為了緩解這個問題,聯仁健康采用多種干預策略,除了在模型側使用對齊調整策略,并使用多種提示詞優化入參,同時還會基于業務邏輯對輸出結果進行校驗。聯仁健康自研的這款文本結構化大模型,無需對數據指標進行預設或額外標注,即可低成本、智能化輸出結構化信息簡化傳統數據治理流程。
· 大模型讓醫學術語標準化更精準
其次,為了滿足醫學術語標準化,即使用醫學詞匯表和標準化組織的術語和定義,如醫學主題詞匯(MeSH)、國際疾病分類(ICD)、國家醫保和國家藥監發布的藥品、診療項目、耗材目錄等,更進一步保證醫學數據可以更好地被用于統計分析。
大語言模型在計算資源有限的情況下并不適合直接用于術語標準化,但是利用大語言模型對文本信息的總結和摘取能力,可以讓其在診斷相關的輸出與醫生的表達方式基本一致,再將其輸出輸入給聯仁自研醫學術語標準化算法,可以得到更精準的醫學術語歸一化結果。
通常,應對術語標準化所采取的技術方案框架是“多路召回+精排”。然而在實際業務落地場景中,不但存在“一對多”的情況,而且各院方在部署資源和反饋時效上也有限制要求。因此聯仁健康將技術方案框架優化為“實體識別+向量編碼+快速檢索”。同時還要引入模型量化加速技術,以適配不同的業務場景需要。該方案可支持包括實時處理單條數據、實時處理小批量數據、離線批量處理數十億級數據等常見場景,平均單條數據處理毫秒級響應,支撐院內應用的可及性。通過引入大模型,可以基于原始數據生成歸一化數據,踐行醫學數據標準的落地,從而使數據治理輸出的臨床指標更規范。
· 大模型讓數據質控更穩定
高質量的真實世界數據(RWD)有助于得到可靠、可信的分析結論。數據質量評估的目的是基于數據的不同臨床應用任務需求,對數據收集過程中每個步驟可能產生的錯誤進行發現和溯源,其本質是對電子病歷文本所包含醫學知識的理解和評審。
聯仁健康的規則引擎融合行業規范基礎規則、專家學術經驗規則和臨床推理內涵規則三層標準,可對質控深度、規則廣度、編碼版本、扣分標準和數據讀取方式等多維度進行有效配置。聯仁健康利用大語言模型從兩個方面提升數據質控質量。在構建質控規則引擎方面,利用大語言模型解析藥品說明書、臨床路徑、政策規范等,快速構建先驗專家質控知識庫,同時在真實臨床文本數據中挖掘診斷、手術、藥品、耗材、治療項目之間的關聯度,構建后驗真實世界質控規則。在質控應用方面,與數據歸一化類似,借助大語言模型語言理解能力提取的關鍵審核信息可以直接與質控規則引擎對接,根據后臺配置的分數規則給出量化評分,列出扣分原因,同時顯示審核結果問題點和參考依據,進一步穩定數據治理的工程質量。
|醫學臨床數據治理大語言模型,未來發展方向
聯仁健康帶來的全新數據治理模式通過對大語言模型的語言理解能力挖掘、個性化應用和技術加持,能夠使其更好地適應醫療行業的特點,進而可以實現醫療各垂直領域的數據治理目標,不僅極大提高數據治理效率,還提升了治理過程的靈活性,讓終端用戶按需治理,高效開展數據搜索、數據分析和數據應用。毋庸置疑,大模型數據后治理模式有著實施部署更快,運營成本更低,技術升級更靈活的優勢。
近年來,隨著醫療數據集的快速擴張、硬件設備的迭代升級、算法模型的優化改進,AI在醫療場景中技術積累越發成熟,應用場景日益豐富。聯仁健康基于深度學習算法和核心技術壁壘,同時結合由海量臨床研究數據等積累的醫學知識體系和科技工具進行定制開發,在電子病歷結構化治理、臨床決策支持等方面成功地實現了大語言模型在醫療業務場景新的技術落地和應用。
未來,隨著大語言模型的不斷發展,其能力將逐步覆蓋聯仁健康更多的產品和服務之中。聯仁健康也將不斷探索其在提升醫療服務水平和提升患者獲益方面的潛力,助力健康中國建設。