摘要:依托大連人工智能生態創新中心,為新藥研發注入創新活力!
近日,大連理工大學計算機科學與技術學院申彥明教授團隊攜手昇騰AI,正合力打造基于圖神經網絡(Graph Neural Networks, GNN)的分子模擬大模型。該模型可廣泛應用于生物分子性質預測、蛋白質-配體對接預測及藥物設計等領域,幫助醫藥領域縮短藥物研發周期、降低研發成本,推動研發進程。
分子模擬可以深入闡述分子之間的相互作用,通過與圖神經網絡技術相結合,可以充分利用大規模分子數據集和圖神經網絡模型的互補優勢,建立“多尺度建模-圖神經網絡-大模型”的研究范式,在保證預測準確性的同時,提高計算效率,是科學智能的典型應用。
大連理工大學計算機科學與技術學院教授、博士生導師申彥明教授致力于圖神經網絡技術及其在生物分子領域的相關研究和產業應用。團隊研發的圖神經網絡模型在國際權威的圖數據評測數據集Open Graph Benchmark (OGB)中的蛋白質相互作用數據集ppa上排名榜首;在分子化合物數據集ZINC上排名第一;并在國際著名的數據科學競賽KDD Cup 2021中,戰勝谷歌DeepMind、百度、螞蟻金服等多支隊伍,奪得冠軍。
2022年12月,在大連人工智能生態創新中心的支持下,大連理工大學申彥明教授團隊將GNN算法遷移至全場景AI框架昇思MindSpore,并基于Atlas 900 AI集群加速訓練效率,實現了對分子模擬大模型能力的進一步提升。該模型利用強表達能力的圖神經網絡方法建模生物小分子和蛋白質大分子,同時支持不同分子表示形式作為輸入,支持分子模擬多種任務場景,如分子屬性預測、蛋白質-分子對接位點預測、分子結構生成等。另外,模型的表達能力更優,對同構性高的分子結構具備更強的區分能力從而在各個級別的下游任務中取得SOTA性能。
分子模擬大模型的下游任務和關鍵技術
分子模擬大模型的孵化將大幅提升藥物研究的效率與成功率,推動藥物研發進程。下一步,大連人工智能生態創新中心將全力支持大模型落地產業相關應用:
應用一:生物分子性質預測
生物分子性質是藥物研發過程中至關重要的因素,特別是在臨床實驗前的候選藥物篩選階段,需要考慮藥物分子自身天然存在的水溶性、毒性、人體器官可吸收性等性質。
傳統的實驗方法通過生物體內實驗對大規模分子庫中數以萬計的小分子篩選,導致研發周期長,生產成本高。分子模擬大模型可以直觀地把分子建模為圖,利用圖神經網絡實現分子的化學結構表征,保證精準預測的同時,加速藥物發現進程。
小分子基團酸堿解離常數值的預測
應用二:蛋白質-配體對接預測
蛋白質往往是通過與其他生物分子或藥物分子(配體)的相互作用來執行其生物學功能,對于藥物研發而言,了解蛋白質-配體對接關系是了解小分子藥物作用機制和潛在副作用的關鍵一環。
目前,只有約140種可用的蛋白質-配體復合結構,通過分子模擬大模型模擬蛋白質和配體結構,可以快速、準確地預測對接位點和對接方位,發現更多可用的蛋白質-配體復合結構。
將分子和蛋白質結構同時建模為圖,更細粒度的可結合位點的預測
應用三:輔助藥物設計
分子設計是藥物發現過程中的關鍵,平均一款新藥從研發到上市需要花費數億資金。
相比于傳統方法通過化學實驗來篩選和驗證藥物分子,分子模擬大模型可以一種經濟快捷的方式探索化學空間,得到具有特定性質的藥物分子,從而加速藥物設計過程、降低成本。
結合圖神經網絡和生成模型得到具有特定性質的藥物分子
未來,大連人工智能生態創新中心將以澎湃算力和平臺優勢,支持大連理工大學分子模擬大模型的研發和產業落地,推動人工智能技術加速藥物研發,為繁榮昇騰AI產業生態貢獻力量!