譯者 | 崔皓
審校 | 孫淑娟
開篇
本文探討了TypeDB幫助科學家們實現醫學上的下一個突破,并且會通過指導性的代碼例子和視覺效果展示結果。生物技術領域存在大量的炒作都集中于革命性藥物發現上。畢竟,過去十年是該領域的黃金時代。與之前的十年相比,2012年到2021年這段時間批準的新藥增加了73%--比之前的十年增加了25%。這些藥物包括治療癌癥的免疫療法、基因療法,當然還有科威德疫苗。從這些方面可以看出制藥業做得很好。
但其呈現的趨勢也越來越令人擔憂。藥物發現的成本和風險正變得令人望而卻步。截至到當前,新藥推向市場的平均費用在10億至30億美元,平均時間在12至18年。同時,一種新藥的平均價格已經從2007年的2千美元飆升到2021年的18萬美元。
這就是為什么許多人把希望寄托在人工智能(AI)(如統計機器學習)上,以幫助加速新藥的開發,從早期目標識別到試驗。雖然已經利用各種機器學習算法確定了一些化合物,但這些化合物仍處于早期發現或臨床前的開發階段。人工智能徹底改變藥物發現的承諾仍然是令人興奮但尚未實現的承諾。
什么是人工智能?
為了實現這一承諾,理解人工智能的真正含義就顯得至關重要了。近年來,人工智能這個詞已經成為相當熱門的詞匯,沒有多少技術含量。那么,什么才是真正的人工智能?人工智能,作為一個學術領域,從20世紀50年代起就已經存在了,隨著時間的推移,分支成各種類型,代表不同的學習方式。佩德羅-多明戈斯教授在《算法大師》一書中對這些類型進行了描述(他稱它們為 "部落"):連接主義者、符號主義者、進化主義者、貝葉斯主義者和模擬主義者。
在過去的十年里,貝葉斯主義者和連接主義者受到了公眾的廣泛關注,而符號主義者則不同。符號學派在進行邏輯推理的規則集的基礎上,創造出真實的世界表征。符號人工智能系統沒有其他類型的人工智能所享有的巨大宣傳,但它們擁有其他類型所缺乏的獨特而重要的能力:自動推理和知識表示。
對生物醫學知識的表現
事實上,知識表現的問題正是藥物發現中最大的問題之一。現有的數據庫軟件,如關系數據庫或圖形數據庫,很難準確地表示和理解生物學錯綜復雜的問題。藥物探索所表述的問題很好地說明了要為不同的生物醫學數據源(如Uniprot或Disg.NET)建立統一的模型。在數據庫層面,這意味著創建數據模型(有些人可能把這些稱為本體),描述無數復雜的實體和關系,如蛋白質、基因、藥物、疾病、相互作用等之間的關系。
這就是TypeDB,一個開源的數據庫軟件,旨在實現的目標--使開發者能夠創建高度復雜領域的真實表現,計算機可以利用它來獲得洞察力。
TypeDB的類型系統是基于實體關系的概念,代表了TypeDB中存儲的數據。這使得它足以捕捉復雜的生物醫學領域知識(通過類型推理、嵌套關系、超關系、規則推理等),使科學家獲得洞察力并加速藥物開發時間。
一家大型制藥公司的例子說明了這一點,該公司使用語義網標準為一個疾病網絡建模奮斗了五年多,但在遷移到TypeDB之后,僅用三周時間就成功實現了這一目標。
例如,一個用TypeQL(TypeDB的查詢語言)編寫的、描述蛋白質、基因和疾病的生物醫學模型看起來如下:
define
protein sub entity,
owns uniprot-id,
plays protein-disease-association:protein,
plays encode:encoded-protein;
gene sub entity,
owns entrez-id,
plays gene-disease-association:gene,
plays encode:encoding-gene;
disease sub entity,
owns disease-name,
plays gene-disease-association:disease,
plays protein-disease-association:disease;
encode sub relation,
relates encoded-protein,
relates encoding-gene;
protein-disease-association sub relation,
relates protein,
relates disease;
gene-disease-association sub relation,
relates gene,
relates disease;
uniprot-id sub attribute, value string;
entrez-id sub attribute, value string;
disease-name sub attribute, value string;