9月20日消息,谷歌旗下人工智能團(tuán)隊DeepMind開發(fā)了一款全新的人工智能模型,名為AlphaMissense。它能夠快速分析錯義突變對人體的影響,加速科學(xué)家研究罕見遺傳病。相關(guān)成果于本周二在《科學(xué)》雜志上發(fā)表。
大約10年前,茲伽·阿夫塞茨(?iga Avsec)還是一名物理學(xué)博士生,通過大學(xué)開設(shè)的機(jī)器學(xué)習(xí)課程參加了基因組學(xué)的速成班。他很快就進(jìn)入了一個研究罕見病的實(shí)驗(yàn)室,參與研究一種非同尋常的線粒體疾病到底是由哪種基因突變引起的。
如今阿夫塞茨已是谷歌研究科學(xué)家,他表示,解決這個問題等于是“大海撈針”。遺傳密碼中潛藏著上千萬種可能的罪魁禍?zhǔn)祝@些DNA突變可能會對一個人的生物學(xué)產(chǎn)生嚴(yán)重影響。其中最令人感興趣的是錯義突變,即因?yàn)閱蝹€堿基替換而導(dǎo)致肽鏈中氨基酸發(fā)生改變。氨基酸是蛋白質(zhì)的組成部分,而蛋白質(zhì)是身體其他部分的組成部分,所以即使微小的變化也會產(chǎn)生巨大而深遠(yuǎn)的影響。
據(jù)估計,人類基因組中有7100萬種錯義突變,平均每人攜帶超過9000種。大多數(shù)是無害的,但有些與鐮狀細(xì)胞性貧血和囊性纖維化等遺傳疾病有關(guān)。科學(xué)家還猜測,像2型糖尿病這樣更復(fù)雜的疾病可能是由一系列錯義突變共同引起的。阿夫塞茨在開始研究時問他的同事:“我們怎么知道哪些突變是真正危險的?”答案是“在很大程度上,我們無法知道”。
經(jīng)過多年的艱苦研究,科學(xué)家在人類身上發(fā)現(xiàn)了400萬種錯義突變,其中只有2%被確定為致病性或良性。研究單個錯義突變的影響可能需要幾個月的時間。
如今,谷歌人工智能研究團(tuán)隊DeepMind發(fā)布了一款工具,可以極大加速這一研究過程。機(jī)器學(xué)習(xí)模型AlphaMissense能夠分析錯義突變并預(yù)測其致病性,準(zhǔn)確率達(dá)到90%,優(yōu)于現(xiàn)有的研究工具。相關(guān)論文于本周二在《科學(xué)》雜志上發(fā)表。
DeepMind此前開發(fā)的突破性模型AlphaFold能夠根據(jù)氨基酸組成預(yù)測上億種蛋白質(zhì)的結(jié)構(gòu)。AlphaMissense基于AlphaFold的基礎(chǔ)建立,但兩者的運(yùn)行方式不同。AlphaMissense不預(yù)測蛋白質(zhì)的結(jié)構(gòu),它更像一個大語言模型,類似于OpenAI的ChatGPT。
AlphaMissense經(jīng)過訓(xùn)練,了解了人類及其他靈長類生物的生物學(xué)語言,因此清楚蛋白質(zhì)中氨基酸的正常序列應(yīng)該是什么樣的。當(dāng)人體內(nèi)蛋白質(zhì)中的氨基酸排序錯誤時,AlphaMissense就能發(fā)現(xiàn),就像發(fā)現(xiàn)句子中不協(xié)調(diào)的單詞一樣。論文合著者Jun Cheng表示:“這是一種語言模型,但針對蛋白質(zhì)序列進(jìn)行了訓(xùn)練。” “如果我們在英語句子中替換一個單詞,懂英語的人可以立即看出替換是否會改變句子的意思。”
DeepMind研究副總裁普什米特·科利(Pushmeet Kohli)拿一本食譜來打比方。如果AlphaFold關(guān)注的是各種食材如何組合在一起,那么AlphaMissense則是預(yù)測如果你使用了錯誤的食材會發(fā)生什么。
AlphaMissense根據(jù)分析與其他密切相關(guān)突變帶來的影響,為7100萬種可能的錯義突變分配了0到1之間的“致病性分?jǐn)?shù)”,分值越高,錯義突變致病性的概率就越高。DeepMind研究人員與英國基因組學(xué)(Genomics England)合作,將模型的預(yù)測結(jié)果與已知的錯義突變研究結(jié)果進(jìn)行對比。論文稱,AlphaMissense能夠?qū)?9%的錯義突變進(jìn)行分類,準(zhǔn)確率達(dá)到90%。
研究人員一直希望找出某種疾病背后的錯義突變,現(xiàn)在可以通過人工智能來實(shí)現(xiàn),并找到模型預(yù)測的致病性評分。人們希望,就像AlphaFold能推動藥物研發(fā)、癌癥治療一樣,AlphaMissense可以幫助多個領(lǐng)域的研究人員加速對基因突變的研究,使他們能夠更快地診斷出疾病并找到新的治療方法。阿夫塞茨說:“我希望這些預(yù)測能讓人們更深入地了解哪些突變會導(dǎo)致疾病,或者能在基因組學(xué)中產(chǎn)生其他應(yīng)用價值。”
研究人員強(qiáng)調(diào),這些預(yù)測不能單獨(dú)使用,只能用于輔助現(xiàn)實(shí)世界的研究。AlphaMissense可以幫助研究人員快速排除不太可能的錯義突變,加速將基因突變與疾病匹配的緩慢過程。它還有助于科學(xué)家更好地理解人類遺傳密碼中容易被忽視的部分,模型的分析結(jié)果還包括每個基因的“重要性”指標(biāo),研究人員可以用這一指標(biāo)來衡量某個基因?qū)θ祟惿娴闹匾浴?/p>
歐洲分子生物學(xué)實(shí)驗(yàn)室(European Molecular Biology Laboratory)副主任實(shí)驗(yàn)室歐洲生物信息學(xué)研究所(European Bioinformatics Institute)聯(lián)合主任伊萬·伯尼(Ewan Birney)表示,對于AlphaMissense并不感到“意外”。研究所過去與DeepMind密切合作,但沒有參與AlphaMissense的研究。他說:“AlphaFold一問世,每個人都知道,利用這個框架來解釋哪些突變會改變蛋白質(zhì)性狀應(yīng)該是可能的。”
伯尼認(rèn)為,AlphaMissense可以幫助醫(yī)生對疑似患有遺傳疾病的兒童進(jìn)行快速診斷。“我們一直都知道,錯義突變一定是導(dǎo)致某些未確診病例的原因,這是對這些病例進(jìn)行突變排序的更好方法。”他以RPE65基因?yàn)槔?,該基因?qū)е率鳎荒芡ㄟ^基因療法治療,AlphaMissense可以幫助醫(yī)生迅速排除患者DNA中任何其他可能的基因突變,從而確定正確的治療方法。
除了揭示錯義突變的影響,AlphaMissense還展示了人工智能模型在整個生物學(xué)領(lǐng)域的潛力。因?yàn)锳lphaMissense并非專門訓(xùn)練用于解決錯義突變的問題,而是研究生物學(xué)中發(fā)現(xiàn)的各種蛋白質(zhì),所以該模型有助于科學(xué)家更好地了解人類整個基因組及其表達(dá)方式??评硎荆?ldquo;模型的基本架構(gòu)源自AlphaFold。從某種意義上說,很多東西都是從AlphaFold繼承而來的,我們已經(jīng)能夠證明它可以推廣到相關(guān)但完全不同的任務(wù)上。”
【來源:網(wǎng)易科技】