日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

陳永偉/文

從蛋白質的結構說起

在生命過程中,蛋白質扮演著十分重要的角色。一方面,它是生物體的構造師,小到一個細胞,大到各種器官,都需要由蛋白質來構造。另一方面,它還是很多生命活動的重要參與者,無論是在生物體內進行物質傳輸、對各種生化過程進行催化,還是對來自體外的侵襲進行抵抗,都離不開蛋白質的參與。

目前,人類已知的蛋白質達到了兩億多種,每一種蛋白質的三維結構都不相同,而它們的功能差異就是由這些不同的結構決定的。例如,人們出于滋潤補水、護膚嫩膚的需要,經常會設法補充膠原蛋白,其奧秘就在于這類蛋白的結構類似于一股擰起來的繩子,因而具有很強的韌性,從而可以在軟骨、韌帶、骨骼和皮膚之間傳遞張力。又如,我們免疫系統中的抗體蛋白大致上呈現了一種Y型的結構,并能夠形成獨特的鉤狀,這就使得它們可以附著在病毒和細菌上,對致病微生物進行檢測、標記及消滅。正是因為蛋白質的結構和功能之間存在著以上這樣的關系,因此從上世紀中期開始,對蛋白質結構的探索就成為了生物學家研究的一個重點。

1961年,美國國立衛生學院的研究員安芬森(ChristianAnfinsen)發表了一篇論文,對其進行的一項實驗進行了介紹:在實驗中,他將牛胰核糖核酸酶蛋白分子用變性試劑打開,將二硫鍵還原成巰基,由此,蛋白質原有的折疊結構就被破壞了,酶的活性也隨之消失。然后,他將裝有實驗樣品的燒杯暴露在空氣中過夜。令他驚奇的是,在經過一夜的放置之后,酶的大部分活性恢復了,被破壞了結構的蛋白質又折疊成了原來的樣子。這有多奇怪呢?大致上就相當于我們將一朵由鐵絲編織成的花用老虎鉗拉直,但在經過一段時間之后,卻發現那段已經被拉直的鐵絲竟又自己變成了一朵花!

為什么會出現這樣的情況呢?安芬森給出的一個猜想是:這或許說明了蛋白質多肽鏈中氨基酸的排列順序,也就是所謂的蛋白質一級結構決定了它最終的三維結構——當一級結構決定后,多肽鏈會服從熱力學的定律,自動折疊成能量最小化的狀態。在后來的生物學研究中,安芬森的上述猜測被歸納為了“安芬森法則”。1972年,安芬森憑借著這個重要的法則斬獲了諾貝爾化學獎。

對于研究者而言,安芬森法則指出了一個重要的研究方向,即“蛋白質折疊問題”:既然蛋白質的三維結構取決于其一級結構,那么,從理論上講,人們就可以根據分子間的能量優化法則通過蛋白質的一級結構來對其三維結構進行預測。由于蛋白質的功能很大程度上取決于其結構,因此如果人們可以充分了解蛋白質的三維結構,就可以按圖索驥地尋找,甚至創造自己所需要的蛋白質。很顯然,由此帶來的想象空間是十分巨大的。

然而,正所謂“理想很豐滿,現實很骨感”。盡管乍看之下“蛋白質折疊問題”的潛在價值十分巨大,不過由于組成蛋白質多肽鏈的氨基酸數量都很龐大,因此要通過其結構來預測蛋白質的折疊是非常困難的。所以安芬森法則指出的道路看似光明,但在很長時間內,卻成了一條少有人走的路。

相比之下,生物學家們似乎更傾向于用直接觀測的方法來探索蛋白質的結構。從早期的X光衍射法到新近的冷凍電鏡法,隨著實驗器具的日益發展,人們通過實驗探索蛋白質結構的能力也日漸提高。但盡管如此,相比于蛋白質龐大的種類量,人們用實驗探索蛋白質結構的努力只能算是杯水車薪。

2018年,轉機出現了。在當年11月舉辦的第13屆全球蛋白質結構預測競賽(CASP)上,DeepMind的AI程序AlphaFold成功地對43種蛋白質中的25種的結構進行了預測,由此在98名參賽者中獲得了第一。而相比之下,第二名只預測準確了3種蛋白質的結構。更值得一提的是,在對某些蛋白質結構的預測中,AlphaFold得到的結論甚至比用X光衍射法和冷凍電鏡法觀測到的結論更為準確。

AlphaFold是靠什么獲得了如此優異的成績呢?其實,它用的方法很簡單:學習大量蛋白質的序列和結構數據,從中尋找氨基酸分子之間的相互作用,以及蛋白質片段之間的演化關系,然后再按照找到的規律對蛋白質的結構進行預測。

初戰告捷之后,AlphaFold不斷從生物學、物理學和機器學習領域的最新進展中汲取靈感,以此來升級自己的算法,其預測能力也獲得了很大的提升。2022年7月28日,DeepMind在其官網發布了一篇名為《AlphaFold揭示蛋白質宇宙的結構》(AlphaFoldrevealsthestructureoftheproteinuniverse)的新聞,宣布AlphaFold已經對幾乎所有已知蛋白質的結構做出了預測。隨后,又將所有預測的蛋白質結構放到了網上,供科研人員自行下載使用。據不少下載了數據的科研人員反映,這些數據的準確率非常高。

雖然在未來的一段時期內,人們還需要繼續對AlphaFold給出的預測數據進行驗證,但可以說,困擾了人們半個多世紀的“蛋白質折疊問題”基本上已經得到了解決。

AI在科學研究中的應用

毫無疑問,AlphaFold破解“蛋白質折疊問題”的成功為生物學的發展作出了巨大的貢獻。但這個事件還有一個更為重要的意義,即證明了AI可以在科學研究領域起到至關重要,甚至是決定性的作用。由此,“人工智能驅動的科學研究”(AIforscience,有時也簡稱AI4S)成為了AI研究中的顯學。

科學的發展是一個不斷猜想、不斷檢驗的過程。在科學研究當中,研究者需要先提出假設,然后根據這個假設去構造實驗、搜集數據,并通過實驗來對假設進行檢驗。在這個過程中,研究者需要進行大量的計算、模擬和證明。而在幾乎每一個步驟當中,AI都有很大的用武之地。

(1)研究問題的提出

提出一個好的問題是做出一個好研究的第一步,只有提出的研究問題是重要的,后續的研究才可能有意義。傳統上,科學問題主要有兩個來源:一種是對現象以及數據的觀察來提出某些猜想,比如,天文學上著名的開普勒三定律,就是由開普勒在整理天文學家第谷留下的大量數據之后提出,然后再通過理論研究加以確立的。第二種則是對既有文獻的梳理,即通過閱讀既有的研究成果,看看前人的研究還有哪些地方留有不足,然后以此為突破點提出自己的問題。在使用了AI這個工具后,用以上述兩種方式尋找問題的研究者都可以大幅改善自己的效率。

先看通過觀察提問。在過去,通過觀察來提問對研究者的直覺要求是非常高的。以開普勒三定律為例,其中的第一定律(橢圓定律),即“行星繞太陽運行的軌道是橢圓,并且太陽在這個橢圓的一個焦點上”是相對直觀的,通過對記錄數據的觀察基本就可以提出這個假設。但第二定律(面積定律),即“行星和太陽的連線在相等的時間間隔內掃過相等的面積”就不那么直觀了,即使是十分仔細的人也需要在靈感的啟發之下才可能發現這個規律。至于第三定律(調和定律),即“行星繞太陽一周的恒星時間(T)的平方與它們軌道長半軸(a)的立方成正比”則更是一個非常不直觀的現象,只有非常天才的研究者才有可能提出這樣的假說。

而應用了AI之后,人們在占有了充分的觀測數據之后,就可以相對容易地提出相關的研究問題。比如,如果人們有了行星運行的大量數據,并且猜想行星繞太陽一周的時間可能和其軌道橢圓的某條軸的長度存在著某種關系,那么他就可以讓AI去嘗試建立這些變量之間的函數關系。通過這樣的方法,開普勒第三定律就可能比較容易地被提出來。

再看通過閱讀文獻來提問。過去,從事科學研究的人相對較少,研究的數量也相對較少,因此一個研究者只要肯下功夫,就至少可以把自己所從事的領域的相關文獻都予以掌握。然而,隨著科學的發展,從事科研的人數不斷增加,各種科研成果也不斷地涌現,一個科研人員要想完整地了解自己所在研究領域的進展已變得越來越困難,更遑論去了解其他領域的動態來給自己的研究提供啟發了。

在應用了AI工具后,以上的問題可以在很大程度上得到緩解。比如,現在的研究者可以讓ChatGPT等AI大模型來為自己整理已有的文獻,并寫成摘要。這樣,他們就可以大幅減少搜索和閱讀文獻所花費的精力,可以以更小的成本了解現有研究的進展,并在此基礎上提出新的研究問題。

(2)數據的搜集

在提出了相關的研究問題之后,研究人員就需要設計實驗,并搜集相關的數據,為進一步的研究做準備。在這個過程中,AI的應用潛力也是十分廣闊的。

這種作用首先體現在數據的選擇上。在實驗當中,并不是所有的數據都是可用的。很多數據可能是受到干擾后產生的,如果不剔除這些數據,后續的研究結果就可能受到嚴重的干擾。現在在很多實驗中,深度學習已經成為了這項工作的主要承擔者。

在搜集了數據之后,對數據進行標注也是一項艱巨的工作。例如,在生物學當中,為新分子進行功能和結構標注對于后續的研究來說是非常重要的,但要進行這一工作則并不容易。雖然新一代測序技術不斷涌現,但只有不到1%的已測序蛋白質得到了生物學功能的標注。目前,為了能夠提高數據標注的效率,研究者們正在嘗試讓AI學習手動標注的結果,從而訓練出代理模型(surrogatemodels)來幫助自己對新的數據進行標簽。從現有的結果看,這種方式確實可以比較有效地改進標注效率。

除此之外,AI現在還有一個非常重要的作用,即生成數據。這一點,在AI研究領域表現得最為顯著。近十多年來,人工智能的主要發展主要來自于機器學習領域,眾所周知,這個領域的發展對數據的依賴非常強。在實踐當中,數據的搜集和整理不僅成本高、質量難控制,還可能衍生出侵犯個人隱私、威脅數據安全等問題。為了應對這些問題,一些學者建議可以用合成數據作為真實數據的補充,供機器學習使用。

與真實數據相比,合成數據具有不少優勢:一方面,從訓練效果上看,用合成數據進行訓練的效果其實并不比真實數據差,在一些場合,它們的表現甚至更高。在真實數據的形成過程中,可能混入很多不必要的噪聲信息,這就可能對其質量造成影響,而合成數據則沒有這樣的問題。麻省理工學院、波士頓大學和IBM曾聯合做過一項研究,用真實數據和合成數據分別訓練模型對人類的行為進行識別,結果采用合成數據進行訓練的模型表現要比采用真實數據訓練的模型更優。另一方面,從成本上看,合成數據的成本要遠遠低于真實數據。除此之外,由于合成數據都是生成而非搜集的,所以使用它們來進行研究還可以規避很多法律和道德風險。

目前已經有越來越多的AI研究者開始用合成數據取代真實數據作為機器學習的材料,其對AI技術發展的貢獻正在變得越來越顯著。正是因為這個原因,所以《麻省理工科技評論》(MITTechnologyReview)將合成數據技術評為了2022年全球十大突破性技術之一。

(3)科學計算和模擬

在科學研究的過程中,通常需要進行大量的計算和模擬工作。比如,如果科學家發現了某個星體的運行規律,怎樣才能證明他的發現是正確的呢?最直觀的方法就是根據他發現的規律計算出這個星體在未來某個時間點的位置,然后進行比對。從這個意義上講,精確的計算和模擬就是驗證理論的關鍵。

但計算并不是那么容易的事情。例如,從理論上講,各大星體之間的相對運動關系都可以由萬有引力定律推出。牛頓在發現三大定律之后,就曾經很自豪地宣稱,他已經掌握了宇宙運行的終極奧秘。但是,真實情況卻并非如此。以由于劉慈欣的小說而被人們所熟知的“三體”問題為例。從表面上看,“三體”系統是非常簡單的,總共只有三顆彼此糾纏的恒星,以及一顆夾在其中的行星,要模擬它的運動軌跡似乎并不難。但一旦我們試圖用牛頓力學來對其位置進行推導,就會發現得到的聯立微分方程其實構成了一個混沌系統,其運動的軌跡是很難確定的,一個微小的擾動都可能帶來巨大的偏差。正是因為這個原因,所以在《三體》小說中,即使科技水平遠超地球的三體人也無法制成一張精確的萬年歷。

在現實中,遠比“三體”系統復雜的問題比比皆是。在對這些問題進行研究時,人們都不得不直面“維度爆炸”問題的挑戰。

舉例來說,臺風軌跡的預測就是一件計算量需求非常高的工作。傳統上,人們主要是依靠動力系統模型來進行預測。這種方法會根據流體動力學和熱力學等物理定律來構造大量的微分方程,用它們來模擬大氣的運動,進而對臺風的走向進行預測。顯然,這個動力系統是非常復雜的,不僅預測所需要的計算量非常大,并且非常容易受外生擾動因素的影響。正是因為這個原因,所以世界各國即使動用了最先進的超級計算機,預測也經常出錯。最近幾年,人們調整了預測的思路,開始嘗試用AI模型預測臺風,由此涌現了一大批相關的AI模型。這類模型放棄了傳統物理模型的預測思路,轉而用機器學習的方法來進行預測,不僅大幅降低了計算負擔,而且有效提升了預測精度。比如,“風烏”模型在一個單GPU的計算機上就可以運行,并且僅需30秒即可生成未來10天全球高精度預報結果。在最近預測臺風“杜蘇芮”的過程中,“風烏”模型預測的軌跡誤差遠遠小于傳統模型,從而為人們抗擊臺風做出了很大的貢獻。

(4)輔助證明

在一些學科(例如數學)的研究過程中,需要對命題進行理論上的證明。從很早開始,人們就試圖借助計算機來幫助他們完成這項困難的工作。他們的基本思路是:首先將一個數學命題形式化(formalisation),然后借助計算機來對形式化的命題給出證明。

在現實當中,很多數學命題是由自然語言表述的。比如,著名的“四色問題”就是要證明“任何一張地圖只用四種顏色就能使具有共同邊界的國家著上不同的顏色。”對于計算機來講,這種自然語言是它們難以理解的,因此它們也不可能幫助人們以自然語言的形式來解決證明問題。幸運的是,數學家們經過長期的努力,已經對大部分的數學分支建立起了公理化的表述體系。借助于公理化體系,用自然語言表述的命題就可以表述為由一個系列邏輯判斷構成的形式化命題。通過特定的方式編碼,計算機可以對這些形式化命題進行識別,于是,計算機就可以幫助人們用來進行輔助證明。

仍以“四色問題”的證明為例:在歷史上,這個著名的問題曾經有過好幾個版本的證明。盡管在每一個版本的證明中,數學家都用到了計算機作為輔助,但最初的證明都是以人工的推導為主,計算機的工作主要局限在提供計算的支持。2005年,英國劍橋研究院的高級研究員貢蒂埃(GeorgesGonthier)給出了“四色問題”的新一代證明。和前幾代的證明不同,貢蒂埃首先將這個問題轉化成了一系列形式化的命題,再用一個名叫Coq的交互式輔助軟件對它們進行了證明。由于在證明的過程中,Coq完成了大量最復雜的證明,因此在某種意義上講,這個過程可以算是一個機器證明。

需要指出的是,盡管包括Coq在內的輔助證明軟件已經可以幫助人們完成很多證明工作,但它的自動化是非常低的。在多數時候,人類研究者還需要充當引導員的角色,幫它們把自然命題轉化為形式化命題。

隨著AI的發展,人們開始嘗試讓AI來解決這個問題。比如,2022年,由谷歌、斯坦福大學等單位的研究人員組成的一個團隊就發表了一篇論文,介紹了使用OpenAICodex的神經網絡進行自動形式化的工作,顯示了用大型語言模型將非形式化語句自動翻譯成形式化語句的可行性。今年,這個團隊又在此基礎之上提出了一整套名為“草圖、草稿、證明”(Draft,Sketch,andProve,簡稱DSP)的AI輔助證明方法。這套方法建議利用大型語言模型先將自然語言命題轉化為由一系列邏輯推理步驟組成的形式化命題,然后用交互式定理證明器來對這些命題進行證明。當然,在這些步驟之間,還存在著一系列的中間猜想。因此在證明的最后,還需要通過自動驗證器來對這些中間猜想進行證明。這樣,上述的工作就可以合起來構成一個完整的形式化證明。

(5)輔助寫作

對于科研工作來說,AI還有一個重要的貢獻:輔助寫作。在很多人看來,在完成了研究、得到了相關的結論之后,把它們寫成論文就是一件非常輕松的事了。但事實上,情況未必如此。在現實中,有很多研究人員對做實驗、跑數據非常熱衷,但對寫論文則相當抵觸,甚至認為花時間在遣詞造句上完全是浪費時間。而在以ChatGPT為代表的生成式AI興起之后,這類研究人員就得到了拯救。現在,他們在完成研究后,直接把相關的結論丟給ChatGPT,就可以得到非常規范的論文。很顯然,這會極大減輕他們的工作負擔,提升他們的工作效率。

另一個容易被忽視的貢獻

需要指出的是,除了上述的這些直接貢獻之外,AI還有一個非常容易被忽視的影響,即重構產學研關系、促進企業對基礎研究的投資熱情。對于面臨一些領域被西方“卡脖子”的我國而言,這一點可能是尤其需要重視的。

根據《中國研發經費報告2022》,2022年我國基礎研究經費支出為1951億元,基礎研究投入強度為6.3%。雖然與歷史相比,我國對基礎研究投入的強度不斷上升,但如果與國外相比,就可以看到目前我國的基礎研究投入強度依然很低。

如果我們把基礎研究投入分執行機構進行分析,就會發現以高校作為執行機構的比例是最高的,在總投入中占到了49.4%。其次是研究和開發機構,占39.1%,而企業作為執行機構的,僅占6.5%。相比之下,美國基礎研究經費由企業執行比例為32.4%,日本基礎研究經費由企業執行比例為47.07%。眾所周知,高校和科研機構的經費主要來自于國家撥款,而企業的研究經費則主要是由其自行投入的。因此,這組數字就說明了,我國的企業在基礎研究上進行投入的意愿要遠低于美、日等國。

為什么會出現以上這樣的情況呢?一個重要的原因是,基礎研究的周期太長、風險較大、轉化率又低,導致以利潤最大化為目標的企業認為從事基礎研究是無利可圖的。在發達國家,由于建立了比較完善的產學研共生生態,類似風險可以比較好地在企業、政府、科研機構等眾多主體之間分擔,所以企業對基礎研究的投資積極性就相對較高。而我國,產、學、研彼此之間的孤立性還較高,因而就很難有類似的風險分擔機制。

顯然,要破解上述問題,根本的出路還是要培育健康的創新生態,推進產學研的一體化。但這是一個長期的過程,不是一朝一夕可以實現的。不過,即使在創新生態未能有效改善的條件下,AI的應用也可以在很大程度上提升企業投資基礎研究的積極性。通過前面的分析可以看到,借助AI的輔助,基礎研究的周期可以大幅縮短,效率可以大幅提升。從經濟角度看,這其實就增加了基礎科研的預期收益,同時降低了其失敗風險。因此,原本無力可圖的基礎研究就可能成為一項合算的生意,企業對其投資的積極性也將提升。這樣一來,基礎研究投入不足的問題就可以得到有效的緩解。

分享到:
標簽:AI
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定