張田勘
說到最近網上最火的科技名詞,非“ChatGPT”莫屬。ChatGPT(Chat Generative Pre-trained Transformer)是美國一家人工智能研究公司研發的聊天機器人程序,不僅能與人有問有答,文章也寫得有模有樣,因此有些人稱之為史上最強AI(人工智能),甚至還有人聯想到科幻片中人工智能最終取代人類的情節。記得上一輪掀起輿論熱潮的人工智能事件,還是2016闍lphaGo以4∶1戰勝世界頂級圍棋棋手李世石。今天我們就來說說以ChatGPT為代表的人工智能對當前社會發展的影響,以及其現有成果在生物科學領域的作用。
接受強化訓練的生成式AI:
對接用戶需求創造新內容
現在全世界都在談論的ChatGPT是一個人工智能撰稿和聊天工具,去年11月一經推出,便在社交媒體上迅速走紅,至今月活躍用戶已過億。ChatGPT能夠通過學習和理解人類的語言來進行對話、回答各種問題,還能根據要求完成視頻腳本、文案、論文、代碼等寫作任務。它的成功,源于以深度學習為代表的人工智能技術的長期積累。從屬性上看,ChatGPT其實是一個大型語言模型(LLM),接受過大量文本數據的訓練,能夠對各種各樣的問題輸入生成類似人類的應答結果和反應,因此,也可以稱它為容生成器。
AI需要具備3個要素:數據、算力及算法。數據是知識原料,算力及算法則提供“計算智能”以學習知識并實現特定目標。人們對AI有多種分類,以AI“能做什么工作”和“完成什么任務”作為標準,可以簡單將其分為反應式AI(分析型AI)和生成式AI。
反應式AI根據預編程規則對不同類型的刺激做出反應,由于不使用內存,所以無法通過新數據進行學習。1997年擊敗國際象棋冠軍加里·卡斯帕羅夫的IBM深藍超級計算機就是反應式AI。
而生成式AI獲得了大量數據、信息,并且經過強化訓練和深度學習,以及類似于神經網絡的反饋糾錯機制,所以能完成很多工作,產生很多產品。用一句話概括其本質:根據用戶的具體需求創造新內容。
從ChatGPT的 全 稱“Chat Generative Pre-trained Transformer(生成式預訓練轉換器)”就能看出,它是一款可以自行生成許多內容的AI,包括各類文本、文章、與人對話、翻譯、編寫代碼、繪畫、制作視頻等。
由于受各種因素的制約,ChatGPT生成的內容也有不少錯誤,尤其是關于社會、文化、人文、哲學、政治、經濟和歷史方面的內容。但是在自然科學領域,由于有公認的定律和共同的認知,如“原子是由帶正電的原子核和核外帶負電的電子構成的”,ChatGPT生成的內容出錯率相對較少。
正因如此,雖然生成式AI在所有領域都有用武之地,但類似ChatGPT的生成式AI在自然科學領域的應用更受青睞。生物醫學研究、醫療和生命科學都需要生成式AI,ChatGPT只是其中一種。
準確預測蛋白質結構:
可加快新藥和疫苗研發
目前,生成式AI在生物醫學領域的用途方興未艾。生成式AI不僅能分析成千上萬種蛋白質,還可以生成新的蛋白質,甚至是自然界從未出現過的蛋白質。
過去,認識和精確測定蛋白質的構型需要耗費大量的時間和精力,還未必能測得準,給藥物、疫苗研發和疾病治療造成了阻礙。如果生成式AI的結果既準確又快速,就可以知道一些病毒變異后的蛋白質結構,如新冠病毒的S蛋白變異,從而加快研發新藥和疫苗的速度。
2020年,英國深度思考公司研發的阿爾法折疊2(Alpha Fold-2)有了驚人成就。這款生成式AI在2020年舉行的第14屆“蛋白質結構預測關鍵評估”大賽中大放異彩。它測定的大部分蛋白質結構非常準確,不僅與實驗方法測得的蛋白質結構的精確度相同,還遠超解析新蛋白質結構的其他方法。具體來說,阿爾法折疊2能在幾分鐘內預測出一個典型蛋白質的結構,并能夠在幾天內生成高精度的結構。2022年初,阿爾法折疊2又測出了2.2億個蛋白質的結構,幾乎涵蓋了DNA數據庫中已知生物的所有蛋白質。
2022年11月,Meta公司(前身為Facebook)奮起直追,其名為ESMFold的生成式AI軟件預測了約6億個蛋白質的結構,這些蛋白質來自細菌、病毒和其他尚未命名的微生鎩K淙桓萌砑?淖既沸圓蝗綈⒍?ㄕ鄣?2,但在預測結構方面速度要快約60倍。
ESMFold的原理與ChatGPT基本相似,也是一種大型語言模型,只不過,訓練它的內容不是自然語言,而是生物基因語言,也就是通過堿基排列的順序和規律來檢測蛋白質。
舉例來說,對于ESMFold的訓練,是把已知蛋白質的氨基酸序列“投喂”給它們,正如訓練ChatGPT要把自然語言的詞語根據語法進行“投喂”一樣。自然界的蛋白質可以用20個不同的氨基酸鏈表示,每個氨基酸鏈由一個字母表示,這種訓練使ESMFold對蛋白質序列有直觀理解,并能理解蛋白質序列包含的蛋白質形狀信息。在這樣的深度學習之后,ESMFold學會了在氨基酸比例模糊的情況下“自動補全”信息。
研究團隊把ESMFold應用于大規模測序的“宏基因組”DNA數據庫,這些DNA來自于環境,包括土壤、海水、人類腸道、皮膚和其他微生物棲息地。ESMFold通過算法,能結合蛋白質結構和序列之間關系的信息生成預測結構。它總共預測了超過6.17億個蛋白質的結構,只花了兩周時間。而且,在6.17億個蛋白質測試中,超過1/3的預測是高質量的,有數以百萬計的蛋白質結構是全新的。
自然界酶類從無到有:
人工酶氨基酸序列變化也無損活性
生成式AI的強大還體現在可以生成自然界中沒有的蛋白質和物質,為人類的衣食住行生產、提供新原料和產品。
美國一家人工智能研究企業研發了另一種生成式AI,稱為人工酶人工智能系統ProGen。這是一種專門檢測酶(由活體細胞產生的一種特殊蛋白質,人體內幾乎所有生化反應都必須有酶參與才能完成)和生成酶的AI軟件。在實驗室測試中,ProGen設計的一些人工酶與自然界中發現的酶一樣有效,即使其氨基酸序列與任何已知的天然蛋白質存在顯著差異,也仍然有生物活性。
特定的蛋白質各有其單獨的氨基酸排列順序。研究人員把1.9萬個酶家族的2.8億種不同蛋白質的氨基酸序列輸入ProGen機器學習模型中,同時提供相關蛋白質特性作為控制標簽,然后讓系統花費數周時間來“消化”這些信息。此后,研究人員再把信息收窄,使用來自5個溶菌酶家族的5.6萬種蛋白質氨基酸序列,以及有關這些蛋白質的一些信息來對模型進行微調。
根據學習的內容,ProGen迅速生成了100萬個蛋白質序列,研究團隊在其中選擇了100個進行測試后發現:來自5個溶菌酶家族的所有人工蛋白質均顯示出活性,且73%具有抗菌功能,而在天然蛋白質中僅59%具有抗菌功能。
更令人驚訝的是,在另一輪篩選中研究團隊發現,即使只有31.4%的序列與目前已知的天然蛋白質相似,生成式AI設計的酶類依然顯示出了生物活性。與之相反的是,天然蛋白質如果發生任何一個突變,都有可能失去生物活性。
這些研究結果總結起來,彰顯了三方面的意義:一是ProGen生成的人工蛋白質不僅可以正確表達,還展示出與蛋白質天然折疊相類似的結構;二是AI生成的蛋白質即便只有部分氨基酸序列與天然蛋白質的序列相似,也具有生物活性,但天然蛋白沒有這個優勢;三是人工智能可以設計出在自然界從未有過的新物質和新產品。
這意味著,如果采用生成式AI設計和生產蛋白藥物、食品及生物產品(如降解塑料的產品),會更快更有效,當然其安全性還需通過進一步的研究來檢驗。換句話說,如果人工智能生成的蛋白質能夠像自然生成的蛋白質一樣,也意味著未來人工智能可以設計人類所需要的各類產品,首要的就是滿足人類生存的食物和藥品。
幫助診斷疾病和優生:
最終結果仍需人類審核決定
現在,生成式AI已經發展到通過圖像、血液、組織掃描結果,來檢測、診斷和預測心血管病、眼部疾病、糖尿病,以及結直腸癌、肺癌、乳腺癌、前列腺癌等多種癌癥。
心臟病是一類嚴重的心血管疾病。心電圖信號最常被用作篩查心臟病的工具。新加坡南洋理工大學等機構的研究人員利用一種名為Gabor-CNN的人工智能機器學習算法設計出了一種生成式AI診斷工具,能模仿人類大腦的結構和功能,使用心電圖診斷冠狀動脈疾病、心肌梗死和充血性心力衰竭。試驗結果顯示,這種人工智能有助于自動識別健康人群和不同心血管疾病患者相關的心電圖信號,其準確率能超過98.5%。
癌癥同樣可以利用AI來診斷和治療。對于結直腸癌和乳腺癌,現在一般是通過觀察CT照片和組織切片來進行診斷。中國中南大學等機構的研究人員從中國、德國和美國的8803名受試者和13個獨立的癌癥研究中心收集了超過1.3萬張結直腸癌圖像,利用這些隨機選擇的圖像,研究人員構建了一種AI軟件來識別結直腸癌的圖像。初步測試結果顯示,AI軟件能檢測出大部分結直腸癌圖片,堪比真正的病理學家,甚至在很多情況下表現得更好。當然,最后的診斷還需經過病理學家的把關和審查。
還有一個受到醫學關注的領域是不孕不育。現代生活方式和環境變化造成約有15%的夫婦不育,其中精子質量差是重要的原因之一。傳統的做法是對精子活檢來檢測質量,但這個任務如果由AI來完成會更出色。
最近上海市第一婦嬰保健院研發了一種AI軟件,通過深度學習和算法,可以識別精子的“面部”和不同運動形態(類似于人臉識別),操作者只需通過電腦屏幕觀察即可。這套AI系統對3家醫院共1000份樣本進行檢測的結果顯示,其準確性與傳統方法相同。AI軟件大大縮短了整個檢查過程,僅需一個半小時,而使用傳統方法需要大約一周時間才能拿到報告。
這樣的“智能”例子舉不勝舉。可以預想,人工智能的快速發展將會對許多領域造成沖擊,尤其是那些創造性較低且基于行業知識或訓練就可以完成的工作,如客服、動畫建模、美工、翻譯、低級代碼開發人員等。此次風靡全球的ChatGPT讓我們看到,人工智能的發展有了質的飛躍,預示了更多可能,但這種技術革新目前還只限于語言維度,并非主動意識,也不具備真正的創新能力,與科幻片中“人工智能取代人”的幻想相去甚遠。
總之,無論AI應用到了什么領域,最終所獲得的成果或生成的產品仍需由人來審核和決定,這才是對待AI的科學態度。
《北京日報》2023年2月22日第9版