ICML(International Conference on Machine Learning,國際機器學習大會)作為國際機器學習學會主辦的國際會議,被公認是人工智能、機器學習領域最頂級的國際會議之一,在整個計算機科學領域享有崇高的聲望。
今年,百圖生科首席AI科學家宋樂教授擔任ICML大會主席,作為Program Chair,全面負責大會程序委員會的組建和論文評選等管理工作。中國生物計算企業高管出任AI頂級學術會議的此類職位,也可以被視作中國生物計算行業崛起的風向標。
ICML生物醫藥行業關鍵詞被提及超過200次 行業前景被看好
作為全球著名的機器學習和圖深度學習專家,宋樂教授自2008年起就在卡內基梅隆大學和喬治亞理工學院從事生物計算相關研究,利用機器學習技術對靶點挖掘、藥物設計取得了一系列突破性成果。在多年學界探索之后,他于去年8月加入百圖生科,“投身業界,更多是因為可觀測的生物數據量越來越多,比如說蛋白質的序列數據已經超過十億條。其次是計算能力的提升,再次是AI算法能力的積累,AI和制藥領域出現了很多新的模型和方法,能夠更準確的預測。當然,目前的研究僅僅是冰山一角,AI+Drug還有無比廣闊的探索空間,我對這個賽道非常期待。”宋樂教授在入職百圖生科時對媒體講到。
ICML 2022的論文收錄情況也體現了宋樂教授的遠見。“從ICML今年收錄的近千篇論文情況來看,像醫學、生物學、蛋白質、藥物、分子、化學等關鍵詞在文章標題和摘要被提及次數總計超過200次,成為單一最大的研究方向之一。我們已經看到越來越多的人工智能專家在開始關注生物醫藥這個領域”宋教授表示。
百圖生科首席AI科學家 宋樂
生物計算大模型將成為人工智能賦能全行業最大、最高價值的基礎設施
人工智能落地已經進入“大模型”時代。大規模預訓練模型使用自監督學習的方法讓模型對海量無標注數據中的規律和知識進行提煉、學習,當面向任務和場景應用時,只需要少量的任務標注數據,就能通過持續微調得到在應用場景中非常好用的模型,對具體任務的賦能效果顯著,大規模預訓練模型在NLP、CV等多類任務上已經展現出強大的優勢。
在宋教授看來,人工智能大模型的下一個奇跡,將出現在生物計算領域,生物計算行業將出現規模最大、效果最好、價值最高的大模型,成為行業的重大基礎設施,不僅徹底改寫藥物研發的技術能力,也將對人工智能底層技術發展起到巨大的推動作用,反哺其他行業的AI技術發展。
“人體這個多尺度的復雜網絡,加上多模態、高噪音的超大規模生物數據,需要獨有的超大模型來提升研發效果,這也是百圖生科在全力攻堅的事”。根據宋教授的介紹,百圖生科正圍繞建模免疫系統復雜運作機理的需求,構建一系列對不同生物物質、不同互作關系具有表征能力的大模型,覆蓋細胞、蛋白、基因、免疫系統等多個層面,而不只局限于熱門的蛋白質結構預測領域。但即使在蛋白質結構預測這個已經被AlphaFold2充分挖掘的問題上,大模型也能帶來顯著的提升。百圖生科與百度合作開發了這個領域的大規模預訓練模型模塊,在沒有同源序列的幫助下對蛋白質的結構預測,對標AlphaFold2預測的TM score結果,從0.3顯著提高到0.67。
“當然,這只是起點,我們正在開發的是超過千億參數的超大規模多模態預訓練模型體系,我們把它稱作BioMap X(xTrimo,Cross-modal Transformer Representation of Interactome and Multi-Omics),它將是全球最大的生物多模態預訓練模型體系,可用于生物醫藥領域包括靶點發現和藥物開發的多個環節”。利用這個大規模預訓練模型的初步基礎,百圖生科已經在一系列具體任務問題上,特別是一些已有數據很少的問題上,收獲了明顯的效果。例如,圍繞組合藥物協同效應的預測,大幅度的超過了SOTA水平。目前,在一些實驗數據很稀缺的免疫細胞上進行的靶點發現任務,也取得了良好的前期效果,即將完成驗證后對外公布。
超大規模模型是AI行業的明珠,背后需要巨大的投入和綜合的底層技術能力,而這正是生物計算大模型被宋教授看好的原因。“藥物發現問題的商業價值極高,比起其他任務場景,更能支持大規模模型的建設投入,目前百圖生科作為平臺型生物計算企業敢于這樣做,未來一定也會有更多企業投身到這個趨勢中,最終推動生物計算大模型成為AI屆最亮的明珠”。
超大規模模型建設離不開超大規模的計算資源和高性能高并發計算能力。百圖生科的團隊,包括一大批百度主任架構師、阿里P9專家這樣的高級人才,他們在學術上累計發表過上千篇論文,在工程上實際構建過超大規模的知識圖譜、計算集群,具有豐富的計算經驗。百圖生科也得益于百度的助力,搭建了高彈性的超大規模計算集群,實現了大模型的高效訓練。同時,大模型能力的芯片化是下一步的關鍵方向。百圖生科正與包括百度昆侖芯科技等領先芯片企業合作,共同研發生物計算的專用芯片,通過探索與前沿生物計算算法相匹配的前沿芯片設計,將大模型和生物計算特色需求的能力固化到芯片上。
高通量干濕閉環 也是AI的用武之地
超大規模生物數據無疑是建設大模型的另一個關鍵點。截止目前,百圖生科的免疫圖譜已經形成了超十億級的實體數據、百億級的互作關系數據、千億級的關聯數據,為大模型的打造提供了基礎。這些海量數據的形成,來自于百圖生科從創立之初就多管齊下的大投入決心和AI、生物技術能力建設。
宋教授認為,公開數據此前一直被認為存在較高的噪音和不準確,但這正是大模型所能消化的數據燃料,也是AI知識圖譜等技術在數據清洗上的優勢所在。百圖生科構建了大規模的挖掘引擎,從論文挖掘和知識抽提,到大規模生物數據庫的清洗整合、AI提升batch effect(批次效應)消除,再到利用知識圖譜推理技術發現分歧。運用高通量濕實驗能力去驗證,公開數據的整合挖掘仍然大有可為。
但更關鍵的是海量自產數據的獲得。“之前我一直在講,高通量干濕實驗閉環是生物計算的未來,這也是百圖生科一直打造的差異化優勢,過往一年我們也在不斷努力,構建了一萬多平米的高通量實驗室,自主研發了世界首創的免疫模擬系統,從而能產生海量的數據和高速的驗證閉環。我們的系統具有對蛋白質、細胞的高通量讀寫能力,能實現把物理世界的生物體快速讀取,獲得他們的幾十個參數維度,也能實現對多種蛋白、細胞的快速制備/編輯/改寫,讓他們能驗證模型的結果,形成快速的閉環。”
在高通量實驗系統打造的過程中,百圖生科融合了世界一流的生物技術團隊和AI團隊。生物團隊中,上百位來自大藥企、著名實驗室的專家,參與過100個以上的新藥研發項目,掌握全鏈條的世界領先技術,例如免疫細胞的基因編輯技術等。AI團隊中,有一批在細胞視覺、運籌優化等領域經驗豐富的專家,他們和生物團隊融合,利用細胞視覺大大提升原有生物檢測方法的參數維度、反應速度、成本優勢,不僅可以帶來更好的數據,還可以用于閉環控制、確保生物系統的穩定。“這就是我們自己研發的激光雷達,有獨家的激光雷達能力,我們希望能成為最強大的‘自動駕駛’公司”。
百圖生科實驗室自有設備拍攝的高內涵細胞視覺數據
在技術能力之外,百圖生科還通過強大的臨床合作網絡,為高通量實驗能力找到更多的用武之地。“多組學數據、臨床科研數據對于模型構建和算法提升幫助很大,因此公司成立之初就投入10億元建設‘免疫圖譜卓越計劃’,已經與十余家中國TOP 30的醫院建立了合作,一批臨床醫院的著名專家、院長、主任成為了我們的合作PI,我們也很快會推出‘卓越計劃’二期來加速這個過程。”宋教授補充道。
鼓勵更多AI人才跨界 抓住生物計算早時機“上車”
百圖生科AI業務的迅速發展離不開團隊力量的有力支撐,事實上,宋教授加入公司之后,人員招聘也是他工作的重中之重。目前,他的團隊已經擁有數十名專家,累計發表了近1000篇論文,獲得過300個專利,人才來源覆蓋了國內外的頂級計算生物學院系,和頭部的AI科技大廠。值得關注的是,這里面很多人才并沒有計算生物學、生物信息學等生物相關的背景。
“Insitro創始人Daphne Koller就曾感慨具有計算和生命科學交叉背景的人才招聘非常困難,交叉學科背景的人才相當搶手”。宋教授認為,對于AI方向人才來說,生物學雖然聽起來復雜,但在具體工作中上手其實沒那么難,底層AI技術在過往其他行業的經驗完全可以復用,加上公司有大量的醫藥及生物專家,良好創業公司氛圍可以幫助AI方向人才將生物知識背景迅速補齊,我們已經吸引到了一大批來自其他方向的AI人才,愿意突破舒適圈進入生物計算,并獲得成功。
百圖生科負責靶點大模型的王太峰同學就是很好的例子。王太峰是來自AI大廠的資深算法專家,之前在微軟亞洲研究院工作多年,是開源軟件LightGBM、暢銷書《分布式機器學習:算法、理論與實踐》的作者,他曾在DROP、OGB等多項國際比賽中獲得第一名,論文引用近萬次。他之前的研究方向主要涉及廣泛多模態、NLP、計算廣告、圖學習、因果推斷、分布式及其學習等等,加入公司前,他對生物醫藥并沒有太多了解。加入之后,體系化的生物基礎知識培訓,生物專家拆解特定問題,一對一轉換生命科學和計算機科學語言,幫助他迅速了解NLP、知識圖譜推理、預訓練模型在生物問題上的應用場景,很快由他主導的免疫知識圖譜算法1.0版本已經開發完成。
除了當下的任務,百圖生科還在不久前成立了研究院,圍繞生命體精細化觀測、新型蛋白質合成和細胞編輯、前沿多組學技術等方向建立了研究小組,與國內外眾多一線高等院校、科研院所合作,利用公司的場景優勢、生物和計算基礎設施優勢,與高校雙軌制培養優秀人才,使其兼具研發能力和工業落地的實踐精神。
“現在的生物計算行業其實很像二十多年前互聯網行業爆發的前夜,有人說21世紀是生物學的世紀,也有人說21世紀是人工智能的世紀,我覺得人工智能技術賦能下的生物醫藥行業,將會成為這個世紀最有潛力的方向。隨著越來越多的交叉學科人才涌入這個行業,這個行業的人才競爭也會加劇,但現在還是提早上車的最好時候。”宋教授微笑著補充道。