“數據云操作系統”是新一代的企業級數據基礎設施,向下封裝復雜性,向上提供易用性,幫助企業應對多云、多引擎、多主體、多應用等多變挑戰。
而當大模型浪潮來襲,數據云操作系統如何幫助企業構建數據和AI能力,抓住用技術驅動革新的機會?開發者們對數據云操作系統又有怎樣的新需求和期待?
在《數據云場景指南》發布會的圓桌環節,我們同樣把上述問題拋給了平臺建設者、數據開發者和應用開發者。
他們說:
· 平臺 for AI,共享一套基礎設施,同時保障數據安全和一致性;AI for 平臺,用AI為運維、安全等數據場景提效。
· 數據不能出境,標準可以共享,算法可以“漫游”。
· 分析云會打造應用市場,現有產品是“原生應用”。
· 數據云操作系統要提升易用性,把封裝好的數據、算法以服務的形式提供給上層應用。
本期嘉賓
· 地雷:奇點云CTO,近20年數據領域研發和產品經驗,原MaxCompute大數據引擎和算法平臺初代PD之一。
· 葉玎玎:GrowingIO聯合創始人,國內最早一批增長黑客踐行者,網易用戶搜索引擎核心開發者,XRuby Core Committer。
· 證道:奇點云資深數據架構專家,18年數據行業從業經驗,9年老甲方、9年老乙方,完整經歷大數據技術的迭代演進。
· 何夕:奇點云資深戰略咨詢專家,浙江大學社會碩士生導師,本期圓桌主持人。
何夕:今年數據科技話題幾乎離不開大模型和人工智能。首先,大模型是data-centric(以數據為中心)的AI,對優質數據和大數據平臺依賴很高,同時,我們也看到了各種算法模型的落地應用,例如流失預警、銷量預測、商品的調補貨等等。從構建數據和AI能力的角度,各位對數據云操作系統有怎樣的期待?
地雷:在《流浪地球2》上映的時候,有一個畫面我當時很激動,背后是中科院軟件所和計算所的專家幫忙策劃和寫出來的。
當時要恢復月球里基地的設備,但是人力搞不定了,所以就把MOSS接進去,要求把生產恢復起來。MOSS說,好的,我開始了,先進行掃描,看有哪些系統和硬件,然后寫一個操作系統。寫完以后,MOSS說,我開始寫應用。
大家可以發現這個臺詞寫得很專業,它不是一上來就恢復生產的,而是先掃描底層,寫操作系統把底層通用的東西搞定,再開始寫不同的應用。接下去,第一個應用才說“開始3D打印”、開始生產等等的具體動作。
只是幾句臺詞,但它很真實地展示了實際操作系統和應用的層次。
雖然這是一部科幻片,我同樣希望未來有一天,我們能基于操作系統,很快地造出應用,來應對復雜的場景需要。
地雷:回到話題本身,我們常說要分成“AI for 平臺”和“平臺 for AI”這樣兩個維度來看。
首先“平臺 for AI”,客戶今年問得比較多的是:你的數據云操作系統能不能生產算法,甚至跑大模型?答案是肯定的。SimbaML(算法工廠)這個產品的底層就是SimbaOS Kernel(數據云操作系統內核),來完成算法應用全生命周期的工作,包括MLOps中的開發、訓練、部署等等。這其中最關鍵的好處在于,它和業務分析共享同一套基礎設施(數據云操作系統),而不是算法和業務分2個庫,數據的安全性和一致性都能夠得到保障。
另外,“AI for 平臺”,也就是說數據云操作系統本身就應該具備一些AI能力,來幫助很多數據場景提效,譬如智能的運維故障處理、異常行為監控等等。去年我們的數據安全團隊拿下全國第一的智能算法,就采用了GPT同源的Transformer模型。
證道:我對“平臺for AI”做個補充。因為有個很現實的問題,各個國家、地區都有對數據的保護要求,敏感數據是不允許跨境的。那對于全球化的企業來說,如何在安全合規的前提下,最大化使用數據資產?
我認為數據云操作系統要幫助企業做到3個“跨越”:
第一,管理、標準、算法可以跨境共享、應用。例如數據資產、數據質量、數據安全的管理體系,建模、開發、任務、調度的標準,可以推到全球各個國家和地區去應用。數據不可以出境,但算法不涉及到具體的數據,因此可以“漫游”,可以去全球各地“游學”,把自己訓練地更好。
第二,可以跨不同的業態和不同的底層資源。例如,跨國公司在不同的國家、地區使用不同的云資源,哪怕不出境,國內有一些企業也有合規的要求,例如金融業務要求存在自己的IDC機房,其他業務可以存在公有云。借助數據云操作系統,集團要能看到整體的數據資產,具體到各業務線,也可以根據情況自行做一些調整。
第三,還可以跨引擎。比如有一些任務早些年用Hive寫的,后面需要改成Impala+Kudu,后面還會有一部分改成Flink或ClickHouse。因此數據云操作系統或者說大數據基礎設施是一定要支持多引擎的,而且上述三種“跨越”可以疊加發生。
何夕:作為數據云操作系統的“客戶”,數據應用的開發者玎玎怎么看,或者說對數據云操作系統有哪些進階的要求?
葉玎玎:一個操作系統要做好,它作為Infrastructure(基礎設施),要讓上層的開發者變得更容易。所以我作為開發者,會經常去“折騰”這個SimbaOS Kernel(數據云操作系統內核),研究怎么用得更好;另一方面,也會和操作系統的建設方(即數據云團隊)一起共創、提需求,提供更多應用方的真實感受。這是我們一直未來也會繼續做的事情。
那從分析云的視角看,我覺得未來分析云不會只是現有自研的應用產品,而是會成為一個“應用市場”,我們現在在做的產品(增長分析、客戶數據平臺等)是其中的原生應用,接下來還會開發新的產品,也可能引進好的數據應用。
在應用市場的邏輯里,你其實無法強制要求開發者必須用某個數據庫,用某種引擎。在對底層各種各樣復雜的要求下,我們作為應用市場,應該如何更好地給內部、外部的開發者提供服務?
目前我們的做法是,把偏底層的技術需求下沉到操作系統中,由操作系統處理以后,提供封裝好的數據服務/算法服務,返回給上層應用。這其實在分析云的實踐中已經證實,確實有很大的便捷性。
因此在未來,我們會重點探索如何把數據、算法變成服務,然后通過應用簡單地發揮數據價值,利用AI讓價值發揮進一步提效,讓客戶企業的內部團隊能更專注在業務的數據應用上,讓業內的數據應用開發者也更專注在應用本身的研發和創新。
地雷:沒錯。Snowflake、Databricks等數據云的領軍企業都分層建設了自己的“操作系統”,并針對數據治理、BI分析、機器學習等各個場景構建了對應的App生態。現在對于奇點云的數據云操作系統來說,GrowingIO的SaaS和OP產品也都是我們的“大客戶”,不斷打磨數據云操作系統的能力。同時也歡迎更多的開發者——無論是數據開發、應用開發還是算法工程師,給我們的數據云操作系統提需求,讓上層長出更好的應用生態。