AI落地熱火朝天,AI團隊變身施工隊,挨家挨戶敲開傳統企業的大門……然而,這是一種非常低效的做法。
第四范式創始人兼CEO戴文淵博士的洞察是:“重新按照AI的要求制定標準和規范,實現規模化。”
第四范式的定位一直不是SaaS產品公司,其核心能力在于 PaaS 層,AI應用的構建和積累都向平臺集中發力。
回顧五年的產品發展路徑,第四范式聯合創始人、首席研究科學家,陳雨強告訴《親愛的數據》:
“第一代、第二代產品的時候,AI對人才的要求特別高,需要非常強的統計學和編程功底,特別是C++底層編程,還要python編程和組件代碼能力。先知平臺(Sage)的出現,用一個拖拉拽的界面,先建模,后上線,方便了數據科學家。2015年,在建設先知平臺的同時,(我們)科學技術部做了兩件事情,第一,高維機器學習模型,保證效果。第二,AutoML技術,不依賴于大量科學家手工打造模型。歸根到底,三個字,降門檻。”
AI的原始社會,自己動手、豐衣足食。AI的現階段,陳雨強強調:“以后就不會這樣了,都要現成的AI應用。”
原始社會喝水得從燒制陶器做盛水器皿開始,現代社會瓶裝水3元一瓶,這是趨勢。
AI進化,第四范式思考出一套“心法”。
2017年庫伯學習圈(HyperCycle)。這個出生于1984年的理論在AI時代釋放了新能量。暗合體驗學習的四大步驟(反饋、反思、理論、行動),又對應(數據采集、數據標注、機器學習、機器模型),閉環結構實現對接和循環。用人類學習過程類比機器學習的過程,用一個熟悉事物的類似原理,去理解新鮮事物的規律。
可以這樣說,理解了庫伯學習圈,就理解了簡版AI原理,繞過數學與編程的大山。
2019年,第四范式曾用「1+N」回答企業轉型如何用 AI 構建競爭力。「1」代表企業的核心業務需要用 AI 做到極致,「N」代表企業的眾多場景要用 AI 大規模落地。
“心法”解救普通人,“做法”解救無數亟需轉型的傳統企業。
2020年的發布會傳達出,第四范式想做的是,“心法”+“做法”的雙重智慧,這些都需要一個平臺屬性的產品去承載。
什么是數據形式?
過去的五年里,第四范式也有用高人力成本為合同項目填坑的事情,客戶有時并不接受建議的方法論。陳雨強說:“我們的經驗來自于踩坑,但不是100%的客戶都接受。沒有人配合數據改造,苦坐在現有的數據垃圾堆上,龜速前進,(項目)花了三年才完工。”
2020年,越來越多的解決方案瞄準AI整個生命周期。AI模型開發從啟動到結束,包括數據準備、模型訓練、模型測試、模型上線等環節。每一個環節做到極致,整個周期才有可能高效。在規模化中追求極致,有一樣東西非常重要——標準化。圖片、文本、日志,數據的形式多種多樣,如何標準化?不同的業務場景,不同項目的數據平臺,如何標準化?AI應用需要打通數據,第四范式就推出了“數據形式”。所謂“不定義,無數據”,數據從哪來、到哪去、類型、結構、關系……想要標準化,就是全方位地定義標準與格式。這些工作并不是一個新概念,名叫“數據治理”。數據形式是數據治理的終點。開始,一般是IT工程師對數據治理有深刻體會,也是他們最先意識到數據治理的重要性,而且數據治理最終是在IT層面落地。接著,AI工程師也感同身受了。
數據問題和IT問題高度混雜。第四范式是一家AI公司,幾乎擁有一家IT公司全棧人才,與IT公司一模一樣的人才配置。AI公司集體吐槽:“如果一個AI應用工作量是100%,那95%都是在數據上面。”陳雨強吐槽:“定義不清楚的話,AI生命周期后面所有環節,所有的人都會偏離,這也是做AI那么難的原因之一。做不到,AI科學家跑到每個細節去,跟每個工程師講,為什么這個數據必須這么編碼,為什么這個數據必須這么去拿,相當于做IT的人必須懂了AI,才能把這個事情完全做對。”一場嵌入式的革命,工程化、集成化隨處可見,煩Skr人。
讓一個新事物融入原有的體系是高難度、精細化的工作,也有人管這個過程叫,企業「智能化改造」。
AI落地不是科學發明,是一個具有時代代表性的復雜工程,背后藏著排山倒海的工程細節。數據治理就好比是建筑物的整體地基。
數據形式就好比萬里長城上的磚、天壇祈年殿里的榫卯、宮苑涼亭里劈成條的竹篾,它們是藏在中國建筑里的靈魂。從某種角度講,數據形式是藏在AI技術里的靈魂。“數據形式”一口氣解決了三個問題。第一個,數據缺閉環,建模過程沒有反饋機制。比如,人是環境的函數,人的成長需要有外部環境持續不斷地刺激(教育)。數據不斷供給,模型不斷迭代。第二個,數據不一致。使用線下的數據建模,到了線上模型效果不好,原因是線下的數據經過了按照BI思路的ETL,導致使用了和真實的線上數據不一致的離線數據。錯誤的數據訓練出來的模型到了線上,當然效果不好。
陳雨強用了一個比喻,他說:“要想富,先修路,但是問題在于AI和BI的路是不一樣的,開火車得鋪鐵軌,馬車也不能在高速公路上奔跑。”第三個,數據無時序。AI數據沒有時間屬性就做不了時序特征。比如,最近半年共買了3件東西:鼠標、鍵盤、顯示器,消費物品數量為3。
數據有了時間的屬性,才能理解買東西的先后順序。算法能夠做出更好的特征來琢磨消費者近期、中期和遠期的行為。人的行為在變化,冬天買棉衣,夏天買T恤。統計數據不需要的,AI數據需要。第四范式AIOS產品負責人黃纓寧補充了一個例子。
數據形式至少需要三類knowhow(實用知識):第一,模型需要什么樣的數據,業務的knowhow。第二,哪些數據從APP里面直接取,哪些數據可以從數據倉庫取,IT的knowhow。第三,這些數據里面,哪些是行為數據,哪些是反饋數據,數據怎么用,AI的knowhow。
知識都被封裝進了“數據形式”,封裝復雜性,是AI平臺解決問題的常用辦法。
數據形式是針對數據治理環節提出的標準,濃縮了各個業務場景中數據治理環節的經驗沉淀,一鍵打開就能進入相應業務場景的AI應用,比如推薦場景、反欺詐場景。
有了它,實時與離線數據就能以同一個標準接入。有了它,能做到“一鍵打通”。有了它,準備就緒的數據,從三類knowhow上解耦出來。作為客戶,甚至根本就不需要知道它是怎么做到的,只需要知道,這個東西能夠保證數據一致性,保障效果也比較好。數據形式也不是一蹴而就的,數據蓄水由分布式文件系統HDFS負責,實時特征由數據庫(RtiDB)負責,任務管理與調度由AI的操作系統搞定。這個專門的操作系統就是AIOS。
AIOS是什么?
但凡一臺筆記本電腦都會有一個桌面,就像太陽每天從東方升起。
IT知識成為生活常識,這源于1990年,比爾蓋茨說:“微軟公司的使命,是讓每個家庭的桌上都有一臺電腦。”
陳雨強說:“我們希望每個企業都用上一個Sage AIOS。”
但凡一個新世界,就會有一個入戶門。用戶進入AI的世界需要一個易操作的桌面,AIOS瞄準了這個痛點。Sage AIOS可以理解為一個AI版的Windows,很多產品功能都可以類比。
數據形式類比Windows的文件格式。AIOS的各種App類比Windows桌面上的各種應用軟件。
App可以分為兩類:一類是業務應用,直接提供某個場景的解決方案;一類是工具類應用,給數據科學家和開發者用來構建AI應用。區分使用者和開發者,兩者都得償所愿。
HyperCycle套件(ML、CV、NLP)類比開發工具VisualStudio,利用庫伯學習圈理論,幫助客戶低門檻的進行AI應用構建。
陳雨強說:“庫伯學習圈(HyperCycle)產品,給業務人員用,不需要建模能力,不需要代碼能力。”
如果說“降門檻”是第四范式團隊出發時就立下的莊嚴承諾,那么帶HyperCycle前綴的三款產品,就是五年后對承諾的兌現。
AIOS外型酷似Windows,顏值高,使用者有天然親切感。AI獨角獸向PC時代霸主借勢,向曾經的PC王者致敬。AIOS的獨白:“AI時代的Windows桌面,享受一模一樣的樂趣。”
比起之前的先知平臺, AIOS是不是僅僅變化了外觀呢?答案是否定的,這是一次產品理念的升級,AIOS+App是一種產品理念。身為一名合格的操作系統,要有各種各樣的軟件,還要解決資源調度與處理數據管理。在黃纓寧看來,AIOS是一個橋梁。
對上,把文件、設備、任務、進程和線程給管理了起來。
對下,AIOS把所有的算力管理了起來,包括CPU、GPU、內存這些計算資源硬件。存儲和計算這兩件事情,一個是文件格式,一個是計算的資源管理和調度。
兩件事情都弄好了,應用就能夠更容易地在操作系統上構建。
簡單的理解為,第四范式把很多東西裝在AIOS里來賣,一堆企業級的管理應用,一套資源調度管理的工具,還有個數據中臺。
我的電腦,還在桌面
數據中臺是熱門詞匯,雖然業界對數據中臺的定義還沒有達成共識,廠家和專家對數據中臺的標準和意見也都各有不同。有專家認為,數據中臺一定要統一對外的服務。向上拓展能夠提高數據應用的價值和賦能業務。向下發展能提高性能,保障數據的應用能力。第四范式的數據中臺也是如此。向上,第四范式的數據中臺的第一任務是做3C(一致、時序、閉環)的數據治理,數據經過標準化處理成為數據形式,數據形式可以提供給任何一個AIOS上的APP。“數據中臺”類比Windows的系統文件,說得直白一點,只要你買了AIOS就給自帶數據中臺,這樣,數據治理的能力含在了AIOS里面。
數據形式在數據中臺上,因為訓練框架需要數據輸入。有些重要的組件也跑在數據中臺與資源調度上,訓練框架需要算力調度支持。“我的電腦”在Windows桌面上屹立不倒,它在AIOS版里,是“數據中臺”。
“用軟件定義算力”,第四范式是怎么做的?
“我們的第一行代碼,是寫在GDBT上的。”第四范式副總裁鄭曌告訴《親愛的數據》。這里的GDBT,全稱是“General Distributed Brilliant Technology”,自研的大規模機器學習框架。那么問題來了,為什么第四范式的第一行代碼不是寫在推薦算法里?很多AI解決方案提供商都有軟硬一體的優化方案。可謂八仙過海各顯神通。可是,很多企業的軟件框架是把開源的代碼拿來改一改,甚至有的連修改的能力都沒有。最后的結果無非是向業務妥協,放棄一些做不到的場景。業界有人感嘆,現在是什么時代,是算法定義計算的時代。
一方面,AI應用場景眾多,特點各異,實現最后應用落地的開源軟件無論功能還是性能,尤其在大規模方面與實際需求有較大的距離,眾多AI廠商束手無策。自研的機器學習框架,能為軟硬一體的優化方案帶來獨特優勢,相當于獨門秘籍。底層實現方法不一樣,效果上有較大區別。越是量身定制,效果越好。另一方面,市場上流行的深度學習框架,解決的是偏語音和圖像類的問題,對于決策性問題深度學習的效果不是特別好。
陳雨強談道:“企業產生價值這個事情,關鍵是要抓住決策,企業的主要任務是經營。”鄭曌談道,開源很難支持海量特征抽取,也支持不了大規模。所以,有很多企業就會選擇犧牲業務。不能做事中,就做事后。比如,銀行跨境交易事中反欺詐,這時候,不能慢。不僅要和時間賽跑,還要和秒表賽跑。受害人刷卡時,銀行系統當時就能準確識別這是一筆欺詐,刷卡一瞬間就阻斷。
事后分析則非常佛性,先讓他刷,刷完了之后再來分析,認定為異常交易,啟動追責……這時候,犯罪分子有可能已經攜巨款跳上開往公海的船只,跑路了。實時的價值在這個例子中比較典型。事中阻斷的難度比事后大多了,這就是在很多企業內部,屬于“要妥協,做不到”的業務場景。
算力浪費的一部分原因是企業沒有能力優化,利用率不高。AI發展急需硬件的升級,傳統硬件產品無法在基礎能力上滿足密集的線性代數計算和海量數據高吞吐的需求。AI算法需要對網絡連接權重進行多次調整,也需要很高的計算能力的支撐。問題反映到企業經營中就會變成“錢沒少花”。
鄭曌告訴《親愛的數據》:“一個不懂算法的人,很難預計一個機器學習任務需要消耗多少內存,用了多少算力,這需要查看日志,手工地去調整資源設置。舉個例子,隨便抓住一個第四范式辦公室里路過的AI工程師,突然問他,上周匯報的word版《工作周報》消耗了筆記本電腦多少內存?他也會一臉懵逼,原因是很難估算。因此,分布式執行引擎具備自適應調度功能尤為重要。”所以,第四范式2020年也推出了一個分布式調度系統,HyperScheduler(以下簡稱HS)。
沒有資源調度會怎么樣?“一核有難,八核圍觀”,利用率不高,浪費。利用率太高,容易掛了。
所以,需要Sage AIOS的“HS”,類比Windows“進程調度器”。通過自動資源推測、容器動態調度等方式,讓用戶不感知資源細節。通過資源共享、虛擬化等方式,讓集群算力利用率最大化。”
GDBT、HS和實時內存數據庫(RTiDB)在 AI 全生命周期中扮演著核心引擎的角色,其所支撐的能力,不管是面向行為數據與反饋數據的自動數據處理、自動特征組合,還是面向模型訓練的算法自動探索、超參自動調節,這些工作,都在算力消耗中占到了極大比例。底層框架任何一個微小的技術實現,給全生命周期帶來的影響都會成倍放大。
所以,越是底層的能力,越需要極致、入微的優化。第四范式還有一系列組合拳:PWS任務調度系統,定制X86機器學習芯片,自研機器學習專用加速卡,數據壓縮算法,FPGA異構加速芯片計算力調度。2019年的產品發布會上公布的數據顯示,相比普通服務器,SageOne 軟硬一體解決方案可實現高維模型構建過程的6-12倍加速,TCO 降低到1/2到1/3。
“2020年,(我們)把TCO 降低到了1/10。”鄭曌談道。
在《親愛的數據》看來,當一部分AI企業還在賣算法的時候,第四范式建造了一個端到端的平臺,從拖拉拽,到模型可以直接上線。2020年,第四范式進行了產品升級,產品升級的說法也不準確,因為不止是產品升級了,產品理念也升級了,而整體的產品形態是AIOS+App。AIOS是積累了五年的AI應用的底座,AIOS是一個承載無數數據形式與應用的操作系統。第四范式 “Sage”產品下,發展出Sage AIOS、Sage Studio、Sage HyperCycle ML等。各個組件也比較靈活,這取決于客戶的實際需求。市場競爭還停留在Sage Studio類似功能的階段,第四范式卻已進入到AI桌面應用的廣闊天地,進入到AIOS+App的產品理念,順著這個思路,未來有巨大的想象空間。AI是一個嶄新的市場,在做得好之前,先要做得對。這是決定生與死的一步。五年前,第四范式就已經出發。2018年,成為AI獨角獸。2020年,第四范式仍然是一家創業公司,落地8000+客戶,覆蓋12000+場景。2020年8月20日,主題為“萬悟賦能,商業生花”的新產品發布會在上海舉辦,一個“悟”字,既包括AI落地方法論在經驗摸索中“開竅”,也暗含產品理念在“想通”中升級。
靈感刺眼,頓悟來臨。AI落地沒有永遠正確的答案,且行且思,且行且悟。