2021 DevFest上海谷歌開(kāi)發(fā)者節(jié)已于近期圓滿(mǎn)落幕。格物鈦與28w+ 線上觀眾、1300+ 線下開(kāi)發(fā)者、工程師和行業(yè)重磅嘉賓一起盡享了一場(chǎng)技術(shù)盛宴。格物鈦?zhàn)鳛閰⒄蛊髽I(yè),創(chuàng)始人兼CEO崔運(yùn)凱受邀發(fā)言,與開(kāi)發(fā)者們分享了從DevOps到MLOps的進(jìn)化路程,從組織變革看機(jī)器學(xué)習(xí)的最佳實(shí)踐。
特斯拉的 AI 高級(jí)總監(jiān) Andrej Karpathy 定義了 Software 2.0 時(shí)代,即以 MLOps 組織開(kāi)發(fā)模式為主的時(shí)代,那么它的前身 Software 1.0是什么?格物鈦創(chuàng)始人兼CEO崔運(yùn)凱從三十年前的軟件開(kāi)發(fā)時(shí)代講起:在 DevOps (Software 1.0) 的開(kāi)發(fā)時(shí)代,軟件開(kāi)發(fā)以代碼為中心,通過(guò)編程語(yǔ)言,完全基于程序員們手動(dòng)編寫(xiě)代碼來(lái)實(shí)現(xiàn)某項(xiàng)功能。Software1.0 的演進(jìn)歷史分為下面四個(gè)方面:
軟件發(fā)布時(shí)效的演進(jìn)
以往每?jī)赡臧l(fā)布一次更新,用戶(hù)需購(gòu)買(mǎi)相應(yīng)光盤(pán),推演到現(xiàn)在每天都有新的版本發(fā)布。這樣看似時(shí)間跨度小的變化從何而來(lái)?又如何推動(dòng)企業(yè)發(fā)展?如果你的軟件發(fā)布速度比別人快,那么你在競(jìng)爭(zhēng)當(dāng)中的優(yōu)勢(shì)有:
1) 也許可以盡快切入更多市場(chǎng),因?yàn)槟惚葎e人較快的發(fā)布最新 features,你的 idea 比別人更早上線
2) 試錯(cuò)成本不斷降低,因?yàn)樵谟邢尴嗤臅r(shí)間內(nèi),你更快速的上線、下線,嘗試不同的東西。
軟件開(kāi)發(fā)的演進(jìn)
從 Waterfall 瀑布式發(fā)布流程到 Agile 敏捷式開(kāi)發(fā)流程的轉(zhuǎn)變中,一個(gè)顯著的改進(jìn)是迭代時(shí)間縮短。因?yàn)檐浖_(kāi)發(fā)的方式是服務(wù)于軟件發(fā)布是間的,而線性開(kāi)發(fā)(前者)流程導(dǎo)致效率過(guò)低,故催生敏捷式開(kāi)發(fā)的應(yīng)用,其優(yōu)勢(shì)在于小版本快速迭代,以用戶(hù)需求為核心。雖然瀑布式發(fā)布流程的模塊在敏捷式開(kāi)發(fā)流程種有,但是后者每次只發(fā)布少量的 features,然后通過(guò)自動(dòng)化工具讓流程自動(dòng)化運(yùn)轉(zhuǎn)。如果說(shuō)瀑布式是由項(xiàng)目經(jīng)理人工推動(dòng)發(fā)布的,那么敏捷式就是由流水線自然推動(dòng)發(fā)布的。
于是就有了各種自動(dòng)化管理工具的誕生:
協(xié)作和版本管理工具的演進(jìn)
版本管理的出現(xiàn)主要配合協(xié)作上面提到的開(kāi)發(fā)方式,盡可能實(shí)現(xiàn)流程自動(dòng)化。以往集中式文件版本管理系統(tǒng)效率低、復(fù)雜,而開(kāi)源的分布式版本控制具有強(qiáng)大的分支管理,使得協(xié)作靈活、可靠。比如git。
工具變化以后,使用工具的組織也發(fā)生了結(jié)構(gòu)性變化:
軟件開(kāi)發(fā)組織的演進(jìn)
從全員軟件工程師的團(tuán)隊(duì)優(yōu)化到軟件工程師+自動(dòng)化工具工程師合作的分層組織。有些工程師的工作是開(kāi)發(fā)維護(hù)自動(dòng)化工具,這些工具去賦能其他的軟件工程師。
一句話總結(jié) DevOps 的核心:為了讓團(tuán)隊(duì)成員更加專(zhuān)注于自己的職能,需要管理跨越職能的協(xié)作。簡(jiǎn)單來(lái)講,開(kāi)發(fā)的人要懂運(yùn)維,運(yùn)維的人要懂開(kāi)發(fā)。
回到開(kāi)頭,Andrew Karpathy 定義的 MLOps (Software 2.0) 的理念,是指軟件開(kāi)發(fā)以代碼和數(shù)據(jù)為中心,通過(guò) AI 技術(shù)尋找解決問(wèn)題的方法。你定義好輸入和輸出,中間的邏輯和對(duì)應(yīng)關(guān)系由機(jī)器學(xué)習(xí)決定。通過(guò)編程語(yǔ)言,以及大量相關(guān)數(shù)據(jù),在程序空間通過(guò)隨機(jī)梯度下降(Stochastic Gradient Descent, SGD) 和反向傳播尋找可以完成特定任務(wù)的程序,以機(jī)器為主導(dǎo),自動(dòng)完成特定任務(wù)。
大家曾在學(xué)校學(xué)過(guò)典型的機(jī)器學(xué)習(xí)項(xiàng)目流程如圖:
然而在工業(yè)界,隨著項(xiàng)目體量的增加,由于數(shù)據(jù)不足,需要 Data Operation 團(tuán)隊(duì)來(lái)負(fù)責(zé)數(shù)據(jù)采集、數(shù)據(jù)標(biāo)注和數(shù)據(jù)清洗。比如在無(wú)人駕駛領(lǐng)域,你可能曾用 KITTI 公開(kāi)數(shù)據(jù)集進(jìn)行練習(xí),可是當(dāng)進(jìn)入工業(yè)界你發(fā)現(xiàn)數(shù)據(jù)完全不夠。你需要采集數(shù)據(jù)時(shí),而采集數(shù)據(jù)本身太復(fù)雜以至于你需要一個(gè)多層級(jí)的組織來(lái)完成。當(dāng)采集的數(shù)據(jù)量超過(guò)硬盤(pán)大小時(shí),又需要 Infrastructure Team 負(fù)責(zé)開(kāi)發(fā)分布式系統(tǒng)。當(dāng)你將數(shù)據(jù)放入模型以后,因?yàn)橐恢庇行碌哪P统霈F(xiàn),算法工程師需要不斷對(duì)同一份數(shù)據(jù)嘗試新的算法。每個(gè)模型又有非常多的超參,你又需要(雇人)調(diào)優(yōu)不同的超參數(shù)…由于數(shù)據(jù)漂移、概念漂移,需要重新收集數(shù)據(jù),重新訓(xùn)練。
由于需要的數(shù)據(jù)越來(lái)越多、工作量加大,那么跨組織的、重復(fù)性的工作希望被自動(dòng)化,才能滿(mǎn)足開(kāi)發(fā)流程的需要。
那么產(chǎn)品開(kāi)發(fā)的組織又如何升級(jí)呢?簡(jiǎn)單來(lái)說(shuō)是通過(guò)多層級(jí)的組織,不同的人各司不同職能。那么組織如何流水線化?答案是需要自動(dòng)化的工具 ,通過(guò)MLOps 進(jìn)行串聯(lián)。
崔運(yùn)凱認(rèn)為上述公司定義的 MLOps 偏向 DevOps 風(fēng)格的定義,而他創(chuàng)立的格物鈦則在探索 MLOps 的本質(zhì)與 MLOps 可提升的方向:
整個(gè)機(jī)器學(xué)習(xí)產(chǎn)品迭代分為兩大流派
1. 以模型為中心的 AI (Model-Centric)
2. 以數(shù)據(jù)為中心的AI (Data-Centric)
大量的算法工程師傾向于通過(guò)調(diào)整模型來(lái)獲得更好的效果,但實(shí)際上根據(jù)谷歌 2015年發(fā)布的一篇名為Hidden Technical Debt in Machine Learning Systems 的論文,絕大多數(shù)的工程師花了大量時(shí)間在數(shù)據(jù)上。
形象地講,經(jīng)典的 Model-Centric 是固定一組數(shù)據(jù)在多個(gè)模型種評(píng)估模型表現(xiàn),而 Data-Centric 則是固定一個(gè)模型(BERT)去找更高質(zhì)量的數(shù)據(jù),使得整體系統(tǒng)性能更佳。
不過(guò),上述兩種模式不是非此即彼的關(guān)系,在不同的 AI 產(chǎn)品開(kāi)發(fā)時(shí)間線條,模型的選擇有講究:早期在數(shù)據(jù)數(shù)量有限時(shí),使用 Model-Centric的方式是為了找到一個(gè)合適的 model;當(dāng)這個(gè)模型慢慢確定后,慢慢進(jìn)入Data Centric 階段,目的是通過(guò)提高數(shù)據(jù)質(zhì)量來(lái)提高整體性能。
如下圖所示,Data-Centric帶來(lái)的性能提升顯著大于 Model-Centric 所帶來(lái)的。
格物鈦從數(shù)據(jù)的角度給出四點(diǎn) MLOps 所具有的特點(diǎn)
1. 整個(gè)機(jī)器學(xué)習(xí)開(kāi)發(fā)過(guò)程要對(duì)數(shù)據(jù)進(jìn)行多次處理轉(zhuǎn)換(data transforming)
2. 數(shù)據(jù)轉(zhuǎn)換可以手動(dòng),也可以自動(dòng)化
3. 整個(gè)機(jī)器學(xué)習(xí)項(xiàng)目有多個(gè)組織或機(jī)構(gòu)參與
4. 需要一個(gè) data pipeline 來(lái)管理所有數(shù)據(jù)
如果將數(shù)據(jù)的一次變換抽象地看成對(duì)數(shù)據(jù)進(jìn)行的一次操作(operation),在輸入和輸出的數(shù)據(jù)中應(yīng)用一個(gè)黑盒/白盒變換,包括模型訓(xùn)練、數(shù)據(jù)采集、模型測(cè)都可以抽象成這樣的單元(unit),那么可通過(guò)觀察數(shù)據(jù)的流動(dòng)特性去搭建 pipeline。
那么,一個(gè)理想的 pipeline 長(zhǎng)什么樣?
一個(gè)很好的參考是 Andrej Karpathy 在 CVPR 2021 Workshop 中介紹了 Tesla 的數(shù)據(jù)引擎(Data Engine),它負(fù)責(zé)實(shí)現(xiàn) Autopilot 模型的迭代。這個(gè) Data Engine 提供了業(yè)界標(biāo)準(zhǔn)的抽象,在各行各業(yè)都可以把數(shù)據(jù)閉環(huán)實(shí)現(xiàn),以快速迭代。
格物鈦數(shù)據(jù)平臺(tái)也模塊化地注入系統(tǒng)里去實(shí)現(xiàn)和 Tesla 一樣的 Data Engine。格物鈦可以幫助你完成 MLOps 通過(guò)
1) 數(shù)據(jù)搜索可視化發(fā)現(xiàn)高價(jià)值的數(shù)據(jù):統(tǒng)一管理原始數(shù)據(jù)、元數(shù)據(jù)、語(yǔ)義數(shù)據(jù)以及來(lái)自預(yù)處理與評(píng)估服務(wù)等數(shù)據(jù),支持?jǐn)U展自定義搜索維度,實(shí)現(xiàn)數(shù)據(jù)的復(fù)雜場(chǎng)景搜索;
2)版本迭代和管理:統(tǒng)一的數(shù)據(jù)托管、權(quán)限控制與版本管理,實(shí)現(xiàn)不同角色對(duì)于數(shù)據(jù)的加工與使用相互不干擾又可以統(tǒng)一管理,組織的高效協(xié)同使得數(shù)據(jù)可以快速迭代
3)自動(dòng)化:Action 功能通過(guò)工作流連接不同的數(shù)據(jù)處理任務(wù)和應(yīng)用,統(tǒng)一存儲(chǔ)與管理數(shù)據(jù),使得數(shù)據(jù)可以在各個(gè)流程節(jié)點(diǎn)高效流轉(zhuǎn),實(shí)現(xiàn)快速搭建任意場(chǎng)景下的數(shù)據(jù)自動(dòng)化處理流程,并且可以和用戶(hù)的已有Pipeline集成。
格物鈦智能科技是一家專(zhuān)注打造人工智能新型基礎(chǔ)設(shè)施的初創(chuàng)企業(yè),定位為面向機(jī)器學(xué)習(xí)的數(shù)據(jù)平臺(tái),幫助AI開(kāi)發(fā)者解決日益增長(zhǎng)的非結(jié)構(gòu)化數(shù)據(jù)難題。借助格物鈦非結(jié)構(gòu)化數(shù)據(jù)平臺(tái)和公開(kāi)數(shù)據(jù)集社區(qū),機(jī)器學(xué)習(xí)團(tuán)隊(duì)和個(gè)人可進(jìn)行數(shù)據(jù)管理、查詢(xún)、協(xié)同、可視化和版本控制等高效操作,降低高質(zhì)量數(shù)據(jù)獲取、存儲(chǔ)和處理成本,加速AI開(kāi)發(fā)和產(chǎn)品創(chuàng)新,釋放海量非結(jié)構(gòu)化數(shù)據(jù)的商業(yè)價(jià)值。