9月5日上午,眾多一線創業者、投資者和數據科學家齊聚線上,圍繞MLOps在數據工程部署中的Data-centric VS Model-centric 的應用策略,及由此引發的MLOps的未來發展趨勢展開討論,格物鈦創始人兼CEO崔運凱作為data-centric開發理念的代表出席了此次活動。
開場投資人Sue分享了自己與Scale.ai錯過的故事,2013年在美國 Databricks成立,2016年,隨著谷歌基于深度學習開發的AlphaGo以4:1的比分戰勝了國際頂尖圍棋高手李世石,人工智能的熱度一時無兩,就在同一年Scale.ai誕生,開始在AI數據賽道跑馬圈地,直到特斯拉推出了Model S Autopilot功能,自動駕駛的蓬勃發展催生了對大規模高質量標注數據的需求,行業內開始普遍出現了數據優先的認知。在眾多的數據標注公司中,Scale.ai能以73億美金的估值突出重圍受到市場的青睞,我們認為最重要的原因是它采用了自動化的方式把數據標注這件事做到了規模化。
接著來自Facebook的算法工程師洪磊從AI開發者的角度闡述了MLOps在AI落地層面的重要性。MLOps的概念脫胎于DevOps,本質上是通過自動化工具使開發流程更高效。訓練機器學習模型,只是整個開發過程中一個非常小的部分,算法工程師80%的時間都用在了處理、清洗、迭代數據、版本管理等耗時耗力的數據準備工作上。為了加速AI開發流程,DevOps 原理和做法,例如持續集成、持續交付和持續部署逐步被應用到機器學習過程,MLOps應運而生。
過去10年,機器學習大規模落地,但是AI開發工具鏈仍然處于一個相對原始刀耕火種的階段。在機器學習領域一直存在Data-centric 和 Model-centric 策略之爭。如果以做飯舉例的話,數據相當于食材,模型相當于菜譜。如果想要提升菜品質量,data-centric相當于調整現有食材,model-centric類似于改進烹飪方法。
Uber算法出身的創業者格物鈦創始人兼CEO崔運凱對AI數據上的痛點深有體會,在Uber灌滿100PB(1PB=1024TB)的數據池可能只需要幾個月的時間,這是硅谷其他以處理結構化數據為主的公司不可能遇到的。這相當于讓崔運凱提前5-6年看到了AI落地面臨的問題。
當時,Uber 除了在印度有很大的數據生產團隊外,還將部分數據需求外包給位于西雅圖的創業公司,除了要承受昂貴的價格(當時的定價是1張圖片5美金),冗長的等待時間(5000張圖片大概需要做4個月),還要解決數據的對接、跨境分發、檢索、整理及真值數據的保存和使用等一系列難題。而對于無人駕駛來說,訓練至少要億級圖片,這無異于把問題難度又放大了數萬倍。
2018年,崔運凱回國創業,擔任一家高精度地圖公司的合伙人。在研發過程中,需要收集海量數據來進行模型訓練。為了管理和使用這些數據,崔運凱需要一個合適的數據平臺,卻苦于找不到一家能夠滿足需求的公司。
這時的他深刻意識到,無論是國內還是國外,人工智能的整個工具鏈都非常早期和不完善,如果再做一家AI公司,還會遇到同樣的工具問題,還得花大代價把這些問題再解決一遍。
為此,崔運凱干脆決定自己來搭建這樣一個平臺,通過打造AI的數據基礎設施,去系統性地解決問題,使得前東家這樣的AI應用開發,難度更低、效率更高。
現場的另一位創業者深度賦智創始人兼CEO吳承霖聽后頻頻點頭,他認為從機器學習開發過程各要素的重要性來看數據>特征>模型。機器學習發展至今各公司缺乏的不是模型,而是對數據更高效的利用。吳承霖曾在大廠做過很多很有意思的工作,比如搜索推薦、LP等,給前東家帶來了數十億收入,也發表了當時內部第一篇KDD。但他的團隊也發現了一些商業成功背后隱藏的效率問題,比如當時在集團內部AI團隊多達50多個,這些團隊面向不同的業務場景,中間存在大量冗雜重復性工作,為了優化工作流程,企業開發了自己的AI中臺,幫助復用、組合創新、規模化構建智能服務。但數據的利用問題仍然沒有得到很好的解決,在AI開發過程中,產生了大量的推薦信息流以及用戶行為數據,這些數據如果能被充分利用,預估將會帶來50%以上的業務提升。因此,吳承霖選擇創立深度賦智正式入局AI中臺市場,致力于降低AI落地成本,讓每家企業都具有開箱即用的AI能力。
針對企業究竟要選擇data-centric還是model-centric的問題,格物鈦創始人兼CEO崔運凱提供了一個從企業發展出發的思考角度,公司選擇用data-centric還是model-centric的背后本質上是一套ROI驅動的組織管理哲學,對于一個組織來說如何如何將有限的資源在算力、數據、人員上進行合理配置是非常重要的,例如像特斯拉這樣的迭代較快的公司,有很多算法工程師,用MLOps去做組織串聯和分層是十分必要的,它能幫助數據更快流動,發揮數據的價值。格物鈦的產品能夠在數據產生初期幫助用戶對數據做迭代和管理,用可控的資源去提升ROI。一家創業公司不可能去做所有的事,需要找到切入點。在上下游產業鏈上格物鈦的產品可以和深度賦智的產品深度集成,數據和模型兩者結合才為用戶產生更多價值,為AI落地創造更多可能性。
格物鈦崔運凱表示:“未來,構建機器學習產品將更加有趣,并且這些系統會工作得更好。隨著機器學習自動化工具的不斷改進,數據科學家和算法工程師將把更多的時間花在構建優秀的模型上,而花在與生產級 ML 系統相關的繁瑣但必要的任務上的時間會更少。這也是格物鈦選擇在AI底層工具鏈上做創新的初心。”
參考資料:
馬斯克首談 Autopilot 誕生緣由:一切始于一場車禍
未來,機器學習所需的工程量會大大減少
從數據中臺到AI中臺
深度學習(deep learning)發展史
ML Ops:數據質量是關鍵