在國內政策引導、企業產業智能升級的原生需求和疫情等多重因素作用下,中國的人工智能產業化應用在過去的5年間呈現出無可比擬的增長速度。2020年的中國人工智能軟件市場規模已經超過了230億元人民幣,即便在疫情等外部因素考驗下,仍舊迎來了平穩的增長。然而隨著應用市場的下沉,市場上仍舊缺乏普惠的AI工具,即便在企業擁有相關開發、建模人才的情況下,AI科學家和業務人員之間仍舊存在技術鴻溝。他們習慣使用各自的平臺和工具進行數據分析或建模工作,這些數據資產被分散在企業各個角落,造成了模型的重復構建和資源的孤島林立。而這些人才無法在同一個AI平臺上一起協作,發揮出他們各自的優勢能力,這是AI落地目前面臨最大的挑戰。
01
企業AI落地,到底難在哪里
企業在涉及到人工智能業務時,其研發流程需經歷從明確業務問題->數據采集及清洗->特征工程->模型訓練及打包->模型評估及驗證->模型部署及上線->A/B test,以及模型監控和迭代的工作流程。整個鏈條非常長,容易涉及到多個平臺間的切換。在任何環節出現功能短板或缺失,都會影響模型的開發效率和開發質量,或導致模型無法及時在實際業務當中部署應用。
圖1:AI模型研發流程
在AI建模全生命周期中,涉及到企業內各類角色的協作,如:行業/領域專家、數據科學家、數據工程師、開發者/DevOps專家等等。這些角色均有各自擅長的技能,可以為AI建模的某些流程貢獻智慧,如行業/領域專家對業務有深入洞見,擅長通過數據構建業務模型;數據科學家擅長數據分析、特征加工、ML模型開發及測試;數據工程師擅長進行數據收集、數據治理和數據加工;開發者/DevOps專家擅長軟件工具及基礎設施的構建與維護,幫助數據科學家將ML模型轉化為實際生產力。
圖2:AI相關人才技能地圖(來源:Gartner)
這些角色由于專業背景和職能的不同,都習慣使用各自的平臺或工具推進工作,在流程銜接方面會存在大量重復性數據、環境適配工作,造成AI模型開發的周期大大拉長,且無法進行數據、模型等資源的統一管理和資產沉淀。
02
星環科技推出Sophon MLOps——
模型落地和AI協作的加速器
為解決AI落地難的問題,星環科技的AI團隊從用戶需求端出發,傾力研發了一款基于云原生架構的企業級AI能力運營平臺Sophon MLOps,助推AI模型落地,幫助各種相關角色使用同一個平臺進行模型構建和流程緊密協作,并且為AI落地的每一環流程進行了優化,為所有使用者提供便捷的體驗。
MLOps與DevOps類似,是機器學習過程管理的實踐性方法論。MLOps平臺為用戶串聯起了從模型設計、開發到運營的全生命周期,并提供自動化的功能,有效提高各環節的工作效率。
圖3:MLOps的定義
對于各用戶角色而言,都能憑借Sophon Base基礎建模平臺及MLOps運維平臺提供的個性化功能,獲得不同工作環節上的效率提升,比如:為業務分析人員提供了低代碼功能,封裝了200多個算子可供點擊使用;為數據科學家提供了高性能的分布式模型開發&訓練環境及在線Notebook功能,方便其進行數據探索、特征工程及模型構建工作;為數據工程師提供了方便的模型打包、上架和調試功能,方便其快速將模型上架到實際生產環境;為前臺業務人員提供了API調用、A/B test及報告生成功能,方便其快速獲取結果數據,并及時查看不同模型對業務的實際效果,并可以發送到數據科學家手中,進行后續的模型迭代和調優工作。
功能示例:
1、支持多個模型的復雜推理圖構建
Sophon MLOps支持統一納管XGBoost、MLflow、TensorFlow、PyTorch、Scikit-learn等多種訓練框架的模型,以及Sophon Base中通過可視化建模和編程式建模訓練得到的模型。按模型推理邏輯,圖形化搭建服務推理圖,并統一應用模型文件。
2、快速配置資源參數,支持灰度發布
平臺支持快速配置CPU、內存、GPU等服務資源參數,并將推理圖打包為服務鏡像,發布為在線服務,且可配置服務彈性伸縮策略。服務部署支持灰度發布,可根據實際需要靈活配置流量分配比例。
3、服務上線后的測試
對于已發布上線的模型服務,通過API接口對接上游業務系統數據,實現模型實時預測。
4、服務監控(查看運行狀態、訪問量、響應時間、訪問記錄等)
平臺支持運維人員統一監控模型運行狀態,控制生產環境風險,并多維度評估模型預測效果,為持續迭代模型提供參考。
5、自動生成模型性能評估報告(支持A/B test對比報告)
支持模型性能評估報告查看、一鍵下載等功能,并支持選擇多個模型進行A/B test對比報告快速生成,幫助決策者對模型優劣進行基于量化性能指標的決策。
6、模型服務審計功能
支持以單個服務維度查看的模型服務運行狀態的審計功能。
模型資產方面,Sophon MLOps提供了用戶完整的統計大屏,對于現有模型數量、運行狀態、服務推理、模型評估、操作審計、節點情況一目了然。企業所有的AI相關的模型資產均可匯聚到MLOps進行統一的納管、運維、監控和應用,真正做到了AI維度上的打通。
圖4:MLOps用戶大屏
云原生方面,Sophon MLOps基于云原生設計,提供容器云、微服務的架構,方便用戶對服務/應用進行自動、快速部署和調度,對集群進行方便的運維和安全管控。
流程管理方面,由于Sophon MLOps支持從數據集到模型開發、模型訓練到模型上線的全過程,所有角色進行的逐一環節操作在平臺上均有記錄留存。一旦模型上線之后出現問題,可以根據模型服務回溯到模型版本和模型訓練的過程到訓練數據集,可以實現“發現問題,快速追溯”。
兼容性方面,Sophon MLOps提供了強大的兼容性和可擴展性,其AI能力在未來會不斷延伸。Sophon MLOps兼容最新的開源算法框架、平臺及基礎設施,并與TDH、Sophon Base、Slipstream(數據實時接入)、FIDE(實時智能決策)高度兼容。數據類型方面,除了結構化數據建模之外,還支持圖譜分析及計算機視覺等延伸功能。用戶無需擔心一旦有新的開源計算框架或運行環境出現,現有平臺不支持不兼容等問題。
圖5:Sophon MLOps功能架構
Sophon MLOps打通了AI的全生命周期,為企業的各類用戶角色搭建了統一的AI協作平臺。對于企業而言,MLOps規模化集成管理了多源異構的機器學習模型,并提供高效且保障隱私安全的模型推理、監控預警及性能評估服務;對用戶而言,能感受到操作上的快捷,AI應用與部署更是如虎添翼。
未來,MLOps將繼續迭代更加豐富的功能,賦能企業AI更快、更好地落地。