近日,QCon全球軟件開(kāi)發(fā)大會(huì)在廣州舉辦。QCon全球軟件開(kāi)發(fā)大會(huì)是由極客邦科技旗下 InfoQ 中國(guó)主辦的綜合性技術(shù)盛會(huì),大會(huì)舉辦至今,已經(jīng)有阿里巴巴、Google等來(lái)自國(guó)內(nèi)外頭部知名科技公司數(shù)萬(wàn)名資深工程師進(jìn)行過(guò)技術(shù)分享。深信服工程技術(shù)部AI研發(fā)平臺(tái)負(fù)責(zé)人孟賓賓受邀參加大會(huì),并在現(xiàn)場(chǎng)帶來(lái)《數(shù)算工程一體化機(jī)器學(xué)習(xí)開(kāi)發(fā)平臺(tái)助力AI算法敏捷開(kāi)發(fā)》的主題演講。本次演講重點(diǎn)分享了深信服AI平臺(tái)團(tuán)隊(duì)多年AI研發(fā)的實(shí)戰(zhàn)經(jīng)驗(yàn)。以下是他的演講內(nèi)容摘要。
機(jī)器學(xué)習(xí)平臺(tái)建設(shè)背景介紹
深信服的AI技術(shù)主要是應(yīng)用在網(wǎng)絡(luò)安全和云計(jì)算兩大業(yè)務(wù)中。在網(wǎng)絡(luò)安全方面,AI能力會(huì)應(yīng)用在病毒文件檢測(cè)和家族分類、Web對(duì)抗攻擊、威脅情報(bào)、數(shù)據(jù)分級(jí)分類等產(chǎn)品中。在云計(jì)算方面,像桌面云視頻畫(huà)面的增強(qiáng)、托管云平臺(tái)故障智能預(yù)測(cè)和性能診斷與優(yōu)化、邊緣云的安全生產(chǎn)視頻監(jiān)控分析等場(chǎng)景也會(huì)用到AI。
針對(duì)不同的安全數(shù)據(jù)分析任務(wù),并結(jié)合不同的模型部署場(chǎng)景,機(jī)器學(xué)習(xí)平臺(tái)會(huì)涉及到非常復(fù)雜的特征工程和AI算法工程化開(kāi)發(fā)。
深信服AI算法研發(fā)的過(guò)程,可以抽象成這樣一個(gè)典型研發(fā)范式,業(yè)務(wù)上從網(wǎng)絡(luò)安全和云計(jì)算兩個(gè)維度來(lái)看,都會(huì)涉及到對(duì)接海量業(yè)務(wù)數(shù)據(jù),比如說(shuō)網(wǎng)絡(luò)流量、系統(tǒng)日志、各種惡意文件以及云平臺(tái)的運(yùn)維日志。中間要經(jīng)過(guò)業(yè)務(wù)強(qiáng)相關(guān)的特征提取,或者基于自動(dòng)編碼器、Graph Embedding、Word2Vec等技術(shù)自動(dòng)的特征提取。最后考慮基于云端、PC端或者邊緣計(jì)算設(shè)備端,高效地將算法部署運(yùn)行起來(lái)。
深信服AI技術(shù)研發(fā),主要面臨數(shù)據(jù)、算法、算力這三大核心挑戰(zhàn)。
第一個(gè)挑戰(zhàn)是AI數(shù)據(jù)層面。深信服AI研發(fā)面臨首要問(wèn)題是業(yè)務(wù)數(shù)據(jù)孤島比較多,不同的細(xì)分的業(yè)務(wù),會(huì)有自己獨(dú)立的數(shù)據(jù)存儲(chǔ)系統(tǒng)。算法工程師想獲取這些研發(fā)的數(shù)據(jù),面臨的阻礙會(huì)比較大,獲取研發(fā)數(shù)據(jù)的時(shí)間長(zhǎng)。其次,算法工程師取到的這些數(shù)據(jù),因?yàn)橐鼍?xì)化的特征工程,但是現(xiàn)在企業(yè)內(nèi)部缺少比較高效地能夠去管理這些中間特征以及一些高價(jià)值數(shù)據(jù)的支撐工具,導(dǎo)致它的數(shù)據(jù)很難被算法工程師二次使用以及被相關(guān)性比較高的任務(wù)復(fù)用起來(lái)。
第二個(gè)挑戰(zhàn)是AI算法層面。首先表現(xiàn)在AI算法針對(duì)業(yè)務(wù)人員,有一定的開(kāi)發(fā)門(mén)檻,并且專業(yè)算法工程師的數(shù)量是有限的,這樣就無(wú)法擴(kuò)大AI賦能業(yè)務(wù)的覆蓋面。其次是從業(yè)務(wù)規(guī)劃想法產(chǎn)生到AI算法原型產(chǎn)出,再到AI模型的最終上線,整體流程時(shí)間比較長(zhǎng),跟不上企業(yè)內(nèi)部業(yè)務(wù)創(chuàng)新發(fā)展的速度。
第三個(gè)挑戰(zhàn)是AI算力層面。針對(duì)安全服務(wù)SaaS化趨勢(shì),算法工程師基于機(jī)器學(xué)習(xí)平臺(tái)有海量的安全數(shù)據(jù)可以消費(fèi)使用,如果提供分布式CPU和GPU算力管理能力,可以支撐分布式AI建模;針對(duì)新業(yè)務(wù)或者小規(guī)模實(shí)驗(yàn)場(chǎng)景,現(xiàn)在主流基于整張物理卡分配或者GRID vGPU方式靜態(tài)分配都無(wú)法實(shí)現(xiàn)資源的動(dòng)態(tài)共享,使得高昂貴的GPU算力利用率十分低。
數(shù)算工程一體機(jī)器學(xué)習(xí)平臺(tái)設(shè)計(jì)方案
基于敏捷開(kāi)發(fā)理念,通過(guò)DevOps、DataOps、ModelOps、ServiceOps四個(gè)行動(dòng),來(lái)實(shí)現(xiàn)算法開(kāi)發(fā)流程可自動(dòng)化、AI實(shí)驗(yàn)可重現(xiàn)以及AI模型可迭代。當(dāng)前機(jī)器學(xué)習(xí)平臺(tái)的重點(diǎn)是實(shí)現(xiàn)異構(gòu)數(shù)據(jù)的統(tǒng)一治理、異構(gòu)計(jì)算任務(wù)的統(tǒng)一調(diào)度、多樣用戶的統(tǒng)一賦能。
異構(gòu)數(shù)據(jù)的統(tǒng)一治理是指結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化基于統(tǒng)一的對(duì)象存儲(chǔ)服務(wù)和統(tǒng)一的元數(shù)據(jù)管理服務(wù)。
異構(gòu)計(jì)算任務(wù)的統(tǒng)一調(diào)度是指對(duì)數(shù)據(jù)分析型的特征提取任務(wù)和AI模型訓(xùn)練任務(wù),針對(duì)這兩個(gè)異構(gòu)任務(wù),實(shí)現(xiàn)一個(gè)任務(wù)調(diào)度和集群管理方案,同時(shí)實(shí)現(xiàn)異構(gòu)計(jì)算框架之間的數(shù)據(jù)高效交換。
多樣用戶統(tǒng)一賦能是指針對(duì)專業(yè)的算法工程師和業(yè)務(wù)人員可以統(tǒng)一使用這個(gè)機(jī)器平臺(tái)開(kāi)發(fā)AI能力。
深信服的機(jī)器學(xué)習(xí)平臺(tái)共計(jì)分為五個(gè)抽象層:
最底層是基礎(chǔ)平臺(tái)層。基于公司的托管云和EDS服務(wù),實(shí)現(xiàn)異構(gòu)AI算力管理,高性能存儲(chǔ)以及網(wǎng)絡(luò)資源的統(tǒng)一調(diào)度和管理。
基礎(chǔ)平臺(tái)層上面是數(shù)據(jù)層。數(shù)據(jù)層實(shí)現(xiàn)海量的結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一接入和存儲(chǔ)服務(wù)以及這兩類異構(gòu)數(shù)據(jù)的元數(shù)據(jù)的統(tǒng)一管理,同時(shí)還實(shí)現(xiàn)中間研發(fā)數(shù)據(jù)管理。此外,還提供了基于元數(shù)據(jù)的數(shù)據(jù)集數(shù)據(jù)目錄管理功能,方便工程師通過(guò)數(shù)據(jù)schema字段、安全產(chǎn)品類型(AF、SIP、EDR等)、日志類型(http、dns等)、用戶名等多維度實(shí)現(xiàn)AI研發(fā)數(shù)據(jù)的搜索、詳情查看服務(wù)。
數(shù)據(jù)層上面是框架層。包括機(jī)器學(xué)習(xí)或大數(shù)據(jù)的一些典型計(jì)算&訓(xùn)練框架。再往上層是核心計(jì)算層,支持自動(dòng)化機(jī)器學(xué)習(xí)、分布式訓(xùn)練、一鍵部署,灰度發(fā)布等等的機(jī)制,以及通過(guò)AI Flow進(jìn)行模型的二次的開(kāi)發(fā)、低代碼開(kāi)發(fā)等。
在框架層上面,會(huì)持續(xù)去沉淀出一些典型場(chǎng)景或者業(yè)務(wù)中能夠更廣泛使用的算法能力,最終實(shí)現(xiàn)AI能力的二次開(kāi)發(fā)復(fù)用,比如說(shuō),網(wǎng)絡(luò)安全領(lǐng)域的網(wǎng)頁(yè)篡改、病毒檢測(cè)分析等。
接下來(lái)介紹AI研發(fā)數(shù)據(jù)治理模塊:
針對(duì)外部異構(gòu)的數(shù)據(jù),深信服提出了AI Data Store,一種繼承湖倉(cāng)一體設(shè)計(jì)理念的多樣性AI研發(fā)數(shù)據(jù)統(tǒng)一存儲(chǔ)和消費(fèi)的數(shù)據(jù)系統(tǒng),實(shí)現(xiàn)了外部數(shù)據(jù)的統(tǒng)一接入和存儲(chǔ)管理。比如數(shù)據(jù)庫(kù)類的結(jié)構(gòu)化數(shù)據(jù)、文件類的結(jié)構(gòu)數(shù)據(jù)以及文件類的非結(jié)構(gòu)化數(shù)據(jù)這三類數(shù)據(jù),可以統(tǒng)一存儲(chǔ)管理。
深信服開(kāi)發(fā)了data store SDK工具或CLI命令行工具,基于CLI命令行,算法工程師就可以像提交代碼一樣或者代碼管理的方式一樣去管理自己的數(shù)據(jù)集,包括支持以push或pull的方式管理AI數(shù)據(jù)集。
同時(shí)也支持向海量的數(shù)據(jù)操作,即直接內(nèi)存的方式讀取分布式到計(jì)算節(jié)點(diǎn),這種方式是可以避免通過(guò)notebook本地存儲(chǔ)空間的限制,這樣會(huì)更方便進(jìn)行大數(shù)據(jù)或者分布式的計(jì)算。
對(duì)于data store的實(shí)現(xiàn)來(lái)說(shuō),深信服采用數(shù)據(jù)抽象分層的設(shè)計(jì)方案,主要分為三層。
第一層也就是最底層的原始數(shù)據(jù)層Raw Data Layer, 負(fù)責(zé)對(duì)海量的接入或上傳的文件數(shù)據(jù)進(jìn)行統(tǒng)一存儲(chǔ)管理,算法工程師基于這一層原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗以及做一些精細(xì)化的特征提取。
提取后的數(shù)據(jù)存放在Feature Data Layer,這一層的數(shù)據(jù)還可以進(jìn)一步轉(zhuǎn)換成用于訓(xùn)練的機(jī)器學(xué)習(xí)訓(xùn)練。
在離線AI算法訓(xùn)練的過(guò)程當(dāng)中,就可以消費(fèi)ML DataSet Layer的數(shù)據(jù),實(shí)際上每一層的數(shù)據(jù)都可以被AI框架直接加載消費(fèi)。
除了上面的離線消費(fèi)場(chǎng)景,還有在線消費(fèi)場(chǎng)景。可以直接從Feature Data Layer這一層實(shí)現(xiàn)在線消費(fèi)。同時(shí),會(huì)在Raw Data Layer加一個(gè)Slidding Window ,支持Latest-K方式的熱數(shù)據(jù)消費(fèi)使用,在線消費(fèi)或者模型灰度測(cè)試的時(shí)候,可以實(shí)現(xiàn)這種相對(duì)最新數(shù)據(jù)的接入,來(lái)實(shí)現(xiàn)算法的效果驗(yàn)證。
此外,還會(huì)通過(guò)統(tǒng)一元數(shù)據(jù)的管理來(lái)實(shí)現(xiàn)AI數(shù)據(jù)集CRUD操作。缺少元數(shù)據(jù)管理的數(shù)據(jù)湖,本質(zhì)就是一個(gè)數(shù)據(jù)沼澤,算法工程師或者AI研發(fā)人員沒(méi)有辦法高效使用海量數(shù)據(jù),即使有海量的業(yè)務(wù)數(shù)據(jù)也難以高效率的價(jià)值變現(xiàn)。
針對(duì)結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),機(jī)器學(xué)習(xí)平臺(tái)設(shè)計(jì)了一個(gè)統(tǒng)一的元數(shù)據(jù)層,支持用戶自定義數(shù)據(jù)集的元數(shù)據(jù),由其對(duì)于非結(jié)構(gòu)化數(shù)據(jù)集的管理帶來(lái)很大的方便,因?yàn)榉墙Y(jié)構(gòu)化數(shù)據(jù)本身缺少豐富的元數(shù)據(jù),自然也就無(wú)法供算法工程師高效和靈活地對(duì)文件數(shù)據(jù)進(jìn)行CRUD操作。
針對(duì)多樣性AI任務(wù)導(dǎo)致異構(gòu)計(jì)算引擎調(diào)度管理難的問(wèn)題,深信服AI研發(fā)團(tuán)隊(duì)把AI計(jì)算引擎分為兩大類,一類是大數(shù)據(jù)分析型的,主要用于數(shù)據(jù)清洗、特征提取,比如Spark,F(xiàn)link;另一類是AI算法計(jì)算型的,主要用于ML&DL算法訓(xùn)練,甚至包括圖分析、計(jì)算框架dgl、graphscope、以及強(qiáng)化學(xué)習(xí)menger等。
此外,深信服AI研發(fā)平臺(tái)實(shí)現(xiàn)了異構(gòu)計(jì)算框架的統(tǒng)一調(diào)度和數(shù)據(jù)的高效通信。
在泛AI領(lǐng)域,大數(shù)據(jù)分析平臺(tái)和AI計(jì)算平臺(tái)一直存在兩種對(duì)接方式:
一種是以大數(shù)據(jù)資產(chǎn)或特征處理等為中心的數(shù)據(jù)工程為主,其特點(diǎn)是:數(shù)據(jù)需要顯式落盤(pán)存儲(chǔ),以此來(lái)實(shí)現(xiàn)數(shù)據(jù)復(fù)用、降低計(jì)算開(kāi)銷(xiāo)、數(shù)據(jù)debug。
一種是以以AI計(jì)算性能(訓(xùn)練和推理)等為中心的算法工程為主,其特點(diǎn)是:數(shù)據(jù)不需要落盤(pán)存儲(chǔ),以此來(lái)實(shí)現(xiàn)加速特征提取與模型訓(xùn)練異構(gòu)任務(wù)的數(shù)據(jù)傳遞(尤其在大規(guī)模、生產(chǎn)環(huán)境)、加速CPU和GPU之間的數(shù)據(jù)傳遞(尤其在大規(guī)模DL模型訓(xùn)練和推理環(huán)境)。
這兩種異構(gòu)任務(wù)的“分”與“合”,在不同的場(chǎng)景,有其存在的必要性,而深信服機(jī)器學(xué)習(xí)平臺(tái)建設(shè)的目標(biāo)就是基于一套任務(wù)調(diào)度框架,實(shí)現(xiàn)大數(shù)據(jù)分析任務(wù)和AI計(jì)算任務(wù)的統(tǒng)一管理。
深信服的解決方式是基于Ray實(shí)現(xiàn)異構(gòu)數(shù)據(jù)分析和AI計(jì)算框架統(tǒng)一調(diào)度,避免多套調(diào)度引擎,同時(shí)基于ML DataSet可以實(shí)現(xiàn)框架之間的數(shù)據(jù)高效傳輸,有效解決異構(gòu)分布式任務(wù)對(duì)接問(wèn)題。
針對(duì)GPU訓(xùn)練數(shù)據(jù),深信服通過(guò)對(duì)dataloader 層面的優(yōu)化,降低GPU訓(xùn)練任務(wù)本身的忙等時(shí)間,端到端實(shí)現(xiàn)GPU訓(xùn)練任務(wù)的優(yōu)化和加速。具體來(lái)說(shuō)該平臺(tái)通過(guò)兩個(gè)維度來(lái)優(yōu)化:
維度一:縮短分布式存儲(chǔ)系統(tǒng)與分布式計(jì)算系統(tǒng)之前的數(shù)據(jù)傳輸時(shí)間;由于機(jī)器學(xué)習(xí)平臺(tái)是典型的計(jì)算和存儲(chǔ)分離架構(gòu), 導(dǎo)致AI研發(fā)數(shù)據(jù)訪問(wèn)時(shí)延問(wèn)題,業(yè)界做法是在開(kāi)始模型訓(xùn)練之前:將訓(xùn)練數(shù)據(jù)復(fù)制到本地的磁盤(pán)存儲(chǔ)中,如普通機(jī)械硬盤(pán)或者 NVMe、SSD等高速存儲(chǔ)設(shè)備;將數(shù)據(jù)提前復(fù)制到部署在計(jì)算節(jié)點(diǎn)上的分布式存儲(chǔ)系統(tǒng)中,如Ceph、GlusterFS。
這種額外的AI訓(xùn)練數(shù)據(jù)遷移過(guò)程會(huì)面臨如下問(wèn)題:
(1)把訓(xùn)練數(shù)據(jù)復(fù)制到AI計(jì)算節(jié)點(diǎn)的方式低效且難以管理。手動(dòng)復(fù)制容易出錯(cuò)。像基于notebook的Local FS的方式提供本地計(jì)算的手動(dòng)數(shù)據(jù)拉去就更加會(huì)出現(xiàn)此類數(shù)據(jù)遷移管理問(wèn)題;
(2)深度學(xué)習(xí)訓(xùn)練數(shù)量很大且可能持續(xù)增加,分布式AI計(jì)算節(jié)點(diǎn)配置的磁盤(pán)容量有限,極容易出現(xiàn)無(wú)法存放全量訓(xùn)練數(shù)據(jù)的情況;
(3)將訓(xùn)練數(shù)據(jù)存放在多個(gè)GPU計(jì)算節(jié)點(diǎn)上的分布式存儲(chǔ)系統(tǒng)內(nèi),可以解決數(shù)據(jù)容量問(wèn)題,但分布式存儲(chǔ)系統(tǒng)自身的運(yùn)維成本和難度都很大;并且存儲(chǔ)系統(tǒng)與計(jì)算節(jié)點(diǎn)耦合,本身也會(huì)產(chǎn)生計(jì)算、網(wǎng)絡(luò)、I/O 等本地資源的爭(zhēng)搶和干擾問(wèn)題。
維度二:基于GPU加速和數(shù)據(jù)pipeline并行優(yōu)化數(shù)據(jù)集預(yù)處理的時(shí)間;像計(jì)算機(jī)視覺(jué)類任務(wù)(釣魚(yú)網(wǎng)頁(yè)檢測(cè)、桌面云視頻幀超分優(yōu)化、數(shù)據(jù)防泄密檢測(cè)、邊緣AI視頻分析等)的算法訓(xùn)練會(huì)涉及大規(guī)模數(shù)據(jù)集的讀取,這些任務(wù)都會(huì)存在數(shù)據(jù)集加載效率低導(dǎo)致GPU任務(wù)忙等,使得GPU利用率低問(wèn)題。原生的pytorch&tensorflow框架的data loader是基于CPU實(shí)現(xiàn)數(shù)據(jù)的加載和數(shù)據(jù)的預(yù)處理,這勢(shì)必會(huì)占用worker節(jié)點(diǎn)CPU大量的資源。然后將預(yù)處理之后的數(shù)據(jù)從CPU內(nèi)存交換到GPU顯存, 這也會(huì)增加IO的開(kāi)銷(xiāo),降低端到端訓(xùn)練工作流的整體效率。
由于CV類任務(wù)的大量操作,比如Resize、Crop、Normlize等都非常適合GPU并行加速,所以深信服選擇利用DALI將預(yù)處理任務(wù)遷移到GPU計(jì)算,這樣既降低了CPU負(fù)載,又提高了GPU的利用率。
針對(duì)AI訓(xùn)練任務(wù)而言,還有一個(gè)特點(diǎn)是數(shù)據(jù)并非一次性加載到內(nèi)存或顯存,而是以batch迭代的方式加載,這里面就存在CPU 負(fù)責(zé)加載數(shù)據(jù)和GPU并行計(jì)算兩個(gè)任務(wù)交叉進(jìn)行的任務(wù)。由于這兩個(gè)子任務(wù)的服務(wù)和計(jì)算特點(diǎn)差異很大,而如果僅以串行的方式執(zhí)行這兩個(gè)任務(wù),勢(shì)必會(huì)有一個(gè)任務(wù)大概率會(huì)出現(xiàn)負(fù)載相對(duì)低的現(xiàn)象。
通過(guò)將這兩個(gè)子任務(wù)流水線化,可以實(shí)現(xiàn)兩個(gè)子任務(wù)執(zhí)行時(shí)間的重疊,最終數(shù)據(jù)加載和算法訓(xùn)練都可以高負(fù)載執(zhí)行,從端到端加速AI訓(xùn)練速度。
賦能AI研發(fā)實(shí)踐效果
借助于低代碼開(kāi)發(fā)算法平臺(tái),可以使得各個(gè)角色之間高效協(xié)作。針對(duì)端到端的AI研發(fā)人員來(lái)講,如果是任務(wù)比較小,算法工程師可以獨(dú)自完成這些工作。但當(dāng)AI的任務(wù)業(yè)務(wù)變得比較大的時(shí)候,數(shù)據(jù)特征的提取、模型的調(diào)參、算法的測(cè)試,包括集成到產(chǎn)品線、產(chǎn)品當(dāng)中去,就可以利用該平臺(tái),實(shí)現(xiàn)多角色任務(wù)協(xié)作。
在數(shù)據(jù)規(guī)模層面,已經(jīng)實(shí)現(xiàn)支持TB級(jí)的異構(gòu)數(shù)據(jù)的統(tǒng)一管理。在集群規(guī)模上,支持10+CPU節(jié)點(diǎn)。在研發(fā)效率上,大規(guī)模病毒文件特征提取時(shí)間由45天縮短到15天。
孟賓賓認(rèn)為,AI的價(jià)值落地是圍繞實(shí)際業(yè)務(wù)數(shù)據(jù)、產(chǎn)品系統(tǒng)架構(gòu)而深度結(jié)合和持續(xù)優(yōu)化的AI系統(tǒng)工程。為了產(chǎn)品高性價(jià)比,企業(yè)需要結(jié)合AI硬件做深度的算法、軟件、硬件協(xié)同優(yōu)化;為了產(chǎn)品實(shí)時(shí)性體驗(yàn),企業(yè)甚至要犧牲AI算法一定精度,以減小延遲或提高并發(fā);為了維持產(chǎn)品效果,企業(yè)要設(shè)計(jì)復(fù)雜的AI閉環(huán)系統(tǒng),通過(guò)ML-Ops實(shí)現(xiàn)算法的快速迭代。
以下幾點(diǎn)是圍繞具體的AI工程化落地,深信服在機(jī)器學(xué)習(xí)平臺(tái)層面可以探索和持續(xù)打磨的方向:
在線(on-line learning)、無(wú)監(jiān)督學(xué)習(xí)可以降低網(wǎng)絡(luò)安全標(biāo)注數(shù)據(jù)標(biāo)注門(mén)檻、成本。
Al使用門(mén)檻可以進(jìn)一步降低,除了基于AI Flow算法模板和Auto-ML,業(yè)界的新興方案,如可以考慮結(jié)余MLSQL進(jìn)行AI平民化探索。
通過(guò)模型漂移、數(shù)據(jù)漂移檢測(cè)與持續(xù)學(xué)習(xí)(continue learning),可以持續(xù)自動(dòng)捕捉到安全AI模型的效果漂移問(wèn)題,持續(xù)更新訓(xùn)練模型。
通過(guò)數(shù)據(jù)并行、模型并行、流水線并行的策略進(jìn)行協(xié)同優(yōu)化基于深度學(xué)習(xí)和海量數(shù)據(jù)的復(fù)雜模型訓(xùn)練和推理,讓業(yè)界更復(fù)雜、效果更好的AI模型遷移并應(yīng)用到到公司的網(wǎng)絡(luò)安全和云計(jì)算業(yè)務(wù)中。
以上就是關(guān)于《數(shù)算工程一體化機(jī)器學(xué)習(xí)開(kāi)發(fā)平臺(tái)助力AI算法敏捷開(kāi)發(fā)》的分享,關(guān)注“深信服科技”公眾號(hào),持續(xù)獲取更多技術(shù)干貨內(nèi)容。