安吉智能是上汽安吉物流旗下專注智能物流板塊的高新技術(shù)企業(yè),根據(jù)客戶需求提供智能解決方案系統(tǒng)集成,其研發(fā)的安眸智能視覺(jué)管理系統(tǒng)對(duì)港口、園區(qū)、倉(cāng)庫(kù)等物流業(yè)務(wù)場(chǎng)景中的核心元素“人員,貨物,設(shè)備”進(jìn)行精準(zhǔn)識(shí)別并提供安全保障。在智慧物流行業(yè)前沿,安吉智能正在利用人工智能技術(shù)將海量的監(jiān)控?cái)?shù)據(jù)運(yùn)用于行為識(shí)別、重點(diǎn)安防、區(qū)域監(jiān)測(cè)等場(chǎng)景。面對(duì)多場(chǎng)景下爆發(fā)式增長(zhǎng)的海量數(shù)據(jù),安吉智能選擇格物鈦TensorBay作為安眸系統(tǒng)研發(fā)中的AI基礎(chǔ)設(shè)施組件之一,保障算法團(tuán)隊(duì)在模型迭代中的高質(zhì)量數(shù)據(jù)供給,讓AI創(chuàng)新更高效。
安吉智能算法負(fù)責(zé)人說(shuō):“我們的目標(biāo)是通過(guò)引入標(biāo)準(zhǔn)化的數(shù)據(jù)管理工具,讓算法團(tuán)隊(duì)能夠以最簡(jiǎn)單快速的方式對(duì)海量數(shù)據(jù)集進(jìn)行訪問(wèn)與操作。很高興TensorBay這款優(yōu)秀的產(chǎn)品能夠進(jìn)入市場(chǎng),不同于傳統(tǒng)的本地文件系統(tǒng)管理模式,它提供了一個(gè)全新的云端數(shù)據(jù)管理解決方案,讓我們看到了AI非結(jié)構(gòu)化數(shù)據(jù)管理的全新未來(lái)。”
以數(shù)據(jù)為中心驅(qū)動(dòng)AI創(chuàng)新
今年MLOps形成了一股AI開(kāi)發(fā)新趨勢(shì)吹進(jìn)全球,隨之而來(lái)的是“以模型為中心”還是“以數(shù)據(jù)為中心”的爭(zhēng)議熱度不減。幾年前,機(jī)器學(xué)習(xí)社區(qū)更強(qiáng)調(diào)構(gòu)建模型、調(diào)整超參數(shù)或選擇正確架構(gòu),來(lái)提升AI模型效果。人工智能和機(jī)器學(xué)習(xí)領(lǐng)域國(guó)際最權(quán)威學(xué)者之一吳恩達(dá)上半年發(fā)布了最新課程《MLOps:從以模型為中心到以數(shù)據(jù)為中心的AI》,他認(rèn)為“以數(shù)據(jù)為中心”的時(shí)代已然來(lái)臨,人們應(yīng)該以數(shù)據(jù)為中心來(lái)開(kāi)發(fā)機(jī)器學(xué)習(xí)系統(tǒng)。
對(duì)于規(guī)模精簡(jiǎn)的算法團(tuán)隊(duì)而言,以數(shù)據(jù)為中心的策略相比于以模型為中心的策略更具可操作性。一個(gè)機(jī)器學(xué)習(xí)項(xiàng)目的生命周期會(huì)經(jīng)歷“定義項(xiàng)目-收集數(shù)據(jù)-訓(xùn)練模型-模型部署生產(chǎn)”四個(gè)階段,從數(shù)據(jù)收集到模型部署都會(huì)持續(xù)往復(fù)迭代。數(shù)據(jù)好比AI的食物,機(jī)器學(xué)習(xí)需要定制化的數(shù)據(jù)集持續(xù)投喂到模型訓(xùn)練中。決定模型效果的影響因素有兩個(gè):數(shù)據(jù)和算法。現(xiàn)實(shí)中的數(shù)據(jù)集往往都是有噪聲的,對(duì)于有噪聲的數(shù)據(jù),一種是修改算法,提出能處理噪聲、有泛化能力的算法(顯然難度較大);還有一種修改數(shù)據(jù)集,提升數(shù)據(jù)集的質(zhì)量。用工具鏈和系統(tǒng)化的方法來(lái)提升數(shù)據(jù)質(zhì)量,通過(guò)不斷地喂給數(shù)據(jù),讓模型保持輕微調(diào)整,這會(huì)使模型的效果批量提升成為可能。
安吉智能正在為汽車制造、機(jī)械加工、電子電商、煙草醫(yī)藥、日化服裝等各領(lǐng)域客戶提供一體化智能物流解決方案,為了實(shí)現(xiàn)供應(yīng)鏈過(guò)程的數(shù)字智能化創(chuàng)新,在算法負(fù)責(zé)人看來(lái),通過(guò)調(diào)整數(shù)據(jù)集來(lái)實(shí)現(xiàn)模型快速迭代,將極大改善算法團(tuán)隊(duì)工作效率。
激發(fā)物流行業(yè)新動(dòng)能
據(jù)安吉智能算法團(tuán)隊(duì)負(fù)責(zé)人介紹,2020年我國(guó)物流行業(yè)占整體GDP的14.7%,物流行業(yè)數(shù)字化轉(zhuǎn)型蘊(yùn)含巨大潛力,且有大量的數(shù)據(jù)價(jià)值待挖掘,這是安吉開(kāi)發(fā)安眸視覺(jué)管理系統(tǒng)的雄心所在。
利用大數(shù)據(jù)和人工智能等前沿技術(shù)為傳統(tǒng)行業(yè)賦能,一個(gè)不容忽視的現(xiàn)象是視頻監(jiān)控和傳感器等積累的非結(jié)構(gòu)化數(shù)據(jù)呈指數(shù)級(jí)增長(zhǎng),如果缺少與之匹配的工具鏈和工作流程,將會(huì)對(duì)數(shù)據(jù)驅(qū)動(dòng)的AI產(chǎn)品開(kāi)發(fā)創(chuàng)新帶來(lái)挑戰(zhàn)。格物鈦與安吉智能合作調(diào)研了目前行業(yè)內(nèi)在AI開(kāi)發(fā)流程中的痛點(diǎn)與挑戰(zhàn),并梳理出數(shù)據(jù)管理上的核心訴求:
1.標(biāo)注數(shù)據(jù)格式、標(biāo)簽的一致性:方便靈活地根據(jù)特性抽取合并數(shù)據(jù);
2.統(tǒng)一的數(shù)據(jù)存儲(chǔ)路徑:方便搜索和獲取從傳感器端采集的全量數(shù)據(jù),并覆蓋盡可能多的場(chǎng)景和稀缺的數(shù)據(jù)樣本;
3.數(shù)據(jù)版本可追溯性:記錄并比較訓(xùn)練過(guò)程中數(shù)據(jù)集的版本變化,以用于誤差分析和反復(fù)迭代。
安眸智能視覺(jué)管理系統(tǒng)基于自研深度學(xué)習(xí)AI算法引擎,形成數(shù)據(jù)采集標(biāo)注、深度學(xué)習(xí)算法迭代、視頻數(shù)據(jù)結(jié)構(gòu)化、模型部署自化,實(shí)現(xiàn)AI數(shù)據(jù)閉環(huán),為港口、園區(qū)、倉(cāng)庫(kù)等物流業(yè)務(wù)中的核心元素“人員、貨物、設(shè)備”提供安全保障。
格物鈦TensorBay是一款面向AI開(kāi)發(fā)者的非結(jié)構(gòu)化數(shù)據(jù)管理工具,為AI開(kāi)發(fā)者和團(tuán)隊(duì)提供統(tǒng)一的數(shù)據(jù)云端托管、版本管理、在線可視化和高效協(xié)同等功能,專注解決AI開(kāi)發(fā)中的數(shù)據(jù)痛點(diǎn)。TensorBay為安吉智能提供了如下解決方案,包括:
1、讓AI開(kāi)發(fā)更便捷——在云端統(tǒng)一托管數(shù)據(jù)
通過(guò)授權(quán)云存儲(chǔ)的方式,TensorBay可以全面托管安吉智能的原始數(shù)據(jù),標(biāo)注數(shù)據(jù)與Meta信息。個(gè)人和團(tuán)隊(duì)的工作區(qū)可以輕松切換,權(quán)限管理功能也在保障數(shù)據(jù)訪問(wèn)安全的前提下,促進(jìn)跨團(tuán)隊(duì)協(xié)作,實(shí)現(xiàn)數(shù)據(jù)訪問(wèn)民主化。
安吉智能團(tuán)隊(duì)在研發(fā)過(guò)程中需要運(yùn)用同一批原數(shù)據(jù)集來(lái)進(jìn)行不同的訓(xùn)練嘗試。借助TensorBay平臺(tái),團(tuán)隊(duì)成員無(wú)需復(fù)制數(shù)據(jù),就可以在不影響原有數(shù)據(jù)的情況下生成fork數(shù)據(jù)集,并根據(jù)具體的模型研發(fā)目標(biāo)靈活地對(duì)數(shù)據(jù)進(jìn)行調(diào)整。
2、所見(jiàn)即所得——數(shù)據(jù)集分布實(shí)時(shí)洞察和數(shù)據(jù)版本追溯
安吉智能算法團(tuán)隊(duì)在研發(fā)過(guò)程中,針對(duì)不同客戶的物流監(jiān)控場(chǎng)景,需要定制化準(zhǔn)備數(shù)據(jù)集進(jìn)行模型訓(xùn)練。通過(guò)TensorBay的版本管理功能,安吉智能可以快速增加新數(shù)據(jù)和迭代新版本,清晰記錄和追溯歷史版本過(guò)程,精細(xì)化比較各領(lǐng)域客戶數(shù)據(jù)和標(biāo)注的差異,大幅提升版本迭代效率。
通常標(biāo)注數(shù)據(jù)在質(zhì)檢之后會(huì)被直接灌入模型用于訓(xùn)練,但如果標(biāo)注數(shù)據(jù)存在錯(cuò)誤(如漏標(biāo)、錯(cuò)標(biāo)等),會(huì)對(duì)模型的識(shí)別能力產(chǎn)生很大干擾。TensorBay的可視化組件讓算法工程師既能從宏觀層面了解數(shù)據(jù)集的特征分布,又能從微觀層面查看單個(gè)文件和標(biāo)注數(shù)據(jù)。這一功能可以讓算法工程師在將數(shù)據(jù)用于訓(xùn)練前,直接查看標(biāo)注結(jié)果,有效避免了因數(shù)據(jù)質(zhì)量不達(dá)標(biāo),而產(chǎn)生的模型調(diào)試和標(biāo)注返工損耗。
3、Model is Temporary, Pipelines are Forever
機(jī)器學(xué)習(xí)的工作流程優(yōu)化和自動(dòng)化,所帶來(lái)的增效復(fù)利效應(yīng)將會(huì)更深遠(yuǎn)影響產(chǎn)品進(jìn)程。未來(lái)安吉智能將繼續(xù)選擇TensorBay與其現(xiàn)有AI工作流程實(shí)現(xiàn)更深層次的融合。包括:
1)TensorBay的Action功能,將安眸智能攝像頭的數(shù)據(jù)收集、篩選、觸發(fā)任務(wù)、數(shù)據(jù)上傳流程自動(dòng)化。改變?cè)居扇斯ぐ褦?shù)據(jù)上傳至網(wǎng)盤(pán)再到算法團(tuán)隊(duì)下載的方式,實(shí)現(xiàn)數(shù)據(jù)自動(dòng)上傳至云端數(shù)據(jù)集進(jìn)行管理。
2)TensorBay的AI數(shù)據(jù)管理周期還可擴(kuò)展至標(biāo)數(shù)據(jù)標(biāo)注環(huán)節(jié)。標(biāo)注結(jié)果能夠直接導(dǎo)入云端數(shù)據(jù)管理平臺(tái)進(jìn)行進(jìn)一步數(shù)據(jù)處理,并能實(shí)現(xiàn)標(biāo)注結(jié)果實(shí)時(shí)修改。這讓AI生產(chǎn)環(huán)境數(shù)據(jù)的實(shí)時(shí)反饋、追溯和優(yōu)化成為可能。
更好的數(shù)據(jù)帶來(lái)更優(yōu)的模型性能。格物鈦認(rèn)為整個(gè)AI行業(yè)正在由以模型為中心的開(kāi)發(fā)模式,向著以數(shù)據(jù)為中心的開(kāi)發(fā)模式發(fā)展。通過(guò)優(yōu)化現(xiàn)有的AI項(xiàng)目工作流程來(lái)提升數(shù)據(jù)質(zhì)量,從而加速AI產(chǎn)品的迭代,這一創(chuàng)新未來(lái)將在更多智慧物流場(chǎng)景中產(chǎn)生長(zhǎng)遠(yuǎn)價(jià)值。
安吉智能算法負(fù)責(zé)人高度評(píng)價(jià):“格物鈦的機(jī)器學(xué)習(xí)數(shù)據(jù)平臺(tái)TensorBay是我們AI開(kāi)發(fā)流程中的關(guān)鍵部分,其強(qiáng)大的數(shù)據(jù)管理平臺(tái)能夠和我們的開(kāi)發(fā)流程無(wú)縫銜接,為我們的數(shù)據(jù)準(zhǔn)備過(guò)程提供了非常便利的功能和開(kāi)發(fā)者工具。與格物鈦的產(chǎn)品團(tuán)隊(duì)的密切合作,幫助我們安吉智能可以更加順利地實(shí)現(xiàn)安眸產(chǎn)品的研發(fā)目標(biāo)。”