熟悉AI產(chǎn)業(yè)的人都知道,數(shù)據(jù)、算法和算力是推動(dòng)AI產(chǎn)業(yè)發(fā)展的三大核心要素,而數(shù)據(jù)又是算法和算力得以施展的前提。就像巧婦難為無米之炊,如果沒有好的數(shù)據(jù)基礎(chǔ),再?gòu)?qiáng)的算法和算力也沒有用武之地。
然而,在AI普及落地的過程中,企業(yè)卻普遍面臨著數(shù)據(jù)量大、難以快速找到特定場(chǎng)景數(shù)據(jù)的困境。在AI數(shù)據(jù)訓(xùn)練的過程中,AI數(shù)據(jù)管理更是面臨著數(shù)據(jù)資產(chǎn)不能充分利用、管理方式不夠完善等挑戰(zhàn)。
這樣的挑戰(zhàn)在我們的工作中并不少見,如:很多企業(yè)都很難在爆發(fā)式增長(zhǎng)的海量數(shù)據(jù)中快速找到有價(jià)值的數(shù)據(jù);數(shù)據(jù)被零散地存儲(chǔ)在不同的公有云和私有云中,甚至在個(gè)人電腦和硬盤里;配合算法迭代的不同版本的數(shù)據(jù)卻不能被及時(shí)命名和分類等等。
五大先進(jìn)技術(shù)化解AI數(shù)據(jù)管理難題
為了幫助企業(yè)解決這些痛點(diǎn),近日,國(guó)內(nèi)領(lǐng)先的AI訓(xùn)練數(shù)據(jù)頭部服務(wù)商——云測(cè)數(shù)據(jù)在服貿(mào)會(huì)上發(fā)布了“云測(cè)數(shù)據(jù)標(biāo)注平臺(tái)-AI數(shù)據(jù)集管理系統(tǒng)”,給苦于AI數(shù)據(jù)管理難題的企業(yè)帶來了福音。
云測(cè)數(shù)據(jù)總經(jīng)理賈宇航告訴記者,云測(cè)數(shù)據(jù)標(biāo)注平臺(tái)-AI數(shù)據(jù)集管理系統(tǒng)專注于Al數(shù)據(jù)集的上傳、管理、存儲(chǔ)、分享,數(shù)據(jù)類型標(biāo)簽化管理,同時(shí)可以支持標(biāo)注結(jié)果的存儲(chǔ)、標(biāo)注結(jié)果可視化等功能,從而助力企業(yè)進(jìn)行數(shù)據(jù)管理,提升數(shù)據(jù)訓(xùn)練的匹配度,高效開展模型訓(xùn)練,增強(qiáng)Al領(lǐng)域的核心競(jìng)爭(zhēng)力。
據(jù)介紹,云測(cè)數(shù)據(jù)標(biāo)注平臺(tái)-AI數(shù)據(jù)集管理系統(tǒng)的先進(jìn)性體現(xiàn)在以下五個(gè)方面:
首先是安全高效的數(shù)據(jù)存儲(chǔ):支持混合云存儲(chǔ),多場(chǎng)景數(shù)據(jù)托管,可全方位協(xié)調(diào)機(jī)制,提升數(shù)據(jù)管理效率。
在公有云存儲(chǔ)方面支持阿里云、騰訊云、亞馬遜云科技等主流云服務(wù);在私有云存儲(chǔ)方面,可滿足S3協(xié)議方案的對(duì)象存儲(chǔ)系統(tǒng),如Ceph、Minio;在URL資源導(dǎo)入方面,其他文件存儲(chǔ)系統(tǒng)可以直接引入使用。
賈宇航表示,該管理系統(tǒng)是可以私有化部署的,可以適配不同企業(yè)的不同運(yùn)行環(huán)境。
其次是便捷快速的數(shù)據(jù)檢索:可實(shí)現(xiàn)多級(jí)標(biāo)簽管理、數(shù)據(jù)深度檢索。
該系統(tǒng)支持標(biāo)簽級(jí)數(shù)據(jù)檢索,可快速篩選價(jià)值數(shù)據(jù):文件管理標(biāo)簽化,支持無限級(jí)KV標(biāo)簽;多細(xì)粒度標(biāo)簽檢索,快速構(gòu)建數(shù)據(jù)場(chǎng)景;文件子集管理,讓數(shù)據(jù)歸檔井然有序。
賈宇航指出,企業(yè)可以針對(duì)不同的角色給同一類數(shù)據(jù)打上不同的、各自獨(dú)有的標(biāo)簽,也可以對(duì)標(biāo)注的結(jié)果進(jìn)行自動(dòng)讀取、標(biāo)簽化檢索。
第三是全場(chǎng)景數(shù)據(jù)可視化,讓數(shù)據(jù)更容易理解。
豐富的可視化組件,支持box2d、ellipse、polygon、line、curve、point、parallel、box3d、cuboid、side_cuboid、sentence等多種可視化工具,并支持連續(xù)幀、ID跟蹤、點(diǎn)云多傳感融合、音視頻等多種數(shù)據(jù)場(chǎng)景,支持標(biāo)簽篩選、分組顯示、旋轉(zhuǎn)變化等交互查看方式,讓數(shù)據(jù)更容易理解和檢查。
賈宇航強(qiáng)調(diào),過去企業(yè)用戶查看數(shù)據(jù)標(biāo)注結(jié)果,需要通過專門的數(shù)據(jù)標(biāo)注結(jié)果可視化工具,或者購(gòu)買,或者自己研發(fā)。現(xiàn)在該功能已經(jīng)被云測(cè)數(shù)據(jù)直接集成在AI數(shù)據(jù)集管理系統(tǒng)中,企業(yè)用戶可以直接查看結(jié)果、進(jìn)行篩選。
第四是豐富的擴(kuò)展工具,可靈活管理使用。
該系統(tǒng)支持Python SDK、CLI、Open API等多種擴(kuò)展工具,方便上傳、管理、統(tǒng)計(jì)可視化數(shù)據(jù),客戶可根據(jù)場(chǎng)景靈活使用,或打造數(shù)據(jù)中臺(tái)將數(shù)據(jù)獲取、數(shù)據(jù)標(biāo)注、數(shù)據(jù)存儲(chǔ)使用、模型迭代形成數(shù)據(jù)閉環(huán)。同時(shí)可提供完善的技術(shù)使用文檔。
第五是清晰的數(shù)據(jù)權(quán)限管理。
該系統(tǒng)支持多種團(tuán)隊(duì)協(xié)作權(quán)限管理,團(tuán)隊(duì)成員明確分工,數(shù)據(jù)使用按需分配,避免數(shù)據(jù)操作隱患及反復(fù)遷移:支持角色權(quán)限管理,操作權(quán)限分配;支持?jǐn)?shù)據(jù)分享管理,隱私數(shù)據(jù)隔離;支持開發(fā)者授權(quán)管理,白名單授權(quán)機(jī)制。
“過去企業(yè)需要安排專人管理數(shù)據(jù),現(xiàn)在通過系統(tǒng)就可以更直接更有效地實(shí)現(xiàn)上述功能。”賈宇航談到。
憑借上述優(yōu)勢(shì),云測(cè)數(shù)據(jù)標(biāo)注平臺(tái)-AI數(shù)據(jù)集管理系統(tǒng)可以幫助企業(yè)輕松管理數(shù)據(jù)資產(chǎn),將非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化管理,形成統(tǒng)一數(shù)據(jù)規(guī)范,進(jìn)行數(shù)據(jù)資產(chǎn)化積累,不斷積累核心數(shù)據(jù)競(jìng)爭(zhēng)力;而且,結(jié)合業(yè)務(wù)數(shù)據(jù)場(chǎng)景,企業(yè)可以打通數(shù)據(jù)閉環(huán),構(gòu)建數(shù)據(jù)中臺(tái)服務(wù),釋放AI數(shù)據(jù)價(jià)值。從而幫助企業(yè)高效獲取、加工和管理數(shù)據(jù),深入挖掘、全面提升AI數(shù)據(jù)價(jià)值。
賈宇航為記者列舉了一個(gè)實(shí)例,如一家做自動(dòng)駕駛視覺感知的企業(yè),應(yīng)用AI數(shù)據(jù)集管理系統(tǒng)給自身的數(shù)據(jù)進(jìn)行場(chǎng)景化的標(biāo)簽選定和存儲(chǔ)。其數(shù)據(jù)量非常龐大,且數(shù)據(jù)場(chǎng)景復(fù)雜。比如單單在天氣方面劃分為白天、黑天、晴天、雨天、雪天等多種類型。
該企業(yè)發(fā)現(xiàn),機(jī)器對(duì)于雪天的識(shí)別效果不好,那如何針對(duì)性地對(duì)相關(guān)算法進(jìn)行數(shù)據(jù)訓(xùn)練呢,這時(shí)候就可以通過數(shù)據(jù)管理系統(tǒng)中標(biāo)簽功能,調(diào)動(dòng)已有數(shù)據(jù)庫(kù)中對(duì)應(yīng)的雪天數(shù)據(jù),快速完成數(shù)據(jù)抽取和驗(yàn)證,實(shí)現(xiàn)數(shù)據(jù)管理事半功倍的效果。
“事實(shí)上,看了很多實(shí)際案例以后,我們發(fā)現(xiàn),運(yùn)用AI數(shù)據(jù)集管理系統(tǒng)的企業(yè),其運(yùn)轉(zhuǎn)的節(jié)奏、迭代的周期都在加快,研發(fā)方式也從瀑布式開發(fā)向敏捷開發(fā)轉(zhuǎn)變了,實(shí)現(xiàn)了更高效的數(shù)據(jù)管理。”賈宇航強(qiáng)調(diào),“這也是這套AI數(shù)據(jù)集管理系統(tǒng)存在的意義。”
緊跟客戶需求的探索和積累
當(dāng)然,市場(chǎng)也存在其他AI數(shù)據(jù)集管理產(chǎn)品,那么云測(cè)數(shù)據(jù)的優(yōu)勢(shì)何在呢?對(duì)此,賈宇航表示,云測(cè)數(shù)據(jù)是一家在企業(yè)級(jí)服務(wù)領(lǐng)域深耕多年的公司,核心是幫助企業(yè)實(shí)現(xiàn)產(chǎn)業(yè)化落地,會(huì)根據(jù)企業(yè)客戶的實(shí)際需求去進(jìn)行產(chǎn)品迭代。所以在研發(fā)AI數(shù)據(jù)集管理系統(tǒng)時(shí),將其定義成可以私有化部署的,并且可以被靈活運(yùn)營(yíng)集成的工具,方便企業(yè)進(jìn)行二次開發(fā)和深度定制。
而且云測(cè)數(shù)據(jù)作為AI數(shù)據(jù)的頭部企業(yè),在自動(dòng)駕駛、車企、智慧城市、智能金融、智能IOT、智能家居等領(lǐng)域的數(shù)據(jù)應(yīng)用一直走在行業(yè)前沿,并一直努力探索,基于新的算法、新的應(yīng)用場(chǎng)景研發(fā)出更好的產(chǎn)品和服務(wù),為AI產(chǎn)業(yè)化落地賦能。
事實(shí)上,這已經(jīng)是云測(cè)數(shù)據(jù)第二次在服貿(mào)會(huì)亮相。在2020年服貿(mào)會(huì)上,云測(cè)數(shù)據(jù)發(fā)布了“無數(shù)據(jù) 不AI,云測(cè)數(shù)據(jù)服務(wù)標(biāo)準(zhǔn)——項(xiàng)目最高交付精準(zhǔn)度99.99%”的成果。“本次發(fā)布的云測(cè)數(shù)據(jù)標(biāo)注平臺(tái)-AI數(shù)據(jù)集管理系統(tǒng)與其是一脈相承的。”賈宇航解釋到,這是在解決AI數(shù)據(jù)生產(chǎn)過程的難題之上延伸到改變AI數(shù)據(jù)管理的困境,充分展示了云測(cè)數(shù)據(jù)基于行業(yè)前瞻和前沿技術(shù)服務(wù)積累,進(jìn)一步拓展深化AI訓(xùn)練數(shù)據(jù)價(jià)值的領(lǐng)先實(shí)踐。
一橫一縱勾畫AI數(shù)據(jù)產(chǎn)業(yè)未來
談到未來的發(fā)展計(jì)劃時(shí),賈宇航告訴記者,針對(duì)AI數(shù)據(jù)行業(yè)的發(fā)展趨勢(shì),云測(cè)數(shù)據(jù)制定了“一橫一縱”的規(guī)劃。
在縱向領(lǐng)域,以自動(dòng)駕駛為例,正在向車外環(huán)境感知、車內(nèi)智能倉(cāng)、人機(jī)交互等方向發(fā)展,未來會(huì)應(yīng)用更多不同維度的數(shù)據(jù),以確保實(shí)現(xiàn)高清度。“這些領(lǐng)域都在深化發(fā)展,云測(cè)數(shù)據(jù)也會(huì)往這些方向持續(xù)布局,增強(qiáng)自己的方案和服務(wù)能力,以確保在這些行業(yè)有新的突破的時(shí)候,云測(cè)數(shù)據(jù)也能夠有對(duì)應(yīng)的積累,滿足客戶相關(guān)的需求。”
在橫向領(lǐng)域,則會(huì)關(guān)注其他不同行業(yè)的落地方向,比如新零售、金融垂直領(lǐng)域等等。云測(cè)數(shù)據(jù)希望把自身對(duì)于AI數(shù)據(jù)服務(wù)的經(jīng)驗(yàn)應(yīng)用到更多具有增長(zhǎng)潛力的行業(yè)。賈宇航談到,“云測(cè)數(shù)據(jù)愿意為這樣的行業(yè)打造AI數(shù)據(jù)服務(wù)解決方案,通過高質(zhì)量的AI數(shù)據(jù)助力相關(guān)領(lǐng)域早日實(shí)現(xiàn)產(chǎn)品落地。”