第三十八屆國(guó)際機(jī)器學(xué)習(xí)大會(huì)(ICML)于2021年7月18日正式召開。ICML作為由國(guó)際機(jī)器學(xué)習(xí)學(xué)會(huì)(IMLS)主辦的年度機(jī)器學(xué)習(xí)國(guó)際頂級(jí)會(huì)議,致力于展示和發(fā)表與人工智能、統(tǒng)計(jì)學(xué)和數(shù)據(jù)科學(xué)等密切相關(guān)領(lǐng)域以及重要應(yīng)用領(lǐng)域的研究成果,推動(dòng)人工智能分支機(jī)器學(xué)習(xí)的發(fā)展。
一年一度的ICML匯聚了眾多高水平的學(xué)者、工業(yè)研究人員、企業(yè)家以及工程師,共同分享科技領(lǐng)域的前沿資訊。格物鈦?zhàn)鳛榻衲闕CML 2021的主辦人之一,登臺(tái)ICML Expo分享大會(huì),與機(jī)器學(xué)習(xí)領(lǐng)域內(nèi)的研究者們共同探討開放數(shù)據(jù)的未來。
在Expo Talk上,格物鈦創(chuàng)始人兼CEO崔運(yùn)凱從當(dāng)前開放數(shù)據(jù)的一些痛點(diǎn)角度出發(fā),分享了格物鈦對(duì)于公開數(shù)據(jù)集的思考以及解決方案。崔運(yùn)凱表示:“在過去的幾十年里,ImageNet、KITTI 和 MNIST 等開放數(shù)據(jù)一直是人工智能研究的核心。隨著開放數(shù)據(jù)的興起,越來越多的研究人員開始意識(shí)到數(shù)據(jù)在人工智能發(fā)展中的重要性。行業(yè)專家吳恩達(dá)和許多其他開發(fā)人員正在倡導(dǎo)從以模型為中心的 AI 過渡到以數(shù)據(jù)為中心的 AI 開發(fā)。”
崔運(yùn)凱總結(jié)了目前使用公開的數(shù)據(jù)集存在的主要痛點(diǎn),包括了查找公開的數(shù)據(jù)集有難度,不是所有的公開數(shù)據(jù)集都標(biāo)注完整,部分公開數(shù)據(jù)集的標(biāo)注存在錯(cuò)誤,以及數(shù)據(jù)集本身存在偏差。不僅如此,數(shù)據(jù)的托管、宣傳,社群的運(yùn)營(yíng)、互動(dòng)也需要很多資源和精力。
基于公開數(shù)據(jù)集的重要性與行業(yè)現(xiàn)存的痛點(diǎn),崔運(yùn)凱認(rèn)為,目前格物鈦推出的公開數(shù)據(jù)集平臺(tái)(Open Datasets)可以幫助開源數(shù)據(jù)的發(fā)布者與使用者有效的解決這些問題。對(duì)于發(fā)布者來說,他們可以在平臺(tái)上實(shí)現(xiàn)數(shù)據(jù)托管、用戶吸引以及社區(qū)互動(dòng)等功能;對(duì)于使用者來說,他們可以高效搜索具有某類特征的數(shù)據(jù)集,明確詳細(xì)的數(shù)據(jù)使用協(xié)議,也可以篩選以及合并多個(gè)數(shù)據(jù)集。
在未來,以數(shù)據(jù)為中心(Data Centric)的開發(fā)模式中,數(shù)據(jù)必然會(huì)扮演越來越重要的角色。隨著更多更高質(zhì)量數(shù)據(jù)集的開源,將為人工智能的發(fā)展帶來巨大的價(jià)值。
格物鈦定位為面向機(jī)器學(xué)習(xí)的數(shù)據(jù)平臺(tái),致力于為 AI 開發(fā)者打造下一代新型基礎(chǔ)設(shè)施,從根本上改變其與非結(jié)構(gòu)化數(shù)據(jù)的交互方式。通過非結(jié)構(gòu)化數(shù)據(jù)管理工具TensorBay和開源數(shù)據(jù)集社區(qū)Open Datasets,幫助機(jī)器學(xué)習(xí)團(tuán)隊(duì)和個(gè)人降低數(shù)據(jù)獲取、存儲(chǔ)和處理成本,加速 AI 開發(fā)和產(chǎn)品創(chuàng)新,為人工智能賦能千行百業(yè)、驅(qū)動(dòng)產(chǎn)業(yè)升級(jí)提供堅(jiān)實(shí)基礎(chǔ)。