現(xiàn)在人工智能的發(fā)展可謂是如火如荼,在人工智能(AI)體系中,算力、算法和數(shù)據(jù)作為人工智能進(jìn)化的三大元素,分別承擔(dān)著人工智能在基礎(chǔ)設(shè)施能力、工作指導(dǎo)方法和算法(進(jìn)化)依據(jù)作用。算力是技術(shù)設(shè)施能力、算法是工作方法,而數(shù)據(jù)則是優(yōu)化算法的依據(jù)。
在機(jī)器學(xué)習(xí)領(lǐng)域,訓(xùn)練數(shù)據(jù)的準(zhǔn)備是最重要且最耗時(shí)的任務(wù)之一。目前,一些研究認(rèn)為,微調(diào)AI模型參數(shù)就能取得SOTA的時(shí)代已經(jīng)過去,專注于提升訓(xùn)練數(shù)據(jù)的質(zhì)量,也許是更重要的工作。
來自谷歌AI的最新研究表明,要想在細(xì)分領(lǐng)域取得更好的模型效果,精準(zhǔn)優(yōu)質(zhì)的數(shù)據(jù)十分重要,它在極大程度上決定了AI模型的性能。
吳恩達(dá)(英文名 Andrew Ng,人工智能和機(jī)器學(xué)習(xí)領(lǐng)域國際上最權(quán)威的學(xué)者之一)尤其看中數(shù)據(jù)的作用,他曾不止在一個(gè)場合說過:
“一個(gè)機(jī)器學(xué)習(xí)團(tuán)隊(duì)80%的工作應(yīng)該放在數(shù)據(jù)準(zhǔn)備上,確保數(shù)據(jù)質(zhì)量是最重要的工作,每個(gè)人都知道應(yīng)該如此做,但沒人在乎。如果更多強(qiáng)調(diào)以數(shù)據(jù)為中心而不是以模型為中心,那么機(jī)器學(xué)習(xí)的發(fā)展會(huì)更快。”
今年10月,吳恩達(dá)還宣布了首屆以數(shù)據(jù)為中心的 AI 競賽(Data-Centric AI competition)落下帷幕。區(qū)別于傳統(tǒng)的以模型為中心的比賽(Model-Centric AI competition)不斷改進(jìn)模型以提升準(zhǔn)確率的方法,這項(xiàng)比賽通過給定模型的方式,要求參賽者通過不斷改進(jìn)數(shù)據(jù)以獲得更好的成績。
以數(shù)據(jù)為中心的AI(data-centric AI)這一概念,簡單概括來說就是——想要提升模型的表現(xiàn),我們要花費(fèi)大精力保證訓(xùn)練數(shù)據(jù)集的高質(zhì)量。
那么如何保證“數(shù)據(jù)質(zhì)量”呢?這里就引入了對(duì)于訓(xùn)練數(shù)據(jù)的采集、清洗、信息抽取、標(biāo)注等服務(wù),以采集和標(biāo)注為主。其中數(shù)據(jù)標(biāo)注為人工智能人工智能技術(shù)提供了大量帶標(biāo)簽的數(shù)據(jù),供機(jī)器訓(xùn)練和學(xué)習(xí),保證了算法模型的有效性。簡單來說,數(shù)據(jù)采集決定了訓(xùn)練數(shù)據(jù)的場景豐富度,而數(shù)據(jù)標(biāo)注影響了訓(xùn)練數(shù)據(jù)的精準(zhǔn)度。
如何獲取機(jī)器學(xué)習(xí)訓(xùn)練數(shù)據(jù)?
無論是個(gè)人或高校項(xiàng)目、還是商業(yè)AI項(xiàng)目,獲取訓(xùn)練數(shù)據(jù)主要有三種形式,分別是開源數(shù)據(jù)集、自己構(gòu)建數(shù)據(jù)集和專業(yè)訓(xùn)練數(shù)據(jù)提供商。在需要大量訓(xùn)練數(shù)據(jù)的的情況下,采購專業(yè)的訓(xùn)練數(shù)據(jù)服務(wù)是推進(jìn)項(xiàng)目的最優(yōu)選擇。
目前,國內(nèi)有一家代表企業(yè):云測(cè)數(shù)據(jù)——正在為計(jì)算機(jī)視覺、語音識(shí)別、自然語言處理、知識(shí)圖譜等AI主流技術(shù)領(lǐng)域提供訓(xùn)練數(shù)據(jù),以幫助相關(guān)客戶來改善和提升機(jī)器學(xué)習(xí)模型表現(xiàn)。仔細(xì)了解之后我們發(fā)現(xiàn)其核心服務(wù)如下:
基礎(chǔ)數(shù)據(jù)集:圖像/語音/文本等在多場景下的數(shù)據(jù)集;
數(shù)據(jù)采集:數(shù)據(jù)場景實(shí)驗(yàn)室用于AI應(yīng)用場景的構(gòu)建;
數(shù)據(jù)標(biāo)注:視覺、語音、文本的全品類標(biāo)注能力;
數(shù)據(jù)處理工具:數(shù)據(jù)標(biāo)注平臺(tái)、數(shù)據(jù)集管理系統(tǒng)的技術(shù)支撐;
云測(cè)數(shù)據(jù)基于數(shù)據(jù)產(chǎn)品、數(shù)據(jù)處理工具與數(shù)據(jù)服務(wù)的三螺旋,為機(jī)器學(xué)習(xí)提供大規(guī)模訓(xùn)練數(shù)據(jù),為行業(yè)提供高效率、高質(zhì)量、多維度、場景化的數(shù)據(jù)服務(wù)與策略。
不同階段對(duì)訓(xùn)練數(shù)據(jù)的差異化需求
從不同階段的訓(xùn)練數(shù)據(jù)需求來看,企業(yè)應(yīng)用人工智能算法要經(jīng)歷研發(fā)、訓(xùn)練和落地三個(gè)階段,不同階段對(duì)于訓(xùn)練數(shù)據(jù)服務(wù)也有差異化需求。
研發(fā)需求是新算法研發(fā)拓展時(shí)產(chǎn)生的數(shù)據(jù)需求,一般量級(jí)較大,初期多采用標(biāo)準(zhǔn)數(shù)據(jù)集產(chǎn)品訓(xùn)練,中后期則需要專業(yè)的訓(xùn)練數(shù)據(jù)定制采標(biāo)服務(wù);
訓(xùn)練需求是通過標(biāo)注數(shù)據(jù)對(duì)已有算法的準(zhǔn)確率等能力進(jìn)行優(yōu)化,是市場中的主要需求,以定制化服務(wù)為主,對(duì)算法的準(zhǔn)確性有較高要求;
落地場景的業(yè)務(wù)需求中算法較為成熟,涉及的訓(xùn)練數(shù)據(jù)更貼合具體業(yè)務(wù),如飛機(jī)保養(yǎng)中的涂料識(shí)別數(shù)據(jù)等,對(duì)于標(biāo)注能力和供應(yīng)商主動(dòng)提出優(yōu)化意見的服務(wù)意識(shí)有較強(qiáng)要求。
真正“有用”的AI模型,離不開訓(xùn)練數(shù)據(jù)
時(shí)至今日,人工智能從業(yè)公司的算法模型經(jīng)過多年的打磨,基本達(dá)到階段性成熟,隨著AI行業(yè)商業(yè)化發(fā)展,更具有前瞻性的數(shù)據(jù)集產(chǎn)品和高定制化數(shù)據(jù)服務(wù)需求成為了主流,可以說,真正“有用”的AI模型,離不開訓(xùn)練數(shù)據(jù)。
說回前文提到的以數(shù)據(jù)為中心的 AI 競賽(Data-Centric AI competition).這次競賽共有489個(gè)參賽個(gè)人和團(tuán)隊(duì)提交了2458個(gè)獨(dú)特的數(shù)據(jù)集。僅僅通過改進(jìn)數(shù)據(jù)(而不是模型架構(gòu),這是硬標(biāo)準(zhǔn)),許多參賽者能夠?qū)?4.4%的基準(zhǔn)性能提高20%以上,最佳性能組的獲獎(jiǎng)?wù)叩某煽冊(cè)?6.034%至86.405%之間。
這種限定框架內(nèi)的巨大差別,足以說明在吳恩達(dá)等人的推動(dòng)下以數(shù)據(jù)為中心(Data-centric)的AI進(jìn)一步的系統(tǒng)化,并成為一個(gè)有具有巨大實(shí)用價(jià)值方法論。未來誰能夠更好地挖掘和使用訓(xùn)練數(shù)據(jù),就能在AI大潮中發(fā)現(xiàn)真正的“寶藏”。