文 /楊曉寧
隨著產(chǎn)業(yè)界數(shù)據(jù)量的爆炸式增長,大數(shù)據(jù)概念受到越來越多的關(guān)注。由于大數(shù)據(jù)的海量、復(fù)雜多樣、變化快的特性,對于大數(shù)據(jù)環(huán)境下的應(yīng)用問題,傳統(tǒng)的小數(shù)據(jù)上的機(jī)器學(xué)習(xí)算法很多已不再適用。因此,研究大數(shù)據(jù)環(huán)境下的機(jī)器學(xué)習(xí)算法成為學(xué)術(shù)界和產(chǎn)業(yè)界共同關(guān)注的話題。
傳統(tǒng)機(jī)器學(xué)習(xí)的問題主要包括如下4個(gè)方面:理解并模擬人類的學(xué)習(xí)過程;針對計(jì)算機(jī)系統(tǒng)和人類用戶之間的自然語言接口的研究;針對不完全的信息進(jìn)行推理的能力,及自動(dòng)規(guī)劃的問題;構(gòu)造可發(fā)現(xiàn)新事物的程序。
傳統(tǒng)機(jī)器學(xué)習(xí)面臨的一個(gè)新挑戰(zhàn)是如何處理大數(shù)據(jù)。由于現(xiàn)有的機(jī)器學(xué)習(xí)算法是基于內(nèi)存的,大數(shù)據(jù)卻無法裝載進(jìn)計(jì)算機(jī)內(nèi)存,故現(xiàn)有的諸多算法不能處理大數(shù)據(jù)。如何讓新機(jī)器學(xué)習(xí)算法適應(yīng)大數(shù)據(jù)處理需求,是大數(shù)據(jù)時(shí)代的研究熱點(diǎn)之一。
數(shù)據(jù)分治與并行處理策略是大數(shù)據(jù)處理的基本策略,尤其是近年來在分布式和并行計(jì)算有很大發(fā)展的情況下,分治策略顯得尤為重要。一般來說,數(shù)據(jù)中不同樣本對學(xué)習(xí)結(jié)果的重要程度并不相同,一些冗余和噪音數(shù)據(jù)不僅造成大量的存儲耗費(fèi),降低學(xué)習(xí)運(yùn)行效率,還會(huì)影響學(xué)習(xí)進(jìn)度,因此更傾向于依據(jù)一定的性能標(biāo)準(zhǔn)(如保持樣本分布、拓?fù)浣Y(jié)構(gòu)以及保持分類精度等)選擇代表性樣本形成原樣本空間的子集,之后在子集上構(gòu)造學(xué)習(xí)方法,完成學(xué)習(xí)任務(wù)。
在數(shù)據(jù)挖掘、文檔分類和多媒體索引等新興領(lǐng)域中,所面臨的數(shù)據(jù)往往是大數(shù)據(jù)集,其中包含的屬性和記錄數(shù)據(jù)都很大,導(dǎo)致處理算法的執(zhí)行效率低下,通過屬性選擇可剔除無關(guān)屬性,增加分析任務(wù)的有效性,從而提高模型精度,減少運(yùn)行時(shí)間。
魯棒是Robust的譯音,是在異常和危險(xiǎn)情況下系統(tǒng)生存的能力。比如說,計(jì)算機(jī)軟件在輸入錯(cuò)誤、磁盤故障、網(wǎng)絡(luò)過載或有意攻擊情況下,能否不死機(jī)、不崩潰,也指控制系統(tǒng)在一定結(jié)構(gòu)、大小的參數(shù)攝動(dòng)下,維持其他某些性能的特性。
在監(jiān)督學(xué)習(xí)中面臨的挑戰(zhàn)是如何處理大數(shù)據(jù),面臨的兩大瓶頸是計(jì)算密集幾乎不能用于大規(guī)模數(shù)據(jù)集,魯棒和非參數(shù)的置信區(qū)間的擬合預(yù)測往往是未知的。
國內(nèi)外學(xué)者已開始對機(jī)器學(xué)習(xí)算法進(jìn)行改進(jìn),針對大規(guī)模數(shù)據(jù)的分類問題,在增量核主成分分析和基于共軛梯度的最小二乘支持向量機(jī)算法基礎(chǔ)上,大數(shù)據(jù)領(lǐng)域?qū)<铱返忍岢鲞m用于大數(shù)據(jù)特征提取和分類算法。該算法所需內(nèi)存較少,無需存儲較大矩陣,可更好地解決大規(guī)模數(shù)據(jù)分類問題。類似改進(jìn)還有很多,常用的改進(jìn)方法有隨機(jī)梯度下降、小批量梯度下降、在線學(xué)習(xí)等。
(作者單位:北京弘治銳龍教育科技有限公司)