相信很多小伙伴發(fā)現(xiàn)在某個App上用自己賬號搜索出的商品價格和用爸媽的賬號搜索出的商品價格不一樣,有的時候價格相差得還很大,這是什么原因呢?是app出現(xiàn)了bug,還是自己眼花了?兩者都不是,實際上這個現(xiàn)象就是大數(shù)據(jù)殺熟。不止是購物方面,線上的很多訂單都存在殺熟的影子。
互聯(lián)網(wǎng)的興起已經(jīng)有很多年了,這些年來沉淀下很多用戶數(shù)據(jù),商品信息數(shù)據(jù),用戶行為數(shù)據(jù)等等,這些數(shù)據(jù)對于商業(yè)營銷是非常寶貴的資產(chǎn),如何研究這些數(shù)據(jù),并從中挖掘出其中的價值已經(jīng)是互聯(lián)網(wǎng)商業(yè)發(fā)展的必備技能。
如果說,互聯(lián)網(wǎng)底層技術(shù)是互聯(lián)商業(yè)發(fā)展的第一梯隊,大數(shù)據(jù)分析就是互聯(lián)網(wǎng)商業(yè)發(fā)展的第二梯隊。當(dāng)然,隨著以后的發(fā)展,互聯(lián)網(wǎng)商業(yè)也會遇到其他的發(fā)展挑戰(zhàn)。大數(shù)據(jù)分析不止適用于線上商業(yè),實體商業(yè)也同樣需要大數(shù)據(jù)的分析結(jié)果作為運(yùn)營基礎(chǔ)。
大數(shù)據(jù)乍聽起來好像是深不可測的樣子,感覺離自己很遙遠(yuǎn),實際上接觸了之后會發(fā)現(xiàn)大數(shù)據(jù)離自己還是很近的。舉個簡單的例子,十一假期你準(zhǔn)備出去玩,但是不知道去哪里好,作為一個互聯(lián)網(wǎng)時代的人,我們的第一反映就是去網(wǎng)上搜索"十一旅游圣地",然后再查評價,查攻略,查注意事項等等,然后再根據(jù)經(jīng)驗啊、直覺啊、喜好啊等等判斷搜索出的信息的可靠程度,最后決定十一假期去哪里完。這一套下來就是整個數(shù)據(jù)分析的雛形。
小伙伴們理解了嗎?當(dāng)然大數(shù)據(jù)分析可不是上面說的那么簡單,里面涉及了很多技術(shù)上和算法上難點。這段時間接觸了一些大數(shù)據(jù)方面的需求,簡單來講大數(shù)據(jù)只有幾個步驟:數(shù)據(jù)提取、數(shù)據(jù)清洗、數(shù)據(jù)存儲、數(shù)據(jù)展示、數(shù)據(jù)分析。對于測試來講,大數(shù)據(jù)方面方面主要涉及的環(huán)節(jié)是數(shù)據(jù)提取、數(shù)據(jù)清洗、數(shù)據(jù)存儲、數(shù)據(jù)展示四個階段,數(shù)據(jù)分析也有涉及但主要是協(xié)助,數(shù)據(jù)分析需要機(jī)器學(xué)習(xí)和數(shù)學(xué)的知識。
一、數(shù)據(jù)提取
說到數(shù)據(jù)提取不得不說的就是數(shù)據(jù)來源。趙本山的小品里有一句話:"我不想知道我是怎么來的,我只想知道我是怎么沒的。"但是,在數(shù)據(jù)提取里我們一定要知道數(shù)據(jù)是怎么來的。
數(shù)據(jù)是怎么來的一般需要知道幾個問題:
1、數(shù)據(jù)是從哪里來的?
2、數(shù)據(jù)是通過什么方式來的?
3、數(shù)據(jù)提取的類別是什么?
這幾個方面直接影響數(shù)據(jù)提取的準(zhǔn)確性和數(shù)據(jù)提取的效率。
數(shù)據(jù)是從哪里來的?
1)數(shù)據(jù)由公司系統(tǒng)采集提取;
2)數(shù)據(jù)由合作公司處理后傳輸
數(shù)據(jù)是通過什么方式來的?
1)由業(yè)務(wù)人員管理平臺手動輸入到數(shù)據(jù)庫中;
2)通過插碼或者其他技術(shù)方式存儲入庫;
3)接口傳輸數(shù)據(jù)入庫;
4)通過文件傳輸數(shù)據(jù),解析文件內(nèi)容入庫
數(shù)據(jù)提取的類別是什么?
1)增量提取
2)全量提取
這些數(shù)據(jù)被稱為源數(shù)據(jù),提取成功后會存儲到指定的數(shù)據(jù)庫中。在提取的過程中,如果數(shù)據(jù)不符合規(guī)范或者數(shù)據(jù)量級超出系統(tǒng)能夠承受的闕值,數(shù)據(jù)提取將會有誤或者失敗。
二、數(shù)據(jù)清洗
數(shù)據(jù)清洗就是把臟數(shù)據(jù)清洗掉,提高數(shù)據(jù)質(zhì)量。?在數(shù)據(jù)提取的過程中會應(yīng)為某種原因?qū)е麓嫒鐢?shù)據(jù)庫中的數(shù)據(jù)質(zhì)量存在問題。這些數(shù)據(jù)在后續(xù)的分析中沒有任何實際的意義,甚至?xí)?dǎo)致數(shù)據(jù)無法進(jìn)行分析。
數(shù)據(jù)清洗一般包括數(shù)據(jù)分析,定義和執(zhí)行清洗規(guī)則,清洗結(jié)果驗證等步驟。數(shù)據(jù)清洗一般會檢查拼寫錯誤、去掉重復(fù)的(duplicate)記錄、補(bǔ)上不完全的(incomplete)記錄、解決不一致的(inconsistent)記錄。確認(rèn)數(shù)據(jù)不存在數(shù)據(jù)內(nèi)容和數(shù)據(jù)屬性的問題后,會根據(jù)業(yè)務(wù)規(guī)則或者數(shù)據(jù)分析人員的要求重新整合數(shù)據(jù)。
三、數(shù)據(jù)存儲
整合完畢的數(shù)據(jù)需要存儲到目標(biāo)數(shù)據(jù)庫中,在數(shù)據(jù)存儲過程中有些數(shù)據(jù)的格式、長度不符合數(shù)據(jù)庫表的規(guī)范,這些數(shù)據(jù)便會入庫失敗。
截止到2012年,數(shù)據(jù)量已經(jīng)從TB(1024GB=1TB)級別躍升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級別。由于大數(shù)據(jù)的量級如此龐大,因此在數(shù)據(jù)存儲時不僅僅要考慮數(shù)據(jù)存儲的準(zhǔn)確性,還需要考慮數(shù)據(jù)存儲的效率以及數(shù)據(jù)存儲發(fā)生異常時數(shù)據(jù)的回滾問題。
四、數(shù)據(jù)展示
大數(shù)據(jù)的量級決定了數(shù)據(jù)庫表的結(jié)構(gòu)會比較復(fù)雜。一般會根據(jù)業(yè)務(wù)按照月份、省份建表。也就是說同一個業(yè)務(wù)報表中的數(shù)據(jù)會從不同的表中讀取。因為數(shù)據(jù)的來源不同,頁面的展示就會有很多意外的"驚喜"。比如數(shù)據(jù)展示不正確,或者數(shù)據(jù)根本就不展示。常見原因有以下幾點:
1)頁面報表的橫向和縱向內(nèi)容與數(shù)據(jù)庫的表結(jié)構(gòu)不符
2)數(shù)據(jù)庫表中沒有數(shù)據(jù)
3)頁面調(diào)度數(shù)據(jù)腳本沒有執(zhí)行
4)前端定義錯誤,頁面報錯
數(shù)據(jù)經(jīng)過以上的處理之后就會發(fā)送給大數(shù)據(jù)分析工程師,對用戶的分析("殺熟")就開始了。很多人對于大數(shù)據(jù)"殺熟"都很不喜歡,但是這是一種商業(yè)的運(yùn)營模式,只不過是由之前的線下"殺熟"變成的現(xiàn)在的線上"殺熟"。這也是人們生活習(xí)慣的變化,也體現(xiàn)了技術(shù)的進(jìn)步,習(xí)慣就好。對于大數(shù)據(jù)測試來說,測試的對象變得更加抽象,對于技術(shù)的要求則更高。但是這也不代表著大數(shù)據(jù)測試時高不可攀的,大數(shù)據(jù)測試的根本還是測試,基本功扎實,再補(bǔ)充大數(shù)據(jù)方面的知識,這些問題都不是事。