你點開這文章,說明你清晰知道了數據才是一切的基礎。馬運說:數據是信息時到的石油,確實如此。
人工智能、機器學習、**行業大數據等應用的基礎都是基于這樣的一個流程,萬變離其宗。只是說運用領域不同,那么偏重點不同。另外,不要動不動就說大數據,現在絕大多數只是大量數據,還沒到大數據的程度。還有一些只是小數據,甚至小數據都沒到。
本文從數據采集到數據報告,詳細說明了大數據運用過程與環節,為大家樹立整體的意識。
第一步:數據采集(DAQ)
沒有數據,也就是食材,后面的工作都無從談起。所以,第一步是數據采集,又稱數據獲取,這就是數據的來源,一般數據是來源于自身業務開展中的信息,比如自己的數據庫日志,交易流水等;另外就是除了自身數據外,可以使用第三方外部網絡數據,比如爬蟲抓取、引用外部API接口等。采集什么數據,由業務決定,需要做什么事,就采集什么數據。數據有內部數據,有外部數據,看你要做什么菜,給誰吃,從而決定準備什么食材,采集什么數據,以及從哪采集,怎么采集。
第二步:數據預處理
不管是內部數據,還是外部數據,在實際場景中,結構化數據與非結構化數據都是大量存在的,并且直接面臨的問題就是數據的多、雜、亂、錯、沖突、歧義等情況。針對這些第一手數據進行整合優化,根據相應的目標清洗垃圾,統一格式規范,驗證數據可靠性,篩選對應需求的數據。
目前存在四種主流的數據預處理技術
1、數據清理:
數據清理例程通過填寫缺失值、光滑噪聲數據、識別或者刪除離群點并且解決不一致性來“清理數據”。
1)數據清理方法
(1)缺失值
對于缺失值的處理一般是想法設法把它補上,或者干脆棄之不用。一般處理方法有:忽略元組、人工填寫缺失值、使用一個全局變量填充缺失值、使用屬性的中心度量填充缺失值、使用與給定元組屬同一類的所有樣本的屬性均值或中位數、使用最可能的值填充缺失值
(2)噪聲數據
噪聲是被測量變量的隨機誤差或方差。去除噪聲、使數據“光滑”的技術:分箱、回歸、離群點分析
2)數據清理的過程
數據清理過程主要包括數據預處理、確定清理方法、校驗清理方法、執行清理工具和數據歸檔。數據清理的原理是通過分析“臟數據”產生的原因和存在形式,利用現有的技術手段和方法去清理“臟數據”,將“臟數據”轉化為滿足數據質量或應用要求的數據,從而提高數據集的數據質量。
3) 數據清理的工具
采取高效的處理工具對數據進行處理。其中常用的工具有Excel、Access、SPSS Modeler、SAS、SPSS Statistics等。
2、數據集成:
數據集成過程將來自多個數據源的數據集成到一起。
3、數據規約:
數據規約的目的是得到數據集的簡化表示。數據規約包括維規約和數值規約。
4、數據變換:
據變換使用規范化、數據離散化和概念分層等方法使得數據的挖掘可以在多個抽象層上進行。數據變換操作是引導數據挖掘過程成功的附加預處理過程。
第三步:數據分析
數據分析是一個大的概念,理論上任何對數據進行計算、處理從而得出一些有意義的結論的過程,都叫數據分析。
從數據本身的復雜程度、以及對數據進行處理的復雜度和深度來看,可以把數據分析分為以下4個層次:數據統計,OLAP,數據挖掘,大數據。
數據統計: 數據統計包括數據分析與結果分析,基本的分析方法有:
對比分析法、分組分析法、交叉分析法、結構分析法、漏斗圖分析法、綜合評價分析法、因素分析法、矩陣關聯分析法等。高級的分析方法有:相關分析法、回歸分析法、聚類分析法、判別分析法、主成分分析法、因子分析法、對應分析法、時間序列等。在探索性分析的基礎上提出一類或幾類可能的模型,然后通過進一步的分析對比從中挑選一定的模型。
從上面我們可以看出,統計學概念在數據分析中的作用:比如方差、標準差、相關系數、均方根誤差等; 集中數據分析的基本方法:假設檢驗、回歸分析、誤差分析等; 統計圖形分析:散點圖、直方圖等來探索數據中隱藏的規律; 數據庫以及數據整理。
在數據分析的過程中,應用場景不同,側重點不同,那么算法也不同,深度分析就會是數據挖掘;不需要人的參與,那么就變成了人工智能,在整個過程中,更多涉機器學習,算法訓練等領域的內容,后續展開說明。
第四步:數據呈現
數據呈現,通過一些可視化圖形或者報表形式進行展示,增強對分析結果的理解。可以以報表形式或PPT形式展示結果。針對結果進行數據再分析,使得整個業務環節形成閉環。
例:知識圖譜
最后:
如何成為一名出色的數據PD/PM/leader
①懂業務。從事數據分析工作的前提就會需要懂業務,即熟悉行業知識、公司業務及流程,最好有自己獨到的見解,若脫離行業認知和公司業務背景,分析的結果只會是脫了線的風箏,沒有太大的使用價值。
②懂管理。一方面是搭建數據分析框架的要求,比如確定分析思路就需要用到營銷、管理等理論知識來指導,如果不熟悉管理理論,就很難搭建數據分析的框架,后續的數據分析也很難進行。另一方面的作用是針對數據分析結論提出有指導意義的分析建議。
③懂分析。指掌握數據分析基本原理與一些有效的數據分析方法,并能靈活運用到實踐工作中,以便有效的開展數據分析?;镜姆治龇椒ㄓ校簩Ρ确治龇?、分組分析法、交叉分析法、結構分析法、漏斗圖分析法、綜合評價分析法、因素分析法、矩陣關聯分析法等。高級的分析方法有:相關分析法、回歸分析法、聚類分析法、判別分析法、主成分分析法、因子分析法、對應分析法、時間序列等。
④懂工具。指掌握數據分析相關的常用工具。數據分析方法是理論,而數據分析工具就是實現數據分析方法理論的工具,面對越來越龐大的數據,我們不能依靠計算器進行分析,必須依靠強大的數據分析工具幫我們完成數據分析工作。
⑤懂設計。懂設計是指運用圖表有效表達數據分析師的分析觀點,使分析結果一目了然。圖表的設計是門大學問,如圖形的選擇、版式的設計、顏色的搭配等等,都需要掌握一定的設計原則。