昨天有位剛?cè)胄袛?shù)據(jù)分析的朋友跟我吐槽,自己入門到現(xiàn)在只會用Excel做做分析圖表,但是感覺越做越?jīng)]有價值,數(shù)據(jù)分析似乎就是業(yè)務(wù)數(shù)據(jù)的分析員,不知道該如何提升自己。
這是因?yàn)樗麤]有完全把數(shù)據(jù)分析的價值挖掘出來,數(shù)據(jù)分析是為了通過對數(shù)據(jù)現(xiàn)象的查看來完成對產(chǎn)品、營銷策略、運(yùn)營策略的優(yōu)化,不僅是對業(yè)務(wù),更重要的是要掌握數(shù)據(jù)分析的各種技能,從能力增長上突破職業(yè)的天花板。
根據(jù)我總結(jié)的經(jīng)驗(yàn),一個合格的、高級的大數(shù)據(jù)分析師必須要掌握以下9種技能:
- 統(tǒng)計(jì)分析:大數(shù)定律、抽樣推測規(guī)律、秩和檢驗(yàn)、回歸、預(yù)測;
- 可視化輔助工具:excel、BI工具、Python
- 大數(shù)據(jù)處理框架:Hadoop、storm、spark
- 數(shù)據(jù)庫:SQL、MySQL、DB
- 數(shù)據(jù)倉庫:SSIS、SSAS
- 數(shù)據(jù)挖掘工具:Matlab、R語言、python
- 人工智能:機(jī)器學(xué)習(xí)
- 挖掘算法:數(shù)據(jù)結(jié)構(gòu)、一致性
- 編程語言:JAVA、python
一、統(tǒng)計(jì)分析
眾所周知,統(tǒng)計(jì)學(xué)是數(shù)據(jù)分析的基石。學(xué)了統(tǒng)計(jì)學(xué),你會發(fā)現(xiàn)很多時候的分析并不那么準(zhǔn)確,比如很多人都喜歡用平均數(shù)去分析一個事物的結(jié)果,但是這往往是粗糙的的。而統(tǒng)計(jì)學(xué)可以幫助我們以更科學(xué)的角度看待數(shù)據(jù),逐步接近這個數(shù)據(jù)背后的“真相”。
大部分的數(shù)據(jù)分析,都會用到統(tǒng)計(jì)方面的以下知識,可以重點(diǎn)學(xué)習(xí):
- 基本的統(tǒng)計(jì)量:均值、中位數(shù)、眾數(shù)、方差、標(biāo)準(zhǔn)差、百分位數(shù)等
- 概率分布:幾何分布、二項(xiàng)分布、泊松分布、正態(tài)分布等
- 總體和樣本:了解基本概念,抽樣的概念
- 置信區(qū)間與假設(shè)檢驗(yàn):如何進(jìn)行驗(yàn)證分析
- 相關(guān)性與回歸分析:一般數(shù)據(jù)分析的基本模型
了解統(tǒng)計(jì)學(xué)的原理之后,你不一定能夠通過工具實(shí)現(xiàn),那么你需要去對應(yīng)的找網(wǎng)上找相關(guān)的實(shí)現(xiàn)方法,也可以看書。
先推薦一本非常簡單的:吳喜之-《統(tǒng)計(jì)學(xué)·從數(shù)據(jù)到結(jié)論》;也可以看《商務(wù)與經(jīng)濟(jì)統(tǒng)計(jì)》,結(jié)合業(yè)務(wù)能更容易理解。
另外,如果想要更進(jìn)一步,請掌握一些主流算法的原理,比如線性回歸、邏輯回歸、決策樹、神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)分析、聚類、協(xié)同過濾、隨機(jī)森林。
再深入一點(diǎn),還可以掌握文本分析、深度學(xué)習(xí)、圖像識別等相關(guān)的算法。關(guān)于這些算法,不僅需要了解其原理,你最好可以流暢地闡述出來,還需要你知曉其在各行業(yè)的一些應(yīng)用場景。如果現(xiàn)階段不是工作剛需,可不作為重點(diǎn)。
二、可視化輔助工具
數(shù)據(jù)可視化主要通過編程和非編程兩類工具實(shí)現(xiàn),對于普通行業(yè)的數(shù)據(jù)分析師來說,不需要掌握編程類的可視化工具,學(xué)習(xí)麻煩而且沒有必要,掌握下面幾種即可:
1、excel
別以為EXCEL只會處理表格,你可以把它當(dāng)成數(shù)據(jù)庫,也可以把它當(dāng)成IDE,甚至可以把它當(dāng)成數(shù)據(jù)可視化工具來使用。它可以創(chuàng)建專業(yè)的數(shù)據(jù)透視表和基本的統(tǒng)計(jì)圖表,但由于默認(rèn)設(shè)置了顏色、線條和風(fēng)格,使其難以創(chuàng)建用于看上去“高大上”視覺效果。盡管如此,我仍然推薦你使用Excel。
2、BI工具
近幾年冒出來的BI之秀,如TB、qlk都強(qiáng)調(diào)可視化,一改傳統(tǒng)BI工具SAP BO、IBM家的cognos(不過近幾年貌似都在研發(fā)云BI)。這里不談開源,還沒見到能成熟應(yīng)用的BI。成熟的BI工具如 FineBI (國內(nèi))和 Tableau(國外),都很推薦。
tableau可視化探索分析很贊,數(shù)據(jù)量多的時候性能較差,企業(yè)用多并發(fā)價格貴。FineBI 國產(chǎn)帆軟,為數(shù)不多能占據(jù)世界領(lǐng)先地位的數(shù)據(jù)工具,重在數(shù)據(jù)處理性能和企業(yè)應(yīng)用的復(fù)雜情況(市場步伐很快),自帶ETL,可視化還行,價格良心,個人用免費(fèi)。
3、python
學(xué)過Python數(shù)據(jù)分析的朋友都知道,在可視化的工具中,有很多優(yōu)秀的三方庫,比如matplotlib,seaborn,plotly,Boken,pyecharts等等,這些可視化庫都有自己的特點(diǎn),在實(shí)際應(yīng)用中也廣為大家使用。
如果你不知道數(shù)據(jù)分析該學(xué)什么工具,就直接學(xué)python吧,萬能語言學(xué)了不虧。
三、大數(shù)據(jù)處理框架
如果你想脫離普通業(yè)務(wù)的束縛,做一名大數(shù)據(jù)分析師,首先就要了解大數(shù)據(jù)框架的基礎(chǔ)。
大數(shù)據(jù)處理框架負(fù)責(zé)對大數(shù)據(jù)系統(tǒng)中的數(shù)據(jù)進(jìn)行計(jì)算,數(shù)據(jù)包括從持久存儲中讀取的數(shù)據(jù)或通過消息隊(duì)列等方式接入到系統(tǒng)中的數(shù)據(jù),而計(jì)算則是從數(shù)據(jù)中提取信息的過程。
我們按照對所處理的數(shù)據(jù)形式和得到結(jié)果的時效性進(jìn)行分類,分為批處理系統(tǒng)、流處理系統(tǒng)和混合式系統(tǒng)。典型的批處理系統(tǒng)就是Apache Hadoop;典型的流處理系統(tǒng)有Apache Storm,Apache Samza;混合處理系統(tǒng)比如Apache Spark,Apache Flink。
四、數(shù)據(jù)庫
數(shù)據(jù)分析是分等級的,有只負(fù)責(zé)清洗數(shù)據(jù)的,比較少,工作也比較簡單;還有就是負(fù)責(zé)建模的,掌握常用的十多個機(jī)器學(xué)習(xí)算法就能是二流的了,要做到一流的就要熟練掌握各個算法的本質(zhì)了,也就是要掌握數(shù)據(jù)庫的基礎(chǔ)。
sql在數(shù)據(jù)庫里是核心技術(shù),在數(shù)據(jù)分析學(xué)習(xí)時一定要重視這些內(nèi)容,主要以MySQL為主,MySQL就是互聯(lián)網(wǎng)行業(yè)的通用標(biāo)準(zhǔn)。
當(dāng)然,如果你想要快速掌握數(shù)據(jù)庫的知識,一定要進(jìn)行系統(tǒng)化的學(xué)習(xí)以及大量的練習(xí),在網(wǎng)上尋找一些數(shù)據(jù)庫的練習(xí)題,先從簡單的題開始,循序漸進(jìn),這樣才能夠慢慢的深入數(shù)據(jù)庫的核心知識。
五、數(shù)據(jù)倉庫/商業(yè)智能
在進(jìn)行數(shù)據(jù)分析的時候,我們總會遇到一些名詞,比如數(shù)據(jù)倉庫。數(shù)據(jù)倉庫是數(shù)據(jù)分析中一個比較重要的東西,數(shù)據(jù)倉庫是一個面向主題的、集成的、相對穩(wěn)定的、反應(yīng)歷史變化的數(shù)據(jù)集合。
數(shù)據(jù)分析中的工作最重要的就是數(shù)據(jù)處理工作,根據(jù)我做數(shù)據(jù)分析的經(jīng)驗(yàn),在整個數(shù)據(jù)分析流程中,用于數(shù)據(jù)處理的時間往往要占據(jù)70%以上,而數(shù)據(jù)倉庫具有集成、穩(wěn)定、高質(zhì)量等特點(diǎn),基于數(shù)據(jù)倉庫為數(shù)據(jù)分析提供數(shù)據(jù),往往能夠更加保證數(shù)據(jù)質(zhì)量和數(shù)據(jù)完整性。
六、數(shù)據(jù)挖掘工具
在做數(shù)據(jù)分析時,數(shù)據(jù)挖掘軟件是其中必不可少的工具之一。它是大多數(shù)商業(yè)智能計(jì)劃中的核心應(yīng)用程序,數(shù)據(jù)挖掘軟件同樣也能夠從大量數(shù)據(jù)中提取洞察力。
直接說需要學(xué)習(xí)的語言:MATLAB、Python、R。
1、MATLAB
雖然偏學(xué)術(shù)性,但是好上手,上手以后就可以跑一些算法,提高一些信心和學(xué)習(xí)的樂趣。教材看官方手冊的Primer,然后就開始寫腳本和函數(shù),如果有看不懂的直接百度、google或者h(yuǎn)elp。
2、Python和R
這兩個放在一起,是因?yàn)榫W(wǎng)上關(guān)于這兩個的爭論太多了。我的順序是首先學(xué)python,其次再是R。首先python,先看《Head First Python》,簡單易懂,然后是《利用Python進(jìn)行數(shù)據(jù)分析》和《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》。第一本書主要是利用Python做數(shù)據(jù)挖掘的,基本提到Python學(xué)習(xí)都會推薦這本。第二本是理解機(jī)器學(xué)習(xí)的佳作,書中用到的語言就是Python,一邊學(xué)語言,一邊理解機(jī)器學(xué)習(xí)。
七、人工智能
嚴(yán)格意義上,人工智能與數(shù)據(jù)分析有著明顯的界限,不屬于同一領(lǐng)域,因此這一條是針對大數(shù)據(jù)分析科學(xué)家來說的,當(dāng)你的分析能力還比較低時,可以略過不看此章。
機(jī)器學(xué)習(xí)、人工智能涵蓋的知識層面太廣太深,所以會建議采取 problem-based learning 的學(xué)習(xí)方式,先選定問題,然后找到資源來解問題,再更深入的去了解,解問題過程中,遇到的名詞與知識。
八、挖掘算法
很多人認(rèn)為數(shù)據(jù)挖掘需要掌握復(fù)雜高深的算法,需要掌握技術(shù)開發(fā),才能把數(shù)據(jù)挖掘分析做好,實(shí)際上并非這樣,其實(shí)算法并不難,只需要結(jié)合實(shí)際業(yè)務(wù)背景、以解決問題為導(dǎo)向就簡單很多了,主要包括分類算法,聚類算法,關(guān)聯(lián)分析,連接分析等,是學(xué)習(xí)數(shù)據(jù)挖掘必須要掌握的算法基礎(chǔ)。
九、編程語言
比如python、r語言、java等等,你該使用哪種語言用于數(shù)據(jù)分析?恐怕這還得“視情況而定”。
如果你對晦澀的統(tǒng)計(jì)運(yùn)算進(jìn)行繁重的數(shù)據(jù)分析工作,那么你不青睞R才怪。如果你跨GPU進(jìn)行NLP或密集的神經(jīng)網(wǎng)絡(luò)處理,那么Python是很好的選擇。如果想要一種加固的、面向生產(chǎn)環(huán)境的數(shù)據(jù)流解決方案,又擁有所有重要的操作工具,Java或Scala絕對是出色的選擇。