Data Science (數(shù)據(jù)科學(xué))作為現(xiàn)如今最炙手可熱的領(lǐng)域之一,越來越受到人們的關(guān)注。而數(shù)據(jù)分析背后充滿了概率統(tǒng)計(jì)的知識(shí)。因此,打下良好的概率論基礎(chǔ)是必須的。
數(shù)據(jù)類型
‘巧婦難為無米之炊’,數(shù)據(jù)分析的‘主料’即為數(shù)據(jù)。當(dāng)我們對(duì)一組數(shù)據(jù)作分析的時(shí)候,一定要明確的是,這組數(shù)據(jù)只是研究對(duì)象(population)中的一部分樣本(sample)。我們只是對(duì)一部分樣本進(jìn)行分析,然后去推測(cè)出整個(gè)對(duì)象的規(guī)律。
首先,需要明確的是:數(shù)據(jù)分析中,數(shù)據(jù)量越多,樣本越大,結(jié)果越準(zhǔn)確。
那有人會(huì)問,既然這樣,為什么不搜集海量的數(shù)據(jù)呢?大部分的工作只是為了找到一個(gè)近似的規(guī)律,而且過大的數(shù)據(jù)量會(huì)帶來收集費(fèi)用的飆升、處理難度和時(shí)間的增加。因此,數(shù)據(jù)處理第一步,我們要試著去平衡數(shù)據(jù)量和處理的耗費(fèi)(金錢與時(shí)間)。
數(shù)據(jù)類型大體分為兩種:數(shù)值(如房?jī)r(jià))和類別(如品牌,姓名等)。
而數(shù)值型數(shù)據(jù)可細(xì)分為離散(不連續(xù))和連續(xù)數(shù)據(jù)。
圖1: 概率分布類型
概率分布可以很好的展現(xiàn)數(shù)據(jù)的內(nèi)在規(guī)律,圖1中就總結(jié)歸納了大部分的概率分布類型。接下來,我們就簡(jiǎn)單的理解一下這些概率分布。
伯努利分布(Bernoulli Distribution)
伯努利分布是概率分布中最簡(jiǎn)單、最基本也是最基礎(chǔ)的分布形式之一。我們從圖1可以看到很多復(fù)雜的概率分布都是基于伯努利分布。
怎么理解伯努利分布呢?單次實(shí)驗(yàn)和兩種情況。
伯努利分布代碼
伯努利分布
舉例說明:假如女人生孩子,生男孩概率是60%,生女孩概率是40%。那么,伯努利分布就是--- 生一次孩子,生男孩的概率為 p = 60%, 而生女孩的概率為 1 - p = 40%。如上圖所示。
關(guān)鍵詞:?jiǎn)未螌?shí)驗(yàn),兩種情況分類
二項(xiàng)式分布(Binomial Distribution)
基于前面介紹的伯努利分布,可以衍生出二項(xiàng)式分布:n重伯努利試驗(yàn)「成功」次數(shù)的離散概率分布。繼續(xù)以生孩子為例:
生一次孩子,生男孩的概率為 p = 60%, 而生女孩的概率為 1 - p = 40%。
假如生了 n 個(gè)孩子,其中男孩為 x 個(gè),女孩為(n - x)的概率。
重點(diǎn):
- 單次試驗(yàn)重復(fù)多次;
- 單次試驗(yàn)為伯努利分布;
- 各次試驗(yàn)相互獨(dú)立。也就是說每次生孩子,生男孩和生女孩概率不變,都是60%和40%。
二項(xiàng)式分布公式
如果我們假定生了 n 個(gè)孩子,其中男孩是4個(gè)(固定值),那么隨著n的變化,二項(xiàng)式分布的概率圖會(huì)怎么變呢?
二項(xiàng)式分布代碼
二項(xiàng)式分布圖
如上圖所示,如果生了4孩子且全是男孩,概率0.6的四次方 = 0.1296。 當(dāng)生了6個(gè)孩子的時(shí)候,有四個(gè)是男孩的概率達(dá)到了0.311。并且隨著孩子越來越多,幾乎不可能保證只生了4個(gè)男孩,其他都是女孩,畢竟單次生男孩的概率要大一些。
正態(tài)分布(高斯分布)
正態(tài)分布是最最最重要的分布之一,在數(shù)據(jù)分析領(lǐng)域也是最常見的分布之一。我們生活中很多常見現(xiàn)象都遵循正態(tài)分布,比如說收入分布,身高分布等等。
正態(tài)分布
舉個(gè)例子,比如說你去相親,而你最在意的標(biāo)準(zhǔn)是相親對(duì)象的身高,所以你對(duì)相親對(duì)象的身高做了統(tǒng)計(jì),你會(huì)發(fā)現(xiàn)大部分人的身高會(huì)集中在一定的范圍呢,而只有很少的人會(huì)很高或者很矮。
身高分布
大部分的女生會(huì)集中在155到160 cm之間,這也很符合我們?nèi)粘K姟?/p>
正態(tài)分布的特點(diǎn):
- 正態(tài)分布左右對(duì)稱;
- 正態(tài)分布曲線下的面積為1,也就是說正態(tài)分布的所有情況出現(xiàn)的概率之和為1。
正態(tài)分布
正態(tài)分布中,最重要的兩個(gè)參數(shù)是 平均值 μ 和標(biāo)準(zhǔn)差 σ。也就是說如果告訴我們這兩個(gè)參數(shù),我們就可以知道正態(tài)分布下每種情況出現(xiàn)的概率。
正態(tài)分布
上面這張圖是什么意思呢?具體來說就是,滿足正態(tài)分布,68.27%的情況都會(huì)出現(xiàn)在平均值正負(fù)1個(gè)標(biāo)準(zhǔn)差以內(nèi)。比如說,女生身高平均值是160 cm, 標(biāo)準(zhǔn)差為5 cm。那么,68.27%的女生的身高會(huì)在155 到 165 cm之間。95.45%的女生身高在150 (平均值減去2個(gè)標(biāo)準(zhǔn)差)到170 cm之間。
在機(jī)器學(xué)習(xí)領(lǐng)域,很多的機(jī)器學(xué)習(xí)模型也是遵循正態(tài)分布的,比如說:
- 高斯樸素貝葉斯分類器 (Gaussian Naive Bayes Classifier)
- 線性判別分析(Linear Discriminant Analysis)
- 二次判別分析(Quadratic Discriminant Analysis)
- 基于最小二乘法的回歸模型(Least Squares based regression models)
泊松分布(Poisson Distribution)
泊松分布適合于描述單位時(shí)間內(nèi)隨機(jī)事件發(fā)生的次數(shù)的概率分布。如某一服務(wù)設(shè)施在一定時(shí)間內(nèi)受到的服務(wù)請(qǐng)求的次數(shù),電話交換機(jī)接到呼叫的次數(shù)、汽車站臺(tái)的候客人數(shù)、機(jī)器出現(xiàn)的故障數(shù)、自然災(zāi)害發(fā)生的次數(shù)、DNA序列的變異數(shù)、放射性原子核的衰變數(shù)、激光的光子數(shù)分布等等。 --------------維基百科
泊松分布
泊松分布的計(jì)算公式如上。λ是單位時(shí)間(或單位面積)內(nèi)隨機(jī)事件的平均發(fā)生率,比如說你預(yù)測(cè)一天平均有300人來醫(yī)院就診。而醫(yī)院醫(yī)生的滿負(fù)荷量是400人,那么出現(xiàn)一天有400人就診的概率則滿足泊松分布。
泊松分布
知道泊松分布有什么用呢?根據(jù)單位時(shí)間內(nèi)出現(xiàn)概率的大小可以做出決策。比如說,當(dāng)你舉辦一次抽獎(jiǎng)活動(dòng),你的設(shè)計(jì)是平均每天只有5(λ)個(gè)一等獎(jiǎng)產(chǎn)生,那么,就可以算出來一天產(chǎn)生了10個(gè)一等獎(jiǎng)概率是多少?0.018132788707821854。
也就是說一天出現(xiàn)10次一等獎(jiǎng)概率只為1.8%。 可以放心了,不會(huì)超預(yù)算了!
總結(jié)
概率學(xué)在人類生活決策中隨處可見。很多人過著不滿意的生活,可能就是放棄了概率選擇權(quán)的原因。什么概率選擇權(quán)呢?
比如說,有個(gè)富豪說給你兩種選擇:
- 直接給你500萬;
- 你可以抽獎(jiǎng),概率是50%機(jī)會(huì)拿到2000萬,而50%概率什么也沒有;
那么你會(huì)選擇什么呢?
大部分人會(huì)選擇第一種。因?yàn)槁浯鼮榘玻铱沙惺懿黄鸬诙N什么也沒抽到的情況,我會(huì)后悔死。
但是,我們從概率學(xué)來說,第一種的期望值是500萬 (出現(xiàn)的情況 * 出現(xiàn)的概率 之和: 500 * 100%),而第二種的期望值是(50% * 2000 + 50% * 0 = 1000萬)。第二種選擇的期望值明顯要高于第一種。這個(gè)比較抽象,和具體現(xiàn)實(shí)沒聯(lián)系。
那么,這種情況呢?
比如說:你在大公司年薪10萬,工作穩(wěn)定。現(xiàn)在有一個(gè)創(chuàng)業(yè)公司過來挖你,給出的工資是5萬,但是有股票(股票只能上市之后兌現(xiàn),價(jià)值5000萬)。但是創(chuàng)業(yè)都是九死一生,成功上市的概率可能只有1%。
這種情況你會(huì)如何選擇呢?如果可以,請(qǐng)留言告訴我你的答案,我們也好看看你是否也放棄了概率選擇權(quán)。