26.uuuu日韩,欧美日韩精品一区二区三区 ,日本AⅤ区一区二

　如果您知道如何以及何時使用泊松回歸，它可能是一個非常有用的工具。在大數據分析R中泊松回歸模型實例中，我們將深入研究泊松回歸，它是什么以及R程序員如何在現實世界中使用它。

　　具體來說，我們將介紹：

　　1)泊松回歸實際上是什么，什么時候應該使用它

　　2)泊松分布及其與正態分布的區別

　　3)使用GLM進行泊松回歸建模4)

　　5)為計數數據建模泊松回歸

　　6)使用jtools可視化來自模型的發現

　　7)為費率數據建模泊松回歸

　　什么是泊松回歸模型?

　　泊松回歸模型最適合用于以結果為計數的事件建模。或更具體地講，計數數據：具有非負整數值的離散數據對某事進行計數，例如在給定時間范圍內事件發生的次數或雜貨店排隊的人數。

　　計數數據也可以表示為比率數據，因為事件在時間范圍內發生的次數可以表示為原始計數(即“一天，我們吃三頓飯”)或比率(“我們以每小時0.125餐”)。

　　泊松回歸可以讓我們確定哪些解釋變量(X值)對給定的響應變量(Y值，計數或比率)產生影響，從而幫助我們分析計數數據和比率數據。例如，雜貨店可以使用泊松回歸來更好地了解和預測生產線中的人數。

　　什么是泊松分布?

　　泊松分布是一種以法國數學家SiméonDenis Poisson命名的統計理論。它假設在特定時間范圍內發生事件y的概率，假設 y的發生不受y先前發生時間的影響。可以使用以下公式以數學方式表示：

　　此處， μ (在某些教科書中，您可能會看到 λ 而不是 μ)是每單位曝光可能發生的事件的平均次數。也稱為泊松分布參數。該曝光可以是時間，空間，人口尺寸，距離或面積，但它往往是時間，與表示噸。如果未給出曝??光值，則假定它等于 1。

　　讓我們通過為不同的μ值創建泊松分布圖來形象化這一點。

　　首先，我們將創建6種顏色??的向量：

　　接下來，我們將為分布創建一個列表，該列表將具有不同的μ值：

　　然后，我們將為μ創建一個值向量，并在每個μ的分位數范圍為0-20 的值之間循環，并將結果存儲在列表中：

　　最后，我們將使用繪制點 plot()。 plot() 是R中的基本圖形功能。在R中繪制數據的另一種常見方法是使用流行的 ggplot2 軟件包。這在AAA教育的R課程中有所介紹。但是對于大數據分析R中泊松回歸模型實例https://www.aaa-cg.com.cn/data/2594.html，我們將堅持使用基本R函數。

　　請注意，我們曾經dpois(sequence,lambda) 在Poisson分布中繪制概率密度函數(PDF)。在概率論中，概率密度函數是描述連續隨機變量(其可能值為隨機事件的連續結果的變量)具有給定值的相對可能性的函數。(在統計中，“隨機”變量只是其結果是隨機事件的結果的變量。)

　　泊松分布與正態分布有何不同?

　　泊松分布最常用于查找在給定時間間隔內發生事件的概率。由于我們是在討論計數，對于Poisson分布，結果必須為0或更高–事件不可能發生負次數。另一方面，正態分布是連續變量的連續分布，它可能導致正值或負值：

　　我們可以在R中生成正態分布，如下所示：

　　在R中，dnorm(sequence, mean, std.dev) 用于繪制正態分布的概率密度函數(PDF)。

　　要了解泊松分布，請從Chi Yau的R Tutorial教科書中考慮以下問題：

　　如果平均每分鐘有12輛汽車過橋，那么在任何給定的分鐘內有十七輛或更多的汽車過橋的概率是多少?

　　在這里，每分鐘過橋的平均汽車數量為 μ = 12。

　　ppois(q, u, lower.tail = TRUE) 是R函數，可提供隨機變量小于或等于某個值的可能性。

　　我們必須找到擁有十七輛或更多汽車的可能性，因此我們將 lower.trail = FALSE q設置為16：

　　要獲得百分比，我們只需要將此輸出乘以100?，F在我們有了問題的答案：在任何特定分鐘內，有17輛或更多的汽車過橋的可能性為10.1%。

　　泊松回歸模型和GLM

　　廣義線性模型是其中響應變量遵循除正態分布以外的其他分布的模型。這與線性回歸模型相反，在線性回歸模型中，響應變量遵循正態分布。這是因為廣義線性模型具有分類的響應變量，例如“是”，“否”;或A組，B組，因此，范圍從-∞到+∞。因此，響應變量和預測變量之間的關系可能不是線性的。在GLM中：

　　ÿ 我 ?=? α ?+? β 1 X 1 我 ?+? β 2 X 2 我 ?+ ... + β p X p我 ?+? Ê 我???????????????我 ?= 1,2，...。ñ

　　響應變量 y i 由預測變量和某些誤差項的線性函數建模。

　　泊松回歸模型是廣義線性模型(GLM) ，用于對計數數據和列聯表建模。輸出 Y (計數)是遵循泊松分布的值。它假設可以通過一些未知參數將其建模為線性形式的期望值(均值)的對數。

　　注意：在統計信息中，列聯表(示例)是取決于多個變量的頻率矩陣。

　　要將非線性關系轉換為線性形式，可以使用鏈接函數，該函數是泊松回歸的對數。因此，泊松回歸模型也稱為對數線性模型。泊松回歸模型的一般數學形式為：

　　升 Ô 克(Ý)= α ?+? β 1 X 1 ?+? β 2 X 2 ?+ ... + β p X p

　　哪里，

　　1)y：是響應變量

　　2)α 和 β：是數值系數， α 為截距，有時 α 也被表示為 β 0，它是相同的

　　3)x 是預測變量/解釋變量

　　使用諸如最大似然估計(MLE)或最大擬似然之類的方法來計算系數。

　　考慮具有一個預測變量和一個響應變量的方程：

　　l o g(y)= α ?+? β(x)

　　這等效于：

　　Ý ?=? È (α ?+? β(X)) ?=? È α ?+? Ê β ?*? X

　　注意：在Poisson回歸模型中，預測變量或解釋變量可以同時包含數值或分類值。

　　等分散是泊松分布和泊松回歸最重要的特征之一，這意味著分布的均值和方差相等。

　　方差度量數據的傳播。它是“與均值平方差的平均值”。如果所有值都相同，則方差(Var)等于0。值之間的差異越大，方差越大。平均值是數據集的平均值。平均值是值的總和除以值的數量。

　　假設平均值(μ)表示為 E(X)

　　E(X)= μ

　　對于泊松回歸，均值和方差如下：

　　v一個[R (X)= σ 2 ë(X)

　　其中 σ 2 是色散參數。由于 v一個[R (X)= È(X)(=方差平均值)必須持有泊松模型是完全適合， σ 2 必須等于1。

　　當方差大于均值時，稱為過度分散，并且大于1。如果小于1，則稱為欠分散。

　　使用計數數據進行泊松回歸建模

　　在R中，該 glm() 命令用于對廣義線性模型進行建模。這是以下內容的一般結構 glm()：

　　在大數據分析R中泊松回歸模型實例中，我們將使用這三個參數。有關更多詳細信息，請查閱 R文檔，但讓我們快速看一下它們各自指的是什么：

　　glm() 通過以下默認鏈接功能為家庭提供八個選擇：

　　讓我們開始建模吧!

　　我們將對與編織過程中紗線斷裂的頻率有關的泊松回歸建模。這些數據可以datasets 在R 的包中找到，因此我們要做的第一件事是使用安裝包install.package("datasets") 并使用加載庫 library(datasets)：

　　該 datasets 程序包包含大量數據集，因此我們需要專門選擇紗線數據。查閱軟件包文檔，我們可以看到它稱為 warpbreaks，因此讓我們將其存儲為對象。

　　讓我們看一下數據：

　　輸出： [1] "breaks" "wool" "tension"

　　我們的數據中有什么?

　　該數據集查看每根固定長度的織機上不同類型的織機發生了多少經紗斷裂。我們可以在此處的文檔中閱讀有關此數據集的更多詳細信息，但是這是我們將要查看的三列以及每列所指的內容：

　　在這六種類型的經紗中，有9種織機上都有測量值，數據集中總共有54個條目。

　　讓我們看一下如何使用ls.str() 命令來構造數據：

　　輸出：

　　從上面可以看到數據中存在的類型和級別。閱讀此書可進一步了解R中的因素。

　　現在，我們將使用 data 數據框。記住，使用泊松分布模型，我們試圖找出一些預測變量如何影響響??應變量。在這里， breaks 是響應變量 wool 和 tension 是預測變量。

　　我們可以breaks 通過創建直方圖來查看因變量數據的連續性：

　　顯然，數據不是像正態分布那樣呈鐘形曲線形式。

　　讓我們來檢查 mean() 和 var() 的因變量：

　　輸出： [1] 28.14815

　　輸出： [1] 174.2041

　　方差遠大于平均值，這表明我們將在模型中出現過度分散現象。

　　讓我們使用glm() 命令擬合泊松模型。

　　summary() 是用于生成各種模型擬合函數結果的結果摘要的通用函數。

　　輸出：

　　解釋泊松模型

　　我們剛剛獲得了很多信息，現在我們需要對其進行解釋。命名的第一列 Estimate 是的系數值 α (截距)， β 1 等。以下是參數估計的解釋：

　　1)當x = 0時，e x p(α)=對均值μ的影響

　　2)È X p(β)=在X每單位增加，預測器變量具有倍增效應 ë X p(β上Y的平均值)，即 μ

　　3)如果 β = 0，則exp(β)= 1，并且預期計數為 e x p(α)，并且Y和X不相關。

　　4)如果 β > 0，則exp(β)> 1，并且預期計數是exp(β)的乘積是X = 0時的乘積

　　5)如果 β <0，則exp(β)<1，并且預期計數是exp(β)的乘積，比X = 0時小。

　　如果 family = poisson 保留， glm() 則使用最大似然估計MLE計算這些參數。

　　R將類別變量視為偽變量。通過為變量中的級別分配一些數字表示形式，類別變量(也稱為指標變量)被轉換為虛擬變量。一般規則是，如果因子變量中有 k個類別，則輸出 glm() 將有 k -1個類別，其余1作為基本類別。

　　我們可以在上面的摘要中看到，對于羊毛，“ A”已成為基礎，未在摘要中顯示。同樣，對于張力“ L”已成為基本類別。

　　要查看哪些解釋變量對響應變量有影響，我們將查看 p 值。如果 p小于0.05，則該變量會影響響應變量。在上面的總結中，我們可以看到所有的p值均小于0.05，因此，兩個解釋變量(羊毛和張力)均對休息產生重大影響。注意*** 在每個變量的末尾如何使用R輸出。星星數表示重要性。

　　在開始解釋結果之前，讓我們檢查模型是過度分散還是分散不足。如果“ 殘余偏差” 大于自由度，則存在過度分散。這意味著估算是正確的，但是標準誤差(標準偏差)是錯誤的，模型無法解釋。

　　Null偏差顯示僅包含截距(均值)的模型對響應變量的預測程度，而包含自變量的模型對響應變量的預測程度。上面我們可以看到，添加了3個(53-50 = 3)自變量，將偏差從297.37降低到210.39。值之間的更大差異意味著不合適。

　　因此，要獲得更正確的標準誤差，我們可以使用擬泊松模型：

　　輸出：

　　比較模型：
　　現在我們有了兩個不同的模型，讓我們比較一下它們，看看哪個更好。首先，我們將安裝該arm 庫，因為該庫包含我們需要的功能：

　　現在，我們將使用該 se.coef() 函數從每個模型中提取系數，然后 cbind() 將提取的值組合到單個數據幀中，以便進行比較。

　　輸出：

　　在上面的輸出中，我們可以看到系數相同，但標準誤差不同。

　　牢記這些要點，讓我們來看看羊毛的估算。它的值是 -0.2059884，并且指數 -0.2059884 是 0.8138425。

　　輸出：[1] 0.1861575

　　這表明從A型羊毛更改為B型羊毛會導致斷點減少0.8138425 倍，因為估計值-0.2059884為負。換句話說，如果我們將羊毛類型從A更改為B，則假設所有其他變量都相同，則折斷次數將減少18.6%。

　　從模型預測

　　建立模型后，我們可以使用 predict(model, data, type) 包含訓練數據以外的其他數據的新數據框來預測結果。讓我們來看一個例子。

　　輸出： [1] 23.68056

　　我們的模型預測， B型羊毛和M級張力的羊毛大約會斷裂24次。

　　使用jtools可視化結果

　　與他人共享分析時，表格通常不是吸引人們注意力的最佳方法。圖表可以幫助人們更快地掌握您的發現。在R中可視化數據的最流行的方法可能是 ggplot2 (在AAA教育的數據可視化課程中講授 )，我們還將使用稱為jtools的出色 R軟件包，其中包括專門用于匯總和可視化回歸模型的工具。讓我們 jtools 來可視化 poisson.model2。