8個核心回歸算法總結(jié)！！-魔扣目錄

關(guān)于回歸算法的總結(jié)，我見到過的有簡單的，也有特別詳細的。百花齊放，各有優(yōu)略！

今天總結(jié)了關(guān)于回歸算法的方方面面，涉及到原理的解釋、入門代碼等等。

總的來說，回歸算法是一類用于預(yù)測連續(xù)數(shù)值輸出的監(jiān)督學(xué)習(xí)算法。

根據(jù)輸入特征預(yù)測一個或多個目標變量。

回歸算法有多個分支和變種，每個分支都有其獨特的優(yōu)缺點。

今天要說的有8個部分，大家伙請看~

線性回歸
多項式回歸
嶺回歸
Lasso回歸
彈性網(wǎng)絡(luò)回歸
邏輯斯蒂回歸
決策樹回歸
隨機森林回歸

大家伙如果覺得還不錯！可以點贊、轉(zhuǎn)發(fā)安排起來，讓更多的朋友看到。

另外，可能涉及到的數(shù)據(jù)集，可以點擊上面名片，回復(fù)“數(shù)據(jù)集”獲取！

一起來看看吧~

線性回歸（Linear Regression）

首先，線性回歸（Linear Regression）是一種用于建立連續(xù)數(shù)值輸出與一個或多個輸入特征之間關(guān)系的監(jiān)督學(xué)習(xí)算法。

它假設(shè)輸出與輸入特征之間存在線性關(guān)系，即可以用一條直線來擬合數(shù)據(jù)。

線性回歸的目標是找到一條最佳擬合直線，以最小化預(yù)測值與真實值之間的誤差。

簡單線性回歸：

多元線性回歸：

其中：

是預(yù)測的目標變量。
是輸入特征。
是斜率（簡單線性回歸中）或權(quán)重（多元線性回歸中）。
是截距。
是多元線性回歸中的權(quán)重。

下面是一個簡單的案例，隨機生成的數(shù)據(jù)來演示：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

# 生成隨機數(shù)據(jù)
np.random.seed(0)
X = np.random.rand(100, 1) # 輸入特征
y = 2 * X + 1 + 0.1 * np.random.randn(100, 1) # 生成輸出數(shù)據(jù)，帶有一些噪聲

# 創(chuàng)建線性回歸模型
model = LinearRegression()

# 擬合模型
model.fit(X, y)

# 預(yù)測
y_pred = model.predict(X)

# 繪制原始數(shù)據(jù)和擬合直線
plt.scatter(X, y, label='Original Data')
plt.plot(X, y_pred, color='red', linewidth=3, label='Fitted Line')
plt.xlabel('X')
plt.ylabel('y')
plt.legend()
plt.title('Linear Regression Example')
plt.show()

上面案例中，使用LinearRegression模型擬合數(shù)據(jù)，并繪制了原始數(shù)據(jù)和擬合直線的可視化圖表。

實際情況下，可以根據(jù)自己的需求修改輸入數(shù)據(jù)和模型來適應(yīng)不同的案例。

多項式回歸（Polynomial Regression）

多項式回歸是一種回歸分析方法，它通過使用多項式函數(shù)來擬合數(shù)據(jù)，而不僅僅是線性函數(shù)。

多項式回歸通常用于處理數(shù)據(jù)與因變量之間的非線性關(guān)系，這種關(guān)系不能用線性回歸來準確建模。

多項式回歸的一般形式可以表示為：

其中，是因變量，是自變量，是模型參數(shù)，是多項式的階數(shù)，是誤差項。

下面展示如何進行多項式回歸，包括數(shù)據(jù)生成、擬合模型以及可視化。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression

# 生成隨機數(shù)據(jù)
np.random.seed(0)
X = np.sort(5 * np.random.rand(80, 1), axis=0)
y = np.cos(X).ravel() + np.random.randn(80) * 0.1

# 使用多項式特征擴展
poly = PolynomialFeatures(degree=4) # 選擇多項式的階數(shù)
X_poly = poly.fit_transform(X)

# 創(chuàng)建線性回歸模型
model = LinearRegression()
model.fit(X_poly, y)

# 預(yù)測
X_test = np.linspace(0, 5, 100)[:, np.newaxis]
X_test_poly = poly.transform(X_test)
y_pred = model.predict(X_test_poly)

# 繪制原始數(shù)據(jù)和擬合曲線
plt.scatter(X, y, label='Original Data')
plt.plot(X_test, y_pred, label='Polynomial Regression', color='r')
plt.xlabel('X')
plt.ylabel('Y')
plt.legend()
plt.title('Polynomial Regression Example')
plt.show()

在這個示例中，首先生成了一組隨機的數(shù)據(jù)點，然后使用四次多項式來擬合這些數(shù)據(jù)。

擬合后，我們繪制了原始數(shù)據(jù)點和擬合曲線的可視化圖表。

你可以根據(jù)自己的數(shù)據(jù)和需求，修改多項式的階數(shù)和其他參數(shù)來進行多項式回歸分析，以更好地擬合你的數(shù)據(jù)。

嶺回歸（Ridge Regression）

嶺回歸（Ridge Regression）是一種線性回歸的改進方法，用于解決多重共線性（multicollinearity）問題，即自變量之間存在高度相關(guān)性的情況。

在多重共線性存在時，傳統(tǒng)的線性回歸模型可能會導(dǎo)致參數(shù)估計不穩(wěn)定，嶺回歸通過引入正則化項來解決這個問題。

嶺回歸的目標函數(shù)如下所示：

其中：

是因變量（目標變量）的觀測值。
是模型的參數(shù)，其中是截距，是自變量的系數(shù)。
是第個觀測值的第個自變量的值。
是嶺回歸的超參數(shù)，用于控制正則化的強度。

首先，我們生成一個模擬的數(shù)據(jù)集，以便演示嶺回歸的效果，并使用matplotlib庫進行可視化。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import Ridge
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import trAIn_test_split

# 生成模擬數(shù)據(jù)集
np.random.seed(0)
n_samples, n_features = 200, 5
X = np.random.randn(n_samples, n_features)
true_coefficients = np.array([4, 2, 0, 0, -1])
y = X.dot(true_coefficients) + np.random.randn(n_samples) * 1.0

# 將數(shù)據(jù)集分為訓(xùn)練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 使用嶺回歸擬合數(shù)據(jù)
alpha = 1.0 # 正則化強度參數(shù)
ridge = Ridge(alpha=alpha)
ridge.fit(X_train, y_train)

# 輸出嶺回歸模型的系數(shù)
print("Ridge Regression Coefficients:", ridge.coef_)

# 計算模型在測試集上的R^2分數(shù)
r_squared = ridge.score(X_test, y_test)
print("R-squared:", r_squared)

# 繪制實際值和預(yù)測值的散點圖
plt.scatter(y_test, ridge.predict(X_test))
plt.xlabel("Actual Values")
plt.ylabel("Predicted Values")
plt.title("Ridge Regression: Actual vs. Predicted")
plt.show()

這個示例演示了如何使用嶺回歸來處理多重共線性問題，并可視化實際值與預(yù)測值之間的關(guān)系。

要注意的是，可以調(diào)整超參數(shù)alpha的值以控制正則化的強度。

Lasso回歸（Lasso Regression）

Lasso回歸（Least Absolute Shrinkage and Selection Operator Regression）是一種線性回歸的變體，它用于數(shù)據(jù)特征選擇和降維。

與普通線性回歸不同，Lasso回歸通過對系數(shù)進行正則化來懲罰模型中的不重要的特征，以促使模型選擇更少的特征，從而提高模型的泛化能力。

正則化通過在損失函數(shù)中添加系數(shù)的絕對值之和來實現(xiàn)，這迫使一些系數(shù)變?yōu)榱悖瑥亩鴮崿F(xiàn)特征選擇的效果。

Lasso回歸的損失函數(shù)如下所示：

其中:

是樣本數(shù)
是觀測到的目標值
是模型預(yù)測的目標值
是特征的數(shù)量
是特征的系數(shù)
是正則化參數(shù)，控制著正則化的強度。較大的值將導(dǎo)致更多的特征系數(shù)為零。

以下是一個Python/ target=_blank class=infotextkey>Python案例，演示如何使用Lasso回歸擬合一個數(shù)據(jù)集并可視化結(jié)果。我們將使用一個合成的數(shù)據(jù)集來說明，該數(shù)據(jù)集包含兩個特征和一個目標變量。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_regression
from sklearn.linear_model import Lasso
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# 生成合成數(shù)據(jù)集
X, y = make_regression(n_samples=100, n_features=2, noise=0.5, random_state=42)

# 將數(shù)據(jù)集分為訓(xùn)練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 創(chuàng)建Lasso回歸模型
alpha = 1.0 # 正則化參數(shù)
lasso = Lasso(alpha=alpha)

# 擬合模型
lasso.fit(X_train, y_train)

# 預(yù)測測試集
y_pred = lasso.predict(X_test)

# 計算均方誤差
mse = mean_squared_error(y_test, y_pred)
print(f"Mean Squared Error: {mse:.2f}")

# 繪制特征系數(shù)
plt.figure(figsize=(10, 5))
plt.subplot(1, 2, 1)
plt.scatter(X[:, 0], y, label='Feature 1')
plt.scatter(X[:, 1], y, label='Feature 2')
plt.xlabel('Features')
plt.ylabel('Target')
plt.title('Original Data')
plt.legend()

plt.subplot(1, 2, 2)
plt.bar(['Feature 1', 'Feature 2'], lasso.coef_)
plt.xlabel('Features')
plt.ylabel('Coefficient Value')
plt.title('Lasso Coefficients')
plt.show()

上述代碼演示了如何使用Lasso回歸對合成數(shù)據(jù)集進行建模，并且展示了特征系數(shù)的可視化。

實際情況中，可以根據(jù)自己的數(shù)據(jù)集和需求調(diào)整代碼來使用Lasso回歸進行特征選擇和建模。

彈性網(wǎng)絡(luò)回歸（Elastic.NET Regression）

彈性網(wǎng)絡(luò)回歸（Elastic Net Regression）是一種用于處理回歸問題的線性模型，它結(jié)合了L1正則化（Lasso正則化）和L2正則化（Ridge正則化）的特性，以解決特征選擇和過擬合問題。

它的損失函數(shù)由兩部分組成，一部分是均方誤差（Mean Squared Error，MSE），另一部分是L1和L2正則化項的組合。

公式如下：

其中：

是均方誤差，用來衡量模型預(yù)測值與實際值之間的差距。
λ（）是正則化參數(shù)，用于控制正則化的強度。
是L1正則化的項，它是模型系數(shù)的絕對值之和。
是L2正則化的項，它是模型系數(shù)的平方和。
α（）是一個介于0和1之間的參數(shù)，用于權(quán)衡L1和L2正則化的貢獻。當α時，模型等同于Ridge回歸，當α時，模型等同于Lasso回歸。

下面案例演示如何使用彈性網(wǎng)絡(luò)回歸處理一個數(shù)據(jù)集，并繪制可視化圖表。

同樣的也是使用一個自動生成的示例數(shù)據(jù)集。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import ElasticNet
from sklearn.datasets import make_regression

# 生成示例數(shù)據(jù)集
X, y = make_regression(n_samples=100, n_features=1, noise=10, random_state=42)

# 創(chuàng)建彈性網(wǎng)絡(luò)回歸模型
elastic_net = ElasticNet(alpha=0.5, l1_ratio=0.5, random_state=42)

# 擬合模型
elastic_net.fit(X, y)

# 預(yù)測
y_pred = elastic_net.predict(X)

# 繪制原始數(shù)據(jù)和擬合線
plt.scatter(X, y, label='Actual Data', color='b')
plt.plot(X, y_pred, label='Elastic Net Regression', color='r')
plt.xlabel('X')
plt.ylabel('y')
plt.legend()
plt.title('Elastic Net Regression')
plt.show()

# 打印模型系數(shù)
print("Elastic Net Coefficients:")
print("Intercept:", elastic_net.intercept_)
print("Coefficient:", elastic_net.coef_)

在這個案例中，我們首先生成了一個簡單的示例數(shù)據(jù)集，然后創(chuàng)建了一個彈性網(wǎng)絡(luò)回歸模型，擬合數(shù)據(jù)并進行了預(yù)測。

Elastic Net Coefficients:
Intercept: 0.05906898426354079
Coefficient: [33.78639071]

最后，我們使用Matplotlib繪制了原始數(shù)據(jù)和擬合線的可視化圖表，并打印了模型的系數(shù)。

你可以根據(jù)自己的需求和數(shù)據(jù)集來調(diào)整正則化參數(shù)α和λ以及數(shù)據(jù)集的大小以獲得更好的效果和可視化。

邏輯斯蒂回歸（Logistic Regression）

邏輯斯蒂回歸（Logistic Regression）是一種用于分類問題的統(tǒng)計學(xué)習(xí)方法。

通過建立一個邏輯斯蒂函數(shù)（也稱為S型函數(shù)）來預(yù)測二分類問題中的概率。

邏輯斯蒂函數(shù)將輸入值映射到0和1之間的概率值，通常用于估計某個事件發(fā)生的概率。

數(shù)學(xué)表達式：

其中：

是觀測到類別1的概率。
是輸入特征向量。
是特征權(quán)重向量。
是偏置項。
是自然對數(shù)的底數(shù)。

通過訓(xùn)練，我們可以找到最佳的權(quán)重和偏置項來最大程度地擬合訓(xùn)練數(shù)據(jù)，從而用于分類新的數(shù)據(jù)點。

以下演示如何使用邏輯斯蒂回歸進行分類，并使用可視化圖表展示結(jié)果。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix
from sklearn.preprocessing import StandardScaler

# 生成模擬數(shù)據(jù)
X, y = make_classification(n_samples=1000, n_features=2, n_classes=2, n_clusters_per_class=1, n_redundant=0, random_state=42)

# 數(shù)據(jù)標準化
scaler = StandardScaler()
X = scaler.fit_transform(X)

# 劃分訓(xùn)練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 訓(xùn)練邏輯斯蒂回歸模型
model = LogisticRegression()
model.fit(X_train, y_train)

# 預(yù)測
y_pred = model.predict(X_test)

# 計算準確率
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')

# 繪制決策邊界和數(shù)據(jù)點
xx, yy = np.meshgrid(np.linspace(X[:, 0].min() - 1, X[:, 0].max() + 1, 100),
np.linspace(X[:, 1].min() - 1, X[:, 1].max() + 1, 100))
Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

plt.contourf(xx, yy, Z, cmap=plt.cm.RdBu, alpha=0.8)
plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.RdBu, marker='o')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.title('Logistic Regression Decision Boundary')
plt.show()

這個示例生成了一個模擬的二分類數(shù)據(jù)集，并使用邏輯斯蒂回歸模型進行訓(xùn)練和預(yù)測。

最后，通過繪制決策邊界和數(shù)據(jù)點的可視化圖表來展示模型的分類效果。

決策樹回歸（Decision Tree Regression）

決策樹回歸（Decision Tree Regression）是一種用于預(yù)測連續(xù)型目標變量的機器學(xué)習(xí)方法。

與分類決策樹不同，決策樹回歸的目標是通過構(gòu)建樹狀結(jié)構(gòu)來擬合數(shù)據(jù)，以便對連續(xù)值的輸出進行預(yù)測。

決策樹回歸的主要思想是將數(shù)據(jù)集分割成不同的子集，然后在每個子集上擬合一個簡單的線性模型（通常是均值），最終形成一個樹狀結(jié)構(gòu)，使得每個葉節(jié)點都包含一個用于預(yù)測的數(shù)值。

以下展示如何使用決策樹回歸來預(yù)測房屋價格的案例。

使用sklearn庫進行建模和可視化。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeRegressor

# 創(chuàng)建一個模擬數(shù)據(jù)集
np.random.seed(0)
X = np.sort(5 * np.random.rand(80, 1), axis=0)
y = np.sin(X).ravel() + np.random.normal(0, 0.1, X.shape[0])

# 訓(xùn)練決策樹回歸模型
regressor = DecisionTreeRegressor(max_depth=5)
regressor.fit(X, y)

# 生成預(yù)測結(jié)果
X_test = np.arange(0.0, 5.0, 0.01)[:, np.newaxis]
y_pred = regressor.predict(X_test)

# 繪制原始數(shù)據(jù)和決策樹回歸結(jié)果
plt.figure()
plt.scatter(X, y, s=20, edgecolor="black", c="darkorange", label="data")
plt.plot(X_test, y_pred, color="cornflowerblue", linewidth=2, label="prediction")
plt.xlabel("data")
plt.ylabel("target")
plt.title("Decision Tree Regression")
plt.legend()
plt.show()

上面案例中，我們首先生成了一個模擬數(shù)據(jù)集，然后使用決策樹回歸模型對數(shù)據(jù)進行擬合，并生成了預(yù)測結(jié)果的可視化圖表。

這個圖表展示了原始數(shù)據(jù)點和決策樹回歸模型的擬合曲線。

你可以根據(jù)實際情況替換數(shù)據(jù)集和調(diào)整模型的參數(shù)來適應(yīng)不同的案例。這個案例提供了一個簡單的起點，幫助大家了解如何使用決策樹回歸來解決回歸問題，并可視化結(jié)果。

隨機森林回歸（Random Forest Regression）

隨機森林回歸（Random Forest Regression）是一種集成學(xué)習(xí)方法，用于解決回歸問題。

基于多個決策樹構(gòu)建，通過組合這些樹的預(yù)測結(jié)果來提高模型的性能和穩(wěn)定性。

隨機森林回歸簡要介紹：

隨機性：隨機森林采用隨機抽樣技術(shù)，從訓(xùn)練數(shù)據(jù)中隨機選擇樣本，并在每個決策樹的節(jié)點上隨機選擇特征，以降低過擬合的風(fēng)險。
集成：多個決策樹的預(yù)測結(jié)果被組合，通常采用平均值（對于回歸問題）或投票（對于分類問題）來生成最終的預(yù)測結(jié)果，這有助于降低模型的方差。
特征選擇：在構(gòu)建每個決策樹時，隨機森林只考慮特征的隨機子集，從而增加了模型的多樣性。
魯棒性：由于隨機森林由多個決策樹組成，它對于噪聲和異常值的魯棒性較高，可以提供更穩(wěn)定的預(yù)測。

隨機森林回歸的公式與上述提到的相同，即預(yù)測值是多個決策樹預(yù)測結(jié)果的平均值。

假設(shè)我們有一個回歸問題，其中我們希望預(yù)測目標變量，并且我們有一個包含個樣本的訓(xùn)練數(shù)據(jù)集，其中每個樣本有個特征。

目標是使用隨機森林回歸來預(yù)測目標變量。

隨機森林回歸的預(yù)測值可以通過多個決策樹的預(yù)測結(jié)果的平均值來計算：

其中：

是隨機森林中的決策樹數(shù)量。
是第個決策樹的預(yù)測值。

這個公式表示隨機森林回歸的最終預(yù)測是多個決策樹預(yù)測的平均值。由于隨機性和多樣性，隨機森林通常能夠提供較穩(wěn)定和準確的回歸預(yù)測。

下面，將使用隨機森林回歸來預(yù)測氣溫。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error

# 創(chuàng)建一個示例數(shù)據(jù)集
np.random.seed(0)
X = np.sort(5 * np.random.rand(80, 1), axis=0)
y = np.sin(X).ravel() + np.random.rand(80)

# 創(chuàng)建隨機森林回歸模型
rf_regressor = RandomForestRegressor(n_estimators=100, random_state=42)

# 訓(xùn)練模型
rf_regressor.fit(X, y)

# 預(yù)測
X_test = np.arange(0.0, 5.0, 0.01)[:, np.newaxis]
y_pred = rf_regressor.predict(X_test)

# 計算均方誤差
mse = mean_squared_error(y, rf_regressor.predict(X))
print("Mean Squared Error:", mse)

# 繪制真實值和預(yù)測值的可視化圖表
plt.figure(figsize=(10, 6))
plt.scatter(X, y, s=20, edgecolor="black", c="darkorange", label="data")
plt.plot(X_test, y_pred, color="cornflowerblue", linewidth=2, label="prediction")
plt.xlabel("data")
plt.ylabel("target")
plt.title("Random Forest Regression")
plt.legend()
plt.show()

這個示例使用隨機森林回歸模型來擬合一個帶有噪聲的正弦曲線，并繪制出真實值和模型預(yù)測值的可視化圖表，以及均方誤差（Mean Squared Error）作為性能指標。