摘要:K近鄰算法是機器學習中的一個非常基礎的算法。本文通過自生成數據,通過繪圖的方式演示KNN算法的思路,讓你不看數學公式就看了解什么是KNN算法。
關鍵詞:KNN算法
1 生成一個二分類的數據集
本文很多內容參考文獻[1]。
先生成一個兩個類別的數據集,然后修改這個數據集中的一些數據(提高分類難度、或者有一些雜質數據),最后再剔除一些數據使得數據不那么均衡,但也不能差距太大(主要還是希望進一步接近現實數據)。為了能夠可視化我們的數據,這里生成的數據為二維的,也就是一條數據具有兩個特征。
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt
import numpy as np
def makeTwoClassData():
X, y = make_blobs(centers=2, random_state=4, n_samples=30)
y[np.array([7, 27])] = 0 # 生成錯誤數據
mask = np.ones(len(X), dtype=np.bool) # 得到一個與數據集大小同的全一矩陣
mask[np.array([0, 1, 5, 26])] = 0 # 剔除這些索引數據
X, y = X[mask], y[mask] # 選出剔除數據后的數據
return X, y
(其中涉及的模塊,參數,如有不懂的百度或留言評論)
將生成的數據可視化:
X, y = makeTwoClassData()
# 繪圖
plt.scatter(X[y==0][:,0], X[y==0][:,1], marker='o', s=50)
plt.scatter(X[y==1][:,0], X[y==1][:,1], marker='^', s=50)
plt.legend(['Class 0', 'Class 1'], loc=4)
plt.xlabel("First feature")
plt.ylabel("Second feature")
plt.show()
2 k近鄰算法原理介紹
k緊鄰算法是一種監督學習算法,算法的思想是這樣子的:我們已經有了一堆具有標記的數據DDD,例如我們生成的有兩個特征的數據,我們的任務是利用這些已有的數據預測新的數據xxx屬于哪個類別,這個新的數據類型也理所當然與已有的數據集是一致的,下一步要做的就是計算這一條需要預測類別數據與已有數據之間的距離(這里距離通常是歐氏距離,也不排除還有其他計算方法),然后選擇距離最小的前k條已有的數據,根據這k條數據的類別判定(判定方式可使用哪個類別多選擇哪個方式)數據xxx屬于哪個類別。(希望這些廢話你能夠理解)
下面讓用代碼和畫圖的方式輔助你了解。
構建幾個需要預測的數據
# 選取測試點
X_test = np.array([[8.2, 3.66214339], [9.9, 3.2], [11.2, .5]])
繪制不同個鄰居數據的分類圖:
from sklearn.metrics import euclidean_distances
from sklearn.neighbors import KNeighborsClassifier
def plot_knn_classification(X, y, X_test, n_neighbors):
plt.figure()
dist = euclidean_distances(X, X_test) # 計算訓練數據與測試數據之間的距離
closest = np.argsort(dist, axis=0) # 從dist計算結果根據值的進行排序,并返回索引
# 繪制箭頭
for x, neighbors in zip(X_test, closest.T):
for neighbor in neighbors[:n_neighbors]:
plt.arrow(x[0], x[1], X[neighbor, 0] - x[0], X[neighbor, 1] - x[1], head_width=0, fc='k', ec='k')
# 原始數據圖形
plt.scatter(X[y==0][:,0], X[y==0][:,1], marker='o', s=50, label="training class 0")
plt.scatter(X[y==1][:,0], X[y==1][:,1], marker='^', s=50, label="training class 1")
plt.xlabel("First feature")
plt.ylabel("Second feature")
# 預測值
clf = KNeighborsClassifier(n_neighbors=n_neighbors).fit(X, y) # 訓練得到模型
y_pre = clf.predict(X_test)
plt.scatter(X_test[y_pre==0][:, 0], X_test[y_pre==0][:, 1], marker='*', s=50, c='red', label="test_pre 0")
plt.scatter(X_test[y_pre==1][:, 0], X_test[y_pre==1][:, 1], marker='*', s=50, c='black', label="test_pre 1")
plt.legend()
# 繪制相鄰1個點的情況
plot_knn_classification(X, y, X_test, 1)
# 繪制相鄰3個點的情況
plot_knn_classification(X, y, X_test, 3)
上面的圖分類已經很明了,無需多言。下面我們使用sklearn來構建一個KNN分類器(上面已經構建了)。
3 使用sklearn構建KNN分類器
只需要幾步就可以了,不過需要知道相關參數。如下:
from sklearn.model_selection import train_test_split
# 數據集劃分
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
# 構建模型,并訓練
clf = KNeighborsClassifier(n_neighbors=3)
clf.fit(X_train, y_train)
# 預測
print("Test set prediction:{}".format(clf.predict(X_test)))
"""
Test set prediction:[1 0 1 0 1 0 0]
"""
查看模型分類正確率:
print("Test set accuracy:{:.2f}%".format(clf.score(X_test,y_test)*100))
"""
Test set accuracy:85.71%
"""
是不是很簡單,幾步就搞定了。現在能夠分類了,那么這個分類器的決策邊界是什么樣的呢?
4 看看KNN的決策邊界是什么樣的
繪制決策邊界還是相對麻煩的,這里提供一下相關代碼:
def plot_2d_separator(classifier, X, fill=False, ax=None, eps=None, alpha=1, cm='viridis', linewidth=None, threshold=None, linestyle="solid"):
if eps is None:
eps = X.std() / 2.
# 獲取當前子圖
if ax is None:
ax = plt.gca()
# 特征1最值浮動
x_min, x_max = X[:, 0].min() - eps, X[:, 0].max() + eps
# 特征2最值浮動
y_min, y_max = X[:, 1].min() - eps, X[:, 1].max() + eps
# 在兩個特征之間均勻生成1000個點
xx = np.linspace(x_min, x_max, 1000)
yy = np.linspace(y_min, y_max, 1000)
X1, X2 = np.meshgrid(xx, yy) # 構建網格點矩陣, shape 1000*1000
X_grid = np.c_[X1.ravel(), X2.ravel()] # 構建坐標點, 則有1000^2個坐標點,即100萬個點
chunk_size = 10000
Y_result_chunks = []
for x_chunk in np.array_split(X_grid, np.arange(chunk_size, X_grid.shape[0], chunk_size, dtype=np.int32),axis=0):
# predict_proba返回的是一個 n 行 k 列的數組, 第 i 行 第 j 列上的數值是模型預測 第 i 個預測樣本為某個標簽的概率,并且每一行的概率和為1。
Y_result_chunks.Append(classifier.predict_proba(x_chunk)) # 分批預測構造的點的結果, 每批1萬個數據
decision_values = np.concatenate(Y_result_chunks)[:, 1] # 將list中的結果拼接起來, 然后選取一個列別的預測值
levels = [.5] if threshold is None else [threshold]
fill_levels = [0] + levels + [1] # 填充
# 開始繪制邊界(類似于等高線)
ax.contourf(X1, X2, decision_values.reshape(X1.shape), levels=fill_levels, alpha=alpha, cmap=cm)
# 設置坐標軸范圍以及對應的數字
ax.set_xlim(x_min, x_max)
ax.set_ylim(y_min, y_max)
ax.set_xticks(())
ax.set_yticks(())
fig, axes = plt.subplots(1, 3, figsize=(10, 3))
for n_neighbors, ax in zip([1, 3, 9], axes):
clf = KNeighborsClassifier(n_neighbors=n_neighbors).fit(X, y)
# 繪制決策邊界
plot_2d_separator(clf, X, fill=True, eps=0.5, ax=ax, alpha=0.4)
# 原始數據圖形
ax.scatter(X[y==0][:,0], X[y==0][:,1], marker='o', s=50, label="class 0")
ax.scatter(X[y==1][:,0], X[y==1][:,1], marker='^', s=50, label="class 1")
ax.set_title("{} neighbor(s)".format(n_neighbors))
ax.set_xlabel("feature 0")
ax.set_ylabel("feature 1")
axes[0].legend(loc=3)
決策邊界圖像如下:
5 用現實中的數據來說話
當然上面的例子使用的自己構建的數據,并且數據還比較少,現在我們使用sklearn自帶的數據來分類,使用現實世界的乳腺癌數據集進行knn分類。其操作如下:
from sklearn.datasets import load_breast_cancer
cancer = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, stratify=cancer.target, random_state=66)
training_accuracy = []
test_accuracy = []
# n_nighbors取值從1-10
neighbors_settings = range(1, 11)
for n_neighbors in neighbors_settings:
# 構建模型
clf = KNeighborsClassifier(n_neighbors=n_neighbors)
clf.fit(X_train, y_train)
# 記錄訓練精度
training_accuracy.append(clf.score(X_train, y_train))
# 記錄泛化精度
test_accuracy.append(clf.score(X_test, y_test))
plt.plot(neighbors_settings, training_accuracy, label="training accuracy")
plt.plot(neighbors_settings, test_accuracy, label="test accuracy")
plt.ylabel("Accuracy")
plt.xlabel("n_neighbors")
plt.legend()
總結
從上面的圖形可以看出,并不是選擇k越大越好,也不是越小越好,這里選擇的就是6最好。其實你慢慢就會發現,我們開始要根據訓練的一些參數曲線,去調整模型的參數啦,這在后面的文章會做進一步的介紹。當然本部分內容是參考《Python機器學習基礎教程》內容并結合自己的理解寫出,所以我還是推薦?一下這本書,或者可以在訂閱號“AIAS編程有道”中回復“Python機器學習基礎教程”獲取電子檔后決定?是否要購買,建議購買正版書籍。?