日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會(huì)員:747

摘要:K近鄰算法是機(jī)器學(xué)習(xí)中的一個(gè)非常基礎(chǔ)的算法。本文通過(guò)自生成數(shù)據(jù),通過(guò)繪圖的方式演示KNN算法的思路,讓你不看數(shù)學(xué)公式就看了解什么是KNN算法。

關(guān)鍵詞:KNN算法

1 生成一個(gè)二分類的數(shù)據(jù)集

本文很多內(nèi)容參考文獻(xiàn)[1]。

先生成一個(gè)兩個(gè)類別的數(shù)據(jù)集,然后修改這個(gè)數(shù)據(jù)集中的一些數(shù)據(jù)(提高分類難度、或者有一些雜質(zhì)數(shù)據(jù)),最后再剔除一些數(shù)據(jù)使得數(shù)據(jù)不那么均衡,但也不能差距太大(主要還是希望進(jìn)一步接近現(xiàn)實(shí)數(shù)據(jù))。為了能夠可視化我們的數(shù)據(jù),這里生成的數(shù)據(jù)為二維的,也就是一條數(shù)據(jù)具有兩個(gè)特征

from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt
import numpy as np
def makeTwoClassData():
    X, y = make_blobs(centers=2, random_state=4, n_samples=30)
    y[np.array([7, 27])] = 0   # 生成錯(cuò)誤數(shù)據(jù)
    mask = np.ones(len(X), dtype=np.bool)  # 得到一個(gè)與數(shù)據(jù)集大小同的全一矩陣
    mask[np.array([0, 1, 5, 26])] = 0      # 剔除這些索引數(shù)據(jù)
    X, y = X[mask], y[mask]                # 選出剔除數(shù)據(jù)后的數(shù)據(jù)
    return X, y

(其中涉及的模塊,參數(shù),如有不懂的百度或留言評(píng)論)
將生成的數(shù)據(jù)可視化:

X, y = makeTwoClassData()
# 繪圖
plt.scatter(X[y==0][:,0], X[y==0][:,1], marker='o', s=50)
plt.scatter(X[y==1][:,0], X[y==1][:,1], marker='^', s=50)
plt.legend(['Class 0', 'Class 1'], loc=4)
plt.xlabel("First feature")
plt.ylabel("Second feature")
plt.show()
K近鄰(knn)算法是如何完成分類的?

 

2 k近鄰算法原理介紹

k緊鄰算法是一種監(jiān)督學(xué)習(xí)算法,算法的思想是這樣子的:我們已經(jīng)有了一堆具有標(biāo)記的數(shù)據(jù)DDD,例如我們生成的有兩個(gè)特征的數(shù)據(jù),我們的任務(wù)是利用這些已有的數(shù)據(jù)預(yù)測(cè)新的數(shù)據(jù)xxx屬于哪個(gè)類別,這個(gè)新的數(shù)據(jù)類型也理所當(dāng)然與已有的數(shù)據(jù)集是一致的,下一步要做的就是計(jì)算這一條需要預(yù)測(cè)類別數(shù)據(jù)與已有數(shù)據(jù)之間的距離(這里距離通常是歐氏距離,也不排除還有其他計(jì)算方法),然后選擇距離最小的前k條已有的數(shù)據(jù),根據(jù)這k條數(shù)據(jù)的類別判定(判定方式可使用哪個(gè)類別多選擇哪個(gè)方式)數(shù)據(jù)xxx屬于哪個(gè)類別。(希望這些廢話你能夠理解)

下面讓用代碼和畫圖的方式輔助你了解。

構(gòu)建幾個(gè)需要預(yù)測(cè)的數(shù)據(jù)

# 選取測(cè)試點(diǎn)
X_test = np.array([[8.2, 3.66214339], [9.9, 3.2], [11.2, .5]])

繪制不同個(gè)鄰居數(shù)據(jù)的分類圖:

from sklearn.metrics import euclidean_distances
from sklearn.neighbors import KNeighborsClassifier

def plot_knn_classification(X, y, X_test, n_neighbors):
    plt.figure()
    dist = euclidean_distances(X, X_test)  # 計(jì)算訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)之間的距離
    closest = np.argsort(dist, axis=0)  # 從dist計(jì)算結(jié)果根據(jù)值的進(jìn)行排序,并返回索引
    # 繪制箭頭
    for x, neighbors in zip(X_test, closest.T):
        for neighbor in neighbors[:n_neighbors]:
            plt.arrow(x[0], x[1], X[neighbor, 0] - x[0], X[neighbor, 1] - x[1], head_width=0, fc='k', ec='k')

    # 原始數(shù)據(jù)圖形
    plt.scatter(X[y==0][:,0], X[y==0][:,1], marker='o', s=50, label="training class 0")
    plt.scatter(X[y==1][:,0], X[y==1][:,1], marker='^', s=50, label="training class 1")
    plt.xlabel("First feature")
    plt.ylabel("Second feature")
    # 預(yù)測(cè)值
    clf = KNeighborsClassifier(n_neighbors=n_neighbors).fit(X, y)  # 訓(xùn)練得到模型
    y_pre = clf.predict(X_test)
    plt.scatter(X_test[y_pre==0][:, 0], X_test[y_pre==0][:, 1], marker='*', s=50, c='red', label="test_pre 0")
    plt.scatter(X_test[y_pre==1][:, 0], X_test[y_pre==1][:, 1], marker='*', s=50, c='black', label="test_pre 1")

    plt.legend()

# 繪制相鄰1個(gè)點(diǎn)的情況
plot_knn_classification(X, y, X_test, 1)
# 繪制相鄰3個(gè)點(diǎn)的情況
plot_knn_classification(X, y, X_test, 3)
K近鄰(knn)算法是如何完成分類的?

 


K近鄰(knn)算法是如何完成分類的?

 

上面的圖分類已經(jīng)很明了,無(wú)需多言。下面我們使用sklearn來(lái)構(gòu)建一個(gè)KNN分類器(上面已經(jīng)構(gòu)建了)。

3 使用sklearn構(gòu)建KNN分類器

只需要幾步就可以了,不過(guò)需要知道相關(guān)參數(shù)。如下:

from sklearn.model_selection import train_test_split
# 數(shù)據(jù)集劃分
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
# 構(gòu)建模型,并訓(xùn)練
clf = KNeighborsClassifier(n_neighbors=3)
clf.fit(X_train, y_train)
# 預(yù)測(cè)
print("Test set prediction:{}".format(clf.predict(X_test)))
"""
Test set prediction:[1 0 1 0 1 0 0]
"""

查看模型分類正確率:

print("Test set accuracy:{:.2f}%".format(clf.score(X_test,y_test)*100))
"""
Test set accuracy:85.71%
"""

是不是很簡(jiǎn)單,幾步就搞定了。現(xiàn)在能夠分類了,那么這個(gè)分類器的決策邊界是什么樣的呢?

4 看看KNN的決策邊界是什么樣的

繪制決策邊界還是相對(duì)麻煩的,這里提供一下相關(guān)代碼:

def plot_2d_separator(classifier, X, fill=False, ax=None, eps=None, alpha=1, cm='viridis', linewidth=None, threshold=None, linestyle="solid"):
    if eps is None:
        eps = X.std() / 2.
    # 獲取當(dāng)前子圖
    if ax is None:
        ax = plt.gca()
    # 特征1最值浮動(dòng)
    x_min, x_max = X[:, 0].min() - eps, X[:, 0].max() + eps
    # 特征2最值浮動(dòng)
    y_min, y_max = X[:, 1].min() - eps, X[:, 1].max() + eps
    # 在兩個(gè)特征之間均勻生成1000個(gè)點(diǎn)
    xx = np.linspace(x_min, x_max, 1000)
    yy = np.linspace(y_min, y_max, 1000)

    X1, X2 = np.meshgrid(xx, yy)  # 構(gòu)建網(wǎng)格點(diǎn)矩陣, shape 1000*1000
    X_grid = np.c_[X1.ravel(), X2.ravel()] # 構(gòu)建坐標(biāo)點(diǎn), 則有1000^2個(gè)坐標(biāo)點(diǎn),即100萬(wàn)個(gè)點(diǎn)

    chunk_size = 10000
    Y_result_chunks = []
    for x_chunk in np.array_split(X_grid, np.arange(chunk_size, X_grid.shape[0], chunk_size, dtype=np.int32),axis=0):
        # predict_proba返回的是一個(gè) n 行 k 列的數(shù)組, 第 i 行 第 j 列上的數(shù)值是模型預(yù)測(cè) 第 i 個(gè)預(yù)測(cè)樣本為某個(gè)標(biāo)簽的概率,并且每一行的概率和為1。
        Y_result_chunks.Append(classifier.predict_proba(x_chunk)) # 分批預(yù)測(cè)構(gòu)造的點(diǎn)的結(jié)果, 每批1萬(wàn)個(gè)數(shù)據(jù)
    decision_values = np.concatenate(Y_result_chunks)[:, 1]  # 將list中的結(jié)果拼接起來(lái), 然后選取一個(gè)列別的預(yù)測(cè)值
    levels = [.5] if threshold is None else [threshold]
    fill_levels = [0] + levels + [1]  # 填充
    # 開(kāi)始繪制邊界(類似于等高線)
    ax.contourf(X1, X2, decision_values.reshape(X1.shape), levels=fill_levels, alpha=alpha, cmap=cm)
    # 設(shè)置坐標(biāo)軸范圍以及對(duì)應(yīng)的數(shù)字
    ax.set_xlim(x_min, x_max)
    ax.set_ylim(y_min, y_max)
    ax.set_xticks(())
    ax.set_yticks(())

fig, axes = plt.subplots(1, 3, figsize=(10, 3))
for n_neighbors, ax in zip([1, 3, 9], axes):
    clf = KNeighborsClassifier(n_neighbors=n_neighbors).fit(X, y)
    # 繪制決策邊界
    plot_2d_separator(clf, X, fill=True, eps=0.5, ax=ax, alpha=0.4)
    # 原始數(shù)據(jù)圖形
    ax.scatter(X[y==0][:,0], X[y==0][:,1], marker='o', s=50, label="class 0")
    ax.scatter(X[y==1][:,0], X[y==1][:,1], marker='^', s=50, label="class 1")
    ax.set_title("{} neighbor(s)".format(n_neighbors))
    ax.set_xlabel("feature 0")
    ax.set_ylabel("feature 1")
axes[0].legend(loc=3)

決策邊界圖像如下:

K近鄰(knn)算法是如何完成分類的?

 

5 用現(xiàn)實(shí)中的數(shù)據(jù)來(lái)說(shuō)話

當(dāng)然上面的例子使用的自己構(gòu)建的數(shù)據(jù),并且數(shù)據(jù)還比較少,現(xiàn)在我們使用sklearn自帶的數(shù)據(jù)來(lái)分類,使用現(xiàn)實(shí)世界的乳腺癌數(shù)據(jù)集進(jìn)行knn分類。其操作如下:

from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, stratify=cancer.target, random_state=66)
training_accuracy = []
test_accuracy = []
# n_nighbors取值從1-10
neighbors_settings = range(1, 11)
for n_neighbors in neighbors_settings:
    # 構(gòu)建模型
    clf = KNeighborsClassifier(n_neighbors=n_neighbors)
    clf.fit(X_train, y_train)
    # 記錄訓(xùn)練精度
    training_accuracy.append(clf.score(X_train, y_train))
    # 記錄泛化精度
    test_accuracy.append(clf.score(X_test, y_test))
plt.plot(neighbors_settings, training_accuracy, label="training accuracy")
plt.plot(neighbors_settings, test_accuracy, label="test accuracy")
plt.ylabel("Accuracy")
plt.xlabel("n_neighbors")
plt.legend()
K近鄰(knn)算法是如何完成分類的?

 

總結(jié)

從上面的圖形可以看出,并不是選擇k越大越好,也不是越小越好,這里選擇的就是6最好。其實(shí)你慢慢就會(huì)發(fā)現(xiàn),我們開(kāi)始要根據(jù)訓(xùn)練的一些參數(shù)曲線,去調(diào)整模型的參數(shù)啦,這在后面的文章會(huì)做進(jìn)一步的介紹。當(dāng)然本部分內(nèi)容是參考《Python機(jī)器學(xué)習(xí)基礎(chǔ)教程》內(nèi)容并結(jié)合自己的理解寫出,所以我還是推薦?一下這本書,或者可以在訂閱號(hào)“AIAS編程有道”中回復(fù)“Python機(jī)器學(xué)習(xí)基礎(chǔ)教程”獲取電子檔后決定?是否要購(gòu)買,建議購(gòu)買正版書籍。?

分享到:
標(biāo)簽:近鄰 算法
用戶無(wú)頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過(guò)答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫(kù),初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定