自學(xué)B站課程筆記總結(jié):
在風(fēng)投領(lǐng)域,如何為客群分群呢?有些時候是有標(biāo)簽的。如:客戶是否有過欺詐、非欺詐的行為。
另外一種情況,則需要通過其他類型的特征進(jìn)行判斷了,如消費(fèi)記錄、還款記錄、提現(xiàn)記錄等。
例如,我們可以人為定義高風(fēng)險客戶,低風(fēng)險客戶、高消費(fèi)客戶、低消費(fèi)客戶。
說到聚類,就要提簇的概念,不重疊,也不覆蓋的。通過定義距離,來度量相似的程度,米尼科夫斯基距離。適合數(shù)值型的變量。

距離公式

類別性變量

類別性變量轉(zhuǎn)化為數(shù)值型變量

簇間距

數(shù)據(jù)預(yù)處理方法
如果有一些人的收入在100萬,相對比較少的時候,用歸一化的處理效果并不好,分母還是特別高。除此之外,新的樣本還會出現(xiàn)比0小,或者比1大的結(jié)果。

衡量聚類效果好壞

計(jì)算誤差或距離的方法
如果聚類模型做的好,則樣本距離簇的整體最好。貪心策略指每一步都朝著更好的方向。


先用層次聚類,選出的精度比較好。



假設(shè)少量樣本覆蓋了各種情況。

