網(wǎng)站首頁編程語言正文

Python?sklearn中的K-Means聚類使用方法淺析_python

作者：微小冷 ? 更新時間： 2023-01-21 編程語言

初步認識

k-means翻譯過來就是K均值聚類算法，其目的是將樣本分割為k個簇，而這個k則是KMeans中最重要的參數(shù)：n_clusters，默認為8。

下面做一個最簡單的聚類

import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
X, y = make_blobs(1500)
fig = plt.figure()
for i in range(2):
    ax = fig.add_subplot(1,2,i+1)
    y = KMeans(i+2).fit_predict(X)
    plt.scatter(X[:, 0], X[:, 1], c=y)
plt.show()

其中，y是聚類結(jié)果，其數(shù)值表示對應(yīng)位置X所屬類號。

效果如圖所示，對于下面這組數(shù)據(jù)來說，顯然最好是分為兩類，但如果KMeans的n_clusters設(shè)為3，那就會聚成3類。

上面調(diào)用的KMeans是一個類，sklearn中同樣提供了函數(shù)形式的調(diào)用，其使用方法如下

from sklearn.cluster import k_means
cen, y, interia = k_means(X, 3)

其中，cen表示聚類后，每一類的質(zhì)心；y為聚類后的標(biāo)簽；interia表示均方誤差之和。

初值選取

在KMeans最重要的概念是簇，也就是被分割后的數(shù)據(jù)種類；而每個簇都有一個非常重要的點，就是質(zhì)心。在設(shè)定好簇的個數(shù)之后，也就相當(dāng)于確定了質(zhì)心的個數(shù)，而KMeans算法的基本流程是

選擇k個點作為k個簇的初始質(zhì)心
計算樣本到這k個質(zhì)心(簇)的距離，并將其劃入距離最近的簇中
計算每個簇的均值，并使用該均值更新簇的質(zhì)心

重復(fù)上述2-3的操作，直到質(zhì)心區(qū)域穩(wěn)定或者達到最大迭代次數(shù)。

從這個流程可以看出來，KMeans算法至少有兩個細節(jié)需要考慮，一個是初始化方案，另一個則是質(zhì)心更新的方案。

在KMeans類或者k_means函數(shù)中，提供了兩種初始化質(zhì)心方案，通過參數(shù)init來控制

'random'：表示隨機生成k個質(zhì)心
'k-means++'：此為默認值，通過kMeans++方法來初始化質(zhì)心。

kMeans++初始化質(zhì)心的流程如下

隨機選擇1個點作為初始質(zhì)心 x 0
?計算其他點到最近質(zhì)心的距離
假定現(xiàn)有 n n n個質(zhì)心了，那么選擇距離當(dāng)前質(zhì)心較遠的點作為下一個質(zhì)心 x n x_n xn?

重復(fù)步驟2和3，直到質(zhì)心個數(shù)達到 k k k個。

若希望直接調(diào)用kMeans++函數(shù)，則可使用kmeans_plusplus。

小批

sklearn提供了KMeans的一個變種MiniBatchKMeans，可在每次訓(xùn)練迭代中隨機抽樣，這種小批量的訓(xùn)練過程大大減少了運算時間。

當(dāng)樣本量非常巨大時，小批KMeans的優(yōu)勢是非常明顯的

from sklearn.cluster import MiniBatchKMeans
import time
ys, xs = np.indices([4,4])*6
cens = list(zip(xs.reshape(-1), ys.reshape(-1)))
X, y = make_blobs(100000,centers=cens)
km = KMeans(16)
mbk = MiniBatchKMeans(16)
def test(func, value):
    t = time.time()
    func(value)
    print("耗時", time.time()-t)
test(km.fit_predict, X)
# 耗時 3.2028110027313232
test(mbk.fit_predict, X)
# 耗時 0.2590029239654541

可見效果非常明顯，其中fit_predict和predict相似，但并沒有返回值，km.fit_predict(X)運行之后，會更改km中的labels_屬性，此即分類結(jié)果

fig = plt.figure()
ax = fig.add_subplot(1,2,1)
ax.scatter(X[:,0], X[:,1], c=km.labels_, 
    marker='.', alpha=0.5)
ax = fig.add_subplot(1,2,2)
ax.scatter(X[:,0], X[:,1], c=mbk.labels_, 
    marker='.', alpha=0.5)
plt.show()

效果如圖所示，可見小批的KMeans算法和KMeans算法從結(jié)果上來看區(qū)別不大。

原文鏈接：https://blog.csdn.net/m0_37816922/article/details/128326778

上一篇：C++?STL中的常用遍歷算法分享_C 語言
下一篇：python中filter函數(shù)的用法示例代碼_python

日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

網(wǎng)站首頁編程語言正文

Python?sklearn中的K-Means聚類使用方法淺析_python

目錄

初步認識

初值選取

小批

相關(guān)推薦

日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

網(wǎng)站首頁 編程語言 正文

Python?sklearn中的K-Means聚類使用方法淺析_python

目錄

初步認識

初值選取

小批

相關(guān)推薦

網(wǎng)站首頁編程語言正文