欢乐颂小说,完美世界小说下载,小说阅读网

主頁(yè) > 知識(shí)庫(kù) > Python機(jī)器學(xué)習(xí)之Kmeans基礎(chǔ)算法

Python機(jī)器學(xué)習(xí)之Kmeans基礎(chǔ)算法

一、K-means基礎(chǔ)算法簡(jiǎn)介

k-means算法是一種聚類算法，所謂聚類，即根據(jù)相似性原則，將具有較高相似度的數(shù)據(jù)對(duì)象劃分至同一類簇，將具有較高相異度的數(shù)據(jù)對(duì)象劃分至不同類簇。聚類與分類最大的區(qū)別在于，聚類過程為無(wú)監(jiān)督過程，即待處理數(shù)據(jù)對(duì)象沒有任何先驗(yàn)知識(shí)，而分類過程為有監(jiān)督過程，即存在有先驗(yàn)知識(shí)的訓(xùn)練數(shù)據(jù)集。

二、算法過程

K-means中心思想：事先確定常數(shù)K，常數(shù)K意味著最終的聚類（或者叫簇）類別數(shù)，首先隨機(jī)選定初始點(diǎn)為質(zhì)心，并通過計(jì)算每一個(gè)樣本與質(zhì)心之間的相似度(這里為歐式距離)，將樣本點(diǎn)歸到最相似的類中，接著，重新計(jì)算每個(gè)類的質(zhì)心(即為類中心)，重復(fù)這樣的過程，直到質(zhì)心不再改變，最終就確定了每個(gè)樣本所屬的類別以及每個(gè)類的質(zhì)心。由于每次都要計(jì)算所有的樣本與每一個(gè)質(zhì)心之間的相似度，故在大規(guī)模的數(shù)據(jù)集上，K-Means算法的收斂速度比較慢。

1.聚類算法：

是一種典型的無(wú)監(jiān)督學(xué)習(xí)算法，主要用于將相似的樣本自動(dòng)歸到一個(gè)類別中。
聚類算法與分類算法最大的區(qū)別是：聚類算法是無(wú)監(jiān)督的學(xué)習(xí)算法，而分類算法屬于監(jiān)督的學(xué)習(xí)
算法，分類是知道結(jié)果的。
在聚類算法中根據(jù)樣本之間的相似性，將樣本劃分到不同的類別中，對(duì)于不同的相似度計(jì)算方法，會(huì)得到不同的聚類結(jié)果，常用的相似度計(jì)算方法有歐式距離法。

2.聚類：

物理或抽象對(duì)象的集合分成由類似的對(duì)象組成的多個(gè)類的過程被稱為聚類。由聚類所生成的簇是一組數(shù)據(jù)對(duì)象的集合，這些對(duì)象與同一個(gè)簇中的對(duì)象彼此相似，與其他簇中的對(duì)象相異。

3.簇：

本算法中可以理解為，把數(shù)據(jù)集聚類成 k 類，即 k 個(gè)簇。

4.質(zhì)心：

指各個(gè)類別的中心位置，即簇中心。

5.距離公式：

常用的有：歐幾里得距離（歐氏距離）、曼哈頓距離、閔可夫斯基距離等。

三、文字步驟

1.給定一個(gè)待處理的數(shù)據(jù)集

2.選擇簇的個(gè)數(shù)k（kmeans算法傳遞超參數(shù)的時(shí)候，只需設(shè)置最大的K值）

3.任意產(chǎn)生k個(gè)簇，生成K個(gè)簇的中心,記 K 個(gè)簇的中心分別為 c 1 , c 2 , . . . , c k c1,c2,...,ck c1,c2,...,ck；每個(gè)簇的樣本數(shù)量為 N 1 , N 2 , . . . , N 3 N1,N2,...,N3 N1,N2,...,N3。

4.通過歐幾里得距離公式計(jì)算各點(diǎn)到各質(zhì)心的距離，把每個(gè)點(diǎn)劃分給與其距離最近的質(zhì)心，從而初步把數(shù)據(jù)集分為了 K 類點(diǎn)。

5.更新質(zhì)心：通過下面的公式來更新每個(gè)質(zhì)心。就是，新的質(zhì)心的值等于當(dāng)前該質(zhì)心所屬簇的所有點(diǎn)的平均值。 c j = 1 N j ∑ i = 1 N j x i , y i c_{j}=\frac{1}{N_{j}}\sum_{i=1}^{N{j}}x_{i},y_{i} cj=Nj1i=1∑Njxi,yi

6.重復(fù)以上步驟直到滿足收斂要求。（通常就是確定的中心點(diǎn)不再改變。）

四、圖形展示

按照上述步驟我們可以更好地理解分類過程；

五、代碼實(shí)現(xiàn)

x 軸數(shù)據(jù)],[存儲(chǔ) y 軸數(shù)據(jù)]]
for i in range(m):
    if i  m/3: 
        data[0].append(uniform(1,5))#隨機(jī)設(shè)定
        data[1].append(uniform(1,5))
    elif i  2*m/3:
        data[0].append(uniform(6,10))
        data[1].append(uniform(1,5))
    else:
        data[0].append(uniform(3,8))
        data[1].append(uniform(5,10))
#將創(chuàng)建的數(shù)據(jù)集畫成散點(diǎn)圖
plt.scatter(data[0],data[1])
plt.xlim(0,11)
plt.ylim(0,11)
plt.show()

#定義歐幾里得距離
def distEuclid(x1,y1,x2,y2):
    d = sqrt((x1-x2)**2+(y1-y2)**2)
    return d

cent0 = [uniform(2,9),uniform(2,9)] #定義 K=3 個(gè)質(zhì)心，隨機(jī)賦值
cent1 = [uniform(2,9),uniform(2,9)] #[x,y]
cent2 = [uniform(2,9),uniform(2,9)]
mark = [] #標(biāo)記列表
dist = [[],[],[]]#各質(zhì)心到所有點(diǎn)的距離列表
#核心
for n in range(50):
    #計(jì)算各質(zhì)心到所有點(diǎn)的距離
    for i in range(m):
        dist[0].append(distEuclid(cent0[0],cent0[1],data[0][i],data[1][i]))
        dist[1].append(distEuclid(cent1[0],cent1[1],data[0][i],data[1][i]))
        dist[2].append(distEuclid(cent2[0],cent2[1],data[0][i],data[1][i]))
    #對(duì)數(shù)據(jù)進(jìn)行整理
    sum0_x = sum0_y = sum1_x = sum1_y = sum2_x = sum2_y = 0
    number0 = number1 = number2 = 0
    for i in range(m):
        if dist[0][i]dist[1][i] and dist[0][i]dist[2][i]:
            mark.append(0)
            sum0_x += data[0][i]
            sum0_y += data[1][i]
            number0 += 1
        elif dist[1][i]dist[0][i] and dist[1][i]dist[2][i]:
            mark.append(1)
            sum1_x += data[0][i]
            sum1_y += data[1][i]
            number1 += 1
        elif dist[2][i]dist[0][i] and dist[2][i]dist[1][i]:
            mark.append(2)
            sum2_x += data[0][i]
            sum2_y += data[1][i]
            number2 += 1    
    #更新質(zhì)心
    cent0 = [sum0_x/number0,sum0_y/number0]
    cent1 = [sum1_x/number1,sum1_y/number1]
    cent2 = [sum2_x/number2,sum2_y/number2]

#畫圖
for i in range(m):
    if mark[i] == 0:
        plt.scatter(data[0][i],data[1][i],color='red')
    if mark[i] == 1:
        plt.scatter(data[0][i],data[1][i],color='blue')
    if mark[i] == 2:
        plt.scatter(data[0][i],data[1][i],color='green')     
plt.scatter(cent0[0],cent0[1],marker='*',color='red')
plt.scatter(cent1[0],cent1[1],marker='*',color='blue')
plt.scatter(cent2[0],cent2[1],marker='*',color='green')
plt.xlim(0,11)
plt.ylim(0,11)
plt.show()
在這里插入代碼片

上述代碼數(shù)據(jù)選擇是隨機(jī)生成的，每次運(yùn)行結(jié)果是不同的，測(cè)試會(huì)發(fā)現(xiàn)出現(xiàn)分類不理想的效果。說明基礎(chǔ)算法存在很大的弊端，我們需要改進(jìn)，本篇內(nèi)容為基礎(chǔ)不做改進(jìn)知識(shí)的說明。

幾種較好的分類

幾種較差的分類

六、小結(jié)

優(yōu)點(diǎn)

算法簡(jiǎn)單易實(shí)現(xiàn)；
聚類效果依賴K值選定，

缺點(diǎn)

需要用戶事先指定類簇個(gè)數(shù)；
聚類結(jié)果對(duì)初始類簇中心的選取較為敏感；
容易陷入局部最優(yōu)；只能發(fā)現(xiàn)球形類簇；

到此這篇關(guān)于Python機(jī)器學(xué)習(xí)之Kmeans基礎(chǔ)算法的文章就介紹到這了,更多相關(guān)Python Kmeans基礎(chǔ)算法內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

Python 機(jī)器學(xué)習(xí)工具包SKlearn的安裝與使用
Python機(jī)器學(xué)習(xí)之KNN近鄰算法
Python機(jī)器學(xué)習(xí)算法之決策樹算法的實(shí)現(xiàn)與優(yōu)缺點(diǎn)
Python機(jī)器學(xué)習(xí)三大件之一numpy
Python機(jī)器學(xué)習(xí)之決策樹
python機(jī)器學(xué)習(xí)之線性回歸詳解
python 機(jī)器學(xué)習(xí)的標(biāo)準(zhǔn)化、歸一化、正則化、離散化和白化
Python機(jī)器學(xué)習(xí)工具scikit-learn的使用筆記
python機(jī)器學(xué)習(xí)庫(kù)xgboost的使用
python機(jī)器學(xué)習(xí)實(shí)現(xiàn)決策樹
python機(jī)器學(xué)習(xí)包mlxtend的安裝和配置詳解
Python機(jī)器學(xué)習(xí)算法庫(kù)scikit-learn學(xué)習(xí)之決策樹實(shí)現(xiàn)方法詳解
Python機(jī)器學(xué)習(xí)之基礎(chǔ)概述

標(biāo)簽：宿遷黃山景德鎮(zhèn) 三沙欽州喀什濟(jì)南臺(tái)灣

巨人網(wǎng)絡(luò)通訊聲明：本文標(biāo)題《Python機(jī)器學(xué)習(xí)之Kmeans基礎(chǔ)算法》，本文關(guān)鍵詞 Python,機(jī)器,學(xué),習(xí)之,Kmeans,；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題，煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們，我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無(wú)關(guān)。