大白話講解三大聚類(lèi)算法的基礎(chǔ)原理：K-Means、層次聚類(lèi)、DBSCAN 聚類(lèi)

作者：用戶(hù)007 2025-05-22 10:06:49

聚類(lèi)算法就像一群能干的“數(shù)據(jù)整理師”，它們幫助我們從看似雜亂無(wú)章的數(shù)據(jù)中發(fā)現(xiàn)隱藏的結(jié)構(gòu)和模式。

想象一下，你面前有一大堆五顏六色的豆子，紅的、綠的、黃的、黑的，混雜在一起。你的任務(wù)是把它們分開(kāi)，讓顏色相同的豆子待在一起。這個(gè)過(guò)程，在數(shù)據(jù)科學(xué)里就叫做“聚類(lèi)”（Clustering）。聚類(lèi)算法就是那些聰明的“豆子分揀機(jī)”，它們能自動(dòng)識(shí)別數(shù)據(jù)中的相似性，把相似的數(shù)據(jù)點(diǎn)“物以類(lèi)聚”，分成不同的“堆”或“簇”（Cluster）。

聽(tīng)起來(lái)是不是有點(diǎn)抽象？別急，今天我們就用大白話，把幾種常見(jiàn)的聚類(lèi)算法聊個(gè)明明白白，讓你也能輕松理解這些讓數(shù)據(jù)自動(dòng)“抱團(tuán)”的智慧。

一、聚類(lèi)：讓數(shù)據(jù)自己“找朋友”

在正式介紹算法之前，我們先簡(jiǎn)單理解下聚類(lèi)到底在干嘛。

1. 什么是聚類(lèi)？

簡(jiǎn)單來(lái)說(shuō)，聚類(lèi)是一種無(wú)監(jiān)督學(xué)習(xí)方法。啥叫“無(wú)監(jiān)督”？就是我們只給算法一堆數(shù)據(jù)，不告訴它每個(gè)數(shù)據(jù)具體屬于哪個(gè)類(lèi)別（比如，不提前告訴機(jī)器哪些豆子是紅的，哪些是綠的）。算法需要自己去探索數(shù)據(jù)之間的關(guān)系，找出它們的“共同點(diǎn)”和“不同點(diǎn)”，然后把相似的歸為一類(lèi)。

2. 聚類(lèi)的目標(biāo)是什么？

聚類(lèi)的目標(biāo)是讓同一簇內(nèi)的數(shù)據(jù)點(diǎn)盡可能相似，而不同簇之間的數(shù)據(jù)點(diǎn)盡可能不同。就像分豆子，我們希望同一堆里的豆子顏色都一樣，而不同堆的豆子顏色要有明顯區(qū)別。

二、主流聚類(lèi)算法“三巨頭”：K-Means、層次聚類(lèi)、DBSCAN

雖然聚類(lèi)算法有很多種，但有幾位“大佬”是繞不開(kāi)的。我們就先來(lái)認(rèn)識(shí)一下這三位：K-Means（K均值）、層次聚類(lèi)（Hierarchical Clustering）和DBSCAN（基于密度的聚類(lèi)）。

1. K-Means/K-Means++：簡(jiǎn)單粗暴的“拉幫結(jié)派”大師

K-Means可以說(shuō)是聚類(lèi)算法里的“入門(mén)款”，也是最廣為人知的一種。它的核心思想簡(jiǎn)單直接，就像在人群中找?guī)讉€(gè)“帶頭大哥”，然后讓其他人各自投靠離自己最近的“大哥”。

(1) K-Means的工作流程（大白話版）

定“大哥”數(shù)量 (K值)：首先，你得告訴K-Means你想把數(shù)據(jù)分成幾堆（K個(gè)簇）。這個(gè)K是你提前定好的。
隨機(jī)選“大哥” (初始質(zhì)心)：算法會(huì)隨機(jī)在數(shù)據(jù)點(diǎn)中選出K個(gè)點(diǎn)作為初始的“帶頭大哥”（也叫質(zhì)心或簇中心）。
小弟“站隊(duì)”：然后，其他所有的數(shù)據(jù)點(diǎn)都會(huì)看看哪個(gè)“大哥”離自己最近，就加入哪個(gè)“大哥”的隊(duì)伍。這樣，初步的K個(gè)簇就形成了。
“大哥”挪位置 (更新質(zhì)心)：每個(gè)隊(duì)伍形成后，原來(lái)的“大哥”可能就不再是隊(duì)伍的中心了。于是，每個(gè)隊(duì)伍會(huì)重新計(jì)算自己所有成員的“平均位置”，讓這個(gè)“平均位置”成為新的“帶頭大哥”（更新質(zhì)心）。
重復(fù)“站隊(duì)”和“挪位置”：不斷重復(fù)第3步和第4步，小弟們根據(jù)新的“大哥”位置重新站隊(duì)，“大哥”們也根據(jù)新的隊(duì)伍成員調(diào)整自己的位置。
“天下太平” (收斂)：直到“大哥”的位置不再發(fā)生明顯變化，或者小弟們不再換隊(duì)伍了，K-Means就覺(jué)得“天下太平”了，聚類(lèi)完成。

(2) K-Means++：更聰明的“選大哥”方式

傳統(tǒng)的K-Means隨機(jī)選初始“大哥”的方式有點(diǎn)碰運(yùn)氣，選不好可能導(dǎo)致聚類(lèi)效果不佳。K-Means++就是對(duì)這個(gè)“選大哥”環(huán)節(jié)做了優(yōu)化：

第一個(gè)“大哥”還是隨機(jī)選。
選后續(xù)的“大哥”時(shí)，會(huì)優(yōu)先選擇那些離已經(jīng)選出的“大哥”們比較遠(yuǎn)的點(diǎn)。這樣能讓初始的“大哥”們分布得更散開(kāi)，更有可能得到好的聚類(lèi)結(jié)果。

(3) K-Means的優(yōu)缺點(diǎn)

優(yōu)點(diǎn)：

簡(jiǎn)單快速：算法原理簡(jiǎn)單，計(jì)算效率高，適合處理大規(guī)模數(shù)據(jù)集。
容易理解和實(shí)現(xiàn)。

缺點(diǎn)：

K值需要提前指定：K選不好，效果可能天差地別。實(shí)際應(yīng)用中常常需要嘗試不同的K值。
對(duì)初始質(zhì)心敏感：雖然K-Means++有所改進(jìn)，但初始質(zhì)心的選擇仍可能影響最終結(jié)果。
對(duì)異常值敏感：個(gè)別離群點(diǎn)可能會(huì)嚴(yán)重影響簇中心的計(jì)算。
只能處理球狀簇：它假設(shè)簇是凸形的、大小相似的球狀，對(duì)于形狀不規(guī)則的簇效果不佳。
需要數(shù)值型數(shù)據(jù)且對(duì)距離敏感：通常使用歐氏距離，對(duì)特征的尺度敏感，最好先進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化。

2. 層次聚類(lèi)：按“親疏遠(yuǎn)近”構(gòu)建“家族樹(shù)”

層次聚類(lèi)不像K-Means那樣一開(kāi)始就定好分幾堆，而是像構(gòu)建一個(gè)“家族樹(shù)”一樣，逐步地把數(shù)據(jù)點(diǎn)合并或者拆分。

(1) 兩種主要策略

凝聚型 (Agglomerative) - “從下往上合并”:

一開(kāi)始，每個(gè)數(shù)據(jù)點(diǎn)自己就是一個(gè)獨(dú)立的“小家庭”（一個(gè)簇）。
然后，算法會(huì)找出最“親近”（距離最近）的兩個(gè)“小家庭”，把它們合并成一個(gè)稍大一點(diǎn)的“家庭”。
不斷重復(fù)這個(gè)過(guò)程，把最親近的“家庭”或“家族”合并起來(lái)，直到所有數(shù)據(jù)點(diǎn)都屬于同一個(gè)“超級(jí)大家族”。
這個(gè)過(guò)程會(huì)形成一個(gè)樹(shù)狀結(jié)構(gòu)，叫做樹(shù)狀圖 (Dendrogram)。你可以根據(jù)需要在樹(shù)狀圖的不同高度“橫切一刀”，得到不同數(shù)量的簇。

分裂型 (Divisive) - “從上往下拆分” (相對(duì)少用)：

一開(kāi)始，所有數(shù)據(jù)點(diǎn)都屬于同一個(gè)“超級(jí)大家族”。
然后，算法會(huì)想辦法把這個(gè)“大家族”拆分成最不像的兩個(gè)“分支家族”。
不斷重復(fù)這個(gè)過(guò)程，直到每個(gè)數(shù)據(jù)點(diǎn)都自成一派，或者達(dá)到預(yù)設(shè)的簇?cái)?shù)量。

(2) 衡量“親疏遠(yuǎn)近”的方式 (Linkage Methods)

在合并“家庭”時(shí)，怎么判斷哪兩個(gè)“家庭”最親近呢？這就要用到不同的“連接方法”：

Single Linkage (最小連接/最近鄰): 兩個(gè)簇之間的距離由它們各自最近的兩個(gè)點(diǎn)之間的距離決定。容易受到異常值影響，可能形成“鏈狀”的簇。
Complete Linkage (最大連接/最遠(yuǎn)鄰): 兩個(gè)簇之間的距離由它們各自最遠(yuǎn)的兩個(gè)點(diǎn)之間的距離決定。傾向于形成大小相似的緊湊球狀簇。
Average Linkage (平均連接): 兩個(gè)簇之間的距離是它們所有點(diǎn)對(duì)之間距離的平均值。介于Single和Complete之間。
Ward's Linkage: 嘗試最小化合并后簇內(nèi)的方差增加量。通常能得到比較均勻的簇。

(3) 層次聚類(lèi)的優(yōu)缺點(diǎn)

優(yōu)點(diǎn)：

無(wú)需預(yù)先指定簇?cái)?shù)量K: 可以通過(guò)觀察樹(shù)狀圖來(lái)決定合適的簇?cái)?shù)量。
可以揭示數(shù)據(jù)的層次結(jié)構(gòu): 樹(shù)狀圖本身就很有信息量。
可以處理任意形狀的簇 (取決于連接方法，如Single Linkage)。

缺點(diǎn)：

計(jì)算復(fù)雜度高: 特別是凝聚型方法，對(duì)于大規(guī)模數(shù)據(jù)集計(jì)算量很大 (通常是O(n^2 log n) 或 O(n^3))。
一旦合并或分裂，不可逆轉(zhuǎn): 早期的錯(cuò)誤決策會(huì)影響后續(xù)結(jié)果。
對(duì)連接方法的選擇敏感。

3. DBSCAN：“找核心，拉伙伴，滾雪球”的密度偵探

DBSCAN (Density-Based Spatial Clustering of Applications with Noise) 是一種基于密度的聚類(lèi)算法。它的想法很直觀：一個(gè)簇就是數(shù)據(jù)點(diǎn)密集的一塊區(qū)域，被稀疏區(qū)域隔開(kāi)。它還能很好地識(shí)別出那些“不合群”的噪聲點(diǎn) (Noise Points)。

(1) DBSCAN的核心概念（大白話版）

兩個(gè)重要參數(shù)：

Eps (ε, 半徑)：一個(gè)小圈圈的半徑。
MinPts (最小點(diǎn)數(shù))：一個(gè)小圈圈里至少要有這么多鄰居，才算“人丁興旺”。

點(diǎn)的三種身份：

核心點(diǎn) (Core Point)：如果一個(gè)點(diǎn)的小圈圈（以Eps為半徑）里，包含了至少M(fèi)inPts個(gè)鄰居（包括它自己），那它就是個(gè)“核心人物”。
邊界點(diǎn) (Border Point)：一個(gè)點(diǎn)的小圈圈里鄰居數(shù)量不夠MinPts，但它幸運(yùn)地落在了某個(gè)“核心人物”的小圈圈里，那它就是個(gè)“邊緣人物”，可以被拉入伙。
噪聲點(diǎn) (Noise Point)：既不是核心點(diǎn)，也不是邊界點(diǎn)，自己孤零零的，那就是“局外人”或“噪聲”。

聚類(lèi)過(guò)程（滾雪球）：

如果是，太好了！以它為起點(diǎn)開(kāi)始“滾雪球”，把它和它小圈圈里所有能直接或間接“夠得著”（密度可達(dá)）的核心點(diǎn)和邊界點(diǎn)都拉到同一個(gè)簇里。
如果不是核心點(diǎn)（可能是邊界點(diǎn)或噪聲點(diǎn)），暫時(shí)標(biāo)記一下，先不管它。
算法隨機(jī)選一個(gè)還沒(méi)被訪問(wèn)過(guò)的點(diǎn)。
判斷這個(gè)點(diǎn)是不是“核心點(diǎn)”。
不斷重復(fù)這個(gè)過(guò)程，直到所有點(diǎn)都被訪問(wèn)過(guò)。

(2) DBSCAN的優(yōu)缺點(diǎn)

優(yōu)點(diǎn)：

可以發(fā)現(xiàn)任意形狀的簇: 不局限于球狀。
能夠識(shí)別噪聲點(diǎn): 對(duì)異常值不敏感。
無(wú)需預(yù)先指定簇?cái)?shù)量K: 簇的數(shù)量由算法根據(jù)數(shù)據(jù)分布自動(dòng)確定。
參數(shù)有物理意義: Eps和MinPts相對(duì)直觀。

缺點(diǎn)：

對(duì)參數(shù)Eps和MinPts敏感: 參數(shù)選不好，效果可能很差。調(diào)參可能需要經(jīng)驗(yàn)或多次嘗試。
對(duì)于密度不均勻的數(shù)據(jù)集效果可能不佳: 如果不同簇的密度差異很大，用一組固定的Eps和MinPts可能難以同時(shí)適應(yīng)。
高維數(shù)據(jù)下表現(xiàn)可能下降：“維度災(zāi)難”可能導(dǎo)致距離度量在高維空間失效，密度定義變得困難。

三、如何選擇合適的聚類(lèi)算法？

沒(méi)有一種聚類(lèi)算法是萬(wàn)能的。選擇哪種算法取決于你的數(shù)據(jù)特性、分析目標(biāo)以及計(jì)算資源：

數(shù)據(jù)量大，追求速度，簇形狀大致為球形，且能大概估計(jì)K值？->K-Means/K-Means++可能是個(gè)不錯(cuò)的起點(diǎn)。
想了解數(shù)據(jù)的層次結(jié)構(gòu)，不確定K值，數(shù)據(jù)量不是特別巨大？->層次聚類(lèi)值得一試，記得嘗試不同的連接方法。
簇的形狀可能不規(guī)則，數(shù)據(jù)中可能存在噪聲，不確定K值，但能大致判斷密度參數(shù)？->DBSCAN可能會(huì)給你驚喜。

四、聚類(lèi)之后呢？評(píng)估與解讀

聚類(lèi)完成后，我們還需要評(píng)估聚類(lèi)的效果好不好，以及理解每個(gè)簇代表了什么。

內(nèi)部評(píng)估指標(biāo) (無(wú)真實(shí)標(biāo)簽時(shí))：如輪廓系數(shù) (Silhouette Coefficient)、Calinski-Harabasz指數(shù)、Davies-Bouldin指數(shù)等，它們衡量簇的緊密程度和分離程度。
外部評(píng)估指標(biāo) (有真實(shí)標(biāo)簽時(shí)，用于驗(yàn)證)：如調(diào)整蘭德指數(shù) (Adjusted Rand Index, ARI)、標(biāo)準(zhǔn)化互信息 (Normalized Mutual Information, NMI) 等。
業(yè)務(wù)解讀: 最重要的是結(jié)合業(yè)務(wù)知識(shí)，分析每個(gè)簇內(nèi)數(shù)據(jù)的共同特征，給每個(gè)簇賦予實(shí)際的業(yè)務(wù)意義。例如，在客戶(hù)聚類(lèi)中，一個(gè)簇可能代表“高價(jià)值年輕用戶(hù)”，另一個(gè)簇代表“價(jià)格敏感型老年用戶(hù)”。

五、結(jié)語(yǔ)：聚類(lèi)，讓數(shù)據(jù)自己講故事

聚類(lèi)算法就像一群能干的“數(shù)據(jù)整理師”，它們幫助我們從看似雜亂無(wú)章的數(shù)據(jù)中發(fā)現(xiàn)隱藏的結(jié)構(gòu)和模式。K-Means的簡(jiǎn)單高效，層次聚類(lèi)的逐級(jí)洞察，DBSCAN的密度尋蹤，各有各的看家本領(lǐng)。理解了它們的工作原理和適用場(chǎng)景，你就能更好地選擇和運(yùn)用這些工具，讓數(shù)據(jù)自己“開(kāi)口說(shuō)話”，揭示更多有價(jià)值的信息。

責(zé)任編輯：趙寧寧來(lái)源： Python數(shù)智工坊