成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大白話講解三大聚類(lèi)算法的基礎(chǔ)原理:K-Means、層次聚類(lèi)、DBSCAN 聚類(lèi)

開(kāi)發(fā)
聚類(lèi)算法就像一群能干的“數(shù)據(jù)整理師”,它們幫助我們從看似雜亂無(wú)章的數(shù)據(jù)中發(fā)現(xiàn)隱藏的結(jié)構(gòu)和模式。

想象一下,你面前有一大堆五顏六色的豆子,紅的、綠的、黃的、黑的,混雜在一起。你的任務(wù)是把它們分開(kāi),讓顏色相同的豆子待在一起。這個(gè)過(guò)程,在數(shù)據(jù)科學(xué)里就叫做“聚類(lèi)”(Clustering)。聚類(lèi)算法就是那些聰明的“豆子分揀機(jī)”,它們能自動(dòng)識(shí)別數(shù)據(jù)中的相似性,把相似的數(shù)據(jù)點(diǎn)“物以類(lèi)聚”,分成不同的“堆”或“簇”(Cluster)。

聽(tīng)起來(lái)是不是有點(diǎn)抽象?別急,今天我們就用大白話,把幾種常見(jiàn)的聚類(lèi)算法聊個(gè)明明白白,讓你也能輕松理解這些讓數(shù)據(jù)自動(dòng)“抱團(tuán)”的智慧。

一、聚類(lèi):讓數(shù)據(jù)自己“找朋友”

在正式介紹算法之前,我們先簡(jiǎn)單理解下聚類(lèi)到底在干嘛。

1. 什么是聚類(lèi)?

簡(jiǎn)單來(lái)說(shuō),聚類(lèi)是一種無(wú)監(jiān)督學(xué)習(xí)方法。啥叫“無(wú)監(jiān)督”?就是我們只給算法一堆數(shù)據(jù),不告訴它每個(gè)數(shù)據(jù)具體屬于哪個(gè)類(lèi)別(比如,不提前告訴機(jī)器哪些豆子是紅的,哪些是綠的)。算法需要自己去探索數(shù)據(jù)之間的關(guān)系,找出它們的“共同點(diǎn)”和“不同點(diǎn)”,然后把相似的歸為一類(lèi)。

2. 聚類(lèi)的目標(biāo)是什么?

聚類(lèi)的目標(biāo)是讓同一簇內(nèi)的數(shù)據(jù)點(diǎn)盡可能相似,而不同簇之間的數(shù)據(jù)點(diǎn)盡可能不同。就像分豆子,我們希望同一堆里的豆子顏色都一樣,而不同堆的豆子顏色要有明顯區(qū)別。

二、主流聚類(lèi)算法“三巨頭”:K-Means、層次聚類(lèi)、DBSCAN

雖然聚類(lèi)算法有很多種,但有幾位“大佬”是繞不開(kāi)的。我們就先來(lái)認(rèn)識(shí)一下這三位:K-Means(K均值)、層次聚類(lèi)(Hierarchical Clustering)和DBSCAN(基于密度的聚類(lèi))。

1. K-Means/K-Means++:簡(jiǎn)單粗暴的“拉幫結(jié)派”大師

K-Means可以說(shuō)是聚類(lèi)算法里的“入門(mén)款”,也是最廣為人知的一種。它的核心思想簡(jiǎn)單直接,就像在人群中找?guī)讉€(gè)“帶頭大哥”,然后讓其他人各自投靠離自己最近的“大哥”。

(1) K-Means的工作流程(大白話版)

  • 定“大哥”數(shù)量 (K值):首先,你得告訴K-Means你想把數(shù)據(jù)分成幾堆(K個(gè)簇)。這個(gè)K是你提前定好的。
  • 隨機(jī)選“大哥” (初始質(zhì)心):算法會(huì)隨機(jī)在數(shù)據(jù)點(diǎn)中選出K個(gè)點(diǎn)作為初始的“帶頭大哥”(也叫質(zhì)心或簇中心)。
  • 小弟“站隊(duì)”:然后,其他所有的數(shù)據(jù)點(diǎn)都會(huì)看看哪個(gè)“大哥”離自己最近,就加入哪個(gè)“大哥”的隊(duì)伍。這樣,初步的K個(gè)簇就形成了。
  • “大哥”挪位置 (更新質(zhì)心):每個(gè)隊(duì)伍形成后,原來(lái)的“大哥”可能就不再是隊(duì)伍的中心了。于是,每個(gè)隊(duì)伍會(huì)重新計(jì)算自己所有成員的“平均位置”,讓這個(gè)“平均位置”成為新的“帶頭大哥”(更新質(zhì)心)。
  • 重復(fù)“站隊(duì)”和“挪位置”:不斷重復(fù)第3步和第4步,小弟們根據(jù)新的“大哥”位置重新站隊(duì),“大哥”們也根據(jù)新的隊(duì)伍成員調(diào)整自己的位置。
  • “天下太平” (收斂):直到“大哥”的位置不再發(fā)生明顯變化,或者小弟們不再換隊(duì)伍了,K-Means就覺(jué)得“天下太平”了,聚類(lèi)完成。

(2) K-Means++:更聰明的“選大哥”方式

傳統(tǒng)的K-Means隨機(jī)選初始“大哥”的方式有點(diǎn)碰運(yùn)氣,選不好可能導(dǎo)致聚類(lèi)效果不佳。K-Means++就是對(duì)這個(gè)“選大哥”環(huán)節(jié)做了優(yōu)化:

  • 第一個(gè)“大哥”還是隨機(jī)選。
  • 選后續(xù)的“大哥”時(shí),會(huì)優(yōu)先選擇那些離已經(jīng)選出的“大哥”們比較遠(yuǎn)的點(diǎn)。這樣能讓初始的“大哥”們分布得更散開(kāi),更有可能得到好的聚類(lèi)結(jié)果。

(3) K-Means的優(yōu)缺點(diǎn)

優(yōu)點(diǎn):

  • 簡(jiǎn)單快速:算法原理簡(jiǎn)單,計(jì)算效率高,適合處理大規(guī)模數(shù)據(jù)集。
  • 容易理解和實(shí)現(xiàn)。

缺點(diǎn):

  • K值需要提前指定:K選不好,效果可能天差地別。實(shí)際應(yīng)用中常常需要嘗試不同的K值。
  • 對(duì)初始質(zhì)心敏感:雖然K-Means++有所改進(jìn),但初始質(zhì)心的選擇仍可能影響最終結(jié)果。
  • 對(duì)異常值敏感:個(gè)別離群點(diǎn)可能會(huì)嚴(yán)重影響簇中心的計(jì)算。
  • 只能處理球狀簇:它假設(shè)簇是凸形的、大小相似的球狀,對(duì)于形狀不規(guī)則的簇效果不佳。
  • 需要數(shù)值型數(shù)據(jù)且對(duì)距離敏感:通常使用歐氏距離,對(duì)特征的尺度敏感,最好先進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化。

2. 層次聚類(lèi):按“親疏遠(yuǎn)近”構(gòu)建“家族樹(shù)”

層次聚類(lèi)不像K-Means那樣一開(kāi)始就定好分幾堆,而是像構(gòu)建一個(gè)“家族樹(shù)”一樣,逐步地把數(shù)據(jù)點(diǎn)合并或者拆分。

(1) 兩種主要策略

凝聚型 (Agglomerative) - “從下往上合并”:

  • 一開(kāi)始,每個(gè)數(shù)據(jù)點(diǎn)自己就是一個(gè)獨(dú)立的“小家庭”(一個(gè)簇)。
  • 然后,算法會(huì)找出最“親近”(距離最近)的兩個(gè)“小家庭”,把它們合并成一個(gè)稍大一點(diǎn)的“家庭”。
  • 不斷重復(fù)這個(gè)過(guò)程,把最親近的“家庭”或“家族”合并起來(lái),直到所有數(shù)據(jù)點(diǎn)都屬于同一個(gè)“超級(jí)大家族”。
  • 這個(gè)過(guò)程會(huì)形成一個(gè)樹(shù)狀結(jié)構(gòu),叫做樹(shù)狀圖 (Dendrogram)。你可以根據(jù)需要在樹(shù)狀圖的不同高度“橫切一刀”,得到不同數(shù)量的簇。

分裂型 (Divisive) - “從上往下拆分” (相對(duì)少用):

  • 一開(kāi)始,所有數(shù)據(jù)點(diǎn)都屬于同一個(gè)“超級(jí)大家族”。
  • 然后,算法會(huì)想辦法把這個(gè)“大家族”拆分成最不像的兩個(gè)“分支家族”。
  • 不斷重復(fù)這個(gè)過(guò)程,直到每個(gè)數(shù)據(jù)點(diǎn)都自成一派,或者達(dá)到預(yù)設(shè)的簇?cái)?shù)量。

(2) 衡量“親疏遠(yuǎn)近”的方式 (Linkage Methods)

在合并“家庭”時(shí),怎么判斷哪兩個(gè)“家庭”最親近呢?這就要用到不同的“連接方法”:

  • Single Linkage (最小連接/最近鄰): 兩個(gè)簇之間的距離由它們各自最近的兩個(gè)點(diǎn)之間的距離決定。容易受到異常值影響,可能形成“鏈狀”的簇。
  • Complete Linkage (最大連接/最遠(yuǎn)鄰): 兩個(gè)簇之間的距離由它們各自最遠(yuǎn)的兩個(gè)點(diǎn)之間的距離決定。傾向于形成大小相似的緊湊球狀簇。
  • Average Linkage (平均連接): 兩個(gè)簇之間的距離是它們所有點(diǎn)對(duì)之間距離的平均值。介于Single和Complete之間。
  • Ward's Linkage: 嘗試最小化合并后簇內(nèi)的方差增加量。通常能得到比較均勻的簇。

(3) 層次聚類(lèi)的優(yōu)缺點(diǎn)

優(yōu)點(diǎn):

  • 無(wú)需預(yù)先指定簇?cái)?shù)量K: 可以通過(guò)觀察樹(shù)狀圖來(lái)決定合適的簇?cái)?shù)量。
  • 可以揭示數(shù)據(jù)的層次結(jié)構(gòu): 樹(shù)狀圖本身就很有信息量。
  • 可以處理任意形狀的簇 (取決于連接方法,如Single Linkage)。

缺點(diǎn):

  • 計(jì)算復(fù)雜度高: 特別是凝聚型方法,對(duì)于大規(guī)模數(shù)據(jù)集計(jì)算量很大 (通常是O(n^2 log n) 或 O(n^3))。
  • 一旦合并或分裂,不可逆轉(zhuǎn): 早期的錯(cuò)誤決策會(huì)影響后續(xù)結(jié)果。
  • 對(duì)連接方法的選擇敏感。

3. DBSCAN:“找核心,拉伙伴,滾雪球”的密度偵探

DBSCAN (Density-Based Spatial Clustering of Applications with Noise) 是一種基于密度的聚類(lèi)算法。它的想法很直觀:一個(gè)簇就是數(shù)據(jù)點(diǎn)密集的一塊區(qū)域,被稀疏區(qū)域隔開(kāi)。它還能很好地識(shí)別出那些“不合群”的噪聲點(diǎn) (Noise Points)。

(1) DBSCAN的核心概念(大白話版)

兩個(gè)重要參數(shù):

  • Eps (ε, 半徑):一個(gè)小圈圈的半徑。
  • MinPts (最小點(diǎn)數(shù)):一個(gè)小圈圈里至少要有這么多鄰居,才算“人丁興旺”。

點(diǎn)的三種身份:

  • 核心點(diǎn) (Core Point):如果一個(gè)點(diǎn)的小圈圈(以Eps為半徑)里,包含了至少M(fèi)inPts個(gè)鄰居(包括它自己),那它就是個(gè)“核心人物”。
  • 邊界點(diǎn) (Border Point):一個(gè)點(diǎn)的小圈圈里鄰居數(shù)量不夠MinPts,但它幸運(yùn)地落在了某個(gè)“核心人物”的小圈圈里,那它就是個(gè)“邊緣人物”,可以被拉入伙。
  • 噪聲點(diǎn) (Noise Point):既不是核心點(diǎn),也不是邊界點(diǎn),自己孤零零的,那就是“局外人”或“噪聲”。

聚類(lèi)過(guò)程(滾雪球):

  • 如果是,太好了!以它為起點(diǎn)開(kāi)始“滾雪球”,把它和它小圈圈里所有能直接或間接“夠得著”(密度可達(dá))的核心點(diǎn)和邊界點(diǎn)都拉到同一個(gè)簇里。
  • 如果不是核心點(diǎn)(可能是邊界點(diǎn)或噪聲點(diǎn)),暫時(shí)標(biāo)記一下,先不管它。
  • 算法隨機(jī)選一個(gè)還沒(méi)被訪問(wèn)過(guò)的點(diǎn)。
  • 判斷這個(gè)點(diǎn)是不是“核心點(diǎn)”。
  • 不斷重復(fù)這個(gè)過(guò)程,直到所有點(diǎn)都被訪問(wèn)過(guò)。

(2) DBSCAN的優(yōu)缺點(diǎn)

優(yōu)點(diǎn):

  • 可以發(fā)現(xiàn)任意形狀的簇: 不局限于球狀。
  • 能夠識(shí)別噪聲點(diǎn): 對(duì)異常值不敏感。
  • 無(wú)需預(yù)先指定簇?cái)?shù)量K: 簇的數(shù)量由算法根據(jù)數(shù)據(jù)分布自動(dòng)確定。
  • 參數(shù)有物理意義: Eps和MinPts相對(duì)直觀。

缺點(diǎn):

  • 對(duì)參數(shù)Eps和MinPts敏感: 參數(shù)選不好,效果可能很差。調(diào)參可能需要經(jīng)驗(yàn)或多次嘗試。
  • 對(duì)于密度不均勻的數(shù)據(jù)集效果可能不佳: 如果不同簇的密度差異很大,用一組固定的Eps和MinPts可能難以同時(shí)適應(yīng)。
  • 高維數(shù)據(jù)下表現(xiàn)可能下降:“維度災(zāi)難”可能導(dǎo)致距離度量在高維空間失效,密度定義變得困難。

三、如何選擇合適的聚類(lèi)算法?

沒(méi)有一種聚類(lèi)算法是萬(wàn)能的。選擇哪種算法取決于你的數(shù)據(jù)特性、分析目標(biāo)以及計(jì)算資源:

  • 數(shù)據(jù)量大,追求速度,簇形狀大致為球形,且能大概估計(jì)K值?->K-Means/K-Means++可能是個(gè)不錯(cuò)的起點(diǎn)。
  • 想了解數(shù)據(jù)的層次結(jié)構(gòu),不確定K值,數(shù)據(jù)量不是特別巨大?->層次聚類(lèi)值得一試,記得嘗試不同的連接方法。
  • 簇的形狀可能不規(guī)則,數(shù)據(jù)中可能存在噪聲,不確定K值,但能大致判斷密度參數(shù)?->DBSCAN可能會(huì)給你驚喜。

四、聚類(lèi)之后呢?評(píng)估與解讀

聚類(lèi)完成后,我們還需要評(píng)估聚類(lèi)的效果好不好,以及理解每個(gè)簇代表了什么。

  • 內(nèi)部評(píng)估指標(biāo) (無(wú)真實(shí)標(biāo)簽時(shí)):如輪廓系數(shù) (Silhouette Coefficient)、Calinski-Harabasz指數(shù)、Davies-Bouldin指數(shù)等,它們衡量簇的緊密程度和分離程度。
  • 外部評(píng)估指標(biāo) (有真實(shí)標(biāo)簽時(shí),用于驗(yàn)證):如調(diào)整蘭德指數(shù) (Adjusted Rand Index, ARI)、標(biāo)準(zhǔn)化互信息 (Normalized Mutual Information, NMI) 等。
  • 業(yè)務(wù)解讀: 最重要的是結(jié)合業(yè)務(wù)知識(shí),分析每個(gè)簇內(nèi)數(shù)據(jù)的共同特征,給每個(gè)簇賦予實(shí)際的業(yè)務(wù)意義。例如,在客戶(hù)聚類(lèi)中,一個(gè)簇可能代表“高價(jià)值年輕用戶(hù)”,另一個(gè)簇代表“價(jià)格敏感型老年用戶(hù)”。

五、結(jié)語(yǔ):聚類(lèi),讓數(shù)據(jù)自己講故事

聚類(lèi)算法就像一群能干的“數(shù)據(jù)整理師”,它們幫助我們從看似雜亂無(wú)章的數(shù)據(jù)中發(fā)現(xiàn)隱藏的結(jié)構(gòu)和模式。K-Means的簡(jiǎn)單高效,層次聚類(lèi)的逐級(jí)洞察,DBSCAN的密度尋蹤,各有各的看家本領(lǐng)。理解了它們的工作原理和適用場(chǎng)景,你就能更好地選擇和運(yùn)用這些工具,讓數(shù)據(jù)自己“開(kāi)口說(shuō)話”,揭示更多有價(jià)值的信息。

責(zé)任編輯:趙寧寧 來(lái)源: Python數(shù)智工坊
相關(guān)推薦

2020-05-13 15:57:59

聚類(lèi)分析算法監(jiān)督學(xué)習(xí)

2020-07-09 15:26:18

Python聚類(lèi)算法語(yǔ)言

2023-10-31 09:00:00

2021-03-03 10:08:40

數(shù)據(jù)算法技術(shù)

2018-05-28 15:33:09

無(wú)監(jiān)督學(xué)習(xí)算法Python

2024-10-18 17:14:13

2017-05-15 11:10:10

大數(shù)據(jù)聚類(lèi)算法

2014-07-02 10:34:08

聚類(lèi)算法算法

2022-04-18 09:16:47

層次聚類(lèi)Python代碼

2024-07-16 10:35:42

2016-09-30 01:10:12

R語(yǔ)言聚類(lèi)方法

2023-12-01 16:27:05

機(jī)器學(xué)習(xí)無(wú)監(jiān)督學(xué)習(xí)

2025-03-31 08:28:24

大型語(yǔ)言模型LLMDeepSeek

2019-10-12 10:11:02

數(shù)據(jù)集聚類(lèi)算法

2023-04-02 14:16:45

凸集算法集合

2023-05-10 08:00:00

聚類(lèi)分析數(shù)據(jù)分析聚類(lèi)算法

2011-07-26 10:16:14

SQL Server數(shù)據(jù)挖掘

2011-07-25 15:39:49

SQL SERVER數(shù)聚類(lèi)算法順序聚類(lèi)算法

2022-09-07 23:54:17

機(jī)器學(xué)習(xí)無(wú)監(jiān)督學(xué)習(xí)算法

2018-04-24 15:19:52

聚類(lèi)分析數(shù)據(jù)方法
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 三极网站 | 亚洲视频免费在线看 | 国产精品自拍一区 | 亚洲成人福利视频 | 特级黄一级播放 | 成人午夜免费在线视频 | 亚洲视频国产 | 99久久婷婷国产综合精品电影 | 国产精品 欧美精品 | 日韩精品一区二区三区中文字幕 | 99亚洲精品 | 国产精品福利久久久 | 久久综合国产精品 | 精品美女在线观看视频在线观看 | 日韩精品久久一区二区三区 | 在线一区二区三区 | 国产亚洲一区二区三区在线观看 | av在线一区二区三区 | 中文字幕成人免费视频 | 在线观看国产网站 | 成人免费在线观看 | 久久手机在线视频 | 国产精品福利网 | 亚洲国产一区二区三区 | 国产精品欧美一区二区 | 国产精品网页 | 日韩久久精品 | 久草在线在线精品观看 | 亚洲一区二区三区久久 | 国产精品久久久久久久久久久久久 | 久久99视频| 日韩国产一区二区三区 | 久久成人一区二区三区 | 99视频免费播放 | 久草网址| 91视频网址 | 大学生a级毛片免费视频 | 日日日日日日bbbbb视频 | 国产精品99视频 | 日本高清aⅴ毛片免费 | 欧美日韩精品中文字幕 |