成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

圖解數(shù)據(jù)挖掘K-means算法

大數(shù)據(jù) 算法
K均值聚類算法是指將n個觀察值分成k個類,使得每一類中的觀察值與該類的均值最接近,與其他的類的均值較遠(yuǎn)。

 K-means Clustering Algorithm 中文名也許叫“K均值聚類算法”,是統(tǒng)計學(xué)和數(shù)據(jù)挖掘領(lǐng)域中常用的一種算法。維基百科上是這樣介紹的:k-means clustering is a method of cluster analysis which aims to partition n observations into k clusters in which each observation belongs to the cluster with the nearest mean(將n個觀察值分成k個類,使得每一類中的觀察值與該類的均值最接近,與其他的類的均值較遠(yuǎn))。

先來看一個最簡單、最直觀的圖示。

上圖有很多點,現(xiàn)在想將他們分成3個cluster,怎么辦? 作為人,一眼就看出來了,但是計算機就沒那么容易分類了,我們必須借助一些算法,而k-means就是其中的一種。K-means不僅可以處理二維空間的聚類,還可以擴展到n維向量空間,還可以處理字符、圖像、聲音等等。

以上圖為例,K-means算法的基本步驟如下:
輸入:一個要處理的數(shù)據(jù)集(例如上圖的點集),分成cluster的個數(shù)(比如3個),一個mean的計算方法(比如兩點之間的距離函數(shù),)
Step1. 首先隨機的給每個點標(biāo)上一種顏色,并計算同種顏色點坐標(biāo)的算術(shù)平均值,表示出相 應(yīng)的均值點。
Step2. 根據(jù)目前算出的均值點,將所有的點集分成3類,為每一類中的每個點,標(biāo)上與離它最近的均值點相同的顏色。怎么分呢?這里要介紹一種“泰森多邊形法”,英文名叫“Voronoi diagram”(見文章***維基百科鏈接)。于是就有了下面這張圖。

Step3.重復(fù)step2,直到所有點的顏色不再變化為止。
算法結(jié)束,輸出如下結(jié)果。

上面的例子在簡單的二維空間里,如果放在三維空間那么mean的計算方法就要修改了。事實上在處理多維空間、字符、圖像等問題時,不同的問題有不同的計算公式,這時mean的意思可能就不是“均值”了,也許用“相似度”和“相異度”來衡量個體之間的關(guān)系會更好,詳見參考文章一。

按照慣例,下面應(yīng)該貼上我自己寫的k-means算法代碼了,不過很遺憾的是我現(xiàn)在還在摸索用python的numpy庫和matplotlib庫畫圖的方法,在參考文章二中有一個python語言的代碼。

***要感謝一下數(shù)據(jù)挖掘老師  Devert Alexandre,因為本文的圖片都是從他的slides里截出來的。^_^

參考文章一
參考文章二
維基百科k-means鏈接
泰森多邊形法維基百科鏈接(Voronoi diagram)

原文鏈接:http://blog.nlogn.cn/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98-k-means-%E7%AE%97%E6%B3%95/

責(zé)任編輯:彭凡 來源: Just for Fun
相關(guān)推薦

2024-04-18 15:44:20

2018-04-25 08:10:50

算法k-means代碼

2017-09-12 16:57:43

機器學(xué)習(xí)K-means算法Python

2021-03-03 10:08:40

數(shù)據(jù)算法技術(shù)

2012-06-14 09:46:55

數(shù)據(jù)分析

2012-05-08 16:29:32

K-meansJava算法

2025-05-22 10:06:49

2021-05-21 09:00:00

數(shù)據(jù)挖掘數(shù)據(jù)分析工具

2020-03-08 16:45:58

數(shù)據(jù)挖掘學(xué)習(xí)數(shù)據(jù)量

2019-03-21 09:06:00

數(shù)據(jù)庫復(fù)讀幻讀

2017-05-26 08:53:27

數(shù)據(jù)挖掘算法

2014-03-18 10:16:58

SVM

2014-03-17 15:28:48

MapReduce

2016-01-29 11:00:55

數(shù)據(jù)挖掘算法大數(shù)據(jù)

2014-07-16 16:54:38

2009-04-13 10:15:24

SQLServer 2005數(shù)據(jù)挖掘

2020-08-31 06:41:52

RSA算法

2021-05-10 11:53:13

頁面替換算法

2009-07-03 19:58:51

SQL Server2

2013-02-25 09:46:35

數(shù)據(jù)挖掘算法ICDM
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 电影午夜精品一区二区三区 | 亚洲综合一区二区三区 | 国产欧美日韩一区二区三区 | 国产精品视频免费播放 | 欧美日韩亚洲视频 | 日本久久久久久久久 | 一区二区三区欧美 | 久久精品网 | 免费久久视频 | 国产在线观看一区二区三区 | 日本三级电影在线看 | 久久伊人影院 | 国产综合精品 | 久久精品中文字幕 | 在线观看午夜视频 | 国产精品国产a | 国产在线视频一区 | 91精品国产91久久久久福利 | 日日草天天干 | a在线观看免费 | 国产精品中文字幕在线播放 | 亚洲天堂免费在线 | 天堂一区| 日韩成人国产 | 精品日韩一区二区 | 天天插天天操 | 97精品国产| 日韩成人在线看 | 午夜影院在线观看免费 | 极品在线 | 性色视频 | 国产亚洲精品久久19p | 久久伊人影院 | 四虎影视1304t | 在线视频三区 | 欧美成人精品 | 老司机免费视频 | 91精品国产乱码久久久久久久久 | 国产露脸对白88av | a视频在线观看 | 皇色视频在线 |