成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

機器學習:K均值算法

人工智能 機器學習
想象你在曼哈頓,你想從一個街區(qū)走到另外一個街區(qū)。你不能走直線,只能沿著街道走,橫著走一條街,再豎著走一條街,所行走的路徑長度就是曼哈頓距離。

一、基礎(chǔ)理論

1. 歐氏距離

想象你在北京,想要知道離上海有多遠,則可以直接計算這個城市(兩點)間直線的距離,這就是歐氏距離。

在二維平面上,在二維平面上有兩個點A(x1, y1)和B(x2, y2),歐氏距離為:

圖片圖片

歐氏距離衡量的是兩點間的真實物理距離,關(guān)注的是位置的絕對差異。

2. 曼哈頓距離

想象你在曼哈頓,你想從一個街區(qū)走到另外一個街區(qū)。你不能走直線,只能沿著街道走,橫著走一條街,再豎著走一條街,所行走的路徑長度就是曼哈頓距離。

在二維平面上,在二維平面上有兩個點A(x1, y1)和B(x2, y2),曼哈頓距離就是:

圖片圖片

曼哈頓距離考慮的是在各個維度上的絕對差值之和,適用于那些移動只能沿坐標軸進行的情況。

3. 切比雪夫距離

想象你在一個方格化的城市里,每個路口都嚴格地按照東西南北四個方向排列,就像一個巨大的棋盤。

你現(xiàn)在在一個交叉口,想要去往另一個交叉口,你可以是直行、左轉(zhuǎn)、右轉(zhuǎn)、走對角線(盡管現(xiàn)實中不能這么走),但每次只能走一個街區(qū)。

在所有可能的路線中,街區(qū)數(shù)最大的路線所對應(yīng)的距離就是切比雪夫距離。

假如在二維平面上有兩個點A(x1, y1)和B(x2, y2),切比雪夫距離的公式為:

圖片

4. 閔可夫斯基距離

假設(shè)我們要比較兩個點A和B,在n維空間中的坐標分別為

圖片圖片

則閔可夫斯基距離的計算公式是:

圖片圖片

參數(shù)??取不同的值時,則就變成了不同的距離:

  • 當??=1時,為曼哈頓距離。
  • 當??=2時,為歐式距離。
  • 當??趨近于無窮大時,為切比雪夫距離。

5. 余弦相似度

余弦相似度是一種衡量兩個向量方向相似性的方法。

想象在三維空間有兩個向量,一個指向東,另一個指向東北,這兩個向量指向角度的接近程度就是余弦相似度。

如果兩個向量指向完全相同的方向,相似度為1(即它們的夾角為0度);如果指向完全相反,相似度為-1(180度);如果它們垂直,則相似度為0。

余弦相似度的計算公式:

圖片圖片

兩個向量的點積除以它們各自的長度(模)的乘積。

6. 值差異度量

在討論距離計算時,特征是要直接比較大小的。

對于連續(xù)數(shù)值可以直接進行大小比較,如高度、溫度、成績等。

而對于離散特征,又有可以直接比較大小,如教育程度(小學、中學、大學)、服裝尺碼(S、M、L、XL)等;還有不可以直接比較大小的,如顏色(紅、綠、藍)、國籍(中國、美國、日本)等。

對于不可以直接比較大小的離散特征(離散無序),可以使用值差異度量(Value Difference Metric,VDM)。

VDM的核心思想是離散無序的數(shù)據(jù)轉(zhuǎn)化為可以量化的差異度量,以進行比較和分析。具體步驟為:

(1)權(quán)重分配

A. 頻率倒數(shù)法:

  • 計算頻率:對于每個無序特征,統(tǒng)計每個特征值在整個數(shù)據(jù)集中出現(xiàn)的次數(shù),并計算出頻率(出現(xiàn)次數(shù)/總樣本數(shù))。
  • 計算權(quán)重:使用頻率的倒數(shù)或其變形來作為權(quán)重。這是因為,頻率較高的屬性值(即較為常見的值)往往提供較少的區(qū)分信息,因此給予較小的權(quán)重;反之,頻率較低的屬性值(罕見值)提供較多區(qū)分信息,應(yīng)給予較高權(quán)重。計算公式如 wi=1/fi+?,其中 fi 是特征值i的頻率,? 是一個很小的正數(shù)(如1e-6),用于防止頻率為0時,導致分母為0無法計算的問題。

B. 信息熵或信息增益。

(2)計算值差異

對于兩個具體的值 va 和 vb,它們之間的值差異 D(va,vb) 可以直接根據(jù)它們的權(quán)重 wa 和 wb 計算。如果 va=vb,則差異為0;如果 va不等于vb,差異通常定義為 ∣wa?wb∣。

(3)綜合距離計算

如果一個樣本由多個無序特征組成,比如對象=(特征1,特征2,...,特征??) ,那么可以對每個特征應(yīng)用上述差異計算方法,然后將所有特征的差異值相加或取平均),以獲得兩個樣本之間的總距離或相似度得分。

假設(shè)有一家電商平臺想通過分析顧客的購物記錄,來發(fā)現(xiàn)不同的消費群體。顧客數(shù)據(jù)包含以下幾個無序特征:

(1)性別:男、女。

(2)地區(qū):北京、上海、廣州、深圳、其他。

(3)商品類別偏好:電子產(chǎn)品、家居用品、服飾、圖書、食品。

VDM計算的過程為:

(1)數(shù)據(jù)預處理與權(quán)重計算

A. 統(tǒng)計頻率

  • 性別:男(52%),女(48%)
  • 地區(qū):北京(25%),上海(29%),廣州(18%),深圳(15%),其他(13%)
  • 商品類別偏好:電子產(chǎn)品(30%),家居用品(22%),服飾(25%),圖書(10%),食品(13%)

B. 計算權(quán)重

  • 假設(shè)采用頻率倒數(shù)法,加入一個微小常數(shù) ?=0.001 。

性別:男(1/0.52 + 0.001)= 1.93, 女(1/0.48 + 0.001)= 2.08。

地區(qū):北京(1/0.25 + 0.001)= 4.04, 上海(1/0.29 + 0.001)= 3.45, 廣州(1/0.18 + 0.001)= 5.59, 深圳(1/0.15 + 0.001)= 6.69, 其他(1/0.13 + 0.001)= 7.69。

商品類別偏好:電子產(chǎn)品(1/0.30 + 0.001)= 3.34, 家居用品(1/0.22 + 0.001)= 4.57, 服飾(1/0.25 + 0.001)= 4.04, 圖書(1/0.10 + 0.001)= 10.01, 食品(1/0.13 + 0.001)= 7.69。

(2)應(yīng)用VDM:利用上面計算的權(quán)重計算兩個顧客間的距離,以進行聚類。

  • 假設(shè)有兩位顧客A和B,A的屬性為(男,上海,電子產(chǎn)品),B的屬性為(女,北京,圖書)。
  • 使用VDM計算差異:性別差異 = |1.93 - 2.08| = 0.15;地區(qū)差異 = |4.04 - 3.45| = 0.59;商品類別偏好差異 = |3.34 - 10.01| = 6.67。
  • 合并差異:總距離 = 0.15 + 0.59 + 6.67 = 7.41。

二、聚類算法

聚類算法是一種無監(jiān)督學習方法,其主要目的是將一組未標記的數(shù)據(jù)集分割成多個子集,稱為簇(Clusters)。也就是聚類算法并不依賴于預先定義的類別標簽,而是通過分析數(shù)據(jù)本身的特征和結(jié)構(gòu),自動發(fā)現(xiàn)數(shù)據(jù)中的隱藏模式或群組。

聚類算法的基本思想是基于相似性度量(如歐氏距離、余弦相似性等)來量化數(shù)據(jù)點之間的相似度,并利用這些度量來優(yōu)化某個目標函數(shù),從而實現(xiàn)數(shù)據(jù)的分組。

聚類算法可以根據(jù)不同的原則和策略進行分類,主要有:

(1)劃分聚類(Partitioning Clustering):將數(shù)據(jù)集劃分為預先指定數(shù)量的簇,每個數(shù)據(jù)點只能屬于一個簇。最典型的例子是K-means算法。

(2)層次聚類(Hierarchical Clustering):可以進一步細分為凝聚型(Agglomerative)和分裂型(Divisive)。凝聚型算法從每個數(shù)據(jù)點作為一個獨立的簇開始,然后逐步合并最相似的簇,直到滿足某個終止條件;而分裂型則相反,開始時將所有數(shù)據(jù)視為一個簇,然后逐漸分裂。常見的算法有AGNES(Agglomerative Nesting)、DIANA(Divisive Analysis)、BIRCH等。

(3)基于密度的聚類(Density-Based Clustering):基于數(shù)據(jù)點的鄰域密度來確定簇,能夠處理形狀不規(guī)則的簇和含有噪聲的數(shù)據(jù)。DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是最知名的算法之一,它通過設(shè)置鄰域半徑和最小點數(shù)來識別高密度區(qū)域。OPTICS、DENCLUE也是基于密度的算法。

(4)基于網(wǎng)格的聚類(Grid-Based Clustering):將數(shù)據(jù)空間劃分為多個單元或網(wǎng)格,然后在網(wǎng)格層次上進行聚類。STING(Statistical Information Grid-based Clustering)、WaveCluster、CLIQUE(Clustering in Quest)是典型代表,它們適合處理大規(guī)模空間數(shù)據(jù)庫。

(5)基于模型的聚類(Model-Based Clustering):假設(shè)數(shù)據(jù)由某些數(shù)學模型(如高斯分布)生成,并嘗試找到最佳的模型參數(shù)來描述數(shù)據(jù)。高斯混合模型(GMM, Gaussian Mixture Model)是最常見的例子,它通過最大似然估計來擬合數(shù)據(jù)到多個高斯分布上。

三、K-means算法

K-means算法是一種將數(shù)據(jù)集劃分為K個互不相交的子集(簇),使得同一簇內(nèi)的數(shù)據(jù)點彼此相似,而不同簇的數(shù)據(jù)點相異。

K-means(均值)算法的基本操作過程為:

1. 初始設(shè)置

(1)數(shù)據(jù)集:假設(shè)我們有一個二維數(shù)據(jù)集,包含以下五個數(shù)據(jù)點:{X(1, 2), Y(2, 1), Z(4, 8), W(5, 9), V(6, 7)}。

(2)初始化質(zhì)心:隨機選擇兩個數(shù)據(jù)點作為初始聚類中心(質(zhì)心):C1(2, 3), C2(6, 7)。

2. 執(zhí)行步驟

步驟1: 數(shù)據(jù)點分配

  • 對于數(shù)據(jù)集中的每個數(shù)據(jù)點,計算到C1和C2的距離。

圖片圖片

  • 將每個數(shù)據(jù)點分配給距離最近的質(zhì)心所在的簇。
    假設(shè)結(jié)果為:

C1簇: {X(1, 2), Y(2, 1)}

C2簇: {Z(4, 8), W(5, 9), V(6, 7)}

步驟2: 更新質(zhì)心

圖片圖片

步驟3: 迭代與收斂判斷

  • 重復步驟1和步驟2,直到質(zhì)心的移動距離小于某個預設(shè)的閾值或達到預定的迭代次數(shù)。這一步確保算法收斂于一個穩(wěn)定的聚類結(jié)果。

需要注意的是:

(1)初始質(zhì)心選擇:K-means算法對初始質(zhì)心的選擇敏感,不同的初始質(zhì)心可能導致不同的聚類結(jié)果。

(2)簇形狀:K-means假設(shè)簇為凸形狀,可能不適合處理復雜的數(shù)據(jù)分布,如密度不均或存在異常點的情況。

(3)K值選擇:選擇合適的K值是關(guān)鍵,常用方法有肘部法則(Elbow Method)和輪廓系數(shù)法等。


責任編輯:武曉燕 來源: 碼農(nóng)與軟件時代
相關(guān)推薦

2020-12-29 06:45:30

Python機器學習K均值聚類

2016-11-15 15:02:00

機器學習算法

2020-12-16 15:56:26

機器學習人工智能Python

2017-09-12 16:57:43

機器學習K-means算法Python

2020-06-18 16:05:20

機器學習人工智能算法

2014-06-17 09:55:24

機器學習

2019-03-20 07:50:47

機器學習算法線性回歸

2017-08-25 14:05:01

機器學習算法模型

2022-03-17 17:08:05

機器學習算法類型

2023-02-23 08:00:00

Python機器學習編程代碼

2017-05-10 15:41:29

機器學習算法數(shù)據(jù)

2021-03-10 14:21:33

人工智能機器學習算法

2019-01-23 11:45:47

機器學習人工智能機器人

2020-08-18 17:26:11

機器學習XGBoost人工智能

2024-03-22 15:32:21

機器學習算法

2022-04-26 10:27:52

機器算法KNN數(shù)據(jù)

2020-07-13 14:50:51

機器學習模型算法

2017-09-11 09:20:14

機器學習無監(jiān)督學習聚類

2020-11-16 11:56:57

機器學習技術(shù)工具

2020-05-26 18:35:00

機器學習人工智能AI
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 99久久精品视频免费 | 91av在线免费 | 中文字幕中文字幕 | 亚洲 中文 欧美 日韩 在线观看 | 青青久草 | 国产美女永久免费无遮挡 | 久久香蕉精品视频 | 日韩精品在线播放 | 91精品麻豆日日躁夜夜躁 | 一区二区三区四区在线 | 国产一区不卡在线观看 | 久久成人免费 | 视频在线观看一区 | 一级毛片观看 | 91资源在线 | 91高清免费观看 | 国产精品精品视频一区二区三区 | 欧美日韩三级在线观看 | 久久久久久久久蜜桃 | 欧美一二区 | 国产电影一区二区 | 天天操夜夜操免费视频 | 九九在线精品视频 | 日韩中文一区二区三区 | 中文字幕高清 | 日日摸夜夜添夜夜添精品视频 | 国产一区在线免费观看 | 久热精品在线播放 | 日本一级淫片免费啪啪3 | 99精品一区二区 | 在线成人一区 | 日韩欧美精品一区 | 无毛av| 一区二区视频在线 | 91精品国产高清一区二区三区 | 久久精品国产a三级三级三级 | 麻豆视频在线看 | 日本黄色免费大片 | 综合中文字幕 | 免费一区在线观看 | 日韩高清成人 |