成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

無(wú)監(jiān)督學(xué)習(xí)的集成方法:相似性矩陣的聚類

人工智能 機(jī)器學(xué)習(xí)
在機(jī)器學(xué)習(xí)中,術(shù)語(yǔ)Ensemble指的是并行組合多個(gè)模型,這個(gè)想法是利用群體的智慧,在給出的最終答案上形成更好的共識(shí)。

在機(jī)器學(xué)習(xí)中,術(shù)語(yǔ)Ensemble指的是并行組合多個(gè)模型,這個(gè)想法是利用群體的智慧,在給出的最終答案上形成更好的共識(shí)。

這種類型的方法已經(jīng)在監(jiān)督學(xué)習(xí)領(lǐng)域得到了廣泛的研究和應(yīng)用,特別是在分類問(wèn)題上,像RandomForest這樣非常成功的算法。通常應(yīng)用一些投票/加權(quán)系統(tǒng),將每個(gè)單獨(dú)模型的輸出組合成最終的、更健壯的和一致的輸出。

在無(wú)監(jiān)督學(xué)習(xí)領(lǐng)域,這項(xiàng)任務(wù)變得更加困難。首先,因?yàn)樗嗽擃I(lǐng)域本身的挑戰(zhàn),我們對(duì)數(shù)據(jù)沒(méi)有先驗(yàn)知識(shí),無(wú)法將自己與任何目標(biāo)進(jìn)行比較。其次,因?yàn)檎业揭环N合適的方法來(lái)結(jié)合所有模型的信息仍然是一個(gè)問(wèn)題,而且對(duì)于如何做到這一點(diǎn)還沒(méi)有達(dá)成共識(shí)。

在本文中,我們討論關(guān)于這個(gè)主題的最佳方法,即相似性矩陣的聚類。

該方法的主要思想是:給定一個(gè)數(shù)據(jù)集X,創(chuàng)建一個(gè)矩陣S,使得Si表示xi和xj之間的相似性。該矩陣是基于幾個(gè)不同模型的聚類結(jié)果構(gòu)建的。

二元共現(xiàn)矩陣

建模型的第一步是創(chuàng)建輸入之間的二元共現(xiàn)矩陣。

它用于指示兩個(gè)輸入i和j是否屬于同一個(gè)簇。

 import numpy as np
 from scipy import sparse
 
 def build_binary_matrix( clabels ):
   
  data_len = len(clabels)
 
  matrix=np.zeros((data_len,data_len))
  for i in range(data_len):
    matrix[i,:] = clabels == clabels[i]
  return matrix
 
 labels = np.array( [1,1,1,2,3,3,2,4] )
 build_binary_matrix(labels)

用KMeans構(gòu)造相似矩陣

我們已經(jīng)構(gòu)造了一個(gè)函數(shù)來(lái)二值化我們的聚類,下面可以進(jìn)入構(gòu)造相似矩陣的階段。

我們這里介紹一個(gè)最常見(jiàn)的方法,只包括計(jì)算M個(gè)不同模型生成的M個(gè)共現(xiàn)矩陣之間的平均值。定義為:

這樣,落在同一簇中的條目的相似度值將接近于1,而落在不同組中的條目的相似度值將接近于0。

我們將基于K-Means模型創(chuàng)建的標(biāo)簽構(gòu)建一個(gè)相似矩陣。使用MNIST數(shù)據(jù)集進(jìn)行。為了簡(jiǎn)單和高效,我們將只使用10000張經(jīng)過(guò)PCA降維的圖像。

 from sklearn.datasets import fetch_openml
 from sklearn.decomposition import PCA
 from sklearn.cluster import MiniBatchKMeans, KMeans
 from sklearn.model_selection import train_test_split
 
 mnist = fetch_openml('mnist_784')
 X = mnist.data
 y = mnist.target
 
 X, _, y, _ = train_test_split(X,y, train_size=10000, stratify=y, random_state=42 )
 
 pca = PCA(n_components=0.99)
 X_pca = pca.fit_transform(X)

為了使模型之間存在多樣性,每個(gè)模型都使用隨機(jī)數(shù)量的簇實(shí)例化。

 NUM_MODELS = 500
 MIN_N_CLUSTERS = 2
 MAX_N_CLUSTERS = 300
 
 np.random.seed(214)
 model_sizes = np.random.randint(MIN_N_CLUSTERS, MAX_N_CLUSTERS+1, size=NUM_MODELS)
 clt_models = [KMeans(n_clusters=i, n_init=4, random_state=214) 
              for i in model_sizes]
 
 for i, model in enumerate(clt_models):
  print( f"Fitting - {i+1}/{NUM_MODELS}" )
  model.fit(X_pca)

下面的函數(shù)就是創(chuàng)建相似矩陣

def build_similarity_matrix( models_labels ):
  n_runs, n_data = models_labels.shape[0], models_labels.shape[1]
 
  sim_matrix = np.zeros( (n_data, n_data) )
 
  for i in range(n_runs):
    sim_matrix += build_binary_matrix( models_labels[i,:] )
 
  sim_matrix = sim_matrix/n_runs
 
  return sim_matrix

調(diào)用這個(gè)函數(shù):

 models_labels = np.array([ model.labels_ for model in clt_models ])
 sim_matrix = build_similarity_matrix(models_labels)

最終結(jié)果如下:

來(lái)自相似矩陣的信息在最后一步之前仍然可以進(jìn)行后處理,例如應(yīng)用對(duì)數(shù)、多項(xiàng)式等變換。

在我們的情況下,我們將不做任何更改。

Pos_sim_matrix = sim_matrix

對(duì)相似矩陣進(jìn)行聚類

相似矩陣是一種表示所有聚類模型協(xié)作所建立的知識(shí)的方法。

通過(guò)它,我們可以直觀地看到哪些條目更有可能屬于同一個(gè)簇,哪些不屬于。但是這些信息仍然需要轉(zhuǎn)化為實(shí)際的簇。

這是通過(guò)使用可以接收相似矩陣作為參數(shù)的聚類算法來(lái)完成的。這里我們使用SpectralClustering。

 from sklearn.cluster import SpectralClustering
 spec_clt = SpectralClustering(n_clusters=10, affinity='precomputed',
                              n_init=5, random_state=214)
 final_labels = spec_clt.fit_predict(pos_sim_matrix)

與標(biāo)準(zhǔn)KMeans模型的比較

我們來(lái)與KMeans進(jìn)行性對(duì)比,這樣可以確認(rèn)我們的方法是否有效。

我們將使用NMI, ARI,集群純度和類純度指標(biāo)來(lái)評(píng)估標(biāo)準(zhǔn)KMeans模型與我們集成模型進(jìn)行對(duì)比。此外我們還將繪制權(quán)變矩陣,以可視化哪些類屬于每個(gè)簇。

from seaborn import heatmap
 import matplotlib.pyplot as plt
 
 def data_contingency_matrix(true_labels, pred_labels):
   
  fig, (ax) = plt.subplots(1, 1, figsize=(8,8))
 
  n_clusters = len(np.unique(pred_labels))
  n_classes = len(np.unique(true_labels))
  label_names = np.unique(true_labels)
  label_names.sort()
 
  contingency_matrix = np.zeros( (n_classes, n_clusters) )
 
  for i, true_label in enumerate(label_names):
    for j in range(n_clusters):
      contingency_matrix[i, j] = np.sum(np.logical_and(pred_labels==j, true_labels==true_label))
 
  heatmap(contingency_matrix.astype(int), ax=ax,
          annot=True, annot_kws={"fontsize":14}, fmt='d')
   
  ax.set_xlabel("Clusters", fontsize=18)
  ax.set_xticks( [i+0.5 for i in range(n_clusters)] )
  ax.set_xticklabels([i for i in range(n_clusters)], fontsize=14)
   
  ax.set_ylabel("Original classes", fontsize=18)
  ax.set_yticks( [i+0.5 for i in range(n_classes)] )
  ax.set_yticklabels(label_names, fontsize=14, va="center")
   
  ax.set_title("Contingency Matrix\n", ha='center', fontsize=20)

from sklearn.metrics import normalized_mutual_info_score, adjusted_rand_score
 
 def purity( true_labels, pred_labels ):
   
  n_clusters = len(np.unique(pred_labels))
  n_classes = len(np.unique(true_labels))
  label_names = np.unique(true_labels)
 
  purity_vector = np.zeros( (n_classes) )
  contingency_matrix = np.zeros( (n_classes, n_clusters) )
 
  for i, true_label in enumerate(label_names):
    for j in range(n_clusters):
      contingency_matrix[i, j] = np.sum(np.logical_and(pred_labels==j, true_labels==true_label))
 
  purity_vector = np.max(contingency_matrix, axis=1)/np.sum(contingency_matrix, axis=1)
 
  print( f"Mean Class Purity - {np.mean(purity_vector):.2f}" ) 
  for i, true_label in enumerate(label_names):
    print( f" {true_label} - {purity_vector[i]:.2f}" ) 
 
   
  cluster_purity_vector = np.zeros( (n_clusters) )
  cluster_purity_vector = np.max(contingency_matrix, axis=0)/np.sum(contingency_matrix, axis=0)
 
  print( f"Mean Cluster Purity - {np.mean(cluster_purity_vector):.2f}" ) 
  for i in range(n_clusters):
    print( f" {i} - {cluster_purity_vector[i]:.2f}" ) 
 
 kmeans_model = KMeans(10, n_init=50, random_state=214)
 km_labels = kmeans_model.fit_predict(X_pca)
 
 data_contingency_matrix(y, km_labels)
 
 print( "Single KMeans NMI - ", normalized_mutual_info_score(y, km_labels) )
 print( "Single KMeans ARI - ", adjusted_rand_score(y, km_labels) )
 purity(y, km_labels)

 data_contingency_matrix(y, final_labels)
 
 print( "Ensamble NMI - ", normalized_mutual_info_score(y, final_labels) )
 print( "Ensamble ARI - ", adjusted_rand_score(y, final_labels) )
 purity(y, final_labels)

從上面的值可以看出,Ensemble方法確實(shí)能夠提高聚類的質(zhì)量。我們還可以在權(quán)變矩陣中看到更一致的行為,具有更好的分布類和更少的“噪聲”。

責(zé)任編輯:華軒 來(lái)源: DeepHub IMBA
相關(guān)推薦

2023-11-23 15:54:01

人工智能監(jiān)督學(xué)習(xí)無(wú)監(jiān)督學(xué)習(xí)

2017-09-11 09:20:14

機(jī)器學(xué)習(xí)無(wú)監(jiān)督學(xué)習(xí)聚類

2023-12-01 16:27:05

機(jī)器學(xué)習(xí)無(wú)監(jiān)督學(xué)習(xí)

2020-04-28 17:26:04

監(jiān)督學(xué)習(xí)無(wú)監(jiān)督學(xué)習(xí)機(jī)器學(xué)習(xí)

2017-06-12 14:04:45

深度學(xué)習(xí)人工智能

2017-11-09 14:04:22

無(wú)監(jiān)督學(xué)習(xí)數(shù)據(jù)缺失數(shù)據(jù)集

2017-10-09 23:21:08

無(wú)監(jiān)督學(xué)習(xí)機(jī)器學(xué)習(xí)人工智能

2022-06-14 07:07:57

網(wǎng)絡(luò)威脅無(wú)監(jiān)督數(shù)據(jù)泄露

2023-11-28 12:03:46

人工智能無(wú)監(jiān)督學(xué)習(xí)算法

2023-12-01 14:48:52

Python圖像

2019-03-29 14:10:35

無(wú)監(jiān)督學(xué)習(xí)機(jī)器學(xué)習(xí)人工智能

2024-08-20 08:22:21

2018-05-28 15:33:09

無(wú)監(jiān)督學(xué)習(xí)算法Python

2022-09-15 23:58:51

機(jī)器學(xué)習(xí)集成數(shù)據(jù)

2022-09-06 15:00:09

機(jī)器學(xué)習(xí)集成數(shù)據(jù)集

2020-12-29 06:45:30

Python機(jī)器學(xué)習(xí)K均值聚類

2017-09-12 16:57:43

機(jī)器學(xué)習(xí)K-means算法Python

2022-07-17 15:46:24

機(jī)器學(xué)習(xí)無(wú)監(jiān)督學(xué)習(xí)算法

2022-10-28 15:19:28

機(jī)器學(xué)習(xí)距離度量數(shù)據(jù)集

2022-05-13 11:05:00

網(wǎng)絡(luò)威脅無(wú)監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)攻擊
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 亚洲一区二区视频在线观看 | 国产91一区二区三区 | 成人午夜精品 | 欧美极品少妇xxxxⅹ免费视频 | 免费观看毛片 | 亚欧洲精品在线视频免费观看 | 成人激情视频 | 午夜爱爱毛片xxxx视频免费看 | 国产视频一区在线 | 狠狠干影院 | 日本精品国产 | 日本中文字幕视频 | 中文字幕国产精品 | www.中文字幕av | 日韩精品a在线观看图片 | 四虎最新视频 | 精品国产久 | 午夜伦理影院 | 91亚洲欧美 | 久久99国产精一区二区三区 | www.日韩| 午夜在线视频 | 超碰在线免费av | 亚洲欧美视频一区二区 | 视频在线观看一区二区 | 日韩精品一区二区三区在线 | 免费成人在线网站 | 国产欧美一区二区在线观看 | 一区二区精品 | 日韩欧美在线视频 | 天天色天天射天天干 | 欧美中文一区 | 噜久寡妇噜噜久久寡妇 | 亚洲视频不卡 | 夜夜爽99久久国产综合精品女不卡 | 国产精品久久久久久久久久久免费看 | 男人天堂手机在线视频 | 国产精品国产三级国产aⅴ原创 | 日本精品在线一区 | 国产亚洲欧美另类一区二区三区 | 久久久国产精品 |