成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

干貨整理:處理不平衡數(shù)據(jù)的技巧總結(jié)

大數(shù)據(jù)
在銀行欺詐檢測,市場實時競價或網(wǎng)絡(luò)入侵檢測等領(lǐng)域通常是什么樣的數(shù)據(jù)集呢?在這些領(lǐng)域使用的數(shù)據(jù)通常有不到1%少量但“有趣的”事件,例如欺詐者利用信用卡,用戶點擊廣告或者損壞的服務(wù)器掃描網(wǎng)絡(luò)。

在銀行欺詐檢測,市場實時競價或網(wǎng)絡(luò)入侵檢測等領(lǐng)域通常是什么樣的數(shù)據(jù)集呢?

在這些領(lǐng)域使用的數(shù)據(jù)通常有不到1%少量但“有趣的”事件,例如欺詐者利用信用卡,用戶點擊廣告或者損壞的服務(wù)器掃描網(wǎng)絡(luò)。

然而,大多數(shù)機器學(xué)習(xí)算法對于不平衡數(shù)據(jù)集的處理不是很好。 以下七種技術(shù)可以幫你訓(xùn)練分類器來檢測異常類。

1.使用正確的評估指標(biāo)

對使用不平衡數(shù)據(jù)生成的模型應(yīng)用不恰當(dāng)?shù)脑u估指標(biāo)可能是危險的。

 

想象一下,我們的訓(xùn)練數(shù)據(jù)如上圖所示。 如果使用精度來衡量模型的好壞,使用將所有測試樣本分類為“0”的模型具有很好的準(zhǔn)確性(99.8%),但顯然這種模型不會為我們提供任何有價值的信息。

在這種情況下,可以應(yīng)用其他替代評估指標(biāo),例如:

  • 精度/特異性:有多少個選定的相關(guān)實例。
  • 調(diào)用/靈敏度:選擇了多少個相關(guān)實例。
  • F1得分:精度和召回的諧波平均值。
  • MCC:觀察和預(yù)測的二進(jìn)制分類之間的相關(guān)系數(shù)。
  • AUC:正確率與誤報率之間的關(guān)系。

2.重新采樣訓(xùn)練集

除了使用不同的評估標(biāo)準(zhǔn)外,還可以選擇不同的數(shù)據(jù)集。使平衡數(shù)據(jù)集不平衡的兩種方法:欠采樣和過采樣。

欠采樣通過減少冗余類的大小來平衡數(shù)據(jù)集。當(dāng)數(shù)據(jù)量足夠時使用此方法。通過將所有樣本保存在少數(shù)類中,并在多數(shù)類中隨機選擇相等數(shù)量的樣本,可以檢索平衡的新數(shù)據(jù)集以進(jìn)一步建模。

相反,當(dāng)數(shù)據(jù)量不足時會使用過采樣,嘗試通過增加稀有樣本的數(shù)量來平衡數(shù)據(jù)集。不是去除樣本的多樣性,而是通過使用諸如重復(fù),自舉或SMOTE等方法生成新樣本(合成少數(shù)過采樣技術(shù))

請注意,一種重采樣方法與另一種相比沒有絕對的優(yōu)勢。這兩種方法的應(yīng)用取決于它適用的用例和數(shù)據(jù)集本身。過度取樣和欠采樣不足結(jié)合使用也會有很好的效果。

3.以正確的方式使用K-fold交叉驗證

值得注意的是,使用過采樣方法來解決不平衡問題時,應(yīng)適當(dāng)?shù)貞?yīng)用交叉驗證。切記,過采樣會觀察到稀有的樣本,并根據(jù)分布函數(shù)自舉生成新的隨機數(shù)據(jù)。如果在過采樣之后應(yīng)用交叉驗證,那么我們所做的就是將模型過度適應(yīng)于特定的人工引導(dǎo)結(jié)果。這就是為什么在過采樣數(shù)據(jù)之前應(yīng)該始終進(jìn)行交叉驗證,就像實現(xiàn)特征選擇一樣。只有對數(shù)據(jù)進(jìn)行重復(fù)采樣,可以將隨機性引入到數(shù)據(jù)集中,以確保不會出現(xiàn)過擬合問題。

4.組合不同的重采樣數(shù)據(jù)集

生成通用模型的最簡單方法是使用更多的數(shù)據(jù)。問題是,開箱即用的分類器,如邏輯回歸或機森隨林,傾向于通過丟棄稀有樣例來推廣。一個簡單的最佳實現(xiàn)是建立n個模型,使用少數(shù)類的所有樣本和數(shù)量充足類別的n個不同樣本。假如您想要組合10個模型,需要少數(shù)類1000例,隨機抽取10.000例多數(shù)類的樣本。然后,只需將10000個樣本分成10個塊,訓(xùn)練出10個不同的模型。

 

如果您有大量數(shù)據(jù),那么這種方法很簡單,完美地實現(xiàn)水平擴展,因此您可以在不同的集群節(jié)點上訓(xùn)練和運行模型。集合模型也趨于一般化,使得該方法容易處理。

5.用不同比例重新采樣

以前的方法可以通過少數(shù)類和多數(shù)類之間的比例進(jìn)行微調(diào)。最好的比例在很大程度上取決于所使用的數(shù)據(jù)和模型。但是,不是在整體中以相同的比例訓(xùn)練所有模型,合并不同的比例值得嘗試。 所以如果訓(xùn)練了10個模型,對一個模型比例為1:1(少數(shù):多數(shù)),另一個1:3甚至是2:1的模型是有意義的。 根據(jù)使用的模型可以影響一個類獲得的權(quán)重。

 

6. 對多數(shù)類進(jìn)行聚類

Sergey Quora提出了一種優(yōu)雅的方法[2]。他建議不要依賴隨機樣本來覆蓋訓(xùn)練樣本的種類,而是將r個分組中的多數(shù)類進(jìn)行聚類,其中r為r中的樣本數(shù)。對于每個組,只保留質(zhì)心(樣本的中心)。然后該模型僅保留了少數(shù)類和樣本質(zhì)心來訓(xùn)練。

7.設(shè)計自己的模型

以前的所有方法都集中在數(shù)據(jù)上,并將模型作為固定的組件。但事實上,如果模型適用于不平衡數(shù)據(jù),則不需要對數(shù)據(jù)進(jìn)行重新采樣。如果數(shù)據(jù)樣本沒有太多的傾斜,著名的XGBoost已經(jīng)是一個很好的起點,因為該模型內(nèi)部對數(shù)據(jù)進(jìn)行了很好的處理,它訓(xùn)練的數(shù)據(jù)并不是不平衡的。但是再次,如果數(shù)據(jù)被重新采樣,它只是悄悄進(jìn)行。

通過設(shè)計一個損失函數(shù)來懲罰少數(shù)類的錯誤分類,而不是多數(shù)類,可以設(shè)計出許多自然泛化為支持少數(shù)類的模型。例如,調(diào)整SVM以相同的比例懲罰未被充分代表的少數(shù)類的分類錯誤。

 

綜上所述

這不是一份獨家的技術(shù)清單,而是處理不平衡數(shù)據(jù)的一個起點。

沒有適合所有問題的最佳方法或模型,強烈建議您嘗試不同的技術(shù)和模型來評估哪些方法最有效。 可以嘗試創(chuàng)造性地結(jié)合不同的方法。

同樣重要的是,要注意在不平衡類出現(xiàn)的許多領(lǐng)域(例如欺詐檢測,實時競價)中,“市場規(guī)則”正在不斷變化。所以,要查看一下過去的數(shù)據(jù)是否已經(jīng)過時了。

責(zé)任編輯:未麗燕 來源: 網(wǎng)絡(luò)大數(shù)據(jù)
相關(guān)推薦

2023-12-26 15:32:25

不平衡數(shù)據(jù)過采樣機器學(xué)習(xí)

2016-12-13 11:48:05

數(shù)據(jù)處理不平衡數(shù)據(jù)

2021-01-04 10:40:37

Python不平衡數(shù)據(jù)機器學(xué)習(xí)

2023-09-29 22:51:22

數(shù)據(jù)不平衡Python機器學(xué)習(xí)

2018-09-11 13:47:35

數(shù)據(jù)不平衡數(shù)據(jù)分布數(shù)據(jù)集

2019-02-25 08:35:22

機器學(xué)習(xí)數(shù)據(jù)模型

2020-09-21 09:02:56

AI機器學(xué)習(xí)類不平衡

2024-10-18 07:10:43

2020-10-06 10:44:16

機器學(xué)習(xí)不平衡數(shù)據(jù)算法

2019-03-27 08:51:38

機器學(xué)習(xí)類失衡算法

2017-06-16 22:14:45

機器學(xué)習(xí)數(shù)據(jù)不平衡

2017-03-28 09:40:23

機器學(xué)習(xí)數(shù)據(jù)不平衡

2021-06-06 22:41:30

人才技術(shù)預(yù)測不平衡

2016-09-07 13:26:25

R語言不平衡數(shù)據(jù)

2018-06-11 16:20:22

數(shù)據(jù)不平衡數(shù)據(jù)集算法

2017-03-20 09:25:10

機器學(xué)習(xí)采樣數(shù)據(jù)合成

2025-01-20 09:00:00

2022-05-06 09:48:56

機器學(xué)習(xí)樣本不平衡

2015-01-22 10:13:33

App StoreApp審核

2016-09-19 14:52:12

Hadoophdfs磁盤
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 97国产精品 | 国产精品久久久久久久久久软件 | 国产精品久久久久一区二区三区 | 中文字幕视频免费 | 91精品国产色综合久久 | 亚洲一级二级三级 | 亚洲成人精品久久久 | 午夜精品视频在线观看 | 精品久久久久久亚洲综合网 | 97精品国产手机 | 精品视频久久久久久 | av在线视| 亚洲欧美日韩精品久久亚洲区 | 天天操操| 91精品国产美女在线观看 | 成人h视频在线 | 成人在线视频免费观看 | 日韩中文字幕网 | 在线视频亚洲 | 久久乐国产精品 | 一级毛毛片 | 97影院在线午夜 | 欧美日韩电影一区 | 亚洲午夜在线 | 成人av一区二区三区 | 夜久久 | aaaa网站 | 亚洲国产中文字幕 | 亚洲午夜精品 | 欧美一级欧美一级在线播放 | 日韩精品一区二区三区中文字幕 | 一级毛片免费看 | av免费网站在线 | 久久久久久久久99 | 国产一区二区小视频 | 亚洲高清在线观看 | 中文字幕1区2区3区 日韩在线视频免费观看 | 中文字幕在线欧美 | 成年人国产在线观看 | 玖玖综合网 | 日韩成人精品在线观看 |