成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何正確拆分?jǐn)?shù)據(jù)集?常見(jiàn)的三種方法總結(jié)

人工智能 機(jī)器學(xué)習(xí)
擁有適當(dāng)?shù)尿?yàn)證策略是成功創(chuàng)建良好預(yù)測(cè),使用AI模型的業(yè)務(wù)價(jià)值的第一步,本文中就整理出一些常見(jiàn)的數(shù)據(jù)拆分策略。

將數(shù)據(jù)集分解為訓(xùn)練集,可以幫助我們了解模型,這對(duì)于模型如何推廣到新的看不見(jiàn)數(shù)據(jù)非常重要。 如果模型過(guò)度擬合可能無(wú)法很好地概括新的看不見(jiàn)的數(shù)據(jù)。因此也無(wú)法做出良好的預(yù)測(cè)。

擁有適當(dāng)?shù)尿?yàn)證策略是成功創(chuàng)建良好預(yù)測(cè),使用AI模型的業(yè)務(wù)價(jià)值的第一步,本文中就整理出一些常見(jiàn)的數(shù)據(jù)拆分策略。

簡(jiǎn)單的訓(xùn)練、測(cè)試拆分

將數(shù)據(jù)集分為訓(xùn)練和驗(yàn)證2個(gè)部分,并以80%的訓(xùn)練和20%的驗(yàn)證。 可以使用Scikit的隨機(jī)采樣來(lái)執(zhí)行此操作。

如何正確拆分?jǐn)?shù)據(jù)集?常見(jiàn)的三種方法總結(jié)

首先需要固定隨機(jī)種子,否則無(wú)法比較獲得相同的數(shù)據(jù)拆分,在調(diào)試時(shí)無(wú)法獲得結(jié)果的復(fù)現(xiàn)。 如果數(shù)據(jù)集很小,則不能保證驗(yàn)證拆分可以與訓(xùn)練拆分不相關(guān)。如果數(shù)據(jù)不平衡,也無(wú)法獲得相同的拆分比例。

所以簡(jiǎn)單的拆分只能幫助我們開(kāi)發(fā)和調(diào)試,真正的訓(xùn)練還不夠完善,所以下面這些拆分方法可以幫助u我們結(jié)束這些問(wèn)題。

K折交叉驗(yàn)證

將數(shù)據(jù)集拆分為k個(gè)分區(qū)。 在下面的圖像中,數(shù)據(jù)集分為5個(gè)分區(qū)。

如何正確拆分?jǐn)?shù)據(jù)集?常見(jiàn)的三種方法總結(jié)

選擇一個(gè)分區(qū)作為驗(yàn)證數(shù)據(jù)集,而其他分區(qū)則是訓(xùn)練數(shù)據(jù)集。這樣將在每組不同的分區(qū)上訓(xùn)練模型。

最后,將最終獲得K個(gè)不同的模型,后面推理預(yù)測(cè)時(shí)使用集成的方法將這些模型一同使用。

K通常設(shè)置為[3,5,7,10,20]

如果要檢查模型性能低偏差,則使用較高的K [20]。如果要構(gòu)建用于變量選擇的模型,則使用低k [3,5],模型將具有較低的方差。

優(yōu)點(diǎn):

  • 通過(guò)平均模型預(yù)測(cè),可以提高從相同分布中提取的未見(jiàn)數(shù)據(jù)的模型性能。
  • 這是一種廣泛使用的來(lái)獲取良好的生產(chǎn)模型的方法。
  • 可以使用不同的集成技術(shù)可以為數(shù)據(jù)集中的每個(gè)數(shù)據(jù)創(chuàng)建預(yù)測(cè),并且利用這些預(yù)測(cè)進(jìn)行模型的改善,這被稱為OOF(out- fold prediction)。

問(wèn)題:

  • 如果有不平衡的數(shù)據(jù)集,請(qǐng)使用Stratified-kFold。
  • 如果在所有數(shù)據(jù)集上重新訓(xùn)練一個(gè)模型,那么就不能將其性能與使用k-Fold進(jìn)行訓(xùn)練的任何模型進(jìn)行比較。因?yàn)檫@個(gè)的模型是在k-1上訓(xùn)練的,不是對(duì)整個(gè)數(shù)據(jù)集。

Stratified-kFold

可以保留每折中不同類之間的比率。如果數(shù)據(jù)集不平衡,例如Class1有10個(gè)示例,并且Class2有100個(gè)示例。 Stratified-kFold創(chuàng)建的每個(gè)折中分類的比率都與原始數(shù)據(jù)集相同

這個(gè)想法類似于K折的交叉驗(yàn)證,但是每個(gè)折疊的比率與原始數(shù)據(jù)集相同。

如何正確拆分?jǐn)?shù)據(jù)集?常見(jiàn)的三種方法總結(jié)

每種分折中都可以保留類之間的初始比率。如果您的數(shù)據(jù)集很大,K折的交叉驗(yàn)證也可能會(huì)保留比例,但是這個(gè)是隨機(jī)的,而Stratified-kFold是確定的,并且可以用于小數(shù)據(jù)集。

Bootstrap和Subsampling

Bootstrap和Subsampling類似于K-Fold交叉驗(yàn)證,但它們沒(méi)有固定的折。它從數(shù)據(jù)集中隨機(jī)選取一些數(shù)據(jù),并使用其他數(shù)據(jù)作為驗(yàn)證并重復(fù)n次

Bootstrap=交替抽樣,這個(gè)我們?cè)谝郧暗奈恼轮杏性敿?xì)的介紹。

什么時(shí)候使用他呢?bootstrap和Subsamlping只能在評(píng)估度量誤差的標(biāo)準(zhǔn)誤差較大的情況下使用。這可能是由于數(shù)據(jù)集中的異常值造成的。

總結(jié)

通常在機(jī)器學(xué)習(xí)中,使用k折交叉驗(yàn)證作為開(kāi)始,如果數(shù)據(jù)集不平衡則使用Stratified-kFold,如果異常值較多可以使用Bootstrap或者其他方法進(jìn)行數(shù)據(jù)分折改進(jìn)。

責(zé)任編輯:華軒 來(lái)源: 今日頭條
相關(guān)推薦

2021-07-13 12:31:27

IT組織改進(jìn)首席技術(shù)官

2023-05-16 16:07:07

大數(shù)據(jù)數(shù)據(jù)管理工具

2021-10-09 06:59:36

技術(shù)MyBatis數(shù)據(jù)

2010-10-20 13:52:07

SQL Server數(shù)

2009-07-08 12:56:32

編寫(xiě)Servlet

2010-11-12 14:00:24

Transact-SQ

2009-10-28 18:00:34

Visual C#數(shù)據(jù)

2010-11-19 14:51:09

Oracle數(shù)據(jù)庫(kù)關(guān)閉

2023-02-24 16:45:02

2023-10-13 10:45:18

HTTP數(shù)據(jù)

2010-07-29 09:56:45

Flex數(shù)據(jù)庫(kù)

2010-09-14 15:10:49

CSS注釋

2022-07-13 16:06:16

Python參數(shù)代碼

2009-12-11 18:49:39

預(yù)算編制博科資訊

2023-08-14 17:58:13

RequestHTTP請(qǐng)求

2024-11-15 07:00:00

Python發(fā)送郵件

2011-04-18 15:32:45

游戲測(cè)試測(cè)試方法軟件測(cè)試

2011-06-10 10:43:12

Ubuntu應(yīng)用安裝

2009-06-23 10:45:18

Hibernate支持

2009-07-22 11:33:14

JDBC連接Sybas
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 欧美精品一区三区 | 国产一区二区三区久久久久久久久 | 日本理论片好看理论片 | 九九热精品视频在线观看 | 国产一区久久 | 日韩一区和二区 | 中文字幕一区在线观看视频 | 欧美黄在线观看 | 91在线视频国产 | 国产精品美女久久久久久久网站 | 国产在线观看福利 | 日韩高清黄色 | 欧美日韩一区二区三区四区 | 日韩欧美电影在线 | 成人影院在线 | 国产欧美精品一区二区三区 | 中文字幕一区二区三区精彩视频 | 久久日韩精品一区二区三区 | 最新免费视频 | 日韩欧美亚洲 | 99精品国自产在线 | 国产精品久久久久久久粉嫩 | 黄色片免费看视频 | 欧美午夜精品久久久久免费视 | 欧州一区二区三区 | 欧美天堂 | 亚洲一区二区视频在线播放 | 成人区精品 | 欧美亚洲国产一区 | 91一区二区 | 国产精品免费小视频 | 成人在线视频网址 | 麻豆毛片 | 国产高潮av| 欧美三级电影在线播放 | 国产69久久精品成人看动漫 | 九九热在线观看视频 | julia中文字幕久久一区二区 | 成人在线视频一区 | 国产精品久久二区 | 日韩免费高清视频 |