成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

遇事不決,XGBoost,梯度提升比深度學(xué)習(xí)更容易贏得Kaggle競(jìng)賽

新聞 前端
一位Reddit網(wǎng)友把這個(gè)問(wèn)題發(fā)在機(jī)器學(xué)習(xí)板塊(r/MachineLearning),并給出了一個(gè)直覺上的結(jié)論:提升算法在比賽中提供的表格類數(shù)據(jù)中表現(xiàn)最好,而深度學(xué)習(xí)適合非常大的非表格數(shù)據(jù)集(例如張量、圖片、音頻、文本)。

 本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

在Kaggle上參加機(jī)器學(xué)習(xí)比賽,用什么算法最容易拿獎(jiǎng)金?

你可能會(huì)說(shuō):當(dāng)然是深度學(xué)習(xí)。

還真不是,據(jù)統(tǒng)計(jì)獲勝最多的是像XGBoost這種梯度提升算法。

這就奇了怪了,深度學(xué)習(xí)在圖像、語(yǔ)言等領(lǐng)域大放異彩,怎么在機(jī)器學(xué)習(xí)比賽里還不如老前輩了。

一位Reddit網(wǎng)友把這個(gè)問(wèn)題發(fā)在機(jī)器學(xué)習(xí)板塊(r/MachineLearning),并給出了一個(gè)直覺上的結(jié)論:

提升算法在比賽中提供的表格類數(shù)據(jù)中表現(xiàn)最好,而深度學(xué)習(xí)適合非常大的非表格數(shù)據(jù)集(例如張量、圖片、音頻、文本)。

但這背后的原理能不能用數(shù)學(xué)原理來(lái)解釋?

更進(jìn)一步,能不能僅通過(guò)數(shù)據(jù)集的類型和規(guī)模來(lái)判斷哪種算法更適用于手頭的任務(wù)。

這能節(jié)省很多時(shí)間啊,舉個(gè)極端點(diǎn)的例子,如果嘗試用AlphaGo做Logistic回歸,你就走遠(yuǎn)了。

問(wèn)題吸引了很多人參與討論,有人回復(fù)到:

這是一個(gè)十分活躍的研究領(lǐng)域,完全可以就這個(gè)主題做一篇博士論文了。

關(guān)鍵在能不能人工提取特征

有網(wǎng)友表示,雖然很難給出詳細(xì)論證,但可以猜測(cè)一下。

基于樹的梯度提升算法可以簡(jiǎn)單地分離數(shù)據(jù),就像這樣:

遇事不決,XGBoost,梯度提升比深度學(xué)習(xí)更容易贏得Kaggle競(jìng)賽

如果特征小于某個(gè)值就向左,反之就向右,一步一步把數(shù)據(jù)拆解。

在深度學(xué)習(xí)中,要用到多個(gè)隱藏層才能把輸入空間變換成線性可分割:

遇事不決,XGBoost,梯度提升比深度學(xué)習(xí)更容易贏得Kaggle競(jìng)賽

這個(gè)過(guò)程就像是把輸入空間在高維進(jìn)行“揉捏”:

數(shù)據(jù)集越復(fù)雜,需要的隱藏層就越多,變換過(guò)程很可能失敗,反而讓數(shù)據(jù)更加纏在一起:

即使成功了,相對(duì)梯度提升樹來(lái)說(shuō)也是效率極低的。

深度學(xué)習(xí)的優(yōu)勢(shì)是,面對(duì)人類很難手工提取特征的復(fù)雜數(shù)據(jù)可以自動(dòng)創(chuàng)建隱藏特征

而且即使你手工創(chuàng)建了特征,深度網(wǎng)絡(luò)無(wú)論如何還是會(huì)自己創(chuàng)建隱藏特征。

而Kaggle比賽中使用的表格數(shù)據(jù),特征往往已經(jīng)有了,就是表頭,那么直接使用梯度提升就好。

就像Kaggle Avito挑戰(zhàn)的冠軍所說(shuō):“遇事不決,XGBoost”。

遇事不決,XGBoost,梯度提升比深度學(xué)習(xí)更容易贏得Kaggle競(jìng)賽

吃數(shù)據(jù)的怪物

另一個(gè)高贊回復(fù)是:

大多數(shù)Kaggle比賽的數(shù)據(jù)集都不夠喂出一個(gè)神經(jīng)網(wǎng)絡(luò)怪物。

遇事不決,XGBoost,梯度提升比深度學(xué)習(xí)更容易贏得Kaggle競(jìng)賽

在小數(shù)據(jù)集上深度學(xué)習(xí)容易過(guò)擬合,正則化的方法又依賴許多條件。在給定數(shù)據(jù)集的比賽上,還是梯度提升比較迅速、穩(wěn)定。

而參數(shù)越多的深度神經(jīng)網(wǎng)絡(luò)需要越多的數(shù)據(jù),比賽提供的數(shù)據(jù)集有限,數(shù)據(jù)維度也比較低,發(fā)揮不出深度學(xué)習(xí)的實(shí)力。

一位在Kaggle上成績(jī)很好的大神補(bǔ)充到:

不同的深度網(wǎng)絡(luò)適用于某種數(shù)據(jù)集,如CNN適合處理圖像,RNN適合處理特定的序列等。比賽給的數(shù)據(jù)集很難找到合適的預(yù)訓(xùn)練模型可用。

總的來(lái)看,深度學(xué)習(xí)在表格數(shù)據(jù)上的性能肯定優(yōu)于梯度提升,但是需要大量時(shí)間優(yōu)化網(wǎng)絡(luò)架構(gòu)。

Kaggle上的勝出方案一般是將二者結(jié)合,加上梯度提升,有經(jīng)驗(yàn)的選手在幾個(gè)小時(shí)內(nèi)就能得到不錯(cuò)的結(jié)果。

 

 

 

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2020-04-28 17:13:12

箭頭函數(shù)ES6函數(shù)

2023-12-14 15:32:17

2020-03-10 13:27:28

深度學(xué)習(xí)人工智能Facebook

2013-06-08 14:57:50

2024-12-27 15:41:47

2020-09-28 14:25:05

代碼開發(fā)工具

2017-01-22 21:30:39

大數(shù)據(jù)Kaggle函數(shù)

2021-06-29 10:51:59

移動(dòng)攻擊網(wǎng)絡(luò)攻擊漏洞

2022-09-05 09:10:19

Web3網(wǎng)絡(luò)攻擊網(wǎng)絡(luò)安全

2015-11-06 14:41:30

微軟Windows 10

2019-09-23 10:59:31

機(jī)器學(xué)習(xí)算法編程

2019-09-23 11:17:46

機(jī)器學(xué)習(xí)數(shù)據(jù)技術(shù)

2022-07-18 13:37:10

網(wǎng)絡(luò)安全數(shù)據(jù)泄露

2022-05-19 09:53:05

機(jī)器學(xué)習(xí)人工智能算法

2019-03-11 15:26:26

HTTPSHTTP密鑰

2019-10-25 09:35:58

HTTPSHTTP通信

2019-11-13 09:08:50

HTTPS安全加密算法

2018-08-31 08:03:00

深度學(xué)習(xí)GBDT算法CatBoost

2021-11-09 11:29:03

隱私人工智能AI

2016-10-25 13:46:25

深度學(xué)習(xí)機(jī)器學(xué)習(xí)性能提升
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 一区二区三区欧美 | 日本不卡一区 | 午夜视频一区二区三区 | 在线观看深夜视频 | 国产精品欧美一区二区三区 | 久久久久无码国产精品一区 | 在线免费观看黄色网址 | 三级特黄特色视频 | 日韩电影一区 | 成人av播放| 欧美日韩中文在线观看 | 久久国产精99精产国高潮 | 天天操 夜夜操 | 在线国产欧美 | 涩涩视频网 | 亚洲第一福利网 | 欧美久久久久久久 | 波多野结衣一二三区 | 久久精品国产久精国产 | 成人亚洲网 | 国产区视频在线观看 | 日日夜夜免费精品视频 | 亚洲国产高清高潮精品美女 | 欧美日韩亚洲国产 | 国产成人99久久亚洲综合精品 | 人人叉| 日韩成人性视频 | 欧美456| av手机在线看 | 国产一区二区三区视频免费观看 | 久久中文字幕一区 | 国产一区2区 | 国产精品成人在线观看 | 国产在线一区二区 | 国产成人99 | 99久久婷婷国产综合精品 | 亚洲精品美女在线观看 | 亚洲免费观看视频 | a级黄色片视频 | 无吗视频 | 午夜看电影在线观看 |