成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

三大特征選擇策略,有效提升你的機器學習水準

開發(fā) 開發(fā)工具
特征選擇是數(shù)據(jù)獲取中最關鍵的一步,可惜很多教程直接跳過了這一部分。本文將分享有關特征選擇的 3 個杰出方法,有效提升你的機器學習水準。

什么是特征選擇?面對試圖解決的實際問題之時,什么特征將幫助你建模并不總是很清晰。伴隨這一問題的還有大量數(shù)據(jù)問題,它們有時是多余的,或者不甚相關。特征選擇是這樣一個研究領域,它試圖通過算法完成重要特征的選取。

為什么不把全部特征直接丟進機器學習模型呢?

現(xiàn)實世界的問題并沒有開源數(shù)據(jù)集,其中更沒有與問題相關的信息。而特征選擇有助于你***化特征相關性,同時降低非相關性,從而增加了構建較好模型的可能性,并減小模型的整體大小。

***的特征選擇方法

比如說我們要預測水上公園的票價走勢;為此我們決定查看天氣數(shù)據(jù)、冰淇淋銷量、咖啡銷量以及季節(jié)狀況。

從下表中我們可以看到,夏季的門票明顯比其他季節(jié)好賣,而冬季賣不出一張票。咖啡銷量整年中比較穩(wěn)定,冰淇淋則一年之中都有銷量,但旺季是 6 月。

文中使用的各項虛構數(shù)據(jù)

表 1:文中使用的各項虛構數(shù)據(jù)。

各項虛構數(shù)據(jù)的圖示對比

圖 1:各項虛構數(shù)據(jù)的圖示對比。

我們想要預測水上公園票價,但很可能不需要所有數(shù)據(jù)以得到***結果。數(shù)據(jù)存在 N 個維度,并且 K 數(shù)值會給出***結果。但是不同大小的子集之間存在大量的結合。

我們的目標是減少維度數(shù)量,同時不損失預測能力。讓我們退回一步,看看那些我們能使用的工具。

窮舉搜索

這項技術能 100% 保證找到***的可能特征以建立模型。我們認為它非常可行,因為它將搜索所有可能的特征組合并找到返回模型***點的組合。

在我們的例子中有 15 個可能的特征組合可供搜索。我使用公式 (2^n—1) 計算組合的數(shù)量。這個方法在特征數(shù)量較少的時候可行,但如果你有 3000 個特征就不可行了。

幸運的是,還有一個稍微好點的方法可用。

隨機特征選擇

大多數(shù)情形中,隨機特征選擇可以工作的很好。如果要將特征數(shù)減少 50%,只需隨機選擇其中 50% 的特征并刪除。

模型訓練完成之后,檢驗模型的性能,重復這個過程直到你滿意為止。遺憾的是,這仍然是個蠻力方法。

當需要處理一個很大的特征集,又不能削減規(guī)模的時候,該怎么辦?

最小冗余***關聯(lián)特征選擇

將所有的想法整合起來就能得出我們的算法,即 mRMR 特征選擇。算法背后的考慮是,同時最小化特征的冗余并***化特征的關聯(lián)。因此,我們需要計算冗余和關聯(lián)的方程:

計算冗余和關聯(lián)的方程

讓我們用虛構的數(shù)據(jù)寫一個快速腳本來實現(xiàn) mRMR:

用虛構的數(shù)據(jù)寫一個快速腳本來實現(xiàn) mRMR

我并沒有對結果抱有什么期待,冰淇淋的銷量看起來能很精確地對售票量建模,而氣溫不可以。在這個例子中,似乎只需要一個變量就可以精確地對售票量建模,但在實際的問題中肯定不是這樣的。

mRMR 代碼地址:https://files.fm/u/bshx9hay

結論

你應該對這些特征選擇方法有更好的理解,它們能幫助你減少模型特征的總數(shù)量,并保留對目標來說最重要的特征。

 

原文:

https://medium.com/towards-data-science/three-effective-feature-selection-strategies-e1f86f331fb1

【本文是51CTO專欄機構“機器之心”的原創(chuàng)譯文,微信公眾號“機器之心( id: almosthuman2014)”】

戳這里,看該作者更多好文

責任編輯:趙寧寧 來源: 51CTO專欄
相關推薦

2022-10-08 12:06:52

機器學習特征選擇

2022-02-16 07:00:00

機器學習特征選擇過濾法

2021-04-01 22:19:54

機器學習模型數(shù)據(jù)

2022-03-01 20:41:00

機器學習特征人工智能

2024-05-30 16:37:29

2025-01-20 09:21:00

2024-12-26 00:34:47

2018-08-03 10:30:16

算法回歸機器學習

2021-04-09 10:02:29

機器學習人工智能計算機

2015-10-21 13:48:12

機器學習干貨數(shù)據(jù)

2018-11-07 13:00:30

機器學習深度學習集成學習

2021-05-18 08:47:30

面試團隊考核

2020-10-30 10:23:14

機器學習趨勢范式

2021-04-20 15:48:40

應用策略F5AI

2020-08-30 16:27:30

多云云計算

2017-08-03 14:10:22

2017-03-15 16:15:35

2009-07-17 09:46:45

Web 2.0

2017-03-02 08:28:09

科技新聞早報

2016-11-02 16:13:19

代碼開發(fā)技能
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91电影在线 | 国产精品高潮呻吟久久 | 草草草网站 | 国产精品久久久久久一区二区三区 | 久久久久久久综合 | 亚洲黄色一区二区三区 | 黄色免费在线观看网站 | 国产一二区免费视频 | 国产精品日韩欧美一区二区 | 久久久久一区二区三区 | 四虎永久在线精品免费一区二 | 久久久久久久综合 | 成人在线视频免费观看 | 国产精品久久久久久av公交车 | 国产精品一区二区视频 | 欧美成人第一页 | 精品一区二区久久久久久久网站 | 日韩精品免费一区 | 一区二区高清 | 国产高清在线精品一区二区三区 | 免费看黄色小视频 | 99成人免费视频 | 国产精品久久久久久吹潮 | 久久69精品久久久久久久电影好 | 欧美精品综合在线 | 成人免费高清 | 不卡在线视频 | 男女视频在线观看免费 | 日韩中文字幕在线免费 | 国产高清在线观看 | 粉嫩一区二区三区性色av | 日本黄色短片 | 一区视频| 免费午夜视频 | 日韩免费中文字幕 | 亚洲国产视频一区二区 | 久久综合九色综合欧美狠狠 | 国产欧美在线视频 | 国产欧美久久一区二区三区 | 国产原创视频 | 日韩中文字幕一区 |