成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

每個數據分析師都應該了解的六個預測模型

大數據 數據分析
數據分析模型有不同的特點和技術,值得注意的是,大多數高級的模型都基于幾個基本原理。

當你想開啟數據科學家的職業生涯時,應該學習哪些模型呢?本文中我們介紹了6個在業界廣泛使用的模型。

目前很多輿論對機器學習和人工智過度追捧,當你想建立預測模型時,這會讓給你不禁思考,是不是只有很高階的技術才能解決問題。

但當你自己試著編程后才會發現,事實實際并非如此。作為一名數據工作者,你面臨的很多問題都需要將幾個模型組合起來解決,而且其中大部分模型已經出現了很長時間。

而且,即使你要使用先進的模型來解決問題,學習基本原理會讓你在大多數情況中占得先機。與此同時,了解這些基礎模型的優缺點將幫助你在數據分析項目取得成功。

下面我們就來具體看看6個數據分析師都應該掌握的預測模型吧。

1.線性回歸

線性回歸比較經典的模型之一,英國科學家Francis Galton在19世紀就使用了 "回歸 "一詞,并且仍然是使用數據表示線性關系最有效的模型之一。

線性回歸是世界范圍內,許多計量經濟學課程的主要內容。學習該線性模型將讓你在解決回歸問題有方向,并了解如何用數學知識來預測現象。

學習線性回歸還有其他好處,尤其是當你學習了兩種可以獲得最佳性能的方法時:

  • 閉式解 一個神奇的公式,能通過一個簡單的代數方程給出變量的權重。
  • 梯度下降法 面向最佳權重值的優化方法,用于優化其他類型的算法。

此外,我們可以用簡單的二維圖在實踐中直觀地看到線性回歸,這也使該模型成為理解算法的良好開始。

2.邏輯回歸

雖然名為回歸,但邏輯回歸是掌握分類問題的最佳模型。

學習邏輯回歸有以下幾點優勢:

  • 初步了解分類和多分類問題,這是機器學習任務的重要部分
  • 理解函數轉換,如Sigmoid函數的轉換
  • 了解梯度下降的其他函數的用法,以及如何對函數進行優化。
  • 初步了解Log-Loss函數

學習完邏輯回歸后,有什么用?你將能夠理解分類問題背后的機制,以及你如何使用機器學習來分離類別。

屬于這方面的問題如下:

  • 了解交易是否欺詐
  • 了解客戶是否會流失
  • 根據違約概率對貸款進行分類

就像線性回歸一樣,邏輯回歸也是一種線性算法。在研究了這兩種算法之后,你將了解線性算法背后的主要局限性,同時認識到它們無法代表許多現實世界的復雜性。

3.決策樹

首先要研究的非線性算法應該是決策樹。決策樹是一種基于if-else規則的,相對簡單且可解釋的算法,它將讓你很好地掌握非線性算法及其優缺點。

決策樹是所有基于樹模型的基礎,通過學習決策樹,你還將準備學習其他技術,如XGBoost或LightGBM。

而且,決策樹同時適用于回歸和分類問題,兩者之間的差異最小,選擇影響結果的最佳變量的基本原理大致相同,你只是換了一個標準來做。

雖然你了解了回歸中超參數的概念,如正則化參數,但在決策樹中這是極其重要的,能夠幫你明確區分模型的好壞。

同時,超參數在學習機器學習的過程中也至關重要,決策樹能很好地對其進行測試。

4.隨機森林

由于決策樹對超參數和簡單假設的敏感性,決策樹的結果相當有限。當你深入了解后,你會明白決策樹很容易過度擬合,從而得出的模型對未來缺乏概括性。

隨機森林的概念非常簡單。有助于在不同的決策樹之間實現多樣化,從而提高算法的穩健性。

就像決策樹一樣,你可以配置大量的超參數,以增強這種集成模型的性能。集成(bagging)是在機器學習中一個非常重要的概念,能為不同的模型帶來了穩定性,即用平均數或投票機制將不同模型的結果轉化為一個單一的方法。

在實踐中,隨機森林訓練了固定數量的決策樹,并對之前所有這些模型的結果進行平均。就像決策樹一樣,我們有分類和回歸隨機森林。如果你聽說過 “群體智慧 "這個概念,那么集成模型就相當于將這個概念應用于機器模型訓練。

5.XGBoost/LightGBM

其他基于決策樹的算法,并能帶來穩定性的模型有XGBoost或LightGBM。不僅能提升算法,還能提供更穩健和概括性的模式。

在Michael Kearns發表了關于弱學習者和假設檢驗的論文后,關于機器學習模型的思潮得到了關注。當中表明,增強模型是解決模型受到整體權衡偏差與方差的絕佳方案。此外,這些模型是Kaggle競賽中最受歡迎的選擇。

6.人工神經網絡

最后,是當前預測模型中的王者——人工神經網絡(ANNs)。

人工神經網絡是目前最好的模型之一,可以在數據中找到非線性模式,并在自變量和因變量之間建立真正復雜的關系。通過學習人工神經網絡,你將接觸到激活函數、反向傳播和神經網絡層的概念,這些概念應該為你研究深度學習模型打下良好的基礎。

此外,神經網絡在結構上有很多不同的特點,學習最基本的神經網絡將為轉到其他類型的模型打下基礎,如主要用于自然語言處理和遞歸神經網絡和主要用于計算機視覺的卷積神經網絡。

結語:

以上就是今天的全部內容。掌握這些模型應該會讓你在數據分析和機器學習方面有一個不錯的開始。

參考鏈接:

https://www.kdnuggets.com/2021/12/6-predictive-models-every-beginner-data-scientist-master.html

責任編輯:趙寧寧 來源: IT168網站
相關推薦

2018-03-01 14:30:22

數據科學概率分布

2017-12-05 09:32:00

數據分析對比分析常規分析

2021-04-08 10:15:46

數據工程師數據庫數據科學家

2019-05-21 16:19:46

前端性能優化圖片

2022-02-08 13:34:22

數據分析師定基線

2023-03-02 11:51:00

數據分析師企業

2024-04-10 12:36:41

硬件代碼

2024-03-07 12:54:06

數據分析師企業

2022-10-18 07:56:08

Linux網絡命令

2025-03-10 07:30:00

2023-12-20 08:00:00

人工智能工具開發

2018-03-27 23:15:11

2018-05-03 08:45:58

Linux命令

2023-10-13 18:15:06

2023-01-16 19:07:56

大數據大數據分析

2013-03-20 17:58:41

虛擬內存程序員

2017-06-28 14:54:17

大數據數據分析

2022-08-16 08:31:11

軟件開發程序員

2023-04-10 10:30:42

2023-03-21 18:46:53

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 四虎永久在线精品免费一区二 | 欧美偷偷操| 亚洲国产精品视频一区 | 日本精品视频一区二区 | 日本污视频 | 超碰婷婷| 免费国产一区二区视频 | 一本一道久久a久久精品综合 | 亚洲免费三区 | 精品国产精品一区二区夜夜嗨 | 欧美一级片免费看 | 狠狠久久 | 精品国产一区二区在线 | 高清黄色| 成人性生交a做片 | 日本一二区视频 | 美女国内精品自产拍在线播放 | 亚洲人成在线播放 | 青草青草久热精品视频在线观看 | 天天干天天插天天 | 黄色在线免费观看 | 亚洲日本三级 | 国产精品国产三级国产aⅴ无密码 | 亚洲第一在线 | 蜜桃视频成人 | 日韩中文字幕 | 国产成人叼嘿视频在线观看 | 欧美男人天堂 | 中文在线a在线 | 国产高清一区二区三区 | 免费不卡视频 | 精品久久网| 婷婷激情综合 | 最新日韩在线 | 亚洲精品1区 | 亚洲精品视频观看 | 黑人巨大精品欧美一区二区一视频 | 天天躁日日躁性色aⅴ电影 免费在线观看成年人视频 国产欧美精品 | 日韩在线欧美 | аⅴ资源新版在线天堂 | 亚洲免费一区二区 |