成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

5個原因告訴你:為什么在成為數(shù)據(jù)科學(xué)家之前,“邏輯回歸”是第一個需要學(xué)習(xí)的

大數(shù)據(jù)
本文將要列出5條原因來說明為什么最開始學(xué)習(xí)邏輯回歸是入門最好的選擇。當(dāng)然,這只是我個人的看法,對于其他人可能有更快捷的學(xué)習(xí)方式。

在幾年之前,我踏進了數(shù)據(jù)科學(xué)的大門。之前還是軟件工程師的時候,我是***開始在網(wǎng)上自學(xué)的(在開始我的碩士學(xué)位之前)。我記得當(dāng)我搜集網(wǎng)上資源的時候,我看見的只有玲瑯滿目的算法名稱—線性回歸,支持向量機(SVM),決策樹(DT),隨即森林(RF),神經(jīng)網(wǎng)絡(luò)等。對于剛剛開始學(xué)習(xí)的我來說,這些算法都是非常有難度的。但是,后來我才發(fā)現(xiàn):要成為一名數(shù)據(jù)科學(xué)家,最重要的事情就是了解和學(xué)習(xí)整個的流程,比如,如何獲取和處理數(shù)據(jù),如何理解數(shù)據(jù),如何搭建模型,如何評估結(jié)果(模型和數(shù)據(jù)處理階段)和優(yōu)化。為了達到這個目的,我認為從邏輯回歸開始入門是非常不錯的選擇,這樣不但可以讓我們很快熟悉這個流程,而且不被那些高大上的算法所嚇倒。

因此,下面將要列出5條原因來說明為什么最開始學(xué)習(xí)邏輯回歸是入門***的選擇。當(dāng)然,這只是我個人的看法,對于其他人可能有更快捷的學(xué)習(xí)方式。

1. 因為模型算法只是整個流程的一部分

像我之前提到的一樣,數(shù)據(jù)科學(xué)工作不僅僅是建模,它還包括以下的步驟:

5個原因告訴你:為什么在成為數(shù)據(jù)科學(xué)家之前,“邏輯回歸”是***個需要學(xué)習(xí)的

可以看到,“建模” 只是這個重復(fù)過程的一部分而已。當(dāng)開展一個數(shù)據(jù)產(chǎn)品的時候,一個非常好的實踐就是首先建立你的整個流程,讓它越簡單越好,清楚地明白你想要獲得什么,如何進行評估測試,以及你的baseline是什么。隨后在這基礎(chǔ)上,你就可以加入一些比較炫酷的機器學(xué)習(xí)算法,并知道你的效果是否變得更好。

順便說下,邏輯回歸(或者任何ML算法)可能不只是在建模部分所使用,它們也可能在數(shù)據(jù)理解和數(shù)據(jù)準(zhǔn)備的階段使用,填補缺失值就是一個例子。

2. 因為你將要更好地理解機器學(xué)習(xí)

我想當(dāng)大家看到本篇的時候,***個想要問的問題就是:為什么是邏輯回歸,而不是線性回歸。真相其實是都無所謂,理解了機器學(xué)習(xí)才是最終目的。說到這個問題,就要引出監(jiān)督學(xué)習(xí)的兩個類型了,分類(邏輯回歸)和回歸(線性回歸)。當(dāng)你使用邏輯回歸或者線性回歸建立你整個流程的時候(越簡單越好),你會慢慢地熟悉機器學(xué)習(xí)里的一些概念,例如監(jiān)督學(xué)習(xí)v.s非監(jiān)督學(xué)習(xí),分類v.s回歸,線性v.s非線性等,以及更多問題。你也會知道如何準(zhǔn)備你的數(shù)據(jù),以及這過程中有什么挑戰(zhàn)(比如填補缺失值和特征選擇),如何度量評估模型,是該使用準(zhǔn)確率,還是精準(zhǔn)率和召回率,RUC AUC?又或者可能是 “均方差”和“皮爾遜相關(guān)”?所有的概念都都是數(shù)據(jù)科學(xué)學(xué)習(xí)過程中非常重要的知識點。等慢慢熟悉了這些概念以后,你就可以用更復(fù)雜的模型或者技巧(一旦你掌握了之后)來替代你之前的簡單模型了。

3. 因為邏輯回歸有的時候,已經(jīng)足夠用了

邏輯回歸是一個非常強大的算法,甚至對于一些非常復(fù)雜的問題,它都可以做到游刃有余。拿MNIST舉例,你可以使用邏輯回歸獲得95%的準(zhǔn)確率,這個數(shù)字可能并不是一個非常出色的結(jié)果,但是它對于保證你的整個流程工作來說已經(jīng)足夠好了。實際上,如果說能夠選擇正確且有代表性的特征,邏輯回歸完全可以做的非常好。

當(dāng)處理非線性的問題時,我們有時候會用可解釋的線性方式來處理原始數(shù)據(jù)。可以用一個簡單的例子來說明這種思想:現(xiàn)在我們想要基于這種思想來做一個簡單的分類任務(wù)。

  1. X1    x2    |  Y 
  2. ================== 
  3. -2    0        1 
  4.  2    0        1 
  5. -1    0        0 
  6.  1    0        0 

如果我們將數(shù)據(jù)可視化,我們可以看到?jīng)]有一條直線可以將它們分開。

5個原因告訴你:為什么在成為數(shù)據(jù)科學(xué)家之前,“邏輯回歸”是***個需要學(xué)習(xí)的

在這種情況下,如果不對數(shù)據(jù)做一些處理的話,邏輯回歸是無法幫到我們的,但是如果我們不用x2 特征,而使用x1²來代替,那么數(shù)據(jù)將會變成這樣:

  1. X1    x1^2  |  Y 
  2. ================== 
  3. -2    4       1 
  4.  2    4       1 
  5. -1    1       0 
  6.  1    1       0 

 

5個原因告訴你:為什么在成為數(shù)據(jù)科學(xué)家之前,“邏輯回歸”是***個需要學(xué)習(xí)的

現(xiàn)在,就存在一條直線可以將它們分開了。當(dāng)然,這個簡單的例子只是為了說明這種思想,對于現(xiàn)實世界來講,很難發(fā)現(xiàn)或找到如何改變數(shù)據(jù)的方法以可以使用線性分類器來幫助你。但是,如果你可以在特征工程和特征選擇上多花些時間,那么很可能你的邏輯回歸是可以很好的勝任的。

4. 因為邏輯回歸是統(tǒng)計中的一個重要工具

線性回歸不僅僅可以用來預(yù)測。如果你有了一個訓(xùn)練好的線性模型,你可以通過它學(xué)習(xí)到因變量和自變量之間的關(guān)系,或者用更多的ML語言來說,你可以學(xué)習(xí)到特征變量和目標(biāo)變量的關(guān)系。一個簡單的例子,房價預(yù)測,我們有很多房屋特征,還有實際的房價。我們基于這些數(shù)據(jù)訓(xùn)練一個線性回歸模型,然后得到了很好的結(jié)果。通過訓(xùn)練,我們可以發(fā)現(xiàn)模型訓(xùn)練后會給每個特征分配相應(yīng)的權(quán)重。如果某個特征權(quán)重很高,我們就可以說這個特征比其它的特征更重要。比如房屋大小特征,對于房價的變化會有50%的權(quán)重,因為房屋大小每增加一平米房價就會增加10k。線性回歸是一個了解數(shù)據(jù)以及統(tǒng)計規(guī)律的非常強的工具,同理,邏輯回歸也可以給每個特征分配各自的權(quán)重,通過這個權(quán)重,我們就可以了解特征的重要性。

5. 因為邏輯回歸是學(xué)習(xí)神經(jīng)元網(wǎng)絡(luò)很好的開始

當(dāng)學(xué)習(xí)神經(jīng)元網(wǎng)絡(luò)的時候,最開始學(xué)習(xí)的邏輯回歸對我?guī)椭艽蟆D憧梢詫⒕W(wǎng)絡(luò)中的每個神經(jīng)元當(dāng)作一個邏輯回歸:它有輸入,有權(quán)重,和閾值,并可以通過點乘,然后再應(yīng)用某個非線性的函數(shù)得到輸出。更多的是,一個神經(jīng)元網(wǎng)絡(luò)的***一層大多數(shù)情況下是一個簡單的線性模型,看一下最基本的神經(jīng)元網(wǎng)絡(luò):

5個原因告訴你:為什么在成為數(shù)據(jù)科學(xué)家之前,“邏輯回歸”是***個需要學(xué)習(xí)的

如果我們更深入地觀察一下output層,可以看到這是一個簡單的線性(或者邏輯)回歸,有hidden layer 2作為輸入,有相應(yīng)的權(quán)重,我們可以做一個點乘然后加上一個非線性函數(shù)(根據(jù)任務(wù)而定)。可以說,對于神經(jīng)元網(wǎng)絡(luò),一個非常好的思考方式是:將NN劃分為兩部分,一個是代表部分,一個是分類/回歸部分。

 

5個原因告訴你:為什么在成為數(shù)據(jù)科學(xué)家之前,“邏輯回歸”是***個需要學(xué)習(xí)的

***部分(左側(cè))嘗試從數(shù)據(jù)中學(xué)習(xí)并具有很好的代表性,然后它會幫助第二個部分(右側(cè))來完成一個線性的分類或者回歸任務(wù)。

總結(jié)

成為一個數(shù)據(jù)科學(xué)家你可能需要掌握很多知識,***眼看上去,好像學(xué)習(xí)算法才是最重要的部分。實際的情況是:學(xué)習(xí)算法確實是所有情況中最復(fù)雜的部分,需要花費大量的時間和努力來理解,但它也只是數(shù)據(jù)科學(xué)中的一個部分,把握整體更為關(guān)鍵。

責(zé)任編輯:未麗燕 來源: Python數(shù)據(jù)科學(xué)
相關(guān)推薦

2019-08-28 08:08:47

數(shù)據(jù)科學(xué)家數(shù)據(jù)工程師數(shù)據(jù)科學(xué)

2018-01-25 14:19:32

深度學(xué)習(xí)數(shù)據(jù)科學(xué)遷移學(xué)習(xí)

2018-12-20 12:09:03

Kaggle數(shù)據(jù)科學(xué)算法

2018-10-11 08:44:14

數(shù)據(jù)科學(xué)家數(shù)據(jù)科學(xué)機器學(xué)習(xí)

2019-04-30 15:14:11

數(shù)據(jù)科學(xué)家計算機

2019-08-26 09:47:56

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析

2019-12-30 22:24:50

大數(shù)據(jù)機器學(xué)習(xí)文章

2018-10-18 09:00:00

機器學(xué)習(xí)機器學(xué)習(xí)算法數(shù)據(jù)科學(xué)家

2018-02-28 15:03:03

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析職業(yè)

2018-11-19 06:00:32

數(shù)據(jù)科學(xué)家數(shù)據(jù)科學(xué)

2017-11-21 14:42:30

數(shù)據(jù)科學(xué)統(tǒng)計學(xué)習(xí)機器學(xué)習(xí)

2015-08-28 09:22:07

數(shù)據(jù)科學(xué)

2016-04-11 14:15:06

數(shù)據(jù)科學(xué)數(shù)據(jù)挖掘工具

2018-11-05 10:10:38

Jupyter數(shù)據(jù)科學(xué)家web

2019-05-13 16:31:37

數(shù)據(jù)科學(xué)家專業(yè)人才職業(yè)

2016-10-21 19:59:43

數(shù)據(jù)科學(xué)家數(shù)據(jù)科學(xué)

2013-04-11 10:03:55

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學(xué)家

2015-06-25 13:11:05

數(shù)據(jù)大學(xué)畢業(yè)生

2020-05-11 13:46:34

數(shù)據(jù)科學(xué)家數(shù)據(jù)科學(xué)大數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 中文字幕av中文字幕 | 韩日精品一区 | 亚洲成人免费 | 一区二区三区日韩精品 | 午夜视频在线免费观看 | 久久一区二区av | 中文字幕一区二区三区在线观看 | 久久国产欧美日韩精品 | 欧美日韩三级在线观看 | 国产精品999 | 国产精品久久久久久久久久久久久 | 欧美视频精品 | av中文字幕在线 | 在线视频第一页 | 日本三级网站在线观看 | 精品一区电影 | 日韩另类视频 | 最新中文字幕在线 | 久久精品一区二区 | 成人一区精品 | 国产精品成人国产乱一区 | 欧美在线日韩 | 中文字幕在线第一页 | 国产精品免费一区二区三区 | 国产免费播放视频 | 亚洲精品成人网 | 亚洲天堂一区二区 | 日韩美女一区二区三区在线观看 | 中文字幕国产精品 | 免费欧美视频 | 日韩一区二区在线视频 | 欧美日韩久久久 | 中文字幕成人av | 欧美日韩视频在线播放 | 日日日干干干 | 欧美片网站免费 | 国产精品综合 | 伊人性伊人情综合网 | 精国产品一区二区三区四季综 | 日韩在线| 国产乱码高清区二区三区在线 |