成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數(shù)據(jù)科學(xué)中的強(qiáng)大思維

大數(shù)據(jù) 機(jī)器學(xué)習(xí)
如果你參加過統(tǒng)計(jì)學(xué)入門課程,就會(huì)知道數(shù)據(jù)點(diǎn)可以用來激發(fā)靈感,也可以用來測試?yán)碚摚珒烧邊s不能兼顧,這是為什么呢?

如果你參加過統(tǒng)計(jì)學(xué)入門課程,就會(huì)知道數(shù)據(jù)點(diǎn)可以用來激發(fā)靈感,也可以用來測試?yán)碚摚珒烧邊s不能兼顧,這是為什么呢? 

[[274975]]

圖1

人類擅長在所有的事物中尋找對(duì)應(yīng)的模式。 真模式,假模式,命名的模式。 我們是那種能在薯片上找到貓王的臉的生物。 如果你傾向于將模式與洞察力等同起來,請(qǐng)記住有三種數(shù)據(jù)模式:

  1. 存在于你的數(shù)據(jù)集中和數(shù)據(jù)之外的模式/事實(shí)
  2. 僅存在于數(shù)據(jù)集中的模式/事實(shí)
  3. 只存在于你想象中的模式/事實(shí) 

數(shù)據(jù)科學(xué)中的強(qiáng)大思維

圖2:A data pattern can exist (1) in the entire sample, or (3) only in xkcd

數(shù)據(jù)模式可以存在于(1)所有感興趣的人群中,(2)僅僅在樣本中,或者(3)只存在于你的頭腦中。

哪一種對(duì)你來說更有用,取決于你的目標(biāo)是什么。

一、追求靈感

你追求的是純粹的靈感,那么它們都非常適用。即使是來自術(shù)語apophenia中的奇特的定義apopheny(人類有錯(cuò)誤地感知不相關(guān)事物之間的聯(lián)系和意義的傾向)也可以激發(fā)你(文章里面的稱呼統(tǒng)一一下,要么都你,要么都你吧)的創(chuàng)意。 創(chuàng)造力是沒有特定的答案的,所以你需要做的就是查看你的數(shù)據(jù),并享受它帶來的樂趣。 創(chuàng)造力是一種額外的收獲,盡量不要在這個(gè)過程中浪費(fèi)太多時(shí)間。

二、崇尚事實(shí)

政府想要向你征稅的時(shí)候,它一點(diǎn)也不關(guān)心你這一年除了財(cái)務(wù)數(shù)據(jù)之外的模式。 基于事實(shí)的決定是,通過你的欠債情況,分析去年的數(shù)據(jù)得出應(yīng)該采取的方法。它會(huì)基于事實(shí)對(duì)你所欠下的債務(wù)做出決定,而做出決定的方法就是分析去年的數(shù)據(jù)。換句話說,查看數(shù)據(jù)并使用公式進(jìn)行評(píng)估。你只需要對(duì)手頭的數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì)分析。前面兩種模式都可以很好地做到這一點(diǎn)。

三、在不確定的情況下做出決策

騰訊視頻:統(tǒng)計(jì)思維-1-什么是統(tǒng)計(jì)數(shù)據(jù)

YouTube:https://youtu.be/OJt-k9h9pmk

有時(shí),理想和現(xiàn)實(shí)是有差距的,當(dāng)你不具備做決定所需要的全部信息時(shí),你就需要在不確定性中尋找方向,選擇一個(gè)合理的行動(dòng)方案。

這就是統(tǒng)計(jì)學(xué),它是一門會(huì)改變你在不確定情況下思維方式的科學(xué)。它的目的是能產(chǎn)生一個(gè)像icarus一樣的飛躍,突破你的知識(shí)局限,而不是遇到短板就突然結(jié)束。

這就是數(shù)據(jù)科學(xué)的核心挑戰(zhàn):如何應(yīng)對(duì)數(shù)據(jù)不足的情況。

在你離開一個(gè)斷崖式的障礙之前,你當(dāng)然會(huì)希望你在現(xiàn)實(shí)中可以運(yùn)用的模式是可以突破它的。換句話說,模式必須一般化才能真正有用。 

數(shù)據(jù)科學(xué)中的強(qiáng)大思維

圖3:Source: xkcd

在三種類型中,如果你是在不確定的情況下做出決策,那么只有第一種(可推廣的)模式是安全的。 不幸的是,你還會(huì)在數(shù)據(jù)中發(fā)現(xiàn)其他類型的模式,這也是數(shù)據(jù)科學(xué)的核心問題: 如何應(yīng)對(duì)數(shù)據(jù)不足的情況。

四、泛化

如果你認(rèn)為從數(shù)據(jù)中提取無用的模式純粹是人類才會(huì)做出的事情,那就大錯(cuò)特錯(cuò)了!如果你不小心,機(jī)器也會(huì)自動(dòng)為你做出同樣的蠢事。

ML / AI的全部要點(diǎn)是對(duì)出現(xiàn)的新情況進(jìn)行正確的歸納。

機(jī)器學(xué)習(xí)是一種能做出,許多類似決策的方法,這些決策涉及在算法中查找數(shù)據(jù)中的模式,并使用這些模式對(duì)全新數(shù)據(jù)做出正確決策。 在ML / AI術(shù)語中,泛化是指這個(gè)模型能夠很好地處理以前從未見過的數(shù)據(jù)。 基于模式的方法如果只能在原來的數(shù)據(jù)上起作用,那又有什么用處呢?ML / AI的全部要點(diǎn)是對(duì)出現(xiàn)的新情況也能通用。 

數(shù)據(jù)科學(xué)中的強(qiáng)大思維

圖4

這就是為什么我們列表中的第一種模式是唯一適合機(jī)器學(xué)習(xí)的模式。它是信號(hào)的一部分,其余部分只是干擾信息(這些干擾只存在于舊數(shù)據(jù)中,分散了你對(duì)于可泛化模型的注意力)。

  • 信號(hào):存在于你的數(shù)據(jù)集中以及它之外的模式。
  • 噪聲:僅存在于數(shù)據(jù)集中的模式。

事實(shí)上,在機(jī)器學(xué)習(xí)中,“過擬合”指的是獲得一個(gè)處理原始干擾而不是新數(shù)據(jù)的解決方案。我們?cè)跈C(jī)器學(xué)習(xí)中所做的幾乎所有工作都是為了避免過度擬合。

五、尋找合適的模式

假設(shè)你(或你的機(jī)器)從數(shù)據(jù)中提取的模式超出了你的想象,那么它是哪種模式呢?它是存在于感興趣的對(duì)象(“信號(hào)”)中的真實(shí)現(xiàn)象,還是當(dāng)前數(shù)據(jù)集的特性(“噪聲”)。如何判斷在訪問數(shù)據(jù)集時(shí)發(fā)現(xiàn)了哪種模式?

如果你已經(jīng)查看了所有可用的數(shù)據(jù),那么你就被困住了,無法判斷你的模式是否存在于其他地方。統(tǒng)計(jì)性假設(shè)檢驗(yàn)的分析手段取決于出現(xiàn)的意外情況,而對(duì)數(shù)據(jù)中已經(jīng)存在的模式可能會(huì)出現(xiàn)的意外進(jìn)行模擬,效果會(huì)差異性很大。 

[[274978]]

圖5

這有點(diǎn)像在云中看到兔子的形狀,然后使用相同的云測試所有的云是否都像兔子。我希望你們需要一些新的云來驗(yàn)證你們的理論。

  • 任何用來激發(fā)理論或問題的數(shù)據(jù)點(diǎn)都不能用來測試同一理論
  • 在查看數(shù)據(jù)之前要先提出問題
  • 數(shù)學(xué)從來都不是基本常識(shí)的反制

我們?cè)谶@里得到了一個(gè)結(jié)論。 如果你在尋求靈感的時(shí)候用光了你的數(shù)據(jù)集,你就不能再用它來嚴(yán)格測試它所帶來的理論(無論你多么充分的使用數(shù)學(xué),因?yàn)閿?shù)學(xué)絕不是基本常識(shí)的反制)。

六、進(jìn)行艱難的選擇

這意味著你必須進(jìn)行選擇! 如果你只有一個(gè)數(shù)據(jù)集,你就不得不問自己:“我是否有認(rèn)真思索,設(shè)置了所有的統(tǒng)計(jì)性假設(shè)檢驗(yàn),然后仔細(xì)采取嚴(yán)格的方法,或者只是挖掘數(shù)據(jù)獲取了靈感。

這里的問題是,你只有一個(gè)數(shù)據(jù)集,而你需要不止一個(gè)數(shù)據(jù)集。如果你有很多數(shù)據(jù),那么我會(huì)為你模擬一個(gè)黑客攻擊,擾亂你的思路。 

[[274979]]

圖6

七、奇特的技巧

要想在數(shù)據(jù)科學(xué)中勝出,只需通過拆分?jǐn)?shù)據(jù)將一個(gè)數(shù)據(jù)集轉(zhuǎn)換為(至少)兩個(gè)數(shù)據(jù)集。然后用一個(gè)獲取靈感,另一個(gè)用于嚴(yán)格的測試。如果最初啟發(fā)你的模式也存在于那些沒有機(jī)會(huì)影響你的觀點(diǎn)的數(shù)據(jù)中,那么這將是一個(gè)更有希望的選擇,這種模式就像是存在于貓砂里的東西,你要從中挖出你的數(shù)據(jù)。

如果相同的現(xiàn)象存在于兩個(gè)數(shù)據(jù)集中,也許這是一個(gè)普遍的現(xiàn)象,它也存在于這些數(shù)據(jù)集中的任何地方。

八、令人驚嘆

如果未經(jīng)審視的生活不值得過下去,那么以下四個(gè)詞就是生活的準(zhǔn)則:把該死的數(shù)據(jù)拆開。

如果每個(gè)人都能分享自己的數(shù)據(jù),世界會(huì)變得更好。我們會(huì)有更優(yōu)的答案(從統(tǒng)計(jì)學(xué))到更好的問題(從分析學(xué))。人們不把數(shù)據(jù)分割作為一種強(qiáng)制性習(xí)慣的唯一原因是,在上個(gè)世紀(jì),它是一種奢侈的事情,很少有人能負(fù)擔(dān)得起;數(shù)據(jù)集非常小,如果你試圖拆分它們,那么可能就什么都沒有了。(在這里可以了解更多關(guān)于數(shù)據(jù)科學(xué)史的信息。) 

數(shù)據(jù)科學(xué)中的強(qiáng)大思維

圖7

將你的數(shù)據(jù)拆分為一個(gè)探索性數(shù)據(jù)集,每個(gè)人都可以挖掘靈感和測試數(shù)據(jù)集,以后專家可以使用這些數(shù)據(jù)集嚴(yán)格確認(rèn)在探索階段發(fā)現(xiàn)的任何“見解”。

如果你沒有拆分?jǐn)?shù)據(jù)的習(xí)慣,你可能會(huì)被困在20世紀(jì)。

如果你有大量的數(shù)據(jù),但是你看到的是未分割的數(shù)據(jù)集,那么你的瓶頸可能就是會(huì)受到老式視角的影響。每個(gè)人都習(xí)慣了陳舊的思維方式,卻忘記了與時(shí)俱進(jìn)。

九、機(jī)器學(xué)習(xí)是數(shù)據(jù)分裂的產(chǎn)物

說到底,這里的想法很簡單。使用一個(gè)數(shù)據(jù)集來形成一個(gè)理論,發(fā)號(hào)施令,然后開始執(zhí)行,證明你知道你在一個(gè)全新的數(shù)據(jù)集中談?wù)摰氖鞘裁础?/p>

為了更健康的數(shù)據(jù)文化,數(shù)據(jù)分割是最簡單且快速解決方案。

這就是你如何在統(tǒng)計(jì)數(shù)據(jù)中保持安全,以及你如何避免因過度擬合ML / AI而被活活吃掉的方法。 事實(shí)上,機(jī)器學(xué)習(xí)的歷史就是數(shù)據(jù)分裂的歷史。

十、如何在數(shù)據(jù)科學(xué)中運(yùn)用最好的理念

為了利用數(shù)據(jù)科學(xué)中優(yōu)秀創(chuàng)意,雷鋒網(wǎng)認(rèn)為你所要做的就是確保將一些測試數(shù)據(jù)放在窺探者無法觸及的地方,然后對(duì)其余的數(shù)據(jù)進(jìn)行充分的分析。

要贏得數(shù)據(jù)科學(xué),只需通過拆分?jǐn)?shù)據(jù)將一個(gè)數(shù)據(jù)集轉(zhuǎn)換為(至少)兩個(gè)。

如果你認(rèn)為他們?yōu)槟闾峁┝顺鏊麄兯剿餍畔⒌目刹僮鞫床炝Γ?qǐng)使用你的秘密測試數(shù)據(jù)來檢查他們的結(jié)論。 就這么簡單!

小結(jié):數(shù)據(jù)科學(xué)需要強(qiáng)大的思維邏輯,與時(shí)俱進(jìn)的洞察力,還要能膽大心細(xì)摒棄一系列的干擾信息。即使是機(jī)器也并不能脫離人腦自行工作,還需要在理論與精準(zhǔn)模式的加持下不斷探索,這可真不是一項(xiàng)簡單的工作。

本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。

 

責(zé)任編輯:未麗燕 來源: 雷鋒網(wǎng)
相關(guān)推薦

2020-08-30 16:29:12

數(shù)據(jù)科學(xué)團(tuán)隊(duì)數(shù)據(jù)團(tuán)隊(duì)CIO

2019-06-10 16:08:06

數(shù)據(jù)科學(xué)家數(shù)據(jù)驅(qū)動(dòng)原則

2019-03-07 13:57:39

數(shù)據(jù)科學(xué)家框架架構(gòu)

2023-12-01 15:10:56

2016-12-22 23:27:49

數(shù)據(jù)數(shù)據(jù)科學(xué)家變量

2016-12-23 14:56:49

數(shù)據(jù)科學(xué)商業(yè)視角思維

2022-04-28 10:29:38

數(shù)據(jù)數(shù)據(jù)收集

2017-12-13 10:08:26

大數(shù)據(jù)圖數(shù)據(jù)推理數(shù)據(jù)科學(xué)

2019-02-14 14:47:39

大數(shù)據(jù)數(shù)據(jù)科學(xué)家企業(yè)

2016-12-29 15:31:13

機(jī)器學(xué)習(xí)計(jì)算數(shù)據(jù)

2018-10-28 18:30:51

數(shù)據(jù)科學(xué)數(shù)據(jù)項(xiàng)目管理

2019-09-09 15:28:04

數(shù)據(jù)科學(xué)帕累托法則工具

2018-07-12 13:47:04

數(shù)據(jù)科學(xué)變量虛擬變量

2025-04-16 08:00:00

2021-02-27 09:28:09

數(shù)據(jù)科學(xué)數(shù)據(jù)

2023-10-08 07:40:29

2023-03-03 08:00:00

重采樣數(shù)據(jù)集

2021-05-07 05:54:43

數(shù)據(jù)庫數(shù)據(jù)湖數(shù)據(jù)

2021-03-24 15:17:32

數(shù)據(jù)管理

2015-06-11 10:27:29

數(shù)據(jù)科學(xué)家
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 日本不卡在线观看 | 国产精品久久久久久一区二区三区 | 日本黄色大片免费 | 97精品久久 | 亚洲一区二区三区在线视频 | 久久久久久成人网 | av影音在线 | 国产免费一区二区 | 成人教育av | 国产99在线 | 欧美 | 男女视频在线观看网站 | 成人h动漫亚洲一区二区 | 久久日韩精品 | 成人在线视频观看 | 国产精品久久久久久av公交车 | 久久这里有精品 | 欧美一区二区三区小说 | 欧美xxxx在线 | 欧美日韩成人影院 | 国产精品免费一区二区 | 国产高清视频在线观看 | 在线观看电影av | 狠狠操天天操 | 日韩中文字幕视频在线 | 中文字幕日本一区二区 | 99久久婷婷国产综合精品电影 | 国产亚洲一区二区三区 | 精品国产青草久久久久96 | 免费黄色录像片 | 久久久国产亚洲精品 | 成年人在线观看 | 国产精品综合一区二区 | 欧美乱人伦视频 | 免费大黄视频 | 四虎影视免费在线 | 亚洲欧洲中文 | 久久久久久色 | 中文字幕不卡在线观看 | 在线观看中文字幕 | 国产精品视频一区二区三区四区国 | 亚洲精品免费视频 |