成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數(shù)據(jù)背后的神秘公式(上):貝葉斯公式

大數(shù)據(jù)
大數(shù)據(jù)、人工智能、海難搜救、生物醫(yī)學(xué)、郵件過濾,這些看起來彼此不相關(guān)的領(lǐng)域之間有什么聯(lián)系?答案是,它們都會(huì)用到同一個(gè)數(shù)學(xué)公式——貝葉斯公式。

 

大數(shù)據(jù)、人工智能、海難搜救、生物醫(yī)學(xué)、郵件過濾,這些看起來彼此不相關(guān)的領(lǐng)域之間有什么聯(lián)系?答案是,它們都會(huì)用到同一個(gè)數(shù)學(xué)公式——貝葉斯公式。它雖然看起來很簡(jiǎn)單、很不起眼,但卻有著深刻的內(nèi)涵。那么貝葉斯公式是如何從默默無聞到現(xiàn)在廣泛應(yīng)用、無所不能的呢?

一、 什么是貝葉斯公式

18世紀(jì)英國業(yè)余數(shù)學(xué)家托馬斯·貝葉斯(Thomas Bayes,1702~1761)提出過一種看上去似乎顯而易見的觀點(diǎn):“用客觀的新信息更新我們最初關(guān)于某個(gè)事物的信念后,我們就會(huì)得到一個(gè)新的、改進(jìn)了的信念。” 這個(gè)研究成果,因?yàn)楹?jiǎn)單而顯得平淡無奇,直到他死后的兩年才于1763年由他的朋友理查德·普萊斯幫助發(fā)表。它的數(shù)學(xué)原理很容易理解,簡(jiǎn)單說就是,如果你看到一個(gè)人總是做一些好事,則會(huì)推斷那個(gè)人多半會(huì)是一個(gè)好人。這就是說,當(dāng)你不能準(zhǔn)確知悉一個(gè)事物的本質(zhì)時(shí),你可以依靠與事物特定本質(zhì)相關(guān)的事件出現(xiàn)的多少去判斷其本質(zhì)屬性的概率。用數(shù)學(xué)語言表達(dá)就是:支持某項(xiàng)屬性的事件發(fā)生得愈多,則該屬性成立的可能性就愈大。與其他統(tǒng)計(jì)學(xué)方法不同,貝葉斯方法建立在主觀判斷的基礎(chǔ)上,你可以先估計(jì)一個(gè)值,然后根據(jù)客觀事實(shí)不斷修正。

1774年,法國數(shù)學(xué)家皮埃爾-西蒙·拉普拉斯(Pierre-Simon Laplace,1749-1827)獨(dú)立地再次發(fā)現(xiàn)了貝葉斯公式。拉普拉斯關(guān)心的問題是:當(dāng)存在著大量數(shù)據(jù),但數(shù)據(jù)又可能有各種各樣的錯(cuò)誤和遺漏的時(shí)候,我們?nèi)绾尾拍軓闹姓业秸鎸?shí)的規(guī)律。拉普拉斯研究了男孩和女孩的生育比例。有人觀察到,似乎男孩的出生數(shù)量比女孩更高。這一假說到底成立不成立呢?拉普拉斯不斷地搜集新增的出生記錄,并用之推斷原有的概率是否準(zhǔn)確。每一個(gè)新的記錄都減少了不確定性的范圍。拉普拉斯給出了我們現(xiàn)在所用的貝葉斯公式的表達(dá):

P(A/B)=P(B/A)*P(A)/P(B),

該公式表示在B事件發(fā)生的條件下A事件發(fā)生的條件概率,等于A事件發(fā)生條件下B事件發(fā)生的條件概率乘以A事件的概率,再除以B事件發(fā)生的概率。公式中,P(A)也叫做先驗(yàn)概率,P(A/B)叫做后驗(yàn)概率。嚴(yán)格地講,貝葉斯公式至少應(yīng)被稱為“貝葉斯-拉普拉斯公式”。

二、 默默無聞200年

貝葉斯公式現(xiàn)在已經(jīng)非常流行,甚至在熱門美劇《生活大爆炸》中謝耳朵也秀了一下。但它真正得到重視和廣泛應(yīng)用卻是最近二三十年的事,其間被埋沒了200多年。這是為什么呢?原因在于我們有另外一種數(shù)學(xué)工具——經(jīng)典統(tǒng)計(jì)學(xué),或者叫頻率主義統(tǒng)計(jì)學(xué)(我們?cè)趯W(xué)校學(xué)的主要是這種統(tǒng)計(jì)學(xué)),它在200多年的時(shí)間里一直表現(xiàn)不錯(cuò)。從理論上講,它可以揭示一切現(xiàn)象產(chǎn)生的原因,既不需要構(gòu)建模型,也不需要默認(rèn)條件,只要進(jìn)行足夠多次的測(cè)量,隱藏在數(shù)據(jù)背后的原因就會(huì)自動(dòng)揭開面紗。

在經(jīng)典統(tǒng)計(jì)學(xué)看來,科學(xué)是關(guān)于客觀事實(shí)的研究,我們只要反復(fù)觀察一個(gè)可重復(fù)的現(xiàn)象,直到積累了足夠多的數(shù)據(jù),就能從中推斷出有意義的規(guī)律。而貝葉斯方法卻要求科學(xué)家像算命先生一樣,從主觀猜測(cè)出發(fā),這顯然不符合科學(xué)精神。就連拉普拉斯后來也放棄了貝葉斯方法這一思路,轉(zhuǎn)向經(jīng)典統(tǒng)計(jì)學(xué)。因?yàn)樗l(fā)現(xiàn),如果數(shù)據(jù)量足夠大,人們完全可以通過直接研究這些樣本來推斷總體的規(guī)律。

打個(gè)比方來幫助我們理解這兩種統(tǒng)計(jì)學(xué)方法的區(qū)別。假如我們想知道某個(gè)區(qū)域里海拔最低的地方,經(jīng)典統(tǒng)計(jì)學(xué)的方法是首先進(jìn)行觀測(cè),取得區(qū)域內(nèi)不同地方的海拔數(shù)據(jù),然后從中找出最低點(diǎn)。這個(gè)數(shù)據(jù)量必須足夠多,以反映區(qū)域內(nèi)地形全貌的特征,這樣我們才能相信找到的就是實(shí)際上的最低點(diǎn)。而貝葉斯方法是我不管哪里最低,就憑感覺在區(qū)域內(nèi)隨便選個(gè)地方開始走,每一步都往下走,雖然中間可能有一些曲折,但相信這樣走早晚能夠到達(dá)最低點(diǎn)。可以看出,貝葉斯方法的關(guān)鍵問題是這個(gè)最終到達(dá)的低點(diǎn)可能不是真正的最低點(diǎn),而是某個(gè)相對(duì)低點(diǎn),它可能對(duì)該區(qū)域的地形(碗型、馬鞍形等)和最初我們主觀選擇的出發(fā)點(diǎn)有依賴性。如果問題域是碗型的,我們到達(dá)的就是最低點(diǎn);但如果是馬鞍形或者其他復(fù)雜曲面,那么我們到達(dá)的可能是多個(gè)相對(duì)低點(diǎn)(極點(diǎn))中的一個(gè),而不是真正的最低點(diǎn)。這是貝葉斯方法最受經(jīng)典統(tǒng)計(jì)學(xué)方法詬病的原因,也是它在過去的200多年被雪藏的原因所在。

貝葉斯方法原理示意圖:

 

 

三、 初顯威力

長(zhǎng)期以來,貝葉斯方法雖然沒有得到主流學(xué)界的認(rèn)可,但其實(shí)我們經(jīng)常會(huì)不自覺地應(yīng)用它來進(jìn)行決策,而且還非常有效。比如炮兵在射擊時(shí)會(huì)使用貝葉斯方法進(jìn)行瞄準(zhǔn)。炮彈與子彈不同,它的飛行軌跡是拋物線,瞄準(zhǔn)的難度更大,因此他們會(huì)先根據(jù)計(jì)算和經(jīng)驗(yàn)把炮管調(diào)整到一個(gè)可能命中的瞄準(zhǔn)角度(先驗(yàn)概率),然后再根據(jù)炮彈的實(shí)際落點(diǎn)進(jìn)行調(diào)整(后驗(yàn)概率),這樣在經(jīng)過2-3次射擊和調(diào)整后炮彈就能夠命中目標(biāo)了。

在日常生活中,我們也常使用貝葉斯方法進(jìn)行決策。比如在一個(gè)陌生的地方找餐館吃飯,因?yàn)橹安涣私饽募也宛^好,似乎只能隨機(jī)選擇,但實(shí)際上并非如此,我們會(huì)根據(jù)貝葉斯方法,利用以往積累的經(jīng)驗(yàn)來提供判斷的線索。經(jīng)驗(yàn)告訴我們,通常那些坐滿了客人的餐館的食物要更美味些,而那些客人寥寥的餐館,食物可能不怎么樣而且可能會(huì)被宰。這樣,我們就往往通過觀察餐廳的上座率來選擇餐館就餐。這就是我們根據(jù)先驗(yàn)知識(shí)進(jìn)行的主觀判斷。在吃過以后我們對(duì)這個(gè)餐館有了更多實(shí)際的了解,以后再選擇時(shí)就更加容易了。所以說,在我們認(rèn)識(shí)事物不全面的情況下,貝葉斯方法是一種很好的利用經(jīng)驗(yàn)幫助作出更合理判斷的方法。

而兩個(gè)標(biāo)志性的事件在讓學(xué)術(shù)界開始重視貝葉斯方法上起到了重要作用。

1.聯(lián)邦黨人文集作者公案

1787年5月,美國各州(當(dāng)時(shí)為13個(gè))代表在費(fèi)城召開制憲會(huì)議;1787年9月,美國的憲法草案被分發(fā)到各州進(jìn)行討論。一批反對(duì)派以“反聯(lián)邦主義者”為筆名,發(fā)表了大量文章對(duì)該草案提出批評(píng)。憲法起草人之一亞歷山大·漢密爾頓著急了,他找到曾任外交國務(wù)秘書(即后來的國務(wù)卿)的約翰·杰伊,以及紐約市國會(huì)議員麥迪遜,一同以普布利烏斯(Publius)的筆名發(fā)表文章,向公眾解釋為什么美國需要一部憲法。他們走筆如飛,通常在一周之內(nèi)就會(huì)發(fā)表3-4篇新的評(píng)論。1788年,他們所寫的85篇文章結(jié)集出版,這就是美國歷史上著名的《聯(lián)邦黨人文集》。

《聯(lián)邦黨人文集》出版的時(shí)候,漢密爾頓堅(jiān)持匿名發(fā)表,于是,這些文章到底出自誰人之手,成了一樁公案。1810年,漢密爾頓接受了一個(gè)政敵的決斗挑戰(zhàn),但出于基督徒的宗教信仰,他決意不向?qū)Ψ介_槍。在決斗之前數(shù)日,漢密爾頓自知時(shí)日不多,他列出了一份《聯(lián)邦黨人文集》的作者名單。1818年,麥迪遜又提出了另一份作者名單。這兩份名單并不一致。在85篇文章中,有73篇文章的作者身份較為明確,其余12篇存在爭(zhēng)議。

1955年,哈佛大學(xué)統(tǒng)計(jì)學(xué)教授Fredrick Mosteller找到芝加哥大學(xué)的年輕統(tǒng)計(jì)學(xué)家David Wallance,建議他跟自己一起做一個(gè)小課題,他想用統(tǒng)計(jì)學(xué)的方法,鑒定出《聯(lián)邦黨人文集》的作者身份。

但這根本就不是一個(gè)小課題。漢密爾頓和麥迪遜都是文章高手,他們的文風(fēng)非常接近。從已經(jīng)確定作者身份的那部分文本來看,漢密爾頓寫了9.4萬字,麥迪遜寫了11.4萬字。漢密爾頓每個(gè)句子的平均長(zhǎng)度是34.55字,而麥迪遜是34.59字。就寫作風(fēng)格而論,漢密爾頓和麥迪遜簡(jiǎn)直就是一對(duì)雙胞胎。漢密爾頓和麥迪遜寫這些文章,用了大約一年的時(shí)間,而Mosteller和Wallance甄別出作者的身份花了10多年的時(shí)間。

如何分辨兩人寫作風(fēng)格的細(xì)微差別,并據(jù)此判斷每篇文章的作者就是問題的關(guān)鍵。他們所采用的方法就是以貝葉斯公式為核心的包含兩個(gè)類別的分類算法。先挑選一些能夠反映作者寫作風(fēng)格的詞匯,在已經(jīng)確定了作者的文本中,對(duì)這些特征詞匯的出現(xiàn)頻率進(jìn)行統(tǒng)計(jì),然后再統(tǒng)計(jì)這些詞匯在那些不確定作者的文本中的出現(xiàn)頻率,從而根據(jù)詞頻的差別推斷其作者歸屬。這其實(shí)和我們現(xiàn)在使用的垃圾郵件過濾器的原理是一樣的。

他們是在沒有計(jì)算機(jī)幫助的條件下用手工處理“大數(shù)據(jù)”,這一工程的耗時(shí)耗力是可想而知的。將近100個(gè)哈佛大學(xué)的學(xué)生幫助他們處理數(shù)據(jù)。學(xué)生們用最原始的方式,用打字機(jī)把《聯(lián)邦黨人文集》的文本打出來,然后把每個(gè)單詞剪下來,按照字母表的順序,把這些單詞分門別類地匯集在一起。有個(gè)學(xué)生干得累了,伸了個(gè)懶腰,長(zhǎng)長(zhǎng)地呼了一口氣。他這一口氣用力太猛,一下子把剛剛歸置好的單詞條吹得如柳絮紛飛,一屋子學(xué)生瞬間石化,估計(jì)很多人連滅了他的心都有。而這只是手工大數(shù)據(jù)時(shí)代的日常。

Mosteller和Wallance這是要在干草垛里找繡花針。他們首先剔除掉用不上的詞匯。比如,《聯(lián)邦黨人文集》里經(jīng)常談到“戰(zhàn)爭(zhēng)”、“立法權(quán)”、“行政權(quán)”等,這些詞匯是因主題而出現(xiàn),并不反映不同作者的寫作風(fēng)格。只有像“in”,“an”,“of”,“upon”這些介詞、連詞等才能顯示出作者風(fēng)格的微妙差異。一位歷史學(xué)家好心地告訴他們,有一篇1916年的論文提到,漢密爾頓總是用“while”,而麥迪遜則總是用“whilst”。但僅僅有這一個(gè)線索是不夠的。“while”和“whilst”在這12篇作者身份待定的文章里出現(xiàn)的次數(shù)不夠多。況且,漢密爾頓和麥迪遜有時(shí)候會(huì)合寫一篇文章,也保不齊他們會(huì)互相改文章,要是漢密爾頓把麥迪遜的“whilst”都改成了“while”呢?

當(dāng)學(xué)生們把每個(gè)單詞的小紙條歸類、粘好之后,他們發(fā)現(xiàn),漢密爾頓的文章里平均每一頁紙會(huì)出現(xiàn)兩次“upon”,而麥迪遜幾乎一次也不用。漢密爾頓更喜歡用“enough”,麥迪遜則很少用。其它一些有用的詞匯包括:“there”、“on”等等。1964年,Mosteller和Wallance發(fā)表了他們的研究成果。他們的結(jié)論是,這12篇文章的作者很可能都是麥迪遜。他們最拿不準(zhǔn)的是第55篇,麥迪遜是作者的概率是240:1。

這個(gè)研究引起了極大的轟動(dòng),但最受震撼的不是憲法研究者,而是統(tǒng)計(jì)學(xué)家。Mosteller和Wallance的研究,把貝葉斯公式這個(gè)被統(tǒng)計(jì)學(xué)界禁錮了200年的幽靈從瓶子中釋放了出來。

2.天蝎號(hào)核潛艇搜救

2014年初馬航MH370航班失聯(lián),所有人都密切關(guān)注搜救的進(jìn)展情況。那么我們是用什么方法在茫茫大海中尋找失聯(lián)的飛機(jī)或者船只的呢?這要從天蝎號(hào)核潛艇說起。

1968年5月,美國海軍的天蝎號(hào)核潛艇在大西洋亞速海海域突然失蹤,潛艇和艇上的99名海軍官兵全部杳無音信。按照事后調(diào)查報(bào)告的說法,罪魁禍?zhǔn)资沁@艘潛艇上的一枚奇怪的魚雷,發(fā)射出去后竟然敵我不分,扭頭射向自己,讓潛艇中彈爆炸。

為了尋找天蝎號(hào)的位置,美國政府從國內(nèi)調(diào)集了包括多位專家的搜索部隊(duì)前往現(xiàn)場(chǎng),其中包括一位名叫John Craven的數(shù)學(xué)家,他的頭銜是“美國海軍特別計(jì)劃部首席科學(xué)家”。在搜尋潛艇的問題上,Craven提出的方案使用了上面提到的貝葉斯公式。他召集了數(shù)學(xué)家、潛艇專家、海事搜救等各個(gè)領(lǐng)域的專家。每個(gè)專家都有自己擅長(zhǎng)的領(lǐng)域,但并非通才,沒有專家能準(zhǔn)確估計(jì)到在出事前后潛艇到底發(fā)生了什么。有趣的是,Craven并不是按照慣常的思路要求團(tuán)隊(duì)成員互相協(xié)商尋求一個(gè)共識(shí),而是讓各位專家編寫了各種可能的“劇本”,讓他們按照自己的知識(shí)和經(jīng)驗(yàn)對(duì)于情況會(huì)向哪一個(gè)方向發(fā)展進(jìn)行猜測(cè),并評(píng)估每種情境出現(xiàn)的可能性。據(jù)說,為了給枯燥的工作增加一些趣味,Craven還準(zhǔn)備了威士忌酒作為“投注”正確的獎(jiǎng)品。

因?yàn)樵贑raven的方案中,結(jié)果很多是這些專家以猜測(cè)、投票甚至可以說賭博的形式得到的,不可能保證所有結(jié)果的準(zhǔn)確性,他的這一做法受到了很多同行的質(zhì)疑。可是因?yàn)樗阉鳚撏У娜蝿?wù)緊迫,沒有時(shí)間進(jìn)行精確的實(shí)驗(yàn)、建立完整可靠的理論,Craven的辦法不失為一個(gè)可行的辦法。

由于失事時(shí)潛艇航行的速度快慢、行駛方向、爆炸沖擊力的大小、爆炸時(shí)潛艇方向舵的指向都是未知量,即使知道潛艇在哪里爆炸,也很難確定潛艇殘骸最后被海水沖到哪里。Craven粗略估計(jì)了一下,半徑20英里的圓圈內(nèi)的數(shù)千英尺深的海底,都是天蝎號(hào)核潛艇可能沉睡的地方,要在這么大的范圍,這么深的海底找到潛艇幾乎成了不可能完成的任務(wù)。

 

 

Craven把各位專家的意見綜合到一起,得到了一張20英里海域的概率圖。整個(gè)海域被劃分成了很多個(gè)小格子,每個(gè)小格子有兩個(gè)概率值p和q,p是潛艇躺在這個(gè)格子里的概率,q是如果潛艇在這個(gè)格子里,它被搜索到的概率。按照經(jīng)驗(yàn),第二個(gè)概率值主要跟海域的水深有關(guān),在深海區(qū)域搜索失事潛艇的“漏網(wǎng)”可能性會(huì)更大。如果一個(gè)格子被搜索后,沒有發(fā)現(xiàn)潛艇的蹤跡,那么按照貝葉斯公式,這個(gè)格子潛艇存在的概率就會(huì)降低:

 

 

由于所有格子概率的總和是1,這時(shí)其他格子潛艇存在的概率值就會(huì)上升:

 

 

 

每次尋找時(shí),先挑選整個(gè)區(qū)域內(nèi)潛艇存在概率值最高的一個(gè)格子進(jìn)行搜索,如果沒有發(fā)現(xiàn),概率分布圖會(huì)被“洗牌”一次,搜尋船只就會(huì)駛向新的“最可疑格子”進(jìn)行搜索,這樣一直下去,直到找到天蝎號(hào)為止。

最初開始搜救時(shí),海軍人員對(duì)Craven和其團(tuán)隊(duì)的建議嗤之以鼻,他們憑經(jīng)驗(yàn)估計(jì)潛艇是在爆炸點(diǎn)的東側(cè)海底。但幾個(gè)月的搜索一無所獲,他們才不得不聽從了Craven的建議,按照概率圖在爆炸點(diǎn)的西側(cè)尋找。經(jīng)過幾次搜索,潛艇果然在爆炸點(diǎn)西南方的海底被找到了。

由于這種基于貝葉斯公式的方法在后來多次搜救實(shí)踐中被成功應(yīng)用,現(xiàn)在已經(jīng)成為海難空難搜救的通行做法。

2009年法航空難搜救的后驗(yàn)概率分布圖:

 

 

2014馬航MH370失聯(lián)搜索區(qū)域:

 

 

與計(jì)算機(jī)的結(jié)合使貝葉斯公式巨大的實(shí)用價(jià)值進(jìn)一步體現(xiàn)出來,它不但為我們提供了一條全新的問題解決路徑,帶來工具和理念的革命,而且甚至可能是人類大腦本身的認(rèn)知和構(gòu)建方式。

好了,關(guān)于貝葉斯公式的內(nèi)容今天就講到這里,接下來我們將會(huì)講講正在發(fā)生的“貝葉斯革命”。

責(zé)任編輯:趙寧寧 來源: 36大數(shù)據(jù)
相關(guān)推薦

2016-08-30 00:19:30

2013-05-08 09:05:48

狐貍貝葉斯大數(shù)據(jù)

2020-10-09 12:41:04

算法優(yōu)化場(chǎng)景

2023-08-17 11:31:18

論文模型

2012-09-24 10:13:35

貝葉斯

2017-08-07 13:02:32

全棧必備貝葉斯

2021-07-23 11:48:16

深度學(xué)習(xí)醫(yī)療人工智能

2023-01-31 15:49:51

機(jī)器學(xué)習(xí)函數(shù)評(píng)分函數(shù)

2017-03-29 14:50:18

2011-10-18 09:23:43

數(shù)據(jù)中心冰島災(zāi)備

2021-04-18 09:57:45

Java樸素貝葉斯貝葉斯定理

2024-10-11 16:53:16

貝葉斯人工智能網(wǎng)絡(luò)

2023-10-18 08:00:00

貝葉斯網(wǎng)絡(luò)Python醫(yī)療保健

2021-08-30 11:53:36

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2017-07-24 10:36:37

Python機(jī)器學(xué)習(xí)樸素貝葉斯

2012-02-14 10:55:24

2017-07-12 11:27:05

樸素貝葉斯情感分析Python

2022-09-28 08:00:00

Python機(jī)器學(xué)習(xí)算法

2017-11-07 11:17:40

樸素貝葉斯畫像數(shù)據(jù)數(shù)據(jù)挖掘

2015-06-18 05:55:05

大數(shù)據(jù)大數(shù)據(jù)背后的事
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产色| 一区二区三区四区在线视频 | 日韩综合在线 | 国产成人a亚洲精品 | 二区精品 | 91精品国产一区二区三区 | 天天草天天爱 | 国内精品免费久久久久软件老师 | 亚洲一区二区三区四区五区中文 | 91性高湖久久久久久久久_久久99 | 国产精品久久网 | 欧美日韩国产中文 | 精品1区2区 | 亚洲视频在线播放 | 国产精品99久久久久久久久久久久 | 中文字字幕一区二区三区四区五区 | 亚洲精品在线国产 | aaa一区| 精品99久久久久久 | 自拍偷拍亚洲一区 | 91天堂| 日本在线免费视频 | 日韩精彩视频 | 久久99精品久久久久子伦 | 日韩中文字幕 | 天天干b| 黄色一级免费看 | 久久亚 | 国产精品海角社区在线观看 | 亚洲免费高清 | 性大毛片视频 | 欧美一级一区 | 久久精品欧美一区二区三区不卡 | 久久天天综合 | 久久一区精品 | 色久电影 | 亚洲高清视频在线观看 | 成人小视频在线观看 | 久久专区| 五月综合激情在线 | 久久久美女 |