成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數據背后的神秘公式(下):“貝葉斯革命”

大數據
貝葉斯公式在聯邦黨人文集作者公案和天蝎號核潛艇搜救中大顯身手后(詳見大數據背后的神秘公式(上):貝葉斯公式),開始引起學術界的注意和重視,而其上世紀八十年代在自然語言處理領域的成功,向我們展示了一條全新的問題解決路徑。計算能力的不斷提高和大數據的出現使它的威力日益顯現,一場轟轟烈烈的“貝葉斯革命”正在發生。

[[170719]]

在上一篇文章《大數據背后的神秘公式(上):貝葉斯公式》中我們講到貝葉斯公式在聯邦黨人文集作者公案和天蝎號核潛艇搜救中大顯身手后,開始引起學術界的注意和重視,而其上世紀八十年代在自然語言處理領域的成功,向我們展示了一條全新的問題解決路徑。計算能力的不斷提高和大數據的出現使它的威力日益顯現,一場轟轟烈烈的“貝葉斯革命”正在發生。

一、 真正的突破

自然語言處理就是讓計算機代替人來翻譯語言、識別語音、認識文字和進行海量文獻的自動檢索。但是人類的語言可以說是信息里最復雜最動態的一部分。人們最初想到的方法是語言學方法,讓計算機學習人類的語法、分析語句等等。尤其是在喬姆斯基(有史以來最偉大的語言學家)提出 “形式語言” 以后,人們更堅定了利用語法規則的辦法進行文字處理的信念。遺憾的是,幾十年過去了,在計算機語言處理領域,基于這個語法規則的方法幾乎毫無突破。

其實早在幾十年前,數學家兼信息論的祖師爺香農 (Claude Shannon)就提出了用數學方法處理自然語言的想法。遺憾的是當時的計算機根本無法滿足大量信息處理的需要,所以他的這一想法并沒有引起重視。

率先成功利用數學方法解決自然語言處理問題的是語音和語言處理大師賈里尼克 (Fred Jelinek)。他引入一個全新的視角,認為語音識別就是根據接收到的一個信號序列推測說話人實際發出的信號序列(說的話)和要表達的意思。這就把語音識別問題轉化為一個通信問題,而且進一步可以簡化為用貝葉斯公式處理的數學問題。

一般情況下,一個句子中的每個字符都跟它前面的所有字符相關,這樣公式中的條件概率計算就非常復雜,難以實現。為了簡化問題,他做了兩個假設:

1. 說話人說的句子是一個馬爾科夫鏈,也就是說,句子中的每個字符都只由它前一個字符決定;

2. 獨立輸入假設,就是每個接受的字符信號只由對應的發送字符決定。

這樣的簡化看起來有點簡單粗暴,每個字符在語義上都是和文章的其他部分相關的,怎么可能只跟它前一個字符相關呢?很多人不相信用這么簡單的數學模型能解決復雜的語音識別、機器翻譯等問題。其實不光是一般人,就連很多語言學家都曾質疑過這種方法的有效性。但事實證明,這個基于貝葉斯公式的統計語言模型比任何當時已知的借助某種規則的解決方法都有效。賈里尼克和貝克夫婦在七十年代分別獨立提出用這個模型進行語音識別,八十年代微軟公司用這個模型成功開發出第一個大詞匯量連續語音識別系統。現在我們手機上的語音識別和語音輸入功能都已經非常成熟而且好用了。

更加可貴的是,這種語音識別系統不但能夠識別靜態的詞庫,而且對詞匯的動態變化具有很好的適應性,即使是新出現的詞匯,只要這個詞已經被大家高頻使用,用于訓練的數據量足夠多,系統就能正確地識別。這反映出貝葉斯公式對現實變化的高度敏感,對增量信息有非常好的適應能力。

自然語言處理方面的成功開辟了一條全新的問題解決路徑:

1.原來看起來非常復雜的問題可以用貝葉斯公式轉化為簡單的數學問題;

2.可以把貝葉斯公式和馬爾科夫鏈結合以簡化問題,使計算機能夠方便求解;雖然我們不完全了解為什么這種看似粗暴的簡化并不影響我們的研究過程,但從實踐看來它非常有效;

3.將大量觀測數據輸入模型進行迭代——也就是對模型進行訓練,我們就可以得到希望的結果。

隨著計算能力的不斷提高、大數據技術的發展,原來手工條件下看起來不可思議的進行模型訓練的巨大工作量變得很容易實現,它們使貝葉斯公式巨大的實用價值體現出來。

二、 經典統計學的困難和貝葉斯革命

1. 經典統計學的困難

當貝葉斯方法在實際應用中不斷證明自己的同時,經典統計學卻遇到了困境。經典統計學比較適合于解決小型的問題,同時該方法要求我們獲得足夠多的樣本數據,而且要求這些樣本能夠代表數據的整體特征。在處理涉及幾個參數的問題時,它可以得心應手。但如果相對于問題的復雜程度,我們只掌握少量的信息時,經典統計學就顯得力不從心了,原因就是數據的稀疏性問題。

都大數據時代了,還存在數據稀疏性問題嗎?答案是肯定的。具體來說,一個取決于n個參數,并且每個參數只有兩種表現(0或者1)的系統,共有2的n次方種現象。如果某類癌癥的產生過程中有100個基因參與(這其實很保守了,人類總共有幾萬個基因),那么它有2的100次方種可能的基因圖譜;根據采樣定理進行估算,采用經典統計學方法至少需要獲得1%-10%的樣本才能確定其病因,也就是需要制作出數萬億億億個患有該疾病的病人的基因圖譜!這不具備可操作性。所以用經典統計學方法無法解釋由相互聯系、錯綜復雜的原因(相關參數)所導致的現象。

2 .貝葉斯網絡帶來工具革命

而目前的情況是,相對簡單的問題已經解決得差不多了,剩下的都非常復雜。龍卷風的形成、星系的起源、致病基因、大腦的運作機制等,要揭示隱藏在這些問題背后的規律,就必須理解它們的成因網絡,把錯綜復雜的事件梳理清楚。由于經典統計學失效,科學家別無選擇,他們必須從眾多可能奏效的法則中選擇一些可以信任的,并以此為基礎建立理論模型。為了能做出這樣的選擇,為了能在眾多可能性中確定他們認為最為匹配的,過去,科學家多少是依靠直覺來彌補數據上的缺失和空白。而貝葉斯公式正好以嚴謹的數學形式幫他們實現了這一點。科學家把所有假設與已有知識、觀測數據一起代入貝葉斯公式,就能得到明確的概率值。而要破譯某種現象的成因網絡,只需將公式本身也結成網絡,即貝葉斯網絡,它是貝葉斯公式和圖論結合的產物。

網絡化想法的提出也不是一帆風順的。直到上世紀80年代,美國數學家朱迪亞·珀爾才證明,使用貝葉斯網絡應該可以揭示復雜現象背后的成因。操作原理是這樣的:如果我們不清楚一個現象的成因,首先根據我們認為最有可能的原因來建立一個模型;然后把每個可能的原因作為網絡中的節點連接起來,根據已有的知識、我們的預判或者專家意見給每個連接分配一個概率值。接下來只需要向這個模型代入觀測數據,通過網絡節點間的貝葉斯公式重新計算出概率值。為每個新數據、每個連接重復這種計算,直到形成一個網絡圖,任意兩個原因之間的連接都得到精確的概率值為止,就大功告成了。即使實驗數據存在空白或者充斥噪聲和干擾信息,不懈追尋各種現象發生原因的貝葉斯網絡依然能夠構建出各種復雜現象的模型。貝葉斯公式的價值在于,當觀測數據不充分時,它可以將專家意見和原始數據進行綜合,以彌補測量中的不足。我們的認知缺陷越大,貝葉斯公式的價值就越大

心血管疾病成因的貝葉斯網絡

 

 和前面提到的馬爾可夫鏈類似,我們可以假設貝葉斯網絡中每個節點的狀態值取決于其前面的有限個狀態。不同的是,貝葉斯網絡比馬爾可夫鏈靈活,它不受馬爾可夫鏈的鏈狀結構的約束,因此可以更準確地描述事件之間的相關性。可以說,馬爾可夫鏈是貝葉斯網絡的特例,而貝葉斯網絡是馬爾可夫鏈的推廣,它給復雜問題提供了一個普適性的解決框架。

為了確定各個節點之間的相關性,需要用已知數據對貝葉斯網絡進行迭代和訓練。由于網絡結構比較復雜,理論上,用現有的計算機是不可計算的(基于馮·諾依曼結構的計算機無法解決這種NP復雜度的問題,NP(Non-deterministic Polynomial)指用非確定機在多項式時間內可以解決的問題類)。但對于一些具體的應用,可以根據實際情況對網絡結構(采用網絡拓撲的圖同構技術)和訓練過程進行簡化,使它在計算上可行。如果量子計算機開發成功,將能夠完全解決其計算問題。這樣,貝葉斯公式為科學家開辟的新路就完全打通了。

今天一場轟轟烈烈的“貝葉斯革命”正在發生:生物學家用貝葉斯公式研究基因的致病機制;基金經理用貝葉斯公式找到投資策略;互聯網公司用貝葉斯公式改進搜索功能,幫助用戶過濾垃圾郵件;大數據、人工智能和自然語言處理中都大量用到貝葉斯公式。既然在手工時代,我們無法預測到今天貝葉斯公式與計算機結合的威力,那么我們怎么能忽視貝葉斯網絡與量子計算機結合可能蘊藏的巨大潛力呢?

3.人類大腦的構建方式?

貝葉斯公式不僅在自然科學領域掀起革命,它的應用范圍也延伸到了關于人類行為和人類大腦活動的研究領域。教育學家突然意識到,學生的學習過程其實就是貝葉斯公式的運用;心理學家證明貝葉斯方法是兒童運用的唯一思考方法,其他方法他們似乎完全不會。進一步,心理學研究的成果使科學家思考人類的大腦結構是否就是一個貝葉斯網絡。這個公式不僅是研究人類思維的工具,它可能就是大腦本身的構建方式。這個觀點十分大膽,但獲得越來越廣泛的認可。因為貝葉斯公式是我們在沒有充分或準確信息時最優的推理結構,為了提高生存效率,進化會向這個模式演進。貝葉斯公式突然滲透到一切科學領域,提供了通用的研究框架,這是十分罕見的事情。

人工智能近年來取得了長足的進步,但目前的人工智能通常需要從大量的數據中進行學習,而人類具有“僅從少量案例就形成概念”的能力,兩者之間存在巨大差距。比如,盡管你這輩子只見過一個菠蘿,但你一眼就能看出菠蘿的特征,很快就能從一堆水果中認出菠蘿來,甚至還能在紙上畫出菠蘿的簡筆畫,而目前的人工智能算法得看成千上萬張菠蘿的圖片才能做到。

不過,這種情況或許已經開始改變了。2015年底,一篇人工智能論文登上了《 科學 》雜志的封面,為人們帶來了人工智能領域的一個重大突破: 三名分別來自麻省理工學院、紐約大學和多倫多大學的研究者開發了一個“只看一眼就會寫字”的計算機系統。只需向這個系統展示一個來自陌生文字系統的字符,它就能很快學到精髓,像人一樣寫出來,甚至還能寫出其他類似的文字——更有甚者,它還通過了圖靈測試,我們很難區分下圖中的字符是人類還是機器的作品。這個系統采用的方法就是貝葉斯程序學習(Bayesian Program Learning)——一種基于貝葉斯公式的方法。這不但是人工智能領域的重大突破,而且為我們認識人腦的學習機制提供了重要參考。

 

人和機器作品對比圖

三 理念的革命

這不僅僅是一場科學的革命,同樣也是一場理念的革命。當科學不斷強調其對世界認識的客觀性時,貝葉斯公式卻融入了主觀性因素:它并不向我們表述世界,而是表述我們所掌握的知識和經驗。這些帶有觀察者個人因素的知識是脫離研究現象本身的;而它在向我們描述外部現實世界的同時,也描述了觀察者對現實的認知的缺陷。更重要的,它迫使我們認識到,科學理論和科學模型反映的是現實的心理意象,而不是現實本身。而現實為我們提供數據,以保證對現實的意象不會離現實本身太遠。在尋找各種現象原因的同時,它也在規范著我們的思想。

四 、貝葉斯公式這么牛,與我何干?

我們經常需要在信息不充分或者不準確的情況下進行判斷和決策,一條街上哪個飯館最靠譜?在自習室驚鴻一瞥的女神有沒有男朋友?老公的公文包里發現一只口紅,他有沒有出軌?新開發的App應該等做得盡善盡美再發布,還是應該盡早發布,用互聯網的力量幫助它完善?我應該選擇哪個工作offer或者還是考公務員才能使自己的收益最大化?

貝葉斯公式為我們提供了一些決策原則:

平時注意觀察和思考,建立自己的思維框架,這樣在面臨選擇時就容易形成一個接近實際情況的先驗概率,這樣經過少量的試錯和糾錯的迭代循環就可能得到理想的結果;在經過很多次選擇和實踐的歷練后就能夠形成自己的直覺,在面對陌生情況時,根據自己的經驗和少量信息就能夠快速地做出比較準確的判斷。

大數據時代獲得信息的成本越來越低,社會也變得更加開放和包容,初始狀態(先驗概率)的重要性下降了,即使最初選擇不理想,只要根據新情況不斷進行調整,仍然可以取得成功。所以如果當下覺得很難做出選擇,那就傾聽內心的聲音,讓直覺來選擇,這有利于治療選擇恐懼癥。

以開發App的例子來說,先按照自己的想法弄個可用的原型出來,然后充分利用互聯網的力量,讓活躍的用戶社區幫助它快速迭代,逐漸使它的功能和體驗越來越好。

對新鮮事物保持開放的心態,愿意根據新信息對自己的策略和行為進行調整。

“大膽假設,小心求證”,“不斷試錯,快速迭代”,這些都可以看成貝葉斯公式的不同表述。英國哲學家以賽亞·伯林(Isaish Berlin)曾經援引古希臘詩人的斷簡殘片“狐貍多知而刺猬有一大知”,將人的策略分為狐貍和刺猬兩類。刺猬用一個宏大的概念解釋所有現象,而狐貍知道很多事情,用多元化的視角看待問題,它也愿意包容新的證據以使得自己的模型與之相適應。在這個快速變化的時代,固守一個不變的信條的刺猬很難適應環境的變化,而使用貝葉斯公式的靈活的狐貍才更容易生存。

責任編輯:趙寧寧 來源: 36大數據
相關推薦

2016-08-30 00:14:09

大數據貝葉斯

2013-05-08 09:05:48

狐貍貝葉斯大數據

2020-10-09 12:41:04

算法優化場景

2012-09-24 10:13:35

貝葉斯

2017-08-07 13:02:32

全棧必備貝葉斯

2023-01-31 15:49:51

機器學習函數評分函數

2011-10-18 09:23:43

數據中心冰島災備

2017-03-29 14:50:18

2016-10-19 16:50:43

大數據

2021-04-18 09:57:45

Java樸素貝葉斯貝葉斯定理

2024-10-11 16:53:16

貝葉斯人工智能網絡

2025-01-21 13:15:37

2017-07-24 10:36:37

Python機器學習樸素貝葉斯

2021-08-30 11:53:36

機器學習人工智能計算機

2023-10-18 08:00:00

貝葉斯網絡Python醫療保健

2012-07-31 17:00:49

大數據

2017-11-07 11:17:40

樸素貝葉斯畫像數據數據挖掘

2023-08-17 11:31:18

論文模型

2015-06-18 05:55:05

大數據大數據背后的事

2012-02-14 10:55:24

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久久国产精品视频 | 国产美女黄色 | 午夜影院在线观看版 | 亚洲精品中文字幕av | 国产欧美精品一区二区色综合 | 中文字幕日韩欧美 | 3级毛片 | 中文字幕在线二区 | 九九九久久国产免费 | 国产一级在线视频 | 成人在线小视频 | 理论片午午伦夜理片影院 | 国产精品九九 | 国产精品xxxx | 99re在线视频| 二区中文字幕 | 成人精品国产一区二区4080 | 成人国产一区二区三区精品麻豆 | 欧美电影一区 | 激情网站| 国产成人a亚洲精品 | 天天操网 | 国产精品视频一二三区 | 狠狠操av | 夜夜爽夜夜操 | 成人在线观看免费爱爱 | 久久小视频 | 欧美日韩一区在线观看 | 中文字幕亚洲一区 | 中文字幕99 | 人成在线视频 | 91成人免费| 国产日韩欧美在线 | 成人av免费在线观看 | 欧美天堂在线 | 久久久久久久久久久久91 | 国产精品一区二区av | 午夜资源 | 久久午夜精品福利一区二区 | 午夜视频免费在线观看 | 国产亚洲精品91 |