人工智能/機(jī)器學(xué)習(xí)知多少?
從在智力競(jìng)賽節(jié)目和圍棋人機(jī)大戰(zhàn)戰(zhàn)勝人類,到推送廣告時(shí)表現(xiàn)出種族偏見(jiàn)而備受抨擊,我們似乎已經(jīng)進(jìn)入了人工智能發(fā)展步伐迅速加快的時(shí)代。但就目前而言,我們還無(wú)法讓機(jī)器具有完整的感知能力,使其電子“大腦”通過(guò)合理的道德判斷,完成復(fù)雜的認(rèn)知任務(wù)。
當(dāng)前的發(fā)展走向讓人們對(duì)人工智能的未來(lái)普遍生出了畏懼之心。這種情緒近來(lái)在流行文化中的表達(dá)顯示出了我們對(duì)這項(xiàng)技術(shù)有多么謹(jǐn)慎和悲觀。問(wèn)題在于,畏懼可能產(chǎn)生嚴(yán)重后果,有時(shí)更會(huì)成為無(wú)知的溫床。了解人工智能的內(nèi)在機(jī)制是緩解這些憂慮情緒的良方,有助于人們負(fù)責(zé)、放心地參與其中。
人工智能的核心基礎(chǔ)是機(jī)器學(xué)習(xí),一種巧妙且相當(dāng)普及的工具。但想要了解機(jī)器學(xué)習(xí),我們需要先弄清楚機(jī)器學(xué)習(xí)為什么利大于弊。
數(shù)據(jù)是關(guān)鍵
簡(jiǎn)單來(lái)說(shuō),機(jī)器學(xué)習(xí)是指教電腦如何分析數(shù)據(jù),通過(guò)算法來(lái)解決特定的任務(wù)。例如,就手寫識(shí)別而言,分類算法會(huì)根據(jù)人的筆跡辨認(rèn)文字。住房數(shù)據(jù)集則會(huì)利用回歸算法,以可量化的方式估算房產(chǎn)的賣價(jià)。
于是,機(jī)器學(xué)習(xí)便要?dú)w結(jié)到數(shù)據(jù)上來(lái)。幾乎每一家企業(yè)都在以某種方式生成數(shù)據(jù),比如市場(chǎng)調(diào)研、社交媒體、學(xué)校調(diào)查和自動(dòng)化系統(tǒng)。機(jī)器學(xué)習(xí)程序試圖在看似雜亂無(wú)章的龐大數(shù)據(jù)集中找到隱藏的模式和關(guān)聯(lián),建立可以預(yù)測(cè)行為的模型。
數(shù)據(jù)有兩個(gè)重要因素,即樣本和特性。前者代表了群體中的個(gè)體因素;后者則是個(gè)體因素共有的特點(diǎn)。
以社交媒體為例。用戶就是樣本,他們的使用習(xí)慣則是特性。比如,F(xiàn)acebook就把“點(diǎn)贊”活動(dòng)的不同方面(不同用戶各有不同)作為投放用戶定向廣告所依據(jù)的重要特性。
Facebook好友也可以作為樣本,他們與其他人的連接則是特性,從而建立起一個(gè)人際網(wǎng)絡(luò),可以用來(lái)研究信息的傳播。
Facebook好友網(wǎng)絡(luò):每個(gè)節(jié)點(diǎn)是一位好友,他與其他好友相連或者不相連。節(jié)點(diǎn)越大,說(shuō)明連接越多。同樣的顏色表示同樣的社交圈。
除了社交媒體以外,在工業(yè)化作業(yè)中用作為監(jiān)控工具的自動(dòng)化系統(tǒng),則把整個(gè)作業(yè)的時(shí)間快照作為樣本,特定時(shí)刻的傳感器測(cè)量值作為特性。如此,系統(tǒng)便可實(shí)時(shí)檢測(cè)作業(yè)中的異?,F(xiàn)象。
所有這些不同的解決方案都要靠向機(jī)器輸入數(shù)據(jù)和教它們?cè)诓呗孕缘卦u(píng)估過(guò)給定信息后自行作出預(yù)測(cè)來(lái)實(shí)現(xiàn)。這就是機(jī)器學(xué)習(xí)。
以人類智能作為出發(fā)點(diǎn)
任何數(shù)據(jù)都可以轉(zhuǎn)換成簡(jiǎn)單的概念,包括人工智能在內(nèi)的任何機(jī)器學(xué)習(xí)程序則會(huì)將這些概念作為自身的基石。
完成對(duì)數(shù)據(jù)的解讀后,就要決定如何運(yùn)用得到的這些信息。分類就是一種最常見(jiàn)、最直觀的機(jī)器學(xué)習(xí)程序。系統(tǒng)會(huì)學(xué)習(xí)如何根據(jù)參照數(shù)據(jù)集把數(shù)據(jù)分成不同的類別。
這種程序能讓人直接聯(lián)想到我們每天所作的各種決策,不管是給產(chǎn)品分類(比如哪些是廚具,哪些是美容產(chǎn)品),還是根據(jù)以往經(jīng)驗(yàn)選擇觀看哪部影片。這兩個(gè)例子或許看似完全無(wú)關(guān),但它們都依賴于分類的一個(gè)基本假設(shè):被定義為既定類別的預(yù)測(cè)。
例如,在拿起一瓶保濕霜時(shí),我們會(huì)根據(jù)特定的一組特性(比如容器的形狀或者產(chǎn)品的氣味),準(zhǔn)確預(yù)測(cè)它是美容產(chǎn)品。同樣的策略也適用于電影的選擇,通過(guò)評(píng)估一組特性(比如導(dǎo)演或者演員),預(yù)測(cè)電影屬于兩個(gè)類別中的哪一個(gè):好看或者不好看。
通過(guò)了解樣本特性之間的不同關(guān)系,我們可以預(yù)測(cè)電影是不是值得觀看,甚至可以開(kāi)發(fā)出一款計(jì)算機(jī)程序,替我們作出預(yù)測(cè)。
但想要掌握這些信息,我們就需要一位數(shù)據(jù)科學(xué)專家,他必須精通數(shù)學(xué)和統(tǒng)計(jì)學(xué),并且擁有嫻熟的編程技能,對(duì)不對(duì)?其實(shí)未必如此。
我們都對(duì)自己的母語(yǔ)非常了解,足以應(yīng)對(duì)日常生活,但其中只有少數(shù)人才學(xué)過(guò)語(yǔ)言學(xué)和文學(xué)。數(shù)學(xué)也是如此,它始終伴隨我們左右,買東西時(shí)計(jì)算找零金額或者根據(jù)食譜衡量食材,都不是什么難事。同理,無(wú)需精通機(jī)器學(xué)習(xí)技術(shù),也照樣能有效地使用它。
沒(méi)錯(cuò),世間確實(shí)有那種造詣深厚的專家級(jí)數(shù)據(jù)科學(xué)家,但只要下點(diǎn)功夫,任何人都能掌握這方面的基礎(chǔ)知識(shí),改進(jìn)自己理解和利用信息的方式。
將所有設(shè)計(jì)思路轉(zhuǎn)換為算法
再說(shuō)回分類算法。假設(shè)有一種分類算法能模仿我們作決策的方式。我們是社會(huì)性動(dòng)物,不如就以社交來(lái)往為例?第一印象很重要,我們心里都有一個(gè)模型,在和某人相遇的最初幾分鐘里,用來(lái)判斷我們喜不喜歡他。
這可能產(chǎn)生兩個(gè)結(jié)果:好印象或者壞印象。對(duì)每一個(gè)人,我們都會(huì)根據(jù)已有的幾次相遇(樣本),考慮(哪怕是潛意識(shí)地)不同的特點(diǎn)(特性),無(wú)論是聲調(diào)、外向性、整體態(tài)度還是禮節(jié)表現(xiàn)。
對(duì)于我們遇到的每一個(gè)陌生人,我們心里的那個(gè)模型都會(huì)把上述特征作為輸入數(shù)據(jù),并據(jù)此作出預(yù)測(cè)。我們可以把這個(gè)建模過(guò)程分解成一組輸入數(shù)據(jù),按照它們與最終結(jié)果的相關(guān)性確定其權(quán)重。
對(duì)有些人來(lái)說(shuō),吸引力很重要,而對(duì)其他人來(lái)說(shuō),幽默感或者喜歡狗更重要。每個(gè)人都有自己的模型,完全取決于自身的經(jīng)歷,或者說(shuō)數(shù)據(jù)。
不同的數(shù)據(jù)會(huì)產(chǎn)生不同的模型,得出不同的結(jié)果。我們的大腦機(jī)制會(huì)自行確定這些因素的權(quán)重,雖然我們對(duì)于這套機(jī)制的具體原理還不是完全明了。
機(jī)器學(xué)習(xí)所做的,就是建立嚴(yán)格的數(shù)學(xué)方法,讓機(jī)器可以計(jì)算出相應(yīng)的結(jié)果,尤其是在我們無(wú)法輕松處理大量數(shù)據(jù)的情況下?,F(xiàn)在,數(shù)據(jù)比以往任何時(shí)候都要多,既然擁有主動(dòng)利用這些數(shù)據(jù)來(lái)解決實(shí)際問(wèn)題的工具,比如人工智能,我們所有人就都應(yīng)該去了解和使用它。這不僅是為了創(chuàng)建有用的應(yīng)用,也是為了讓機(jī)器學(xué)習(xí)和人工智能不再令人不安。
這并不是說(shuō),我們應(yīng)該對(duì)“機(jī)器具備類人思維”這樣的概念放任自流。但更多地了解人工智能的內(nèi)在機(jī)制,會(huì)讓我們能夠掌握實(shí)現(xiàn)良性改變的主動(dòng)權(quán),讓我們可以控制人工智能,而不是反過(guò)來(lái)被人工智能控制。