論AI自動化思維中的隱性成本
像許多藥物一樣,專門用于保持頭腦清醒的藥物莫達非尼在包裝里配了一份折疊起來的小小說明書,其中的主要內容包括說明與注意事項、藥物分子結構等等。精神藥品基本都是這個套路。然而,在說明書的“起效機制(Mechanism of Action)”部分卻有著一行讓人有點糾結的小字:“莫達非尼使人頭腦清醒效果的機制尚不明確。”
這種情況其實并不罕見。目前已經有許多獲得了監管部門批準并得到廣泛使用的藥物,其起效機制一直沒能得到嚴格證明。在藥物發現的過程中,研究人員通常需要反復試驗以解開這個謎團。例如,每一年在培養的細胞或動物個體身上測試任意數量的新藥物質;而后將其中最好、最安全的配合推向人體實驗階段。在某些情況下,藥物的成功能夠激發新的后續研究,并最終讓我們了解到其起效方式。
但在另一些情況下,難題似乎永遠無法解開。阿司匹林早在1897年就被發現,然而直到1995年,人們才真正找到令人信服的藥效機理解釋。醫學中的其它層面也存在著類似的現象:深部腦刺激技術允許治療人員在患有特定運動障礙(例如帕金森病)的病人腦中植入電極,且已經擁有超過20年的廣泛應用背景。有些人甚至認為這項技術可以用于其它目的——包括常規認知增強,但卻沒人說得清其到底如何起效。
這種先回答、后解釋的藥物發現方法帶來的新問題,我將其稱為知識債務(intellectual debt)。具體來講,我們可能會在不清楚其起效原理的情況下發現了藥方,而后利用洞察力對底層機制進行假設,最后計算得出正確結論。在某些情況下,我們能夠快速償還這筆知識債務,但有時候我們可能要經過長達數十年的痛苦摸索——期間只能繼續“渾渾噩噩”地依仗這種尚未被解謎的知識成果。
過去,知識債務的解決一直局限于某些能夠反復進行實驗的領域,特別是醫學。但目前的情況正在改變,人工智能——特別是機器學習——這一新興技術的崛起,正在快速提升我們人類的整體知識水平。
機器學習系統能夠從浩如煙海的信息當中提取數據模式,而這些模式將幫助我們為那些較為模糊的開放性問題找到答案。如果利用有貓與無貓標記圖片對神經網絡模型進行訓練,它就能區分貓和其它動物;如果我們利用醫療記錄訓練模型,其則可嘗試預測入院病人的死亡可能性。然而,大多數機器學習系統無法發現其中的因果機制,其更像是一套用于統計相關性的引擎。這些系統無法解釋自己為何認為某些患者的死亡率更高,因為它們沒有真正意義上的“思維”能力,而僅僅是具備回答問題的能力。當我們將這類系統的見解融入日常生活時,就會發現自己承擔的知識債務開始快速增長。
藥物發現中的無理論進展向我們證明,在某些情況下,知識債務是一種合理甚至必要的過渡產物。盡管我們還無法從根本上解釋起效機制,但這些成果已經挽救了數以百萬計人類的生命,并讓我們的生活更加美好。很少有人會因為不清楚藥效原理而拒絕服用能夠拯救生命的藥物——甚至在吃阿司匹林的時候,大家也不會為此擔憂。
但必須承認,知識債務的積累也有不利因素。當大量原理未知型藥物彼此糾纏起來,發現其彼此之間不良作用的測試也開始呈指數級增長。(如果了解藥物的起效原理,我們就能夠事先預測這些負面相互作用。)
因此,在實踐當中,某些新藥物上市之后會與原有藥物發生反應,接下來就是兩家公司陷入訴訟泥潭,并最終導致藥品退出市場。從理解角度看,我們應該通過一個個案例累積起與新藥相關的認知,并逐步解決知識債務問題。然而,知識債務并非孤立存在;如果沒有跨過第一原理這道門檻,在不同領域發現及應用的答案都可能以無法預測的方式帶來難以想象的復雜性問題。
通過機器學習產生的知識債務,在風險上遠遠超過了以往來自舊式試驗與錯誤嘗試的同類債務。這是因為大多數機器學習模型都無法對當前判斷給出理由性解釋,因此如果不對它們提供的答案進行獨立判斷,我們就無法得知它們在哪些用例中犯了錯誤。雖然在經過嚴格訓練的系統中,這種錯誤非常少見;但是,我們仍有必要明確理解系統的判斷過程,否則惡意人士將通過種種方式故意觸發錯誤,進而造成嚴重的負面后果。
下面來思考圖像識別場景。十年之前,計算機一般很難認出照片中的物體。如今,圖像搜索引擎就如同我們日常使用的眾多系統一樣,同樣基于極其強大的機器學習模型。谷歌的圖像搜索服務就依賴于名為Inception的神經網絡。2017年,麻省理工學院的LabSix(一支由本科生與研究生組成的研究小組)就成功篡改了一張小貓圖片中的像素——雖然其看起來仍然像是人類認知中的貓,但Inception以99.99%的確定性認為這是一張牛油果照片。(根據計算,Inception認為可能性次高的結果分別為西蘭花以及砂漿。)這又回歸了我們之前提到的問題:當我們無法解釋機器學習系統依靠哪些特征進行圖片判斷時,一旦有人提供特制或者篡改過的數據,我們也無法輕松預測系統何時會犯下錯誤。這樣的系統當中可能存在著未知的準確性差距,而這無疑將給聰明且堅定的攻擊者留下可乘之機。
隨著對機器學習系統所產生知識的運用,這種差距將產生愈發嚴重的影響。目前訓練出的醫療保健AI,已經能夠成功對皮膚病變進行良性與惡性分類。然而,在哈佛醫學院與麻省理工研究團隊今年出版的一篇論文中,研究人員們發現此類AI也有可能受到欺騙——基本情況與上文提到的小貓變牛油果案例類似。(除此之外,攻擊者也可能利用這些漏洞騙取高額保險賠償。)出于強大預測能力的誘惑,我們可能會急于將其作為人類醫師的替代性方案;但必須承認,AI模型極易受到劫持,而且我們沒有什么簡單方法能夠驗證其產生的答案。
我們能否為知識債務創建一份資產負債表,并借此跟蹤那些無理論知識被運用在哪里以及哪些系統當中?在初步統計之后,我們發現不同知識債務所引發的潛在影響也有所區別。如果是AI生成的全新批薩配方,那么管他什么潛在影響,直接嘗嘗味道就可以;但相比之下,如果我們打算采納AI提出的健康預測與治療建議,那么更充分的信息無疑非常必要。
要想建立并維護好這份覆蓋整個人類社會的知識債務表,我們可能首先得改進原本主要用于處理商業機密及其它知識成果的相關方法。在城市,建筑法規要求房屋業主上報他們的裝修計劃;同樣的,我們可能也得要求各科研機構或者大學公開他們實際使用的隱藏數據集與算法。如此一來,研究人員們將能夠著手探索我們所依賴的模型及基礎數據,并通過建立理論搶在知識債務引發嚴重錯誤及漏洞之前完成修復工作。
機器學習模型已經愈發普遍,任何人都能夠創建起自己的機器學習模型,這也讓統計審查工作變得越來越困難。但這仍然非常重要,因為孤立系統雖然能夠產生有用的結果,但這些系統本身卻不會孤立地存在:當AI技術收集并提取真實世界中的數據時,它們也會產生屬于自己的數據,而其中大部分結論都會作為其它系統的輸入內容。正如原理未知的藥物之間可能發生相互影響一樣,債務負擔算法也將面對類似的挑戰。
另外,即使是最簡單的交互也可能引發麻煩。2011年,一位名叫Michael Eisen的生物學家從他的一名學生身上發現了有趣的案例:一名毫不起眼的舊書《飛翔的奧秘:動物設計中的遺傳學(The Making of a Fly: The Genetics of Animal Design)》在亞馬遜網站上最低的開價竟然高達170萬美元——還要再加上3.99美元的運費。第二低的價格則迅速攀升至210萬美元。這兩位賣家都是亞馬遜上的老店,店鋪里也都有著非常積極的評論。而當Eisen連續幾天訪問該書的頁面時,他發現價格一直在不斷增加,且似乎遵循著一定的規律。賣家甲的價格一直是賣家乙價格的99.83%;而第二天,賣家乙的價格則會上調至賣家甲前一天價格的127.059%。Eisen推斷,賣家甲肯定是真的擁有這本書,而且打算長期占據亞馬遜上最低的價格。與此同時,賣家乙沒有這本書,所以把價格定得更高;這樣如果有人購買,賣家乙可以當一把“二道販子”,直接拍下賣家甲的商品。
這兩位賣家的推定策略都非常理性,但雙方采取的算法在相互作用之后產生了不合常理的結果。同理可知,成千上萬套機器學習系統在實際運行當中幾乎必然會帶來更難以預測的結果。正在大規模部署前沿機器學習系統的金融市場,為這類問題提供了理想的溫床。2010年,在令人痛苦的36分鐘之內,由算法交易驅動的“閃電崩盤”事件從美國各大主要經濟指數中蒸發掉超過1萬億美元財富。去年秋季,J.P.摩根分析師Marko Kolanovic認為,這種崩潰事件很可能再次發生,因為如今更多交易開始以自動化系統為基礎。知識債務可能在這些系統之間相互碰撞并不斷積累,甚至影響到彼此并未直接交互的系統。如果沒有類似于資產負債表的制度存在,我們將無法預測或者追溯事件的前因后果,更無法確定我們是否值得承擔知識債務、我們又能夠承擔多少知識債務。
知識債務的增加,也有可能改變我們對基礎科學以及對應用技術的思考方式。與粒子加速器這類由政府機構斥巨資興建、并由學術研究機構代為運營的項目不同,機器學習工具能夠快速在私營企業與學術組織內傳播。實際上,谷歌與Facebook獲取預測性數據素材的能力要遠超任何計算機科學或者政府統計部門。在生意人來看,這些知識能不能解釋好像沒什么關系,但知識債務在客觀上仍將快速累積。最終,問題將落在企業手中,而非真正有意解決這一切的學術研究人員。
可以想象,源自機器學習的知識不斷增長,也將使得贊助資金越來越多地涌向那些樂于利用AI技術(而非以人工方式慢慢推進項目)的研究人員手中。去年12月,研究蛋白質折疊的研究員Mohammed AlQuraishi撰寫了一篇論文,探討自己在所在領域的最新成果:創建一套能夠以高于人類研究員的準確度預測蛋白質折疊情況的機器學習模型。AlQuiraishi對自己無法探明數據理論感到遺憾,并表示自己投入大量精力但仍一無所獲。他在接受采訪時表示,“那些能夠提供新的分析洞察力概念的論文或者相關成果,實際未能得到同樣的重視。”隨著機器發現速度的加快,人們可能認為這些堅持舊有研究方式的家伙是一幫異類——多此一舉而且無可救藥地落后于時代。相反,針對某一特定領域的知識發現類機器學習模型則比知識本身更有價值,因為它們能夠更快地為該主題提供答案。
金融債務的控制權會轉移——由貸款人到貸方,從未來到過去等。同樣的,知識債務也有可能發生控制權轉移。當這個由未知知識構成的世界逐步轉化為缺少明確因果關系的世界,我們卻又不得不依賴這種模糊的方式告訴自己該做什么、什么時候去做。例如,高校的招生委員會可能會把篩選工作交給機器學習技術,而后者將負責把申請人的努力與不確定性轉化為清晰的模式;這種模式也許將優化大學生群體,使他們不僅更有能力在學業上取得成功,同時也建立起和諧的師生關系并樂于為學校提供慷慨的捐贈。此外,未來我們理解世界的唯一方式,可能是利用自己的AI神經網絡調整社交媒體上的個人資料,從而讓自己更輕松地融入目標群體。
也許這一切都將成為現實,但其反過來又會引發新的問題。大多數對于人工智能的批評意見,主要集中在它們可能犯下的錯誤:它會創造或復制偏見;它會犯錯誤;也可能被用于實現邪惡的目的。但除此之外,我們還有其它值得擔心的問題,例如:就算AI做對了,又將意味著什么?