數據越多,AI越智能?我們一直以來都想當然了
隨著人工智能技術的興起,AI 中存在的問題也被逐步暴露出來。AI 做出的決策與人類最佳決策仍然存在差異,并且往往包含一些偏見。那么問題出在哪里呢?近日在一篇文章中,作者 Marianne Bellotti 闡明了相關原因,并提出了自己對 AI 設計原則的看法。我們來看一下文章的具體內容。
越來越多的數據
據專家指出,數據科學家花費大約 80%的時間來清洗數據,實現由人工智能驅動的集中式決策的關鍵是打破各項工作之間的壁壘,并為人工智能模型創建可互操作的流程。在目前的 AI 領域,即使花費大量的時間和經濟成本,也仍然無法實現像人類大腦一樣,更接近全局水平的態勢感知。隨著數據科學和人工智能的發展,構建 AI 模型所需的數據量也在增加。
自動駕駛公司投資上百億美元仍然沒有實現完全的自動駕駛,社交媒體公司投入數十億美元試圖利用 AI 清理不良信息,卻仍然嚴重依賴人工清理平臺。
AI 目前尚沒有做出最佳決策的能力。此外,人們在構建 AI 模型時并沒有完全消除人為偏見,而是試圖從越來越多的數據中構建「完美」的 AI 模型,但這些數據參差不齊。
決策與數據的相關性
當試圖找到一個難題的解決方案時,首先應該將事情分解開來:在做哪些假設?這些假設如何構建需要解決的問題?如果這些假設不同,會解決不同的問題嗎?想要解決的問題和方案結果有什么關聯?對于 AI 來說,顯然將更好的決策作為結果是非常重要的。假設訪問更多數據是決策者做出更好決策的關鍵,而更好的決策意味著更少的負面影響,那么整體態勢感知也非常重要。
在現實生活中,決策者往往為了節約成本而進行優化決策。但決策畢竟是根據結果來判斷好壞的,在正確分析的基礎上還需要一點運氣。在結果出來之前,即使是在絕佳數據支持下最仔細、最徹底構建的策略也無法保證決策的絕對正確。
因此,做決策的過程不應該是對數據的客觀分析,而是利益相關者之間針對風險和優先級的容忍度做出的積極協商。數據沒有用于提供洞察力,而是用作了保護利益相關者免受影響的盾牌,完美的信息往往是通過增加噪聲水平而降低了決策質量。
這似乎令人難以置信,完美的信息不是應該自動改進決策過程嗎?實際上,更多的信息可能會改變決策背后的組織策略。人工智能可以正確識別內容,但基于該內容做出的決策會在很大程度上受到用戶和組織的規范及期望的影響。
改進團隊決策的最佳途徑不是獲取更多數據,而是改善利益相關者之間的溝通。但是人們真的需要花費數十億美元來清洗數據或增加數據量才能從人工智能中獲益嗎?
設計不佳的 AI 可能導致巨大的安全風險
當前,人們評價數據質量的方式具有誤導性。「干凈(clean)」的數據似乎就是一種準確、無偏見、可復用的數據。但實際上,干凈與準確不同,準確與可操作不同。數據存在這三個方面的問題就可能嚴重影響人工智能模型的性能,干擾其結果的質量。數據中可能存在的問題有很多種,有些比較明顯,例如數據不正確、已損壞或數據格式不標準。有些問題則更加微妙,例如數據是在特定環境下獲取的,然后被不恰當地復用;對于模型來說數據處于錯誤的粒度級別;數據沒有標準化,導致相同的事實以不同的方式表示或描述。
使用單一數據源解決上述任何一個問題都會非常困難,如果程序攻擊者試圖向大型系統中注入不良數據以破壞模型,那么要解決上述所有問題實際上是不可能的。人們無法忽視的一點是:AI 在創造新機會的同時也帶來了新的脆弱性。人工智能帶來了新的攻擊與被攻擊方法。AI 可能會產生新一代攻擊工具,例如衛星數據干擾欺騙(location spoofing)。通過破壞數據來蒙蔽或誤導 AI 系統的技術和 AI 技術正在一起被開發。
當前的 AI 系統完全依賴數據的質量,因此 AI 存在缺陷不是因為技術不成熟,而是因為 AI 最初就被設計為這種容易受到攻擊的形式。因此在這種情況下,人工智能系統必須被設計成能夠靈活應對不良數據的模型。那么如果改變這種設計以降低 AI 的被攻擊風險呢?這就需要讓 AI「反脆弱」。
什么是反脆弱 AI?
「反脆弱」是指 AI 系統不僅可以在遭遇故障后恢復,而且在經歷過故障后會變得更強大、更有效。基于實際改善決策的因素構建 AI 系統將為反脆弱人工智能創造機會。現有的認知科學研究表明:良好的決策是主動闡明假設、構建假設檢驗以驗證假設、以及在利益相關者之間建立清晰的溝通渠道的產物。
許多引發「人為錯誤」的認知偏差都是上述三方面出現問題的結果:當人們沒有清楚地闡明假設時就會使用在實際條件下并不合適的解決方案;當人們不檢驗假設時,他們就無法根據不斷變化的條件調整正確的決策;當操作人員之間無法有效地共享信息時,就會失去發現不斷變化的條件和挑戰假設的機會,對每個人都不利。
AI 很容易受到不良數據的影響,因為目前的研究過分強調了它在分類和識別方面的應用,低估了它在建議和情境化方面的應用。但 AI 所做的決策是很容易被破壞的。
設計反脆弱型 AI 很難,因為將算法分析的輸出作為結論與將其視為建議或提示之間存在著很大的差異。決策者可能會為了節省成本而將人工智能的輸出作為結論。這是目前在應用人工智能時已經存在的災難性錯誤。
與此同時,醫學領域的 AI 系統之所以能夠提高決策質量,是因為許多診斷并沒有單一的正確答案。在醫學診斷中,任何一組癥狀都有一系列不同概率的可能病因。臨床醫生會在他的頭腦中建立一個決策樹,其中包含他能想到的所有可能病因,并設想排除某些可能病因的檢驗測試。醫學診斷是一個「定義假設、檢驗測試、進一步縮小可能病因集」的循環過程,直到找到解決方案。
盡管數據不佳,但通過提示醫生以添加其他可能病因的方式能夠加快診斷過程。在這種情況下,AI 能夠改善醫療專業人員之間的溝通和知識共享,并在關鍵時刻獲取患者的相關信息。相反,試圖通過人工智能技術來區分腫瘤的良性和惡性,以超越醫生的 AI 產品則一直受到不良數據問題的困擾。
不良數據下的強大 AI
在利用人工智能這種前沿技術之前,研究者和開發者們首先應該思考如何定義要解決的問題。如果 AI 被用于改善決策,那么 AI 就應該引導決策者進行假設檢驗,而不是試圖超越專家。如果讓 AI 試圖超越專家,那么它將變得完全依賴于數據的質量,從而產生一組程序攻擊者能夠輕松利用的漏洞。
當 AI 不是被訓練成專家,而是改善和支持人類的決策,那么 AI 就將對不良數據具有彈性并能夠變得反脆弱。在這種情況下 AI 不做決定,相反,它幫助人們闡明決策背后的假設,將這些假設傳達給人們,并在與這些假設相關的實際條件發生重大變化時提醒決策者。人工智能可以幫助決策者弄清楚什么狀態是可能的,或者在什么條件下一些狀態是可能的。這樣的解決方案可以通過解決現有弱點來增強決策團隊的整體能力,而不是因不良數據產生一些新的弱點。
人工智能尚未「智能」
這篇文章發布后,許多網友表示贊同作者的觀點。
有網友表示:「這是我近年來讀過 AI 主題最明智的文章之一,將讓一些相關領域的工作者受益。」

有人則提出了與作者類似的觀點:「人們對人工智能在自動化人類工作方面如此著迷,以至于忘記了 AI 在輔助人類方面具有更大的潛力。」

還有網友認為人工智能成功的關鍵并不是大量的數據,而是應該依賴從成功經驗中獲取的少量數據:

此外,有網友表示:「人工智能與人類的『智能』無關,它實際上只是計算機化的信息,仍然需要人們對其進行解析。」

看來人工智能與真正的完全自治化還有很大的距離。對此,你有什么看法?