蘋果揭示當今先進模型存在嚴重缺陷,給企業高管敲響警鐘
一份具有開創性的蘋果研究論文在AI社區引發了軒然大波,該論文揭示了當今最先進模型中存在的嚴重局限性,這些缺陷此前一直未被發現。
論文《思考的錯覺》表明,像GPT-4、Deep Seek和Claude Sonnet這樣的高級模型所應用的“思維鏈”推理,在任務變得過于復雜時,會出現“完全的準確性崩潰”。
最令人擔憂的方面似乎是,一旦任務復雜到一定程度,再投入更多的處理能力、標記或數據也無濟于事。
這對于我們經常聽到的那些宏大構想來說,顯然有著深遠的影響,比如AI解決氣候變化、能源短缺或全球貧困等巨大挑戰。
大型推理模型(LRM)是驅動自主式AI的問題解決引擎,一些人認為它們是通往通用人工智能(AGI)道路上的一步,即AI能夠像人類一樣,將其所學應用于任何任務。目前,人們已經在開發這些模型上投入了巨額資金,因為它們被認為是當今最先進、最有用的AI模型。
但是,這是否意味著數十億美元的投資都投入了一個本質上無用的技術死胡同呢?
我不這么認為,但我確實相信,對于希望解鎖AI真正潛力的企業和組織來說,有一些重要的教訓需要汲取,那么,讓我們更深入地探討一下。
研究發現
該報告的核心前提是,AI的“思考”可能只是一種錯覺,而非真實、功能齊全的人類客觀推理的鏡像。
這一觀點得到了“準確性崩潰”發現的支持,該發現表明,雖然LRM在處理低復雜度任務時表現出色,但隨著復雜度的增加,它們最終會達到一個完全失敗的程度。
也許最出乎意料的是,這些模型在任務變得過于復雜時,似乎會選擇放棄,使用更少的標記并投入更少的努力。
而且,即使明確告訴它們如何解決問題,它們也常常會失敗,這讓我們對訓練它們克服這種行為的能力產生了懷疑。
這些發現非常重要,因為在商業AI領域,人們往往相信“越大越好”,即更大的數據、更大的算法和更多的標記。蘋果的研究發現表明,超過一定點后,規模帶來的好處就會消失,并最終崩潰。
這意味著,當要求AI執行過于復雜的任務時,如制定混亂現實世界場景中的廣泛、高級戰略或進行復雜的法律推理時,其有用性也會降低。
這對當今的企業意味著什么?
在我看來,這并不是一個不可逾越的障礙,而是一個信號,表明生成式語言AI不應被視為解決所有問題的靈丹妙藥。
對我來說,這里有三個關鍵的教訓。
首先,將AI的注意力集中在結構化、低到中等復雜度的任務上,更有可能達到最佳效果。
例如,律師事務所不應期望AI能直接為它們制定出一個獲勝的案件策略,這個問題過于復雜和開放,一旦模型達到無法有效推理的程度,就必然會導致通用且無用的輸出。
然而,該事務所可以使用AI來從合同中提取相關點,創建相關先前判例法的摘要,并標記出風險。
其次,它強調了“人在回路中”(human-in-the-loop)的重要性,即確保AI被負責任和可追溯地使用所需的人類監督這一關鍵要素。
第三,當“準確性崩潰”成為危險時,學會識別其跡象,如模型放棄推理嘗試時標記使用量的下降,對于減輕其影響至關重要。
發揮AI的優勢,同時緩沖其弱點的影響,才是游戲的關鍵。
那么,AI是否已經走到了盡頭?
在我看來,蘋果的研究并不預示著AI的“盡頭”或走投無路的局面。相反,它應該被企業用來幫助他們專注于可能成功的領域,并理解在哪里應該建立對AI失敗的韌性。
理解AI的局限性并不應該阻止我們從中受益,但它有助于我們避免因推理崩潰或只是浪費時間和金錢而可能造成的嚴重傷害或損害。
自主式AI在這方面具有潛力,它能夠部署各種工具來彌補在僅靠推理不足的情況下的差距。同樣,可解釋性AI的概念也很重要,因為設計透明的系統意味著當崩潰發生時,我們將更好地理解出了什么問題。
當然,沒有人應該期望AI能總是完美地工作,并為每一個可能的問題提供最佳解決方案,然而,我們越了解它,就越能利用其優勢,也就越有可能創造真正的價值。