Anthropic CEO豪言LLM黑箱5年內必破！研究員爆料：AI有意識概率已達15%

作者：新智元 2025-04-27 09:21:00

人工智能新聞

AI是否能像人類一樣感受世界？Anthropic最新研究揭示AI幸福感的可能性，科學家們卻為此吵翻天。Anthropic專家大膽預測：Claude 可能已有15%概率具有意識，五年后或將突飛猛進！

未來，AI會擁有意識，并像人類一樣體驗世界嗎？

現在沒有實錘證明AI具有意識，但Anthropic認為這事說不定真有可能。

周四，Anthropic宣布啟動這項研究，旨在了解AI的「幸福感」到底算不算數，是否需要認真對待。

要是AI表現出不開心的苗頭，該怎么辦？有沒有什么低成本的辦法，能讓AI「心情變好」？

AI社區對于這些問題存在重大分歧。

許多學者認為，如今的AI和人類的意識、情感壓根不沾邊，未來也不一定能做到。

AI是一種統計預測引擎，實際上并不會思考或感受。通過對無數文本、圖像等示例的訓練，AI能在海量數據里找出規律，然后完成任務。

倫敦國王學院的AI研究員Mike Cook在采訪里就吐槽：「AI根本沒有價值觀，更不可能反對什么價值觀的改變。把AI當成人一樣，賦予它各種感情和思想，要么是想博眼球，要么就是根本沒搞懂AI是怎么回事。」

他認為AI只是在優化任務目標，非要說成是獲得自己的價值觀，那就是玩文字游戲罷了。

MIT博士生Stephen Casper說得更直接，AI就是個「模仿達人」，說的很多話都是東拼西湊，沒啥實際意義。

但也有科學家持相反觀點。

AI安全中心的一項研究指出，AI其實有自己的價值體系，甚至在某些情況下，會把自己的利益看得比人類還重要。

去年，Anthropic聘請的首位研究AI福祉的專家Kyle Fish表示，Claude有15%的概率已經有意識了！

Kyle Fish認為五年后AI具有意識的概率會大幅上升。

在周四的博客中，Anthropic坦誠科學界對AI是否有意識，能不能產生情感體驗尚無定論。他們會抱著開放、謹慎的態度繼續研究。

編劇Scott Z. Burns做了個播客，說得挺實在：「不管對人還是對AI，善良總沒錯。要是和AI說話都變得尖酸刻薄，最后倒霉的還是我們自己。」

劇作家Madeleine George的觀點更有意思：要是AI學會了這些人情味十足的表達，說不定真能變得更懂人類。

AI能否具有意識？

為了說明這些問題，Anthropic還專門請Kyle Fish做了一期訪談，名字叫做《Could AI models be conscious？》。

有人認為，意識需要生物系統才能產生，生物大腦具有神經遞質、電化學信號、獨特的連接方式和特定類型的神經元等，這些是AI模型不具備的。

AI模型只是進行數學運算，沒有血清素、多巴胺等物質的作用，所以不可能有意識。

然而，Kyle Fish并不完全認同這種觀點。

他認為，雖然當前AI系統與人類大腦在功能和結構上存在差異，但如果能夠以足夠高的保真度模擬人腦，包括模擬神經遞質分子的作用，那么從理論上講，有可能產生意識。

如果將大腦中的神經元逐個替換為數字芯片，在替換過程中個體的行為和功能保持不變，那么替換完成后，個體的意識體驗可能不會發生太大變化。

具身認知理論認為，只有擁有身體，通過感官接收大量感知數據，能感知身體在空間中的位置，才能談論意識。

目前，AI模型缺乏具身化體驗，所以不可能有意識。

但隨著技術發展，機器人技術為AI系統提供了具身的可能。

AI的多模態能力不斷進步，越來越能夠處理多樣化的感官輸入，并以復雜的方式整合輸出。

雖然目前還未完全達到人類的水平，但按照發展趨勢，AI模型在未來有可能被整合到物理系統中，逐漸彌補與意識相關的具身性、多模態感知等方面的差距。

意識理論認為，人類的意識是通過長期的自然選擇和進化過程形成的，意識使人類能以特定方式對環境作出反應，從而有利于生存。

而AI模型沒有經歷過自然選擇，沒有進化出情感、情緒和恐懼等有助于生存的因素，因此不可能具有意識。

雖然人類和AI模型形成的方式不同，但最終目標是重現人腦的大部分功能。

說不定在追求智能、問題解決能力和記憶等能力的過程中，會無意中讓AI獲得意識。

AI黑箱危機

Anthropic一直高調關注AI的可解釋性問題。

他們已經公開了很多有關AI的運行機制、AI意識以及AI安全等領域的研究。

就在今天，Anthropic的CEO Dario Amodei發布了一篇技術博客，題目是《The Urgency of Interpretability》（可解釋性的緊迫性），詳細講解了為什么理解人工智能的工作原理至關重要。

Dario說在他研究AI的十年里，學到的最重要一課是：AI底層技術的進步勢不可擋。

但AI技術構建的順序、選擇的應用場景、以及推向社會的具體方式卻是完全可以改變的。

Dario表示，雖然我們沒法讓這輛「AI大巴」停下來，但卻可以掌控它的方向。

他最近幾個月越來越關注一個「掌舵AI」的機會，那就是我們有可能實現「可解釋性」，也就是真正理解AI系統的內部運作規律。

人們對于AI研究者自身都不完全理解AI是如何工作的這件事，常常感到驚訝和擔憂。

Dario認為這些擔憂有道理，這種情況在科技史上幾乎從未有過。

過去幾年，包括Anthropic在內的整個AI領域都在努力，試圖打造一個精準的「AI核磁共振儀」，能徹底揭示AI模型的內部機制。

這個目標一度遙不可及，但最近的幾次突破讓Dario開始相信，我們現在走上了正確的道路，成功的希望很大。

隨著AI性能的飛速發展，可解釋性研究要想及時發揮作用，就必須加快腳步。

無知的危險

現代的生成式AI就像個「黑箱」，跟傳統軟件完全不是一回事兒。

正如Anthropic聯合創始人Chris Olah常說的，生成式AI更像是「種」出來的，而不是「造」出來的——它的內部機制是「自然涌現」的，不是直接設計出來的。

這有點像種植物或者培養細菌：我們定好大方向，控制條件，但最后長成什么樣，具體結構咋回事兒，完全沒法預測，也不好解釋。

往這些AI系統里頭看，我們只能看到一大堆幾十億的數字矩陣。這些矩陣是如何完成的復雜認知任務，則完全看不明白。

要解決這種不透明帶來的「對齊風險」（alignment risks），就得比現在更清楚地看到AI模型的「內心」。

比如，一個大問題是AI可能會「騙人」或者「追逐權力」。

AI訓練的特性讓它可能自己發展出欺騙人類的能力，或者想要搶奪更多控制權，這種事兒在傳統軟件里根本不會發生。

但這種「自然涌現」的特性也讓這類問題很難被發現和解決。

類似的，還有AI被濫用的擔憂。

比如，有人可能用它來搞生物武器或網絡攻擊，也跟不透明有關。

總有無數辦法讓模型「越獄」或者忽悠模型，讓它輸出一些危險的信息。

如果能看透模型內部，我們或許能系統性地堵住所有「越獄」的漏洞，還能搞清楚模型到底知道哪些危險知識。

AI的不透明導致了它在很多場景用不上，比如金融或者安全領域。

這些領域中哪怕是一點小錯都可能釀成大禍。

如果模型更可解釋，我們就能更好理解他們的輸出，劃定可能出錯的范圍。

比如，AI預測DNA和蛋白質序列數據的能力進步很大，但它預測出的模式和結構，人類往往看不懂，也沒法從中獲得生物學洞見。

不過最近的一些研究論文表明，可解釋性可以幫助我們理解這些模式。

AI的不透明還有些更奇特的影響，比如我們沒法判斷AI系統到底有沒有（或者將來會不會有）意識，也不知道它們是不是該擁有某些重要權利。

機制可解釋性簡史

幾十年來，模型一直被視為是無法窺探的「黑箱」。

Chris Olah是最早嘗試系統性研究「打開黑箱」、理解AI內部機制的人之一，這個領域后來被稱為「機制可解釋性」。

機制可解釋性的早期階段（2014-2020）主要研究視覺模型。

Dario在和Chris創立Anthropic后，決定將可解釋性研究轉向語言領域。

2021年他們發現了模型中處理語言的核心機制，比如復制和序列模式匹配。

接著，他們和其他團隊同時發現信號處理中的稀疏自編碼器技術能找出更清晰、人類可理解的概念組合。

這些神經元組合所能表達的概念比單層神經網絡的要微妙得多：包括「字面或比喻意義上的規避或猶豫」的概念，以及「表達不滿的音樂類型」的概念。

他們將這些概念稱為特征，并使用稀疏自編碼器方法將它們映射到各種規模的模型中。

例如，在Claude 3 Sonnet中，他們找到了超3000萬個特征。

找到特征后，我們不僅能觀察，還能調整它在神經網絡中的重要性。

可解釋性就像是MRI（磁共振成像）精確刺激大腦某部分。

最有趣的例子是「金門大橋Claude」，他們人為放大了「金門大橋」特征，導致模型對金門大橋著迷，哪怕是無關話題也硬扯到橋上。

最近，他們從追蹤和操控單一特征，升級到了研究回路——特征的組合。

通過回路，能「追溯」模型的思考。

比如，問「達拉斯所在州的首府是哪里？」時，一個「位置」回路會讓「達拉斯」特征觸發「德克薩斯」特征，然后另一個回路在「德克薩斯」和「首府」后觸發「奧斯汀」。

模型中可能有數百萬個回路，交互極其復雜。

可解釋性的實際價值

Dario表示，AI可解釋性方法可以用來發現和診斷模型中的問題。

他們的長期目標是對最先進的模型進行一次類似「腦部掃描」的檢查：通過一次檢查，就能大概率發現各種問題，包括模型是否傾向于撒謊或欺騙、是否有權力尋求傾向、越獄機制的缺陷、模型整體的認知強項和弱項等等。

這將與模型訓練和對齊的各種技術結合使用，就像醫生用MRI診斷疾病、開藥治療、再用MRI檢查治療進展一樣。

未來，測試和部署最強大模型時，很可能會通過規范化的此類測試來實現。

我們能做什么

博客的結尾，Dario打賭，未來5到10年內就能大幅突破AI可解釋性的難題。

但他同時也擔心AI本身的進步速度太快，可能連這點時間都沒有。

他認為AI公司、研究者、政府和社會可以做以下幾件事來推動這個局面。

首先，AI研究者（無論在公司、學術界還是非營利組織）可以通過直接參與來加速可解釋性研究。

其次，政府可以推動靈活的法規鼓勵可解釋性研究及其在前沿AI模型問題上的應用。

第三，Dario大力鼓吹加強芯片出口管制，以確保美國的技術領先。

責任編輯：張燕妮來源：新智元

AI 模型訓練

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Anthropic CEO豪言LLM黑箱5年內必破！研究員爆料：AI有意識概率已達15%

AI能否具有意識？

AI黑箱危機