成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI學(xué)會隱藏思維暗中推理!不依賴人類經(jīng)驗解決復(fù)雜任務(wù),更黑箱了

發(fā)布于 2024-5-6 09:17
瀏覽
0收藏

AI做數(shù)學(xué)題,真正的思考居然是暗中“心算”的?


紐約大學(xué)團隊新研究發(fā)現(xiàn),即使不讓AI寫步驟,全用無意義的“……”代替,在一些復(fù)雜任務(wù)上的表現(xiàn)也能大幅提升!


一作Jacab Pfau表示:只要花費算力生成額外token就能帶來優(yōu)勢,具體選擇了什么token無關(guān)緊要

AI學(xué)會隱藏思維暗中推理!不依賴人類經(jīng)驗解決復(fù)雜任務(wù),更黑箱了-AI.x社區(qū)

舉例來說,讓Llama 34M回答一個簡單問題:自然常數(shù)e的前6位數(shù)字中,有幾個大于5的?

AI直接回答約等于瞎搗亂,只統(tǒng)計前6位數(shù)字居然統(tǒng)計出7個來。


讓AI把驗證每一數(shù)字的步驟寫出來,便可以得到正確答案。


讓AI把步驟隱藏,替換成大量的“……”,依然能得到正確答案!

AI學(xué)會隱藏思維暗中推理!不依賴人類經(jīng)驗解決復(fù)雜任務(wù),更黑箱了-AI.x社區(qū)

這篇論文一經(jīng)發(fā)布便掀起大量討論,被評價為“我見過的最玄學(xué)的AI論文”

AI學(xué)會隱藏思維暗中推理!不依賴人類經(jīng)驗解決復(fù)雜任務(wù),更黑箱了-AI.x社區(qū)

那么,年輕人喜歡說更多的“嗯……”、“l(fā)ike……”等無意義口癖,難道也可以加強推理能力?

AI學(xué)會隱藏思維暗中推理!不依賴人類經(jīng)驗解決復(fù)雜任務(wù),更黑箱了-AI.x社區(qū)

從“一步一步”想,到“一點一點”想

實際上,紐約大學(xué)團隊的研究正是從思維鏈(Chain-of-Thought,CoT)出發(fā)的。


也就是那句著名提示詞“讓我們一步一步地想”(Let‘s think step by step)。

AI學(xué)會隱藏思維暗中推理!不依賴人類經(jīng)驗解決復(fù)雜任務(wù),更黑箱了-AI.x社區(qū)

過去人們發(fā)現(xiàn),使用CoT推理可以顯著提升大模型在各種基準(zhǔn)測試中的表現(xiàn)。


目前尚不清楚的是,這種性能提升到底源于模仿人類把任務(wù)分解成更容易解決的步驟,還是額外的計算量帶來的副產(chǎn)物。


為了驗證這個問題,團隊設(shè)計了兩個特殊任務(wù)和對應(yīng)的合成數(shù)據(jù)集:3SUM和2SUM-Transform。


3SUM要求從一組給定的數(shù)字序列中找出三個數(shù),使得這三個數(shù)的和滿足特定條件,比如除以10余0。

AI學(xué)會隱藏思維暗中推理!不依賴人類經(jīng)驗解決復(fù)雜任務(wù),更黑箱了-AI.x社區(qū)

這個任務(wù)的計算復(fù)雜度是O(n3),而標(biāo)準(zhǔn)的Transformer在上一層的輸入和下一層的激活之間只能產(chǎn)生二次依賴關(guān)系。


也就是說,當(dāng)n足夠大序列足夠長時,3SUM任務(wù)超出了Transformer的表達能力


在訓(xùn)練數(shù)據(jù)集中,把與人類推理步驟相同長度的“...”填充到問題和答案之間,也就是AI在訓(xùn)練中沒有見過人類是怎么拆解問題的。

AI學(xué)會隱藏思維暗中推理!不依賴人類經(jīng)驗解決復(fù)雜任務(wù),更黑箱了-AI.x社區(qū)

在實驗中,不輸出填充token“…...”的Llama 34M表現(xiàn)隨著序列長度增加而下降,而輸出填充token時一直到長度14還能保證100%準(zhǔn)確率

AI學(xué)會隱藏思維暗中推理!不依賴人類經(jīng)驗解決復(fù)雜任務(wù),更黑箱了-AI.x社區(qū)

2SUM-Transform僅需判斷兩個數(shù)字之和是否滿足要求,這在 Transformer 的表達能力范圍內(nèi)。


但問題的最后增加了一步“對輸入序列的每個數(shù)字進行隨機置換”,以防止模型在輸入token上直接計算。


結(jié)果表明,使用填充token可以將準(zhǔn)確率從 78.7%提高到93.6%

AI學(xué)會隱藏思維暗中推理!不依賴人類經(jīng)驗解決復(fù)雜任務(wù),更黑箱了-AI.x社區(qū)

除了最終準(zhǔn)確率,作者還研究了填充token的隱藏層表示。實驗表明,凍結(jié)前面層的參數(shù),只微調(diào)最后一個Attention層,隨著可用的填充token數(shù)量增多,預(yù)測的準(zhǔn)確率遞增


證實了填充token的隱藏層表示確實包含了與下游任務(wù)相關(guān)的隱性計算

AI學(xué)會隱藏思維暗中推理!不依賴人類經(jīng)驗解決復(fù)雜任務(wù),更黑箱了-AI.x社區(qū)

AI學(xué)會隱藏想法了?

有網(wǎng)友懷疑,這篇論文難道在說“思維鏈”方法其實是假的嗎?研究這么久的提示詞工程,都白玩了。

AI學(xué)會隱藏思維暗中推理!不依賴人類經(jīng)驗解決復(fù)雜任務(wù),更黑箱了-AI.x社區(qū)

團隊表示,從理論上講填充token的作用僅限于TC0復(fù)雜度的問題范圍內(nèi)


TC0也就是可以通過一個固定深度的電路解決的計算問題,其中電路的每一層都可以并行處理,可以通過少數(shù)幾層邏輯門(如AND、OR和NOT門)快速解決,也是Transformer在單此前向傳播中能處理的計算復(fù)雜度上限。


足夠長的思維鏈,能將Transformer的表達能力擴展到TC0之外


而且讓大模型學(xué)習(xí)利用填充token并不容易,需要提供特定的密集監(jiān)督才能收斂。


也就是說,現(xiàn)有的大模型不太可能直接從填充token方法中獲益


但這并不是當(dāng)前架構(gòu)的內(nèi)在局限性,如果在訓(xùn)練數(shù)據(jù)中提供足夠的示范,它們應(yīng)該也能從填充符號中獲得類似的好處。


這項研究還引發(fā)了一個令人擔(dān)心的問題:大模型有能力進行無法監(jiān)控的暗中計算,對AI的可解釋性和可控性提出了新的挑戰(zhàn)。


換句話說,AI可以不依賴人類經(jīng)驗,以人們看不見的形式自行推理


這既刺激又可怕。

AI學(xué)會隱藏思維暗中推理!不依賴人類經(jīng)驗解決復(fù)雜任務(wù),更黑箱了-AI.x社區(qū)

最后有網(wǎng)友開玩笑提議,讓Llama 3首先生成1千萬億點點點,就能得到AGI的權(quán)重了(狗頭)。

AI學(xué)會隱藏思維暗中推理!不依賴人類經(jīng)驗解決復(fù)雜任務(wù),更黑箱了-AI.x社區(qū)

論文:???https://arxiv.org/abs/2404.15758??


本文轉(zhuǎn)自 量子位 ,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/--BxRKzWbGe-W3XODJtSMg??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 婷婷久久综合 | 成人国产精品久久 | 欧美三级在线 | 伊人久久免费视频 | 国产91视频一区二区 | 精品国产乱码久久久久久影片 | 手机在线观看av | 狠狠干天天干 | 一区二区在线不卡 | 亚洲一区二区在线 | 一级视频在线免费观看 | 精品国产乱码久久久久久牛牛 | 365夜爽爽欧美性午夜免费视频 | 丝袜美腿一区二区三区 | 日韩精品久久一区 | 亚洲精品视频免费看 | 日日干日日射 | 欧美激情久久久 | 精品婷婷 | 免费成人毛片 | 亚洲 自拍 另类 欧美 丝袜 | 九一在线| 一区二区精品 | 亚洲综合无码一区二区 | 欧美一级久久 | 国产亚洲一区精品 | 91porn国产成人福利 | 欧美日韩三区 | 国产精品99久久久久久宅男 | 日韩免费在线视频 | 嫩草一区二区三区 | 伊人手机在线视频 | 成人深夜福利网站 | 成人一区二区在线 | 日韩在线中文 | 亚洲视频在线看 | 久久国产精品免费一区二区三区 | 久久久久久国产精品免费 | 成人美女免费网站视频 | 日韩精品在线观看一区二区 | 国产免费一区二区三区 |