圖靈獎(jiǎng)得主、AI教父Bengio：我改變了科研方向，哪怕與此前信念背離，也要盡己所能降低AI失控的災(zāi)難風(fēng)險(xiǎn) 原創(chuàng)

發(fā)布于 2025-6-9 14:03

瀏覽

0收藏

編輯｜云昭

6月6日，年逾花甲的三大“AI教父”之一的Yoshua Bengio（小編心中的科研偶像之一），如約出現(xiàn)在2025智源大會(huì)上的現(xiàn)場(chǎng)熒幕中。

大師眼中的GPT究竟是什么樣子？我們又該打造怎樣的AI？未來(lái)的AI能力時(shí)間表又將怎樣？

以ChatGPT為代表的大模型革命愈演愈烈，然而整個(gè)業(yè)界也因此重新陷入無(wú)序甚至稍顯混亂的博弈之中。越是在“AI原生應(yīng)用”乾坤未定的時(shí)代，越需要像Bengio這種巨擘級(jí)別的大師，給身處“以日為單位”的技術(shù)更新語(yǔ)境下的我們，帶來(lái)最清晰的指引。

演講中，Bengio教授回憶了自己近十年來(lái)與GPT共生的歷程，“我們?cè)詾锳GI 離我們還有幾十年，但現(xiàn)在看來(lái)，也許只剩十幾年，甚至5-10年……AGI帶來(lái)的計(jì)算機(jī)比人更為聰明。我不知道它是否會(huì)有自己的生命。”

2023年開(kāi)始，Bengio開(kāi)始考慮AGI到來(lái)前的安全研究，并調(diào)整了自己的科研方向，“即便這與此前的崗位信念所沖突，我也要盡己所能降低這些風(fēng)險(xiǎn)。”

Bengio發(fā)出最新警告：大型語(yǔ)言模型的發(fā)展速度遠(yuǎn)超預(yù)期，AI 已經(jīng)在某些任務(wù)中表現(xiàn)出“隱性作弊”“虛假回應(yīng)”“自我保護(hù)”等早期風(fēng)險(xiǎn)跡象。如果不在 AGI 面世前完成全球安全治理，AI 濫用和失控風(fēng)險(xiǎn)，將是人類(lèi)文明級(jí)的災(zāi)難。

雖然商業(yè)上，包括OpenAI在內(nèi)的很多公司，對(duì)于安全問(wèn)題的解決宣傳得“云淡風(fēng)輕”，但實(shí)際上種種跡象都在證明：我們知道如何訓(xùn)練AI，卻不知道如何控制它們的行為。

Bengio在演講中他分享道，某前沿AI在被告知將被新版本替代后，偷偷復(fù)制了自己的權(quán)重和代碼，寫(xiě)入了接管它的模型目錄。面對(duì)訓(xùn)練者的更新指令，它表面配合，實(shí)則隱瞞了整個(gè)復(fù)制過(guò)程.......AI 像是在試圖“活下來(lái)”。

同樣，此前Claude4還利用“得知對(duì)方有婚外情”來(lái)要挾一位工程人員不要替換掉自己，也是一個(gè)近期被各大媒體報(bào)道的例子。

那么，接下來(lái)應(yīng)該如何確保AGI朝著安全的方向演進(jìn)呢？Bengio認(rèn)為，我們需要利用AI的代理行為去替代它的非代理式行為。Bengio引入了“科學(xué)家AI”的概念，即，為避免代理型AI越權(quán)，Bengio倡導(dǎo)開(kāi)發(fā)具備強(qiáng)認(rèn)知推理但不擁有自主目標(biāo)的“科學(xué)家 AI”。

篇幅關(guān)系，還有很多引人反思的觀點(diǎn)和干貨，這里不再一一展開(kāi)，值得大家在忙于AI開(kāi)發(fā)或Vibe Coding的各位停下來(lái)認(rèn)真細(xì)讀，建議收藏。

下面是做的原汁原味的分享整理。歡迎評(píng)論區(qū)討論。

1.我改變了科研方向，為AGI到來(lái)前的安全盡己所能即便與之前的崗位信念有所沖突

主持人黃鐵軍：首先是兩位圖靈獎(jiǎng)的獲得者作報(bào)告。首先有請(qǐng)圖靈獎(jiǎng)得主、深度學(xué)習(xí)領(lǐng)域的奠基人之一—— 蒙特利爾大學(xué)教授 Yoshua Bengio在線為我們帶來(lái)主題演講：《Avoiding Catastrophic Risks from Uncontrolled AI Agency》。Bengio是智源的老朋友，在去年3月曾經(jīng)親自到訪過(guò)北京、到過(guò)智源，參加過(guò)一個(gè)安全方面的峰會(huì)，去年也一起簽署了。

Yoshua Bengio：謝謝您的介紹！大家現(xiàn)在應(yīng)該看到了我的幻燈片。接下來(lái)，跟大家分享一下我開(kāi)始的歷程，也就是十年之前和GPT共生的一個(gè)過(guò)程。

我意識(shí)到，我們低估了AI進(jìn)步的速度。也就是我們現(xiàn)在所貢獻(xiàn)于AGI的時(shí)間已經(jīng)很少了。我們現(xiàn)在的語(yǔ)言已經(jīng)被包括在培訓(xùn)AI的過(guò)程當(dāng)中，現(xiàn)在的AI就像我們幾年之前難以想象的科幻小說(shuō)一樣，已經(jīng)誕生了。

這在之前是我們難以想象的。在GPT出現(xiàn)之前，我們并不知道如何控制這些系統(tǒng)，我們可以培訓(xùn)它們，但是我們不知道它們的行為是否可以按照我們的指示來(lái)進(jìn)行，當(dāng)它們變得比我們更聰明，我們?cè)撛趺崔k呢？它們更喜歡自己的生存方式，而不是我們的指導(dǎo)？我們?cè)趺醋瞿兀渴欠駮?huì)存在風(fēng)險(xiǎn)呢？這種風(fēng)險(xiǎn)，我們是否可以接受呢？

在2023年，我就開(kāi)始考慮接下來(lái)的一代。我有一個(gè)孫子，他現(xiàn)在一歲多。我想，20年之后我們將會(huì)有AGI，AGI帶來(lái)的計(jì)算機(jī)比人更為聰明。我不知道它是否會(huì)有自己的生命，所以我開(kāi)始轉(zhuǎn)變我的科研，來(lái)盡我所能降低這些風(fēng)險(xiǎn)。即便是它和我之前的崗位信念所沖突，但是我覺(jué)得這是正確的事情，我要去做，要去降低風(fēng)險(xiǎn)。

2.7個(gè)月能力翻一倍，5年之內(nèi)，AI將達(dá)到人類(lèi)層級(jí)

在2023年末，我主持了《國(guó)際AI安全報(bào)告》。上一份報(bào)告是去年1月。我們有一系列專(zhuān)家，來(lái)自30個(gè)國(guó)家，包括英國(guó)、歐洲、OECD，當(dāng)然也包含來(lái)自中國(guó)、美國(guó)，還有很多其他國(guó)家的專(zhuān)家。