成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OpenAI自曝:AI推理砸錢(qián)越多,碾壓人類(lèi)越狠!

人工智能 新聞
你以為GPT-4已經(jīng)夠強(qiáng)了?那只是AI的「預(yù)熱階段」。真正的革命,才剛剛開(kāi)始——推理模型的時(shí)代,來(lái)了。這場(chǎng)范式革命,正深刻影響企業(yè)命運(yùn)和個(gè)人前途。這不是一場(chǎng)模型參數(shù)的升級(jí),而是一次認(rèn)知邏輯的徹底重寫(xiě)。

AI推理模型改變了一切。

而OpenAI早有討論。

最近,他們放出了過(guò)去關(guān)于推理模型重寫(xiě)未來(lái)的討論。

圖片

OpenAI研究員Noam Brown強(qiáng)調(diào)了預(yù)訓(xùn)練和推理兩種關(guān)鍵的AI范式,以及模型隨著處理更多數(shù)據(jù)和計(jì)算能力的提升而不斷改進(jìn)的過(guò)程。

這些技術(shù)進(jìn)步不僅加速了模型性能的提升,還在重塑人工智能基礎(chǔ)設(shè)施的戰(zhàn)略和經(jīng)濟(jì)動(dòng)態(tài)。

與此同時(shí),由OpenAI首席經(jīng)濟(jì)學(xué)家Ronnie Chatterji等討論探討了人工智能與國(guó)家安全和經(jīng)濟(jì)政策的交叉領(lǐng)域。

這些討論共同強(qiáng)調(diào)了人工智能的雙重軌跡:一方面加速技術(shù)進(jìn)步,另一方面加深其在全球政策、基礎(chǔ)設(shè)施和制度治理中的角色。

AI時(shí)代,前所未有

第一個(gè)出場(chǎng)的是Noam Brown。

他是OpenAI在多智能體推理領(lǐng)域的研究人員,以共同開(kāi)發(fā)出首個(gè)超越人類(lèi)水平的無(wú)限注德州撲克AI,以及首個(gè)達(dá)到人類(lèi)水平的策略游戲《外交官》(Diplomacy)AI而聞名。

圖片

多年來(lái)AI已經(jīng)取得了很多很酷、令人印象深刻的成果。

比如說(shuō),在1997年,IBM的「深藍(lán)」戰(zhàn)勝了國(guó)際象棋冠軍Garry Kasparov。

圖片

在2011年在《危險(xiǎn)邊緣》節(jié)目中,IBM的「沃森」奪冠。

圖片

在某些特定領(lǐng)域,AI也早就有了不少令人驚艷的成果。

比如,很早以前,美國(guó)郵政就開(kāi)始用光學(xué)字符識(shí)別技術(shù)來(lái)分揀郵件;Facebook的人臉識(shí)別功能,也已經(jīng)存在很多年了。

圖片

那么問(wèn)題來(lái)了,像ChatGPT這樣的AI,以及現(xiàn)在所處的AI時(shí)代,到底特別在哪里?

答案其實(shí)就在于「通用性」。

最重要的區(qū)別在于:以前的AI系統(tǒng)都非常專(zhuān)注于單一任務(wù)。

比如在1997年,IBM的「深藍(lán)」戰(zhàn)勝Garry Kasparov,但背后可是花了兩年甚至更久的時(shí)間,專(zhuān)門(mén)訓(xùn)練AI只為了下好國(guó)際象棋。

圖片

深藍(lán)機(jī)組之一

同樣的情況也發(fā)生在《危險(xiǎn)邊緣》節(jié)目上,他們花了好幾年時(shí)間,只為了讓AI在節(jié)目中表現(xiàn)出色——

但它只會(huì)做這一件事,其他什么都不會(huì)。

而現(xiàn)在ChatGPT和如今的AI特別之處就在于它們的「通用性」——

也就是說(shuō),它們可以完成很多完全不同的任務(wù),哪怕這些任務(wù)并不是特意訓(xùn)練過(guò)的。

這就是我們所處AI新時(shí)代真正不同的地方。

圖片

Noam Brown接下來(lái)強(qiáng)調(diào)了兩種關(guān)鍵的AI范式:預(yù)訓(xùn)練范式和推理范式。

圖片

預(yù)訓(xùn)練范式

「預(yù)訓(xùn)練范式」出現(xiàn)得更早,也是最初驅(qū)動(dòng)ChatGPT的核心方式。

最早,這可以追溯到2019年的GPT-2。

它的基本思路其實(shí)很簡(jiǎn)單:

收集大量文本,包含了互聯(lián)網(wǎng)的大部分內(nèi)容;

然后訓(xùn)練AI模型來(lái)預(yù)測(cè)一句話中下一個(gè)可能出現(xiàn)的詞。

聽(tīng)起來(lái)也許很基礎(chǔ),但這種方法卻能帶來(lái)令人驚訝的智能水平。

為什么會(huì)這樣呢?

Brown認(rèn)為原因在于,當(dāng)把整個(gè)互聯(lián)網(wǎng)的大量文本輸入給模型,里面自然就包含多種多樣的內(nèi)容。

那么當(dāng)模型要預(yù)測(cè)某個(gè)語(yǔ)句中的下一個(gè)詞時(shí),它必須理解很多上下文信息,才能做出最準(zhǔn)確的判斷。

圖片

Ilya Sutskever有個(gè)特別形象的說(shuō)法:

想象一下網(wǎng)絡(luò)上有一本推理小說(shuō),模型已經(jīng)讀完了整本小說(shuō)的所有文字,來(lái)到結(jié)尾的部分。

故事最后,偵探說(shuō):「我知道兇手是誰(shuí)了。兇手就是____。」

這個(gè)時(shí)候,如果模型要預(yù)測(cè)這句話中最后那個(gè)空白部分,它就必須真正「理解」整部小說(shuō)的情節(jié)。

這就是為什么僅僅通過(guò)「預(yù)測(cè)下一個(gè)詞」的訓(xùn)練方式,模型就能學(xué)到這么多看似復(fù)雜的知識(shí)。

這就是預(yù)訓(xùn)練范式的魅力所在。

而且另一個(gè)很關(guān)鍵的點(diǎn)在于,它具備很強(qiáng)的通用性——

因?yàn)樗腔谡麄€(gè)互聯(lián)網(wǎng)的海量文本進(jìn)行訓(xùn)練的,所以自然能學(xué)到各種各樣的知識(shí)和語(yǔ)言表達(dá)方式。

OpenAI原始信仰:Scaling Law

更令人印象深刻的是,大家已經(jīng)持續(xù)觀察到一個(gè)很穩(wěn)定的趨勢(shì):當(dāng)在預(yù)訓(xùn)練范式中投入更多的數(shù)據(jù)、更多的計(jì)算資源、以及更大的模型規(guī)模,模型在「預(yù)測(cè)下一個(gè)詞」這項(xiàng)任務(wù)上的表現(xiàn)就會(huì)變得越來(lái)越好。

AI領(lǐng)域有2篇非常著名的論文。

圖片

圖片

這些研究表明:當(dāng)擴(kuò)大模型規(guī)模、延長(zhǎng)訓(xùn)練時(shí)間、增加訓(xùn)練數(shù)據(jù)量之后,模型在完成預(yù)測(cè)任務(wù)時(shí)會(huì)提升。

圖片

這種穩(wěn)定可控的增長(zhǎng)趨勢(shì),正是促使OpenAI決定大規(guī)模投入資源、繼續(xù)擴(kuò)展模型規(guī)模的核心依據(jù)。

當(dāng)然,光是讓模型更會(huì)「預(yù)測(cè)下一個(gè)詞」,并不一定就意味著它在用戶真正關(guān)心的任務(wù)上,比如編程,真的變得更強(qiáng)了。

但在實(shí)踐中發(fā)現(xiàn):當(dāng)模型在預(yù)測(cè)任務(wù)上表現(xiàn)越來(lái)越好時(shí),它在各種「下游任務(wù)」上的表現(xiàn)也會(huì)隨之變好,比如寫(xiě)代碼、做數(shù)學(xué)題、回答問(wèn)題等等。

圖片

這其實(shí)就是GPT范式不斷演進(jìn)的基礎(chǔ),從GPT-1到GPT-2,一直到現(xiàn)在,模型能力的持續(xù)提升。

但正是這種「簡(jiǎn)單粗暴」的擴(kuò)大規(guī)模方式,帶來(lái)了性能的巨大飛躍——

這就是令人驚喜的地方。

當(dāng)GPT-3發(fā)布、而且提升的趨勢(shì)依然繼續(xù)延伸時(shí),AI領(lǐng)域里很多人都開(kāi)始認(rèn)為:

好吧,這就是終點(diǎn)了。我們已經(jīng)找到了通往超級(jí)智能的道路。我們只需要不斷擴(kuò)大模型規(guī)模,就能獲得越來(lái)越強(qiáng)的智能。

從理論上講,這是對(duì)的。

但關(guān)鍵問(wèn)題在于——這條路的成本非常高昂,而且會(huì)迅速飆升。

比如GPT-2的訓(xùn)練成本,大概在5,000到50,000美元之間,取決于具體怎么估算。而根據(jù)一些公開(kāi)資料,GPT-4的訓(xùn)練成本可能高達(dá)5,000萬(wàn)美元左右。

如果還要繼續(xù)按照這個(gè)方向再擴(kuò)大幾個(gè)數(shù)量級(jí),那花費(fèi)將是天文數(shù)字。

而且盡管模型確實(shí)變得更聰明了,但它離理想中的「通用智能」仍然還有一段路要走。

圖片

這也呼應(yīng)了Ronnie曾經(jīng)說(shuō)過(guò)的一點(diǎn):這個(gè)領(lǐng)域發(fā)展得非常快。

過(guò)去一年里聽(tīng)到的一些關(guān)于大語(yǔ)言模型(LLM)和「擴(kuò)展范式」的批評(píng),可能在當(dāng)時(shí)確實(shí)是有道理的。

但到了2023年9月,情況發(fā)生了變化——

因?yàn)槿祟?lèi)已經(jīng)進(jìn)入了「推理模型」時(shí)代。

這就引出了「擴(kuò)展能力」的第二種范式:推理范式(reasoning paradigm)。

推理范式

預(yù)訓(xùn)練的成本已經(jīng)快速增長(zhǎng),動(dòng)輒就是上千萬(wàn)美元,有些訓(xùn)練甚至花費(fèi)了上億美元。

雖然理論上還可以繼續(xù)往上堆錢(qián),比如投入十億、甚至數(shù)十億美元,但到某個(gè)點(diǎn)之后,經(jīng)濟(jì)回報(bào)就不再劃算了。

不過(guò),有一點(diǎn)非常關(guān)鍵:雖然訓(xùn)練的成本越來(lái)越高,但實(shí)際向模型提問(wèn),讓它給你一個(gè)答案的花費(fèi)的「推理成本」,其實(shí)仍然很低。

這就為「擴(kuò)展」開(kāi)辟了一個(gè)新的維度。

設(shè)想一下,如果大家不再單純依賴擴(kuò)大訓(xùn)練量,而是提升模型在「每次回答前進(jìn)行更深層思考」的能力呢?

這正是o系列模型(比如o1)背后的核心思想。

舉個(gè)例子:你向GPT-4提一個(gè)問(wèn)題,它可能只花你一分錢(qián)左右。

但如果你問(wèn)o1同樣的問(wèn)題,它會(huì)「認(rèn)真思考」很久,也許會(huì)花上一分鐘才回答,而成本可能是大約一美元——

具體來(lái)說(shuō)是數(shù)量級(jí)上的估算,有上下浮動(dòng)。

但這個(gè)一美元的回答,往往會(huì)比那一分錢(qián)的回答好得多。

這就是推理范式帶來(lái)的全新可能。

圖片

右圖展示了推理范式的實(shí)際效果。

數(shù)學(xué)競(jìng)賽:AIME

美國(guó)數(shù)學(xué)競(jìng)賽(AIME),是美國(guó)數(shù)學(xué)奧林匹克國(guó)家隊(duì)的選拔賽之一。

圖片

圖中的縱軸表示準(zhǔn)確率,也就是模型在「一次答對(duì)」的比例(叫做「pass@1」);橫軸表示模型在回答問(wèn)題時(shí)所消耗的推理計(jì)算量(也就是「思考」時(shí)間和資源的多少)。

在圖的最左邊,模型幾乎是「秒回」——也就是基本沒(méi)怎么思考;而在最右邊,模型會(huì)花上幾分鐘去思考后再作答。

可以明顯看出:隨著模型「思考得越久」,答題準(zhǔn)確率就越高,表現(xiàn)也就越好。

這說(shuō)明推理時(shí)間確實(shí)能帶來(lái)質(zhì)量的提升。

這提供了全新的「擴(kuò)展維度」——

大家不必再單靠堆大模型、加大訓(xùn)練成本來(lái)提升性能,而是可以通過(guò)增加推理時(shí)間、花更多資源在「每次思考」上,來(lái)獲得更強(qiáng)的結(jié)果。

而且最美妙的是,這個(gè)維度幾乎還沒(méi)有被充分利用。

就像之前說(shuō)的,GPT-4一次問(wèn)答成本大約只有一分錢(qián)。

但實(shí)際上,對(duì)于很多人真正關(guān)心的問(wèn)題,他們?cè)敢庵Ц哆h(yuǎn)不止一分錢(qián)。

我們現(xiàn)在可以開(kāi)始探索新的定價(jià)——

每次問(wèn)答成本可以是幾美元、幾十美元,甚至更多,這樣就可以支撐模型進(jìn)行更深入、更高質(zhì)量的推理。

目前來(lái)看,在競(jìng)賽數(shù)學(xué)方面,這是AIME 2024的測(cè)試數(shù)據(jù)。

GPT-4o得分大約是13%,o1 preview模型得分大約是57%,o1得分達(dá)到83%。

再來(lái)看博士級(jí)別的科學(xué)問(wèn)題,也就是上圖最右的GPQA基準(zhǔn)測(cè)試。

這是一個(gè)多項(xiàng)選擇題測(cè)試,設(shè)計(jì)目標(biāo)是需要具備領(lǐng)域內(nèi)博士水平才能作答。

人類(lèi)平均正確率是70%。GPT-4o得分是56%,這個(gè)成績(jī)已經(jīng)很出色了。

而o1得分則是78%。

而且,自自從發(fā)布以來(lái),這些成績(jī)還在持續(xù)提升,而且進(jìn)步非常迅速:

去年9月,發(fā)布o(jì)1 preview;

同年12月,發(fā)布了正式版的o1,并在同月宣布了還未發(fā)布的o3。

這是AI的重點(diǎn)所在。

AI編程:超越人類(lèi)

關(guān)于編程競(jìng)賽的表現(xiàn),以專(zhuān)業(yè)的編程競(jìng)賽平臺(tái)Codeforces為例。

圖片

GPT-4o的得分只排在第11百分位,也就是說(shuō),它的表現(xiàn)只比約11%的頂尖人類(lèi)程序員好。

o1模型的Elo分?jǐn)?shù)是1891,相當(dāng)于人類(lèi)選手的第89百分位。

而o3模型的Elo分?jǐn)?shù)超過(guò)了2700,已經(jīng)進(jìn)入了人類(lèi)專(zhuān)業(yè)編程選手的前0.1%,相當(dāng)于全球第175名的水平。

而且,OpenAI有個(gè)內(nèi)部模型,它的水平已排進(jìn)了全球前50名。

Brown預(yù)測(cè):

到今年年底,OpenAI的模型在編程競(jìng)賽中將會(huì)達(dá)到超越人類(lèi)的水平。

而「達(dá)到超人類(lèi)水平」這件事本身并不新鮮,AI過(guò)去也做到過(guò)很多次。

但o3模型特別的地方在于:它不僅僅在編程競(jìng)賽中表現(xiàn)優(yōu)秀,它在很多任務(wù)上都表現(xiàn)得非常出色。

而在編碼任務(wù)基準(zhǔn)測(cè)試Swebench Verifie,o3得分達(dá)到了72%。

這意味著這個(gè)模型即使不是專(zhuān)門(mén)為了編程訓(xùn)練的,也已經(jīng)具備了強(qiáng)大的實(shí)際編碼能力,對(duì)現(xiàn)實(shí)世界的經(jīng)濟(jì)活動(dòng)會(huì)帶來(lái)很大影響。

AI進(jìn)步太快了:六個(gè)月前還存在的問(wèn)題,但現(xiàn)在已經(jīng)不成立了。

AI與經(jīng)濟(jì)

Aaron Ronnie Chatterji是OpenAI的多一位首席經(jīng)濟(jì)學(xué)家。

目前,他是杜克大學(xué)的Mark Burgess & Lisa Benson-Burgess杰出教授,專(zhuān)注于學(xué)術(shù)、政策與商業(yè)交匯的領(lǐng)域。

他曾在拜登政府任職,擔(dān)任白宮CHIPS協(xié)調(diào)員以及國(guó)家經(jīng)濟(jì)委員會(huì)代理副主任。在此之前,他曾任美國(guó)商務(wù)部首席經(jīng)濟(jì)學(xué)家,以及白宮經(jīng)濟(jì)顧問(wèn)委員會(huì)的高級(jí)經(jīng)濟(jì)學(xué)家。

圖片

他認(rèn)為就像當(dāng)前世界在多個(gè)維度上已經(jīng)出現(xiàn)的分裂趨勢(shì)一樣,AI也不例外。

如果輕易接受這樣分裂的世界,可能會(huì)帶來(lái)兩個(gè)風(fēng)險(xiǎn):

一是OpenAI可能會(huì)在一些關(guān)鍵市場(chǎng)失去信譽(yù),而這些市場(chǎng)正是它努力爭(zhēng)取信任的地方;

二是OpenAI很可能會(huì)失去一些關(guān)鍵的人才。

因此,在堅(jiān)持價(jià)值觀的同時(shí),如何在其中找到平衡,是這次討論中的一個(gè)重要主題。

OpenAI非常國(guó)際化,因此,當(dāng)不同地區(qū)開(kāi)始采用不同類(lèi)型的技術(shù)、而超級(jí)大國(guó)之間的技術(shù)競(jìng)爭(zhēng)加劇時(shí),這讓很多人感到不安。

AI的經(jīng)濟(jì)影響與意義

從總體上來(lái)看,OpenAI內(nèi)部討論的結(jié)論是:AI正在從根本上重塑企業(yè)格局

圖片

但這種轉(zhuǎn)型并不只是關(guān)于取代人類(lèi)或企業(yè)本身的問(wèn)題,而更像是一場(chǎng)「技術(shù)化競(jìng)賽」。

這種轉(zhuǎn)型發(fā)生在各類(lèi)企業(yè)中——包括《財(cái)富》500強(qiáng)、大中小型企業(yè)等各個(gè)層級(jí)。

他們的討論主要從三個(gè)維度展開(kāi):

第一,AI取代人類(lèi)。

這里的關(guān)鍵問(wèn)題其實(shí)不是{AI會(huì)不會(huì)取代人類(lèi)},而是「AI將如何增強(qiáng)或取代人類(lèi)的角色」。這才是大家真正需要思考的方向。

第二,AI取代公司。

與其說(shuō)是AI創(chuàng)業(yè)公司會(huì)取代傳統(tǒng)企業(yè),不如說(shuō)是一場(chǎng)誰(shuí)更能有效采納和整合AI的競(jìng)賽

比如在銀行業(yè),大家就可以看到這種分化趨勢(shì):一些銀行擁有技術(shù)人才,正在積極投資AI;而另一些仍依賴傳統(tǒng)主機(jī)系統(tǒng)(mainframes),開(kāi)始借助AI推動(dòng)現(xiàn)代化轉(zhuǎn)型。

企業(yè)必須作出選擇:要么走在AI轉(zhuǎn)型的前列,要么就被甩在后面。

第三,從個(gè)人或企業(yè)的視角出發(fā)來(lái)看如何落地AI。

誰(shuí)能真正理解并應(yīng)用最新的AI技術(shù),誰(shuí)就能取得成功。AI的影響范圍涵蓋技術(shù)支持、運(yùn)營(yíng)效率、戰(zhàn)略決策等多個(gè)方面。

所以,關(guān)鍵的問(wèn)題是:企業(yè)的AI旅程是什么?

你現(xiàn)在處在什么階段?

兩年后你希望達(dá)到什么樣的水平?

這正是許多企業(yè)在思考的問(wèn)題。

這趟旅程并不是簡(jiǎn)單地購(gòu)買(mǎi)AI工具、獲取許可證那么簡(jiǎn)單,而是要把AI嵌入整個(gè)價(jià)值鏈中,實(shí)現(xiàn)深度融合。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2021-07-25 20:08:50

編程技能開(kāi)發(fā)

2021-08-16 20:45:52

AI人工智能

2021-08-16 15:47:02

AI決策人工智能

2025-06-27 08:40:00

模型推理AI

2025-03-13 09:16:25

2024-12-24 12:19:45

2025-03-11 13:54:11

2025-05-28 11:44:24

AI模型研究

2019-10-31 14:37:55

技術(shù)人工智能開(kāi)發(fā)

2025-03-05 09:00:00

DeepSeek模型AI

2021-08-12 10:44:05

漏洞網(wǎng)絡(luò)安全網(wǎng)絡(luò)攻擊

2025-03-13 10:29:17

模型奧特曼AI

2024-07-05 09:18:45

2024-07-25 12:35:33

2025-04-17 14:09:52

OpenAI模型編程

2025-05-26 09:06:00

2024-07-29 07:04:00

大模型AI訓(xùn)AI人工智能

2024-11-12 13:07:44

2024-07-12 12:51:44

2013-03-01 11:09:29

大數(shù)據(jù)HadoopNoSQL
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 中文字幕一级 | 成人亚洲视频 | 成在线人视频免费视频 | 国产91黄色 | 一区二区三区回区在观看免费视频 | 精品乱人伦一区二区三区 | 亚洲精品一区二区 | 中文字幕一区二区三区在线乱码 | 久久久影院 | 国精产品一区二区三区 | 欧美国产精品一区二区三区 | av激情在线 | 波霸ol一区二区 | 热久久性| 天堂va在线观看 | 日日夜夜91 | 国产精品1区2区 | a黄视频| 国产在线a视频 | 综合久久av | 亚洲码欧美码一区二区三区 | 国产精品色哟哟网站 | 天天草天天干 | 久久av一区二区三区 | 在线免费国产视频 | 午夜免费网站 | 一本大道久久a久久精二百 国产成人免费在线 | 日韩a在线| 国产精品精品久久久久久 | 午夜影院黄 | 七七婷婷婷婷精品国产 | 91麻豆精品国产91久久久更新资源速度超快 | 日韩视频在线免费观看 | 成人精品| 欧美综合久久 | 一区二区三区视频在线观看 | 日本成人在线免费视频 | 国产成人艳妇aa视频在线 | 日本中文字幕在线观看 | www.久久影视| 日韩一区二区免费视频 |