成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

字節(jié)“開盒”O(jiān)penAI所有大模型,揭秘GPT-3到GPT-4進化路徑!把李沐都炸出來了

人工智能 新聞
比如GPT-4在變笨并非危言聳聽,這項評測發(fā)現(xiàn)GPT進化路上出現(xiàn)了明顯的“蹺蹺板現(xiàn)象”,即模型進化過程中一部分能力提升另一部分下降。

GPT-3究竟是如何進化到GPT-4的?

字節(jié)給OpenAI所有大模型來了個“開盒”操作

結(jié)果還真摸清了GPT-4進化路上一些關(guān)鍵技術(shù)的具體作用和影響。

圖片

比如:

  • SFT是早期GPT進化的推動者
  • 幫助GPT提升編碼能力的最大功臣是SFT和RLHF
  • 在預(yù)訓(xùn)練中加入代碼數(shù)據(jù)則提升了后續(xù)GPT版本的各方面能力,尤其是推理……

創(chuàng)業(yè)后忙得不可開交的AI大牛李沐看完,也久違地出現(xiàn)在公眾視野,并給這項研究點了個贊。

圖片

網(wǎng)友們更是盛贊:

這是迄今為止第一個充分開盒OpenAI所有模型的工作,respect。

圖片

而除了一些新發(fā)現(xiàn),它還坐實了一些已有猜想:

比如GPT-4在變笨并非危言聳聽,這項評測發(fā)現(xiàn)GPT進化路上出現(xiàn)了明顯的“蹺蹺板現(xiàn)象”,即模型進化過程中一部分能力提升另一部分下降。

這和網(wǎng)友此前的感受不謀而合。

圖片

如作者本人表示:

這項工作可以為GPT-3到GPT-4的演化路徑提供寶貴的見解。

言外之意,通過它我們可以一窺GPT模型的“成功之道”,為接下來的大模型構(gòu)建工作提供有效經(jīng)驗。

那么,具體它都“開”出了哪些東西,我們扒開論文來看。

探秘GPT-3到GPT-4進化之路

最開頭的進化圖由作者們根據(jù)公開信息總結(jié)得出。

可以看到,它標(biāo)注了每一個中間模型是經(jīng)過哪些技術(shù)(如代碼微調(diào)、SFT/FeedME等)一路從最初的GPT-3進化到3.5再到如今的4。

這些技術(shù)具體起到了多大影響,從davinci到gpt-4-0613,字節(jié)對每代GPT的數(shù)學(xué)、編碼、推理等7大能力全部測了個“底朝天”。

圖片

1. SFT:早期GPT進化的推動者

首先,在GPT-3系列中,最初的davinci (GPT-3)通過監(jiān)督微調(diào)SFT和其變體FeedME進化為了text-davinci-001。

這讓后者在幾乎全部任務(wù)上都獲得了性能提升:

圖片

更直觀的表現(xiàn)如下圖所示(“粉圈”為進化后的text-davinci-001)

圖片

接著,GPT開始進入3.5系列,在該系列早期階段,先是最基礎(chǔ)的code-davinci002采用同樣的技術(shù)進化成text-davinci-002。

然而這一進化操作的效果屬實不大,GPT的各項性能只有少數(shù)幾個提升,更多是不增反減的。

圖片

在此,作者引出他們的第一個結(jié)論,即:

SFT只在較弱的基礎(chǔ)模型上管用,用在更強的模型上收效甚微

類似現(xiàn)象在開源模型身上也可見(這個評測還測了Llama1和2、PaLM2-L、Claude 2等模型)

在初代Llama-65B之上,SFT成功提升了它在MMLU基準(zhǔn)上的性能,但是,所有使用了SFT改進的Llama2-70B在Open LLM Leaderboard榜單上卻只表現(xiàn)出微小的進步

總結(jié):在GPT3階段,SFT技術(shù)對模型的進化起到了關(guān)鍵作用。

2、RLHF和SFT:編碼能力提升的功臣

順著GPT3.5系列接著看,從text-davinci-002開始,OpenAI開始引入新技術(shù)基于PPO算法的RLHF,得到text-davinci-003。

此時,它在大部分基準(zhǔn)上的表現(xiàn)和前代模型持平或略變差,說明作用不是特別明顯(在開源模型身上也是如此)

但有一個除外:編碼任務(wù),最高足足增加了近30分。

圖片

聯(lián)想到前面code-davinci002采用SFT技進化成text-davinci-002造成整體性能下降時,編碼任務(wù)也沒受影響,反而還漲分了——

圖片

作者決定驗證SFT和RLHF對大模型編碼能力的影響

在此,他們測量了幾代GPT模型的pass@1(采樣1次通過的概率)、pass@100(采樣100次通過的概率)等分?jǐn)?shù)。

圖片

結(jié)果是與基礎(chǔ)模型相比,使用了SFT和RLHF技術(shù)的模型在pass@1上出現(xiàn)了大幅提升,而在pass@100上略有下降。

這說明啥呢?

作者解釋:

pass@100刻畫的是模型內(nèi)在coding能力,而pass@1代表的是模型一遍過、bug-free的coding能力。

pass@100小幅下降表明SFT和RLHF在編碼任務(wù)上和其它任務(wù)一樣,仍然有所謂的對齊稅(alignment tax)

不過,SFT和RLHF能夠?qū)ass@100的能力學(xué)到pass@1上,即把內(nèi)在能力(但需要很多次嘗試)轉(zhuǎn)化到一遍過、bug-free的coding能力,致使pass@1大幅提升。

而再仔細(xì)看結(jié)果,可以發(fā)現(xiàn)gpt-3.5-turbo-0301通過SFT和RLHF,大幅提升了pass@1,這對于小模型的性能優(yōu)化是個好消息。

圖片

這還沒完,鑒于作者之前觀察到GPT-4在一些復(fù)雜推理任務(wù)上經(jīng)過多次嘗試才能解決問題。

他們結(jié)合上面的觀察,總結(jié)為:
LLM仍可以通過SFT和RLHF,不斷將內(nèi)在能力(但需要多次嘗試)轉(zhuǎn)化成一次性解決問題的能力,不斷逼近LLM的能力上限。

言外之意,GPT-4還可以更強。

3、代碼加入預(yù)訓(xùn)練,對推理幫助最大

在GPT4進化之路上,還出現(xiàn)了2個特別的模型:

code-cushman-001 (Codex-12B) 和code-davinci-002。

前者是OpenAI初次嘗試使用代碼數(shù)據(jù)訓(xùn)練模型,盡管它的規(guī)模較小,但也取得了不錯的代碼能力。

后者是GPT3.5的基座模型,它是在GPT3的基礎(chǔ)上使用RLHF+代碼訓(xùn)練的結(jié)果,也就是文本和代碼混合預(yù)訓(xùn)練。

可以看到,它大幅超越GPT-3(不止是編碼能力)、在一些推理任務(wù)上(如BBH)表現(xiàn)甚至可以超過后面的gpt-3.5-turbo-0613。

圖片

作者表示:

這表明預(yù)訓(xùn)練加入代碼數(shù)據(jù)可以全面提升LLM的能力,尤其是推理能力。

4、“蹺蹺板”現(xiàn)象

通過比較2023年3月和2023年6月的OpenAI API模型,我們確實可以發(fā)現(xiàn)這一現(xiàn)象:

與gpt-3.5-turbo-0301相比,升級后的gpt-3.5-turbo-0613在HumanEval上表現(xiàn)出色(53.9 -> 80.0),但在MATH上卻大幅下降(32.0 -> 15.0)

gpt-4-0613在DROP上的表現(xiàn)優(yōu)于gpt-4-0314 (78.7 -> 87.2) ,但在MGSM上也出現(xiàn)了直線下降(82.2 -> 68.7) 

作者認(rèn)為:

“蹺蹺板現(xiàn)象”可能成為LLM通往AGI之路的絆腳石,因為AGI強調(diào)“通用智能”,要在所有task上都有優(yōu)異的性能,要求模型不能“偏科”。

在此,他們也呼吁社區(qū)重視這個問題,共同推進大模型平衡發(fā)展的研究。

幫助大模型從業(yè)者找到方向

以上這些發(fā)現(xiàn),全部基于GPT-Fathom——

字節(jié)最新提出的一個大模型評測工具。

想必大家肯定疑問:

大模型排行榜和評測工具已經(jīng)有很多了,為什么還要提出一個新的方法?

作者介紹,相比已有的測評方式,GPT-Fathom尺度更加統(tǒng)一結(jié)果具有可重現(xiàn)性

大模型從業(yè)者可以借助它來明確自己與領(lǐng)先模型的差距到底在什么地方,從而有的放矢地完善自己的產(chǎn)品。

具體來看,GPT-Fathom主要是解決了其他大模型評測方法的三個不足:

  • setting標(biāo)準(zhǔn)不一致:是否使用思維鏈(CoT)、樣本數(shù)量等設(shè)置,以及答案評價方法沒有統(tǒng)一標(biāo)準(zhǔn)
  • 模型和任務(wù)收集不完整:測試關(guān)注的能力不全面,缺乏對早期模型的關(guān)注
  • 缺乏對模型敏感性的研究

為了更直觀體現(xiàn)GPT-Fatham的特點,作者對比了一些具體的現(xiàn)有榜單,可以總結(jié)成下面這個表格:

圖片

其中,對敏感性的評測就發(fā)現(xiàn)了此前的測試標(biāo)準(zhǔn)沒能找出的問題。

相比于GPT,其他模型對提示詞的敏感度很高,稍有變化就會導(dǎo)致輸出截然不同,提示其他模型的魯棒性和GPT之前還存在很大差距。

比如在TriviaQA數(shù)據(jù)集上,提示詞的細(xì)微改變就讓Llama 2-70B的得分下降四分之一,而GPT系列模型則沒有明顯變化。

圖片

此外諸如CoT、樣本數(shù)量以及采樣方差等因素也都被包括進了敏感性測試當(dāng)中。

未來,作者計劃從能力種類、測試數(shù)據(jù)集和模型三個維度繼續(xù)擴展GPT-Fathom,將支持多輪對話、多模態(tài)等能力的測評,以及增加對多個數(shù)據(jù)集和模型的測試。

GPT-Fatham的兩位共同一作分別是字節(jié)公司應(yīng)用機器學(xué)習(xí)研究組的研究人員張馭宇(Yuyu Zhang)和實習(xí)生Shen Zheng。

Shen Zheng是伊利諾伊大學(xué)香檳分校(UIUC)的一名碩士生。

此外,字節(jié)公司的Yijie Zhu等四名研究人員,以及UIUC的Kevin Chen-Chuan Chang教授也參與了這項研究。

論文地址:https://arxiv.org/abs/2309.16583
參考鏈接:https://github.com/GPT-Fathom/GPT-Fathom

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-10-18 11:12:44

2023-08-11 13:15:35

ChatGPTMBTIGPT-4

2023-07-07 09:32:57

GPT-4OpenAI

2023-07-11 15:30:08

GPT-4架構(gòu)

2023-04-09 16:17:05

ChatGPT人工智能

2023-03-16 19:17:57

2023-03-28 08:23:38

2023-06-19 08:19:50

2023-09-19 13:48:31

AI數(shù)據(jù)

2023-08-17 08:00:00

2024-05-14 07:30:52

OpenAIGPT-4模型

2023-08-06 08:06:30

OpenAIChatGPTGPT-4

2025-04-16 09:35:03

2021-07-13 17:38:49

算法語言模型GPT-4

2023-12-09 13:24:40

OpenAIChatGPT人工智能

2021-03-23 15:21:00

人工智能機器學(xué)習(xí)技術(shù)

2023-12-09 14:30:50

2022-04-20 10:47:46

AIGPT-4

2023-06-08 11:27:10

模型AI

2023-06-02 13:39:00

GPT-3開源GPU
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 久久久精品亚洲 | www.狠狠干| 99免费在线观看视频 | 亚洲狠狠| 色桃网 | 成人免费一区二区三区视频网站 | 久热中文字幕 | 日韩精品一区二区三区视频播放 | 亚洲www啪成人一区二区麻豆 | 国产精品三级久久久久久电影 | 99视频在线免费观看 | 日韩精品一区二区三区中文在线 | 日本天堂一区二区 | 日韩看片| 草草视频在线播放 | 波多野结衣精品 | 女人夜夜春 | 日本三级电影在线观看视频 | 黄色一级大片在线免费看产 | 国产成人av一区二区三区 | 国产精品视频久久 | 91高清视频 | 91精品国产91久久综合桃花 | 久久久久久久久国产精品 | 免费的av | 黄色综合| 亚洲人成人一区二区在线观看 | 国产一区二区av | 最新国产精品视频 | 国产一区二区精品在线观看 | japanhd成人| 成人在线观 | 国产精品一区二区久久久久 | 综合中文字幕 | 精品自拍视频 | 精品欧美乱码久久久久久1区2区 | 久久久久久www | 日韩福利| 日本特黄a级高清免费大片 成年人黄色小视频 | 国产精品免费高清 | 黄视频免费 |