成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<center id="88eq6"><button id="88eq6"></button></center>

<rt id="88eq6"></rt>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

不會(huì)太大、密集的純文本模型，GPT-4的新一波預(yù)測來了

作者：機(jī)器之心 2022-04-29 09:57:31

人工智能新聞

分析師 Alberto Romero 對(duì) GPT-4 作出了有理有據(jù)的推測。

2020 年 5 月，在 GPT-2 發(fā)布一年后 GPT-3 正式發(fā)布，而 GPT-2 也是在原始 GPT 論文發(fā)表一年后發(fā)布的。按照這種趨勢， GPT-4 早在一年前就該發(fā)布了，但至今尚未面世。

OpenAI 的首席執(zhí)行官 Sam Altman 幾個(gè)月前表示即將推出 GPT-4 ，預(yù)計(jì)將在 2022 年 7 月至 8 月發(fā)布。

GPT-3 的強(qiáng)大性能讓人們對(duì) GPT-4 的期望頗高。然而關(guān)于 GPT-4 的公開信息甚少，Altman 在去年的一次 Q&A 中就 OpenAI 對(duì) GPT-4 的想法給出了一些提示。他明確表示 GPT-4 不會(huì)有 100T 參數(shù)。

正因?yàn)?GPT-4 的公開信息很少，人們對(duì)其做出諸多預(yù)測。現(xiàn)在，一位名為 Alberto Romero 分析師基于其 OpenAI 和 Sam Altman 透露的信息，以及當(dāng)前趨勢和語言 AI 的最新技術(shù)，對(duì) GPT-4 作出了一番新的預(yù)測，以下是他的預(yù)測原文。

模型大小：GPT-4 不會(huì)非常大

GPT-4 不會(huì)成為最大的語言模型，Altman 曾說它不會(huì)比 GPT-3 大多少。它的大小可能在 GPT-3 和 Gopher 之間 (175B -280B)。

這個(gè)推測有充分的理由。

Nvidia 和微軟去年聯(lián)合創(chuàng)建的威震天 - 圖靈 NLG（ MT-NLG）號(hào)稱是擁有 530B 參數(shù)的最大密集神經(jīng)網(wǎng)絡(luò)，參數(shù)量已經(jīng)是 GPT-3 的 3 倍，而最近谷歌的 PaLM 已有 540B 參數(shù)。但值得注意的是，在 MT-NLG 之后出現(xiàn)的一些較小的模型反而達(dá)到了更高的性能水平。

這意味著：更大不一定更好。

業(yè)內(nèi)很多公司已經(jīng)意識(shí)到模型大小不是性能的決定因素，擴(kuò)大模型也不是提升性能的最好方法。2020 年，OpenAI 的 Jared Kaplan 及其同事得出結(jié)論：當(dāng)計(jì)算預(yù)算的增加主要用于根據(jù)冪律關(guān)系擴(kuò)展的參數(shù)量時(shí)，性能提升幅度最大。

然而，以超大規(guī)模的 MT-NLG 為例，它在性能方面并不是最好的。事實(shí)上，甚至在任何單一類別的基準(zhǔn)測試中都不是最好的。較小的模型，如 Gopher (280B) 或 Chinchilla (70B) 在一些任務(wù)上比 MT-NLG 好得多。

顯然，模型大小并不是實(shí)現(xiàn)更好的語言理解性能的唯一因素。

業(yè)內(nèi)多家公司開始放棄「越大越好」的教條。擁有更多參數(shù)也會(huì)帶來一些副作用，例如計(jì)算成本過高、性能進(jìn)入瓶頸期。當(dāng)能夠從較小的模型中獲得相似或更好的結(jié)果時(shí)，這些公司就會(huì)在構(gòu)建巨大模型之前三思而后行。

Altman 表示，他們不再專注于讓模型變得更大，而是讓更小的模型發(fā)揮最大的作用。OpenAI 是擴(kuò)展假設(shè)（scaling hypothesis）的早期倡導(dǎo)者，但現(xiàn)在已經(jīng)意識(shí)到其他未探索的路徑也能改進(jìn)模型。

因此，GPT-4 不會(huì)比 GPT-3 大很多。OpenAI 將把重點(diǎn)轉(zhuǎn)移到其他方面，例如數(shù)據(jù)、算法、參數(shù)化和價(jià)值對(duì)齊（alignment）等，這可能會(huì)帶來更顯著的改進(jìn)。關(guān)于 100T 參數(shù)模型的功能，我們只能等待了。

優(yōu)化

語言模型在優(yōu)化方面存在一個(gè)關(guān)鍵限制，即訓(xùn)練成本非常高。以至于研發(fā)團(tuán)隊(duì)不得不在準(zhǔn)確性和成本之間進(jìn)行權(quán)衡。這通常會(huì)導(dǎo)致模型明顯欠優(yōu)化。

GPT-3 只訓(xùn)練了一次，當(dāng)在一些用例中出現(xiàn)錯(cuò)誤時(shí)就要重新進(jìn)行訓(xùn)練。OpenAI 決定 GPT-4 不采取這種方式，因?yàn)槌杀咎撸芯咳藛T無法找到模型的最佳超參數(shù)集（例如學(xué)習(xí)率、批大小、序列長度等）。

高訓(xùn)練成本的另一個(gè)后果是對(duì)模型行為的分析要受到限制。Kaplan 的團(tuán)隊(duì)得出模型大小是提高性能最相關(guān)的變量時(shí)，他們并沒有考慮訓(xùn)練 token 的數(shù)量，這需要大量的計(jì)算資源。

不得不承認(rèn)，一些大型公司依照 Kaplan 團(tuán)隊(duì)的結(jié)論，在擴(kuò)大模型上「浪費(fèi)」了數(shù)百萬美元?，F(xiàn)在，以 DeepMind 和 OpenAI 為首的公司正在探索其他方法。他們試圖找到最佳的模型，而不僅僅是更大的模型。

優(yōu)化參數(shù)

上個(gè)月，微軟和 OpenAI 證實(shí)用優(yōu)化后的超參數(shù)進(jìn)行訓(xùn)練，GPT-3 能夠獲得較大的改進(jìn)。他們發(fā)現(xiàn) 6.7B 版本的 GPT-3 性能大幅提升，可與最初的 13B GPT-3 相媲美。超參數(shù)調(diào)優(yōu)帶來的性能提升，相當(dāng)于參數(shù)數(shù)量增加了一倍。

他們利用一種稱為μP 的新型參數(shù)化方式，其中小模型的最佳超參數(shù)對(duì)于同系列的較大模型也是最佳的。因此，μP 能夠以一小部分訓(xùn)練成本優(yōu)化任意大小的模型，幾乎毫無成本地將超參數(shù)遷移到更大的模型中。

優(yōu)化計(jì)算模型

幾周前，DeepMind 重新審視了 Kaplan 等人的發(fā)現(xiàn)，并意識(shí)到：與人們認(rèn)為的相反，訓(xùn)練 token 的數(shù)量對(duì)性能的影響與模型大小的影響一樣大。DeepMind 得出結(jié)論：計(jì)算預(yù)算應(yīng)該平均分配給擴(kuò)展參數(shù)和數(shù)據(jù)。他們用大型語言模型 4 倍的數(shù)據(jù)量（1.4T token）訓(xùn)練 Chinchilla（70B）證明了這個(gè)假設(shè)。

圖源：DeepMind

結(jié)果很明確，Chinchilla 在許多語言基準(zhǔn)測試中「顯著」優(yōu)于 Gopher、GPT-3、MT-NLG 等語言模型，這表明當(dāng)前的大模型訓(xùn)練不足且規(guī)模過大。

根據(jù) DeepMind 的發(fā)現(xiàn)，GPT-4 將比 GPT-3 略大，它達(dá)到計(jì)算最優(yōu)所需的訓(xùn)練 token 數(shù)量將約為 5 萬億，比當(dāng)前數(shù)據(jù)集高出一個(gè)數(shù)量級(jí)。為了最小化訓(xùn)練損失，訓(xùn)練 GPT-4 所需的 FLOP 將是 GPT-3 的約 10-20 倍（參照 Gopher 的計(jì)算量）。

Altman 曾在 Q&A 中表示 GPT-4 的計(jì)算量將比 GPT-3 更大，他可能指的就是這一點(diǎn)。

可以肯定的是，OpenAI 將致力于優(yōu)化模型大小以外的其他變量。找到最佳的超參數(shù)集以及最佳的計(jì)算模型大小和參數(shù)數(shù)量，這可能會(huì)讓模型在所有基準(zhǔn)測試中獲得令人難以置信的提升。

多模態(tài)：GPT-4 將是純文本模型

人類的大腦是多感官的，因?yàn)槲覀兩钤谝粋€(gè)多模態(tài)的世界中。一次只以一種模態(tài)感知世界極大地限制了人工智能理解世界的能力。因此，人們認(rèn)為深度學(xué)習(xí)的未來是多模態(tài)模型。

然而，良好的多模態(tài)模型比良好的純語言或純視覺模型更難構(gòu)建。將視覺和文本信息組合成單一的表征是一項(xiàng)非常艱巨的任務(wù)。我們對(duì)大腦如何做到這一點(diǎn)的認(rèn)知還非常有限，難以在神經(jīng)網(wǎng)絡(luò)中實(shí)現(xiàn)它。

大概也是出于此原因，Altman 在 Q&A 中也表示，GPT-4 不會(huì)是多模態(tài)的，而是純文本模型。我猜測在轉(zhuǎn)向下一代多模態(tài) AI 之前，他們正試圖通過調(diào)整模型和數(shù)據(jù)集大小等因素達(dá)到語言模型的極限。

稀疏性：GPT-4 將是一個(gè)密集模型

稀疏模型利用條件計(jì)算，使用模型的不同部分來處理不同類型的輸入，近來取得了巨大成功。這些模型可以輕松擴(kuò)展到超過 1T 的參數(shù) mark 上，而不會(huì)導(dǎo)致過高的計(jì)算成本，從而在模型大小和計(jì)算預(yù)算之間構(gòu)建出正交關(guān)系。然而，這種 MoE 方法的優(yōu)勢在非常大的模型上會(huì)減弱。

鑒于 OpenAI 一直專注于密集語言模型，我們有理由預(yù)期 GPT-4 也將是一個(gè)密集模型。

不過，人類的大腦嚴(yán)重依賴于稀疏處理，稀疏性與多模態(tài)類似，很可能會(huì)主導(dǎo)未來幾代神經(jīng)網(wǎng)絡(luò)。

GPT-4 將比 GPT-3 更加對(duì)齊

OpenAI 為解決 AI 價(jià)值對(duì)齊（alignment）的問題付出了諸多努力：如何讓語言模型遵循我們的意圖并遵守我們的價(jià)值觀。這不僅需要數(shù)學(xué)上讓 AI 實(shí)現(xiàn)更準(zhǔn)確的理解，而且需要在哲學(xué)方面考量不同人類群體之間的價(jià)值觀。OpenAI 已嘗試在 InstructGPT 上接受人工反饋訓(xùn)練以學(xué)會(huì)遵循指令。

InstructGPT 的主要突破在于，無論其在語言基準(zhǔn)上的結(jié)果如何，它都被人類評(píng)估者一致認(rèn)為是一比 GPT-3 更好的模型。這表明使用基準(zhǔn)測試作為評(píng)估 AI 能力的唯一指標(biāo)是不合適的。人類如何看待模型同樣重要，甚至更重要。

鑒于 Altman 和 OpenAI 對(duì)有益 AGI 的承諾，我相信 GPT-4 將基于他們從 InstructGPT 中獲得的發(fā)現(xiàn)。

他們將改進(jìn)對(duì)齊模型的方式，因?yàn)?GPT-3 只采用了英文語料和注釋。真正的對(duì)齊應(yīng)該包含來自不同性別、種族、國籍、宗教等方面的信息特征。這是一個(gè)巨大的挑戰(zhàn)，朝著這個(gè)目標(biāo)邁出一步將是意義重大的。

綜上，我關(guān)于 GPT-4 的預(yù)測大致包括以下幾個(gè)方面：

模型大小：GPT-4 會(huì)比 GPT-3 大，但不會(huì)很大。模型大小不會(huì)是其顯著特征；

優(yōu)化：GPT-4 將使用比 GPT-3 更多的計(jì)算，它將在參數(shù)化（最優(yōu)超參數(shù)）和擴(kuò)展定律（訓(xùn)練 token 的數(shù)量與模型大小一樣重要）方面做出新的改進(jìn)；

多模態(tài)：GPT-4 將是純文本模型，OpenAI 正試圖將語言模型發(fā)揮到極致，然后再轉(zhuǎn)變成像 DALL·E 這樣的多模態(tài)模型；

稀疏性：GPT-4 遵循 GPT-2 和 GPT-3 的趨勢，將是一個(gè)密集模型，但稀疏性未來將占據(jù)主導(dǎo)地位；

對(duì)齊：GPT-4 將比 GPT-3 更符合人們的價(jià)值要求，它將應(yīng)用從 InstructGPT 中學(xué)到的經(jīng)驗(yàn)。

Alberto Romero 根據(jù) Altman 和 OpenAI 給出的信息作出了有理有據(jù)的推測，我們期待這些預(yù)測在幾個(gè)月后即將面世的 GPT-4 中得到印證。

責(zé)任編輯：張燕妮來源：機(jī)器之心

GPT-4 人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

主站蜘蛛池模板：色婷婷av一区二区三区软件 | 视频一区二区三区中文字幕 | 成人免费视屏 | m豆传媒在线链接观看 | 久久在线 | 午夜精品一区二区三区在线 | 99视频在线免费观看 | 日韩一区二区视频 | 欧美精品成人 | 99久久夜色精品国产亚洲96 | 欧美日韩高清 | 性色的免费视频 | 日韩一区精品 | 日韩欧美国产精品一区二区 | www.日韩系列| 欧美成人第一页 | 欧美一区二区三区久久精品视 | 亚洲aⅴ一区二区 | 天天综合91 | 伊人免费视频二 | 亚洲成人自拍 | 男人的天堂一级片 | 亚洲精品久 | 狠狠的干狠狠的操 | 亚洲国产网 | 婷婷久久综合 | 91精品中文字幕一区二区三区 | 天天夜干| 一级毛片视频在线观看 | 91xh98hx 在线国产 | 久草中文在线观看 | 国产区在线 | 国产成人av在线播放 | 日韩在线视频观看 | 欧美三级视频在线观看 | 日韩影音 | 视频一区二区三区中文字幕 | 午夜视频免费在线观看 | 精品久久久久一区二区国产 | 久久人体| 日韩精品一区二区三区高清免费 |

<tbody id="o6siw"></tbody>