成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Jeff Dean等人新作:換個角度審視語言模型,規模不夠發現不了

人工智能 新聞
這是一篇來自谷歌、斯坦福大學、北卡羅來納大學教堂山分校以及 DeepMind 四個機構的研究,論文從「突現(emergence)」的角度介紹大模型,所謂的突現,即有些現象不存在于較小的模型中但存在于較大的模型中。

?近年來,語言模型對自然語言處理 (NLP) 產生了革命性影響。眾所周知,擴展語言模型,例如參數等,可以在一系列下游 NLP 任務上帶來更好的性能和樣本效率。在許多情況下,擴展對性能的影響通常可以通過擴展定律進行預測,一直以來,絕大多數研究者都在研究可預測現象。

相反,包括 Jeff Dean 、 Percy Liang 等在內的 16 位研究者合作的論文《 Emergent Abilities of Large Language Models 》,他們討論了大模型不可預測現象,并稱之為大型語言模型的突現能力( emergent abilities)。所謂的突現,即有些現象不存在于較小的模型中但存在于較大的模型中,他們認為模型的這種能力是突現的。

突現作為一種想法已經在物理學、生物學和計算機科學等領域討論了很長時間,本論文從突現的一般定義開始,該定義改編自 Steinhardt 的研究,并植根于 1972 年諾貝爾獎獲得者、物理學家 Philip Anderson 的一篇名為 More Is Different 的文章。

本文探討了模型規模的突現,通過訓練計算和模型參數來衡量。具體而言,本文將大型語言模型的突現能力定義為在小規模模型中不存在、但在大規模模型中存在的能力;因此,大型模型不能通過簡單地推斷小規模模型的性能改進來進行預測。該研究調查了在一系列先前工作中觀察到的模型突現能力,并將它們進行分類:小樣本提示和增強提示等設置。

模型的這種突現能力激發了未來的研究,即為什么會獲得這些能力,以及更大的規模是否會獲得更多的突現能力,并強調了這項研究的重要性。

圖片

論文地址:https://arxiv.org/pdf/2206.07682.pdf

小樣本提示任務

本文首先討論了提示范式中的突現能力。例如在 GPT-3 提示中,給出預訓練語言模型任務提示,模型無需進一步訓練或對參數進行梯度更新即可完成響應。此外,Brown 等人提出了小樣本提示,他們將模型上下文(輸入)中的一些輸入輸出示例作為提示(preamble),然后要求模型執行未見過的推理任務。圖 1 為一個提示示例。

圖片

當模型具有隨機性能且具有一定規模時,通過小樣本提示就可以執行任務,這時突現能力就會出現,之后模型性能遠遠高于隨機性能。下圖展示了 5 個語言模型系列(LaMDA、GPT-3、Gopher、Chinchilla 以及 PaLM  )的 8 種突現能力。

圖片

BIG-Bench:圖 2A-D 描述了來自 BIG-Bench 的四個突現小樣本提示任務,BIG-Bench 是一個由 200 多個語言模型評估基準的套件。圖 2A 顯示了一個算術基準,它測試了 3 位數字的加減法,以及 2 位數字的乘法。表 1 給出了 BIG-Bench 更多突現能力。

圖片

增強提示策略

目前來看,盡管小樣本提示是與大型語言模型交互的最常見方式,但最近的工作已經提出了其他幾種提示和微調策略,以進一步增強語言模型的能力。如果一項技術在應用到一個足夠大的模型之前沒有顯示出改進或者是有害的,本文也認為該技術也是一種突現能力。

多步推理(Multi-step reasoning):對于語言模型和 NLP 模型來說,推理任務,尤其是那些涉及多步推理的任務一直是一個很大的挑戰。最近有一種名為思維鏈(chain-of-thought)提示策略,通過引導語言模型在給出最終答案之前生成一系列中間步驟,從而使它們能夠解決這類問題。如圖 3A 所示,當擴展到 1023 次訓練 FLOP(~ 100B 參數)時,思維鏈提示只超過了沒有中間步驟的標準提示。

指令( Instruction following ):如圖 3B 所示,Wei 等人發現,當訓練 FLOP 為 7 · 10^21  (8B 參數)或更小時,指令微調(instruction-finetuning)技術會損害模型性能,在將訓練 FLOP 擴展到 10^23 (~100B 參數)時才能提高性能。

程序執行( Program execution ):如圖 3C 所示,在 8 位加法的域內評估中,使用暫存器僅有助于 ~9 · 10^19 個訓練 FLOP(40M 參數)或更大的模型。圖 3D 顯示這些模型也可以泛化到域外 9 位加法,它出現在 ~1.3 · 10^20 個訓練 FLOPs(100M 參數)。

圖片

本文討論了語言模型的突現能力,到目前為止,僅在一定的計算規模上才能觀察到有意義的性能。模型的這種突現能力可以跨越各種語言模型、任務類型和實驗場景。這種突現的存在意味著額外的規模擴展可以進一步擴大語言模型的能力范圍。這種能力是最近發現的語言模型擴展的結果,關于它們是如何出現的,以及更多的擴展是否會帶來更多的突現能力,可能是NLP領域未來重要的研究方向。

更多內容,請參考原論文。?

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-06-19 08:50:00

模型訓練數據

2017-11-20 16:17:50

智慧城市

2022-02-28 11:26:40

模型深度學習谷歌

2022-07-29 11:06:47

架構開發

2022-05-30 10:42:14

模型谷歌數據

2018-04-03 11:44:47

人工智能業務

2020-05-12 10:20:39

K8s kubernetes中間件

2022-10-08 12:45:26

模型

2024-12-20 14:10:00

AI模型訓練

2021-04-07 14:36:36

谷歌Android開發者

2020-12-18 09:51:33

Google AI技術

2021-04-01 08:55:31

編程技能開發

2024-10-21 15:50:00

機器學習AI

2024-09-25 09:37:16

2013-11-21 13:35:19

程序員牛人

2013-01-07 14:10:51

數據治理Informatica

2019-10-23 19:42:52

5G4GVR

2024-03-08 12:35:41

模型數據

2014-03-12 17:40:07

GlusterFS分布式文件系統

2022-07-29 08:58:44

多線程并發
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产91在线视频 | 日韩国产高清在线观看 | 亚洲精品综合一区二区 | 免费的av网站 | 一区二区国产精品 | 蜜桃av人人夜夜澡人人爽 | 日韩有码一区 | 99爱视频 | 日韩精品专区在线影院重磅 | 天天干天天干 | 亚洲视频一区在线观看 | 91.com视频| 人人干人人爽 | 免费观看www | 久久国产麻豆 | 午夜精品久久久久久久久久久久 | 国产1页 | 91精品国产综合久久久久 | 亚洲区中文字幕 | 国产精品 亚洲一区 | 国产免费自拍 | 久久国产成人 | 91av大全 | 亚洲精品日韩在线 | 亚洲综合一区二区三区 | 精品视频网 | 亚洲狠狠爱一区二区三区 | 青娱乐av | 午夜在线电影网 | 黄色在线网站 | 久久精品国产99国产精品 | 国产精品极品美女在线观看免费 | 国产91一区二区三区 | 亚洲视频 欧美视频 | 一本一道久久a久久精品蜜桃 | 99精品国自产在线 | 五月婷婷 六月丁香 | 欧美视频1区| 一本色道精品久久一区二区三区 | 91在线免费视频 | 亚洲视频免费 |