成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

442個作者100頁論文!谷歌耗時2年發布大模型新基準BIG-Bench

人工智能 新聞
來自132個機構的研究學者,耗時兩年提出了一個大語言模型新基準BIG-bench。

一篇AI論文,442個作者。

其中還專門留了一章節寫作者貢獻。

100頁里超過一半都是參考文獻……

不是,現在都流行這樣式兒的論文嗎?

這不,谷歌最新發布的論文——Beyond The Imitation Game: Quantifying And Extrapolating The Capabilities Of Language Models。

于是作者那一欄就變成了這樣……

442個作者100頁論文!谷歌耗時2年發布大模型新基準BIG-Bench

來自132個機構的研究學者,耗時兩年提出了一個大語言模型新基準BIG-bench

并在此基礎上評估了OpenAI的GPT模型,Google-internal dense transformer架構等,模型規模橫6個數量級。

最終結果顯示,模型性能雖然隨著規模的擴大而提高,但跟人類的表現相差還很遠。

對于這項工作,Jeff Dean轉發點贊:Great Work

442個作者100頁論文!谷歌耗時2年發布大模型新基準BIG-Bench

大語言模型新基準

來康康這篇論文究竟說了什么。

隨著規模的擴大,模型的性能和質量都有一定的改進,這當中可能還存在一些變革性影響,但這些性能此前都沒有很好的描述。

現存的一些基準都有一定的局限性,評估范圍比較狹窄,性能分數迅速達到飽和。

比如SuperGLUE,在該基準推出后的18個月內,模型就實現了“超過人類水平”的性能。

442個作者100頁論文!谷歌耗時2年發布大模型新基準BIG-Bench

基于這樣的背景,BIG-bench就誕生了。

目前它由204個任務組成,內容涵蓋語言學、兒童發展、數學、常識推理、生物學、物理學、社會偏見、軟件開發等方面的問題。

442個作者100頁論文!谷歌耗時2年發布大模型新基準BIG-Bench

此外還有個人類專家評審團,也執行了所有任務,以提供基線水平。

為了方便更多機構使用,研究人員還給出了BIG-bench Lite,一個小型但有代表性的任務子集,方便更快地評估。

442個作者100頁論文!谷歌耗時2年發布大模型新基準BIG-Bench

以及開源了實現基準API的代碼,支持在公開可用的模型上進行任務評估,以及新任務的輕量級創建。

最終評估結果可以看到,規模橫跨六個數量級,BIG-bench上的總體性能隨著模型規模的擴大、訓練樣本數量的增加而提高。

但跟人類基線水平相比,還是表現得比較差。

442個作者100頁論文!谷歌耗時2年發布大模型新基準BIG-Bench

具體在一些任務上,模型性能會隨著規模的增加而平穩地提高。但有時候,會在特定規模上突然出現突破性表現。

442個作者100頁論文!谷歌耗時2年發布大模型新基準BIG-Bench

此外,它還可以評估模型存在的社會偏見。

442個作者100頁論文!谷歌耗時2年發布大模型新基準BIG-Bench

此外,他們還意外發現模型還可以get一些隱藏技能。比如,如何在國際象棋中合乎規則的移動。

442個作者100頁論文!谷歌耗時2年發布大模型新基準BIG-Bench

作者貢獻寫了14頁

值得一提的是,可能因為作者過多,論文最后還專門留了一章寫作者貢獻。

洋洋灑灑的寫了14頁,其中包括核心貢獻者、Review的、提供任務的……

442個作者100頁論文!谷歌耗時2年發布大模型新基準BIG-Bench

剩下的,還有50頁的參考文獻。

好了,感興趣的旁友可戳下方鏈接康康論文。

論文鏈接:

https://arxiv.org/abs/2206.04615

GitHub鏈接:

https://github.com/google/BIG-bench

參考鏈接:

https://twitter.com/jaschasd/status/1535055886913220608

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-03-03 07:30:00

谷歌模型AI

2024-01-15 14:44:19

語言模型PaLMAI

2009-03-25 08:48:17

AndroidGoogle移動OS

2024-08-14 14:06:01

2024-01-03 15:40:58

人工智能氣候變化AI

2011-10-19 09:17:07

Android 4.0

2022-10-24 14:06:12

谷歌TensorFlo

2013-02-26 09:36:57

RubyRuby 2.0

2009-06-16 11:25:57

phpMyAdmin

2019-03-05 10:27:53

Linux 系統 數據

2009-06-29 12:25:07

VirtualBox

2009-08-27 09:34:29

CKEditor 3.FCKEditor

2014-09-12 10:46:35

Java9

2025-05-06 01:45:00

大模型Llama4版本

2011-09-08 11:01:32

Android冰淇淋三明治

2012-08-13 10:40:37

Ubuntu Twea操作系統

2009-10-20 09:56:17

Visual Stud

2012-05-11 10:38:14

JFileJava

2010-03-01 09:44:12

Hibernate 3
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产高清视频一区二区 | 国产精品99| 在线观看特色大片免费网站 | 国产aⅴ精品 | 日韩av福利在线观看 | 国产精品久久久99 | 91在线一区| 欧美国产精品一区二区三区 | aaa在线观看 | 欧美视频免费在线观看 | 国产三级网站 | 国产一二三区精品视频 | 亚洲图片一区二区三区 | 黄网站免费在线看 | 日韩视频在线观看中文字幕 | 亚洲免费精品 | 午夜免费视频 | 激情毛片 | cao在线| 国产亚洲精品久久yy50 | 在线播放国产一区二区三区 | 国产真实乱对白精彩久久小说 | 国产成人精品a视频一区www | 极品电影院 | 久久久91精品国产一区二区三区 | 美女黄视频网站 | 国产在线a | 亚洲欧美日韩中文字幕一区二区三区 | av网站免费看 | 日韩中文字幕 | 日韩福利 | 日韩欧美视频 | 91精品久久久久久久久 | 欧美视频精品 | 青春草在线 | 2020亚洲天堂 | 中文字幕一区二区三区四区 | 欧美日产国产成人免费图片 | 亚洲精品视频三区 | 国产精品国产自产拍高清 | 欧美高清视频 |