成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Nature封面:AI訓AI,越訓越傻

人工智能
來自牛津、劍橋等學校機構的研究人員最新發(fā)現(xiàn),使用合成數(shù)據訓練,大模型可能會崩潰。其研究成果被選為最新的Nature封面。

AI訓練AI,可能會讓AI變傻?!

來自牛津、劍橋等學校機構的研究人員最新發(fā)現(xiàn),使用合成數(shù)據訓練,大模型可能會崩潰。其研究成果被選為最新的Nature封面。

直接一個:GARBAGE OUT!

要知道,現(xiàn)在絕大部分科技公司的大模型都在用合成數(shù)據來緩解“數(shù)據荒”。這下無疑是整個行業(yè)澆了一波冷水。

研究團隊給了這樣一個例子。

他們測試了Meta的OPT-125m模型,詢問了關于中世紀建筑的相關信息。

每一次微調都是由上一次生成的數(shù)據來訓練。結果前面幾輪回答還好。結果就在第九次,就開始胡說八道……

扯到兔子是什么鬼?!

該論文主要作者表示,他們曾考慮過合成數(shù)據可能對大模型造成誤差,但未曾預料到模型的惡化速度會如此迅速。

三個誤差導致模型崩潰

首先,團隊定義了什么是模型崩潰。

模型崩潰是一個退化過程,模型生成的內容會污染下一代的訓練數(shù)據集。而在被污染的數(shù)據上訓練之后,新一代模型就容易誤解現(xiàn)實。

以此循環(huán)往復,一代更比一代差。

按照時間推移,主要分為兩種情況:早期模型崩潰和晚期模型崩潰。

早期模型崩潰中,模型開始丟失一些尾部信息。(類似概率分布中一些低概率事件) 而在晚期模型崩潰,模型將收斂到同原始分布幾乎沒有任何相似之處。

這一過程的發(fā)生,同模型設計、學習過程和所用數(shù)據質量有關。

具體到理論中,主要包括了這三個誤差導致大模型同原始模型的偏離。

  • 統(tǒng)計近似誤差。這是主要類型的誤差,由于樣本數(shù)量有限而產生,并隨著樣本數(shù)量趨于無窮大而消失。這是因為在重新采樣的每一步中信息都有可能丟失,這種概率不為零。
  • 函數(shù)表達性誤差。這種誤差是由于函數(shù)近似表達能力有限而產生的。特別是,神經網絡只有在其規(guī)模達到無窮大時才是通用近似值。不過,在沒有其他兩種誤差的情況下,這種誤差只會發(fā)生在第一代。
  • 函數(shù)近似誤差。主要由學習過程局限性引起,例如隨機梯度下降的結構偏差或目標的選擇。這種誤差可以看作是在無限數(shù)據和每一代都具有完美表達能力的情況下產生的誤差。

對語言模型的影響

隨后研究人員評估了模型崩潰對語言模型的影響。由于從頭開始訓練大模型成本非常高,他們選擇評估語言模型最常見的設置:微調設置

每個訓練周期都從具有最新數(shù)據的預訓練模型開始。訓練數(shù)據來自另一個經過微調的預訓練模型。

他們用Meta因果語言模型OPT-125m,在wikitext2上進行了微調。

為了從訓練好的模型中生成數(shù)據,團隊使用了five-way波束搜索。他們將訓練序列設為 64 個token長度;然后對于訓練集中的每個token序列,要求模型預測下一個64個token。

他們會瀏覽所有原始訓練數(shù)據集,并生成一個相同大小的人工數(shù)據集。如果模型的誤差為0,它就會生成原始的wikitext2數(shù)據集。

為了進一步感受區(qū)別,他們采用兩種不同的設置:一組是除了最開始訓練,后續(xù)過程沒有任何原始訓練數(shù)據;另一組則是保留10%的原始數(shù)據。

結果顯示,隨著時間推移,模型產生的錯誤會增加。在模型完全崩潰之前,它還會導致模型遺忘數(shù)據集中低概率事件,他們的輸出也變得更加同質化。最終也就出現(xiàn)了開頭這一現(xiàn)象。

另外在VAE、GMM模型中看到了類似模型崩潰的現(xiàn)象。


來自杜克大學的Emily Wenger教授表示,到目前為止,要緩解這一問題并非易事。

有領先的科技公司已經部署了一項技術,即嵌入“水印”——

標記AI生成的內容,讓其在訓練數(shù)據中排除。但困難在于,這需要科技公司之間的協(xié)調,因此不太具有商業(yè)可行性。

這樣一來,那從之前互聯(lián)網獲取數(shù)據的公司,他們訓練的模型更能代表現(xiàn)實世界。所以,最開始那一波大模型算是有了先發(fā)優(yōu)勢。

對于這一觀點,你怎么看呢?

參考鏈接:
[1]https://www.nature.com/articles/d41586-024-02420-7。

[2]https://www.nature.com/articles/d41586-024-02355-z。
[3]https://www.nature.com/articles/s41586-024-07566-y。

責任編輯:姜華 來源: 量子位
相關推薦

2024-07-25 12:35:33

2024-07-25 13:56:49

2024-07-29 08:00:00

模型論文

2023-08-31 07:16:32

人工智能AI算力

2021-08-16 20:45:52

AI人工智能

2025-05-08 06:00:00

AI幻覺AI人工智能

2021-08-16 15:47:02

AI決策人工智能

2021-09-18 09:52:07

AI 數(shù)據人工智能

2021-09-29 15:36:43

人工智能算法AI

2025-07-01 08:37:13

2021-01-18 08:23:09

大數(shù)據AI人工智能

2025-05-26 09:06:00

2025-03-10 09:15:00

2018-05-05 08:54:24

2024-09-09 10:20:00

AI模型

2025-05-26 08:30:00

2009-11-26 10:15:00

IT職場

2024-10-21 14:56:51

2017-12-17 16:24:31

云計算AISaaS

2017-12-18 17:04:00

AI智能機器學習
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 狠狠干天天干 | 中文字幕1区 | av中文字幕在线 | 蜜桃久久 | 国产精品久久国产精品 | 91久久国产综合久久 | 色伊人久久| 欧美日韩视频在线播放 | 成人av免费在线观看 | 亚洲一二视频 | 久久毛片| 99精品欧美一区二区三区综合在线 | 欧美精品网站 | 日韩一区二区在线视频 | 欧美中文字幕在线 | 亚洲成网 | 久久一区二区三区电影 | 精品成人69xx.xyz | 毛片黄| 亚洲免费福利视频 | 亚洲色图网址 | 亚洲一区免费 | 国产精品国产a | 国产精品久久久久久久久久久久久 | 妞干网视频 | 粉嫩av久久一区二区三区 | 国产一区二区三区免费 | 在线免费黄色 | 99免费在线视频 | 国产精品久久久久免费 | 亚洲图片一区二区三区 | 久久久久久久网 | 少妇一区二区三区 | 久久亚洲天堂 | 日本三级全黄三级三级三级口周 | 精品国产99 | 国产97在线看 | 午夜免费网 | www.887色视频免费 | 嫩草国产 | 成人国产精品免费观看 |