成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

為什么SFT之后感覺LLM傻了? 如何降低這種現(xiàn)象?

人工智能
SFT的重點(diǎn)在于激發(fā)大模型的能力,SFT的數(shù)據(jù)量相比于預(yù)訓(xùn)練的數(shù)據(jù)還是太少了。如果抱著灌注領(lǐng)域知識而不是激發(fā)能力的想法,去做SFT的話,可能確實(shí)容易把LLM弄傻。

1、為什么感覺傻

簡單來講,SFT的重點(diǎn)在于激發(fā)大模型的能力,SFT的數(shù)據(jù)量相比于預(yù)訓(xùn)練的數(shù)據(jù)還是太少了。如果抱著灌注領(lǐng)域知識而不是激發(fā)能力的想法,去做SFT的話,可能確實(shí)容易把LLM弄傻。具體來說:

SFT的目標(biāo)與數(shù)據(jù)量的矛盾

  • SFT的核心目標(biāo):SFT的主要目的是通過少量的標(biāo)注數(shù)據(jù)來激發(fā)語言模型的潛力,而不是完全重新訓(xùn)練模型。它希望模型能夠更好地適應(yīng)特定的任務(wù)或領(lǐng)域,同時保留其預(yù)訓(xùn)練階段學(xué)到的通用知識。
  • 數(shù)據(jù)量的限制:SFT的數(shù)據(jù)量通常較小,例如Alpaca數(shù)據(jù)集的52k量級。相比預(yù)訓(xùn)練階段使用的海量數(shù)據(jù)(通常是數(shù)十億甚至數(shù)千億的token),這樣的數(shù)據(jù)量確實(shí)微不足道。如果SFT的目標(biāo)是通過如此少量的數(shù)據(jù)來“灌注”大量領(lǐng)域知識,而不是激發(fā)模型的潛力,可能會導(dǎo)致以下問題:
    過度擬合:模型可能會過度擬合這少量的SFT數(shù)據(jù),從而在其他未見過的任務(wù)或數(shù)據(jù)上表現(xiàn)變差。
    災(zāi)難性遺忘:模型可能會在學(xué)習(xí)新任務(wù)的過程中忘記之前學(xué)到的通用知識,導(dǎo)致整體性能下降。

誤解SFT的作用

  • 激發(fā)能力 vs. 灌注知識:SFT的核心作用是激發(fā)模型的潛力,而不是直接“灌注”領(lǐng)域知識。預(yù)訓(xùn)練模型已經(jīng)具備了強(qiáng)大的語言理解和生成能力,SFT的目的是通過少量標(biāo)注數(shù)據(jù)來引導(dǎo)模型更好地適應(yīng)特定任務(wù),而不是讓模型從頭學(xué)習(xí)新的知識。
  • 如果錯誤地將SFT當(dāng)作一種“灌注知識”的手段,可能會對模型進(jìn)行過度的調(diào)整,從而破壞其原有的通用能力。例如,如果用少量的、特定領(lǐng)域的數(shù)據(jù)對模型進(jìn)行微調(diào),模型可能會變得過于專注于這些特定數(shù)據(jù),而失去了在其他任務(wù)上的泛化能力。

指令微調(diào)的真正作用

  • 指令微調(diào)的優(yōu)勢:指令微調(diào)(Instruction Fine-Tuning)是SFT的一種特殊形式,其核心目的是通過少量的指令數(shù)據(jù)來增強(qiáng)模型對任務(wù)的理解能力。它讓模型學(xué)會如何根據(jù)指令來完成任務(wù),而不是直接灌輸特定的知識。
  • 泛化能力的提升:指令微調(diào)后,大語言模型展現(xiàn)出卓越的泛化能力,能夠更好地適應(yīng)未見過的任務(wù),甚至在多語言場景下也能有不錯的表現(xiàn)。這是因?yàn)橹噶钗⒄{(diào)幫助模型學(xué)會了如何根據(jù)指令來調(diào)整自己的行為,而不是依賴于具體的領(lǐng)域知識。
  • 如果SFT偏離了這一目標(biāo),可能會導(dǎo)致模型在特定任務(wù)上表現(xiàn)較好,但在其他任務(wù)上表現(xiàn)變差,從而給人一種“變傻”的感覺。

2、如何降低這種現(xiàn)象

SFT數(shù)據(jù)比較多或者epoch比較大時,可能會導(dǎo)致SFT后大模型的通用能力下降,導(dǎo)致災(zāi)難性遺忘,這要根據(jù)實(shí)際場景判斷,如果只關(guān)注特殊領(lǐng)域的性能,通用能力下降也不需要過度關(guān)注,如果想要不失去通用的生成能力,可以考慮以下幾點(diǎn):

  • 多任務(wù)微調(diào):如果希望模型保持多任務(wù)泛化能力,可以一次性對多個任務(wù)執(zhí)行微調(diào)。良好的多任務(wù)微調(diào)可能需要包含許多任務(wù)的50-100,000個示例。
  • 考慮PEFT的方法:也就是保留了原始LLM的權(quán)重,不采用全參數(shù)微調(diào)的方法。通過訓(xùn)練少量特定于任務(wù)的適配器層和參數(shù)。PEFT對災(zāi)難性遺忘表現(xiàn)出更大的魯棒性,因?yàn)榇蠖鄶?shù)預(yù)訓(xùn)練的權(quán)重保持不變。
  • 數(shù)據(jù)配比:在SFT數(shù)據(jù)中,增加一些通用生成的數(shù)據(jù),避免SFT過度學(xué)習(xí)單一訓(xùn)練集內(nèi)容。


責(zé)任編輯:龐桂玉 來源: 小白學(xué)AI算法
相關(guān)推薦

2025-06-06 04:10:00

LLM人工標(biāo)注RL

2013-08-01 10:48:08

UI設(shè)計App

2024-10-12 18:16:27

2024-01-16 17:23:30

2023-08-09 11:11:46

數(shù)據(jù)中心噪音服務(wù)器

2015-11-06 16:11:43

流量4G

2015-06-10 10:50:29

程序員感覺到累

2021-01-20 12:44:22

JAVA編程語言軟件

2021-01-20 12:43:07

編程語言Java

2024-08-06 08:16:05

2025-03-25 10:27:14

SFT 指令微調(diào)

2024-10-14 16:40:59

2024-05-07 06:36:59

2024-03-27 07:44:30

Redis多線程Java

2015-07-10 09:28:09

事務(wù)性能

2022-07-06 08:00:00

數(shù)據(jù)倉庫SQLDoris

2019-03-17 16:18:39

影子物聯(lián)網(wǎng)物聯(lián)網(wǎng)IOT

2014-09-10 14:34:03

iPhone 6

2021-01-04 11:26:25

5G運(yùn)營商移動通信

2023-05-12 08:13:46

C/C++web框架
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 久久久久久久久久久久久久久久久久久久 | 国产乱码精品1区2区3区 | 99精品欧美一区二区三区综合在线 | 欧美日韩亚洲视频 | 国产高清在线视频 | 亚洲精品国产第一综合99久久 | 91在线看片| 成人精品免费 | 天堂在线www | 欧美精品一区二区三区在线 | 国产精品区二区三区日本 | 日本午夜一区二区三区 | 97国产一区二区精品久久呦 | 成人欧美一区二区三区黑人孕妇 | 欧美一级久久久猛烈a大片 日韩av免费在线观看 | 久草福利 | 高清亚洲 | 国产电影一区二区 | 国产欧美精品一区二区色综合朱莉 | 日韩免费在线观看视频 | 精品99爱视频在线观看 | 久久99久久 | 午夜精品久久久久久久星辰影院 | 欧美一区二区三区大片 | 五月天国产在线 | 亚洲性视频 | 国产精品日韩一区 | 国产精品视频yy9299一区 | 久久久久久免费免费 | 麻豆一区一区三区四区 | 亚洲一区久久 | 成人精品一区亚洲午夜久久久 | 成人在线中文字幕 | 久久一区二区免费视频 | 国产精品久久久免费 | 午夜电影合集 | 日本福利一区 | 日韩一区二区三区视频 | 成人二区| 精品伊人久久 | 亚洲人免费视频 |