成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ICML 2025 | 如何在合成文本數據時避免模型崩潰?

人工智能 新聞
最近在?ICML 2025?會議上,來自上交大等研究機構的研究團隊系統性地剖析了這一問題,并提出了一種創新的數據生成策略,Token-Level Editing,旨在有效避免模型崩潰。

隨著生成式人工智能技術的飛速發展,合成數據正日益成為大模型訓練的重要組成部分。未來的 GPT 系列語言模型不可避免地將依賴于由人工數據和合成數據混合構成的大規模語料。

然而,這一趨勢也帶來了嚴峻挑戰:合成數據如果不加控制地使用,可能引發 “模型崩潰”(Model Collapse)問題。即便僅在一次訓練中混入較多比例的合成數據,也可能導致模型性能急劇下降,難以泛化到真實世界的數據中。

圖片

最近在 ICML 2025 會議上,來自上交大等研究機構的研究團隊系統性地剖析了這一問題,并提出了一種創新的數據生成策略,Token-Level Editing,旨在有效避免模型崩潰。

圖片


  • 論文標題:HOW TO SYNTHESIZE TEXT DATA WITHOUT MODEL COLLAPSE?
  • 論文鏈接:https://arxiv.org/pdf/2412.14689

不同于直接使用生成數據,該方法在真實數據上引入細粒度的 “微編輯” 操作,從而構建出結構更穩定、泛化性更強的 “半合成” 數據,有效規避了模型崩潰風險。

圖片

非迭代式模型崩潰現象識別

為了揭示合成數據對語言模型訓練的影響,研究團隊系統分析了不同合成比例下的模型訓練行為。實驗顯示,即使只進行一次預訓練,在數據中混入高比例的合成數據,也會顯著導致性能下降。這種現象被稱為非迭代式模型崩潰(Non-iterative Collapse),并在多個語言理解任務上得到了驗證。

圖片

通過進一步統計分析,研究發現,合成數據相較于人工數據存在兩類結構性缺陷:

  • 分布覆蓋收窄:缺乏低頻與長尾樣本,難以體現語言的多樣性。
  • 特征過度集中:n-gram 等語言特征分布密度過高,易導致模型過擬合。


圖片

Token-Level Editing

以編輯替代純生成

更精細、更高質量的數據生成方式

為了解決上述問題,作者團隊提出了一種 Token-Level Editing 方法不依賴生成整段文本,而是在訓練數據中僅針對模型 “過度自信” 的 token 進行替換,定義如下編輯規則:

圖片

其中,圖片 是模型對 圖片 的條件概率估計,p 是編輯閾值,圖片 是從先驗分布中重新采樣的新 token。這一過程保留了原始數據的長尾結構,僅對 “重復高置信度區域” 進行微調。

理論結果

測試誤差有限上界,避免模型崩潰

作者進一步構建了線性回歸分析框架,并證明 Token-Level Editing 過程的測試誤差存在固定上界:

圖片

相比模型崩潰中的誤差線性上升,這里誤差被嚴格約束,不隨迭代輪次增長。其關鍵原理在于:

每輪編輯操作只對一小部分樣本進行調整,模型始終保持對真實數據分布的覆蓋,避免了分布轉移和特征過度集中。

進一步地,如果編輯矩陣 M_n 的影響強度遞減(滿足 圖片),則最終誤差上界進一步優化為:

圖片

該理論說明,即使在多輪訓練中,Token-Level Editing 依然能夠從數學上阻止誤差的無界增長,實現 “理論上不崩潰” 的數據增強路徑。

實驗結果

從預訓練到微調全面驗證方法有效性

圖片

為全面驗證 Token-Level Editing 的有效性,研究團隊在語言模型訓練的三個關鍵階段進行了系統實驗:

  • 預訓練階段(Pre-training):在通用任務如 PIQA、BoolQ、Winogrande 等 benchmark 上,模型在引入編輯數據后表現持續優于純合成數據方案。例如在 OLMo-1B 上,整體任務平均分提升了 +0.36 個百分點。
  • 持續預訓練階段(Continual Pre-training):在生物醫藥、金融、數學等專業任務中,Token-Level Editing 帶來了跨域的泛化提升。例如在 PubMedQA 任務中,準確率提升高達 +13.6%。
  • 監督微調階段(Supervised Fine-tuning):在指令理解與代碼推理等復雜任務中,編輯數據同樣展現了對多樣語言指令的強魯棒性。以 LLaMA-3 為例,平均提升 +0.4~0.5%,且在多個任務上保持一致性優勢。

此外,為驗證方法的穩健性,研究還進行了多輪消融實驗,包括:

  • 編輯閾值 p 的變化范圍;
  • 多種采樣策略(Top-k、Top-p、拒絕采樣);
  • 不同 token 置信度分布下的替換比例。

結果顯示:在不增加訓練數據規模的前提下,該方法依然具備良好可控性與可遷移性,具備強大的實際落地潛力。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2020-11-06 17:42:02

Python開發工具

2021-02-22 11:44:43

機器學習數據泄露學習

2011-08-22 09:44:02

云服務云計算宕機

2011-04-08 14:45:08

文本數據Oracle

2017-08-18 09:05:50

2025-06-30 08:36:00

AI模型強化學習

2024-10-14 09:25:00

2021-03-28 08:57:57

Python 文本數據

2025-05-19 08:35:00

2025-05-28 11:42:14

模型框架AI

2019-01-04 15:39:50

2022-11-23 15:44:49

2022-12-04 23:54:39

2023-02-08 07:44:56

Pandas數據分析

2014-10-15 10:01:12

2025-05-16 08:44:01

2022-09-20 14:46:17

PostgreSQL存儲工具

2025-07-04 08:53:00

2025-05-21 08:47:00

2023-11-09 09:00:00

OpenAI人工智能Whisper
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美成人综合 | 成人免费在线 | 婷婷久久网 | 欧美亚洲成人网 | 草在线| 毛片.com| 成人精品视频在线 | 亚洲精品在线国产 | 一级欧美视频 | zzzwww在线看片免费 | 亚洲精品久久久9婷婷中文字幕 | 国产精品a久久久久 | 国产精品毛片 | 中文字幕精品一区久久久久 | 中文字幕一区二区在线观看 | 人人种亚洲 | 91精品久久久久久久久久 | 精品国产免费一区二区三区五区 | 国产色在线 | 毛片区| 日韩av在线中文字幕 | 精品国产一区二区三区久久久蜜月 | 久久国产欧美日韩精品 | 97视频免费 | 99久久国产综合精品麻豆 | 欧美激情 亚洲 | 色综合视频 | 91视频在线看 | 欧美色综合一区二区三区 | 久久久一二三 | 激情五月激情综合网 | 国产色 | www.黄色在线观看 | 国产真实精品久久二三区 | 成人免费视频 | www.4虎影院 国产999精品久久久影片官网 | 亚洲h视频| 免费看日韩视频 | www.国产一区 | 天天射色综合 | jizz在线免费观看 |