成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

統(tǒng)計(jì)可控?cái)?shù)據(jù)合成!新框架突破大模型數(shù)據(jù)生成局限,麥吉爾大學(xué)團(tuán)隊(duì)推出LLMSynthor

人工智能 新聞
麥吉爾大學(xué)團(tuán)隊(duì)提出了新方法LLMSynthor——可以讓大模型變成結(jié)構(gòu)感知的數(shù)據(jù)模擬器,為隱私敏感、數(shù)據(jù)稀缺場(chǎng)景生成不泄密的高質(zhì)量替代數(shù)據(jù)。

現(xiàn)有的數(shù)據(jù)合成方法在合理性和分布一致性方面存在不足,且缺乏自動(dòng)適配不同數(shù)據(jù)的能力,擴(kuò)展性較差。

大語言模型受限于采樣效率和上下文窗口大小,難以直接合成大規(guī)模數(shù)據(jù)集。

如何用大模型生成結(jié)構(gòu)對(duì)齊、統(tǒng)計(jì)可信、語義合理的數(shù)據(jù),成為了亟待解決的問題。

為此,麥吉爾大學(xué)團(tuán)隊(duì)提出了新方法LLMSynthor——

通過這個(gè)方法,可以讓大模型變成結(jié)構(gòu)感知的數(shù)據(jù)模擬器,為隱私敏感、數(shù)據(jù)稀缺場(chǎng)景生成不泄密的高質(zhì)量替代數(shù)據(jù)。

圖片

LLMSynthor:讓LLM變成“結(jié)構(gòu)感知的生成器”

在人口、電商、出行等場(chǎng)景,數(shù)據(jù)敏感難共享,不同數(shù)據(jù)格式還需單獨(dú)設(shè)計(jì)模型,成本高、遷移差。

傳統(tǒng)方法如貝葉斯網(wǎng)絡(luò)、GAN等,要么難以建模高維依賴,要么泛化差且不穩(wěn)定,還常生成“9歲博士”這類統(tǒng)計(jì)合理但語義荒謬的樣本。

同樣,近期大模型也被用于數(shù)據(jù)生成,但存在采樣慢分布不可控上下文受限等問題,難以高效生成結(jié)構(gòu)完整的大規(guī)模數(shù)據(jù)集。

而LLMSynthor的解法是:讓LLM不直接生成數(shù)據(jù),而是變成“結(jié)構(gòu)感知的生成器”,通過統(tǒng)計(jì)對(duì)齊反饋不斷迭代優(yōu)化。

整體框架如下:

圖片

Step 1:結(jié)構(gòu)推理

生成可信數(shù)據(jù),關(guān)鍵是理解變量之間的依賴結(jié)構(gòu)。

傳統(tǒng)Copula模型雖能拆分變量分布與關(guān)系建模,但在高維、多語義場(chǎng)景下難以擴(kuò)展。

LLMSynthor的關(guān)鍵創(chuàng)新是:用大語言模型模擬Copula

LLM本身可視為一種現(xiàn)實(shí)世界聯(lián)合分布的高維先驗(yàn),其預(yù)訓(xùn)練過程中已經(jīng)內(nèi)化了人類行為、社會(huì)結(jié)構(gòu)的變量共現(xiàn)規(guī)律。

結(jié)合對(duì)統(tǒng)計(jì)摘要(如頻率、分布等)的理解,它能推斷變量間的高階關(guān)系,并利用語義信息挖掘隱藏依賴。

Step 2:統(tǒng)計(jì)對(duì)齊

LLMSynthor不直接比對(duì)原始數(shù)據(jù),而是通過統(tǒng)計(jì)摘要(如變量分布、聯(lián)合頻率)來衡量真實(shí)數(shù)據(jù)與合成數(shù)據(jù)的差距。

這樣,就既保留了結(jié)構(gòu)信息,又避免泄露個(gè)體數(shù)據(jù)。

(因?yàn)橹灰蕾嚱y(tǒng)計(jì)特征,即便輸入的是聚合的指標(biāo),也能生成結(jié)構(gòu)合理、語義一致的合成數(shù)據(jù),特別適合人口普查、問卷調(diào)查等隱私敏感場(chǎng)景。)

此外,LLMSynthor的對(duì)齊機(jī)制是可歸因的:不僅衡量“整體偏離”,還能定位具體偏差來自哪個(gè)變量或變量組合。

這種細(xì)粒度反饋能直接用于下一輪生成的結(jié)構(gòu)調(diào)整,實(shí)現(xiàn)逐步對(duì)齊。

Step 3:生成分布而不是樣本

傳統(tǒng)方法逐條生成樣本,效率低且難控分布。

LLMSynthor改為生成可采樣的分布規(guī)則(proposals),比如:“25歲女性、在一線城市、購(gòu)買美妝產(chǎn)品”,然后批量采樣,甚至可調(diào)用圖像等外部生成器擴(kuò)展至多模態(tài)任務(wù)。

proposal同時(shí)受統(tǒng)計(jì)反饋和LLM常識(shí)引導(dǎo),可自然避免如“10歲博士”一類的荒謬變量組合。

這種方式不僅高效、結(jié)構(gòu)可信,還能通過“分布描述語言”來協(xié)調(diào)其他模型協(xié)同生成,實(shí)現(xiàn)跨模態(tài)、多源、多任務(wù)的數(shù)據(jù)合成與模擬

Step 4:迭代對(duì)齊

通過“結(jié)構(gòu)推理-統(tǒng)計(jì)比較-規(guī)則生成-新數(shù)據(jù)采樣”不斷循環(huán),模型最終會(huì)生成一組結(jié)構(gòu)上、統(tǒng)計(jì)上都高度接近真實(shí)數(shù)據(jù),且符合常理的合成數(shù)據(jù)集。

圖片

理論保障

除了經(jīng)驗(yàn)效果,LLMSynthor還具備理論收斂保障。

LLMSynthor團(tuán)隊(duì)提出局部結(jié)構(gòu)一致性定理(Local Structural Consistency):在合理的假設(shè)下,如果某個(gè)變量或變量組分布初始存在偏差,經(jīng)過有限次迭代可將誤差收斂至任意可控范圍。

圖片

這說明LLMSynthor不是“憑感覺靠近”,而是有數(shù)學(xué)保障地逐步收斂到真實(shí)數(shù)據(jù)結(jié)構(gòu)。

圖片

多場(chǎng)景實(shí)測(cè)

為了驗(yàn)證LLMSynthor的實(shí)用性和穩(wěn)定性,作者在三個(gè)具代表性的真實(shí)場(chǎng)景中進(jìn)行了實(shí)驗(yàn),包括電商交易、人口統(tǒng)計(jì)和城市出行。

電商交易生成

這是一個(gè)包含連續(xù)與離散變量的混合場(chǎng)景,變量關(guān)系復(fù)雜。

作者基于貝葉斯網(wǎng)絡(luò)構(gòu)建可控?cái)?shù)據(jù)集,設(shè)定明確結(jié)構(gòu),用于評(píng)估建模能力。

圖片圖片

結(jié)果顯示,LLMSynthor在邊緣與聯(lián)合分布誤差上均表現(xiàn)最優(yōu),準(zhǔn)確還原變量依賴。

圖片

進(jìn)一步的預(yù)測(cè)實(shí)驗(yàn)也顯示,其合成數(shù)據(jù)訓(xùn)練出的模型在真實(shí)數(shù)據(jù)上效果最佳,體現(xiàn)出強(qiáng)實(shí)際價(jià)值。

人口微觀合成

在人口數(shù)據(jù)包含家庭-個(gè)人嵌套結(jié)構(gòu),天然非結(jié)構(gòu)化。這類數(shù)據(jù)廣泛應(yīng)用于城市規(guī)劃、政策評(píng)估、資源配置等關(guān)鍵任務(wù)。LMSynthor可處理此類復(fù)雜結(jié)構(gòu),并在6類共16項(xiàng)政策指標(biāo)上(如老年貧困率),顯著優(yōu)于已有方法。

圖片圖片

城市出行模擬

出行數(shù)據(jù)包含時(shí)序、地理、行為等多種復(fù)雜類型,是交通仿真和應(yīng)急管理的基礎(chǔ)。

LLMSynthor基于多源數(shù)據(jù),成功生成符合城市節(jié)奏的模擬軌跡。更關(guān)鍵的是,它能響應(yīng)prompt控制生成。

比如輸入“晚上8點(diǎn)東京巨蛋有演唱會(huì)”,合成數(shù)據(jù)便展現(xiàn)出對(duì)應(yīng)時(shí)段的潮汐客流變化,展現(xiàn)出現(xiàn)實(shí)還原力和場(chǎng)景操控能力,適用于政策仿真與事件預(yù)演。

圖片圖片

大模型兼容情況

LLMSynthor生成效率高、無需訓(xùn)練,同時(shí)兼容多種大模型,換用如Qwen-2.5-7B等開源模型也能穩(wěn)定運(yùn)行,具備良好擴(kuò)展性與落地適配能力。

圖片

論文鏈接:https://arxiv.org/pdf/2505.14752項(xiàng)目地址:https://yihongt.github.io/llmsynthor_web/

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2021-12-30 10:39:23

機(jī)器學(xué)習(xí)人工智能神經(jīng)網(wǎng)絡(luò)

2024-11-07 15:10:00

2023-02-23 07:46:48

學(xué)習(xí)模型數(shù)據(jù)倉(cāng)庫

2024-10-21 13:20:00

視頻數(shù)據(jù)集

2021-10-20 10:51:57

AI 數(shù)據(jù)人工智能

2025-01-23 09:15:00

數(shù)據(jù)技術(shù)模型

2022-09-13 15:54:01

MITAI模型數(shù)據(jù)集

2024-10-15 15:30:00

大模型數(shù)據(jù)

2023-05-22 14:52:51

人工智能卡點(diǎn)

2016-11-29 12:22:03

2025-01-10 10:30:00

大模型統(tǒng)計(jì)評(píng)估

2024-09-27 14:00:00

大語言模型AI

2025-03-03 10:17:00

模型數(shù)據(jù)生成

2025-06-10 08:45:00

2020-02-25 17:30:12

谷歌Android開發(fā)者

2023-03-14 14:06:52

訓(xùn)練模型

2024-10-30 15:00:00

AI視頻模型

2024-08-19 08:45:00

開源模型

2023-07-27 13:58:19

2017-03-03 12:04:12

七麥 科技
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产一区91在线 | 欧美小视频在线观看 | 亚洲国产一区二区视频 | 久久成人国产 | 免费午夜视频 | 岛国av免费在线观看 | 操视频网站 | 欧美日韩亚洲三区 | 国产乱码精品1区2区3区 | 国产欧美精品一区二区三区 | 国产免费观看久久黄av片涩av | 97精品久久 | 日韩三级电影一区二区 | 久久99蜜桃综合影院免费观看 | 99热热99 | 午夜精品网站 | 国产精品色婷婷久久58 | 一级毛毛片 | 亚洲 中文 欧美 日韩 在线观看 | 嫩草91在线| 另类视频在线 | 成年人黄色一级毛片 | 成人综合视频在线 | 国产精品久久久久久久久久免费 | 久久久久国色av免费观看性色 | 久久久久久久久久久久久9999 | 中文字幕在线观看精品 | 81精品国产乱码久久久久久 | 精品一区二区三区在线观看国产 | 国产欧美精品一区二区 | 国产精品天堂 | 成人 在线 | 久久久精品一区二区三区 | 久草资源在线 | 一区二区三区四区在线视频 | 欧美伊人久久久久久久久影院 | 亚洲福利一区二区 | 亚洲不卡一 | 中文字幕视频三区 | wwwsihu| 日本成人免费网站 |