使用深度學(xué)習(xí)模型生成合成數(shù)據(jù)
譯文譯者 | 布加迪
審校 | 孫淑娟
不可否認(rèn),21世紀(jì)最大的資源是數(shù)據(jù)——數(shù)據(jù)通常被稱為第四代工業(yè);只有公司采用這種模式收集數(shù)據(jù),并利用數(shù)據(jù)做出明智決策的公司,才會(huì)蓬勃發(fā)展。但是收集數(shù)據(jù)和進(jìn)行實(shí)驗(yàn)并不像聽起來那么簡單,大多數(shù)中等公司沒有存儲(chǔ)可擴(kuò)展數(shù)據(jù)的基礎(chǔ)設(shè)施或資源。在大多數(shù)情況下,當(dāng)您必須在沒有可擴(kuò)展數(shù)據(jù)的情況下測試機(jī)器學(xué)習(xí)/人工智能模型時(shí),我們必須使用機(jī)器學(xué)習(xí)生成合成數(shù)據(jù)。在一些用例中,公司之所以生成合成數(shù)據(jù),是由于它希望對(duì)數(shù)據(jù)保密。
使用合成數(shù)據(jù)倉庫生成合成數(shù)據(jù)
合成數(shù)據(jù)倉庫(SDV)是一個(gè)生成合成數(shù)據(jù)的生態(tài)系統(tǒng),允許用戶通過了解單表、多表、文本和時(shí)間序列數(shù)據(jù)集,輕松創(chuàng)建合成數(shù)據(jù)。SDV使用概率圖形模型和深度學(xué)習(xí)技術(shù)來生成合成數(shù)據(jù)。
在我們的場景中,我們將使用高斯連接函數(shù)(Gaussian Coupla)來生成合成數(shù)據(jù)——高斯連接函數(shù)是一種方法,我們通過使用協(xié)方差矩陣來生成多變量隨機(jī)變量。
下面是安裝和導(dǎo)入高斯連接函數(shù)實(shí)例的代碼:
為了使實(shí)例擬合高斯連接函數(shù),不妨將通用數(shù)據(jù)集導(dǎo)入到筆記本(notebook),我們不妨從kaggle下載保險(xiǎn)索賠數(shù)據(jù)集。該數(shù)據(jù)集具有分類、連續(xù)和自由的文本數(shù)據(jù),因此我們可以看到SDV庫的有效性/范圍。
我們可以從上圖中看到,該保險(xiǎn)索賠數(shù)據(jù)的數(shù)據(jù)類型有object、int64和float64這幾種。
將數(shù)據(jù)集擬合到高斯連接函數(shù)實(shí)例中,生成10萬個(gè)樣本:
不妨為生成的合成變量檢查數(shù)據(jù)類型:
只需觀察原始數(shù)據(jù)和生成的合成數(shù)據(jù)之間的數(shù)據(jù)類型;它們完全匹配,這表明SDV運(yùn)行起來有多高效。
不妨更進(jìn)一步,使用table_evaluator庫來比較真實(shí)數(shù)據(jù)集和合成數(shù)據(jù)集:
真實(shí)數(shù)據(jù)和虛假數(shù)據(jù)的對(duì)數(shù)均值和標(biāo)準(zhǔn)偏差比較
真實(shí)數(shù)據(jù)和虛假數(shù)據(jù)變量比較的示意圖:
我已經(jīng)加入了一些選定變量的視覺元素——為44個(gè)變量生成的完整報(bào)告相當(dāng)全面,這里僅顯示部分。
我們從上面圖表中可以看到SDV生成分類和規(guī)范化連續(xù)變量的功能有多強(qiáng)大。
咱們還是編程吧,生成合成數(shù)據(jù),并使用它訓(xùn)練機(jī)器學(xué)習(xí)模型及更多!
原文鏈接:??https://omkargawade.medium.com/generating-synthetic-data-using-deep-learning-model-5066aed80e30?