SQL Server 2008數據庫中正確的對驗證數據挖掘模型
此文章主要向大家講述的是如何正確在SQL Server 2008數據庫中正確的對驗證數據挖掘模型, 微軟公司的SQL Server 2008數據庫主要是將整個數據挖掘流程定義為挖掘結構、挖掘模型、挖掘模型查看器。
挖掘準確性圖表和挖掘模型預測五個步驟,本文將討論如何在SQL Server 2008中驗證已經建好的數據挖掘模型。
為什么要對數據挖
微軟SQL Server 2008將整個數據挖掘流程定義為挖掘結構、挖掘模型、挖掘模型查看器、挖掘準確性圖表和挖掘模型預測五個步驟,本文將討論如何在SQL Server 2008中驗證已經建好的數據挖掘模型。
1. 為什么要對數據挖掘模型進行驗證
當我們建立好一個數據挖掘模型時,并不能保證所建模型能夠直接的解決商業問題,我們要使用多種方法來評估和檢驗數據挖掘模型的質量和特征。我們可以將將數據分為定型集和測試集來評估數據挖掘模型。通過將數據集分區為定型集和測試集時,定型集是取大多數數據,小部分數據用于測試。
通過對全部數據的整體數據抽樣,我們要保證定型集和測試集的相似。通過使用相似的數據來進行定型和測試,可以更好得驗證數據挖掘模型。
驗證數據挖掘模型主要是從準確性、可靠性和有用性這三個方面入手。準確性是數據挖掘模型與所提供數據中的屬性的結果相關聯程度的度量值。可靠性是評估數據挖掘模型處理不同數據集的方法。有用性包括了模型是否提供了有用信息的各種指標,比如說有些數據挖掘模型在數據上是成功的,但是實際上沒有意義。
在SQL Server 2008中的挖掘模型驗證方法可以用繪制模型準確性圖表,挖掘模型的交叉驗證等方法來進行模型驗證。
2. 挖掘模型的準確性圖表
SQL Server 2008中的挖掘模型的準確性圖表主要有提升圖、利潤圖、散點圖、分類矩陣和交叉驗證報表。
提升圖比較每個模型的預測的準確性,可配置為顯示通用預測的準確性或特定值預測的準確性。提升圖是用來顯示挖掘模型所引起的提升變化的圖形表現形式。數據挖掘模型的結果都是介于隨機推測模型和精確無誤的預測模型之間的,與隨機模型相比,任何提高都可以視為提升。提升圖可以有效地估計例如客戶回復郵件這類模型的準確性效果。如圖1所示。
利潤圖是與提升圖包含相同信息的相關圖表類型,但利潤圖還顯示與使用每個模型相關聯的利潤預計增長。利潤圖中包含一條灰線豎線,用于標記目標總體的百分比。挖掘圖例會隨著灰色豎線的移動更新并顯示百分比值。利潤圖可以指示若要獲得***利潤,應確定預測為多少幾率的屬性,諸如此類的問題。如圖2所示。
如果模型包含可預測連續性的屬性,系統會自動顯示散點圖。所謂散點圖,就是通過圖形對照顯示模型中的實際值和預測值。X軸表示實際值,Y軸表示預測值,圖中間的一條直線表示在***預測的情況下,預測值和實際值完全匹配。散點圖通過將連續性的輸入屬性視為獨立變量,預測屬性視為依賴變量,圖形顯示了結果與輸出的緊密程度。如圖3所示。
在分類矩陣中,每個矩陣的行表示模型的預測值,而列則表示實際值。分類矩陣是通過將所有事例分揀到各類別中創建的。這些類別可以是“假正”、“真正”、“假負”和“真負”。通過對每個類別中的所有事例進行計數,并在矩陣中顯示總計。
通過對分類矩陣的查看,可以快速查看模型作出正確預測的頻率。分類矩陣主要用于評估模型所進行的預測是否有效,可以通過已知其預測值的數據集進行測試,我們一般使用在創建模型結構時設定的測試集做測試,通過對測試集得比對,可以快速確定模型預測預期值的次數。
3.交叉驗證
在創建了數據挖掘模型后,交叉驗證用來確定模型的有效性。通過交叉驗證,我們可以驗證挖掘模型的可靠性,評估該模型以及統計并標識***的模型。
我們通過交叉驗證可以了解挖掘模型對于整個數據集的可靠程度,交叉驗證可以將挖掘結構分區為交叉部分,并針對數據的每個交叉部分循環定型和測試模型。我們可以把數據劃分到其中的每個分區,每個分區將依次用作測試數據,而其余的數據用于為新模型定型。
然后系統會為每個模型生成一組標準準確性指標。通過比較為每個交叉部分生成的模型的指標,可以清楚地了解挖掘模型對于整個數據集的可靠程度。
以上的相關內容就是對在SQL Server 2008中驗證數據挖掘模型的介紹,望你能有所收獲。
【編輯推薦】
- 批量修改SQL Server 2005表構架很簡單!
- 對SQL Server 2005 BI的描述
- SQL Server 日期操作全接觸,嘻嘻
- SQL Server 易混淆的一些數據類型有哪些?
- SQL Server數據庫正確獲取漢字字串的拼音聲母