成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數據清理中存在的問題及對策

開發 前端
數據清理是數據預處理非常關鍵的一步。為了清理數據,我們必須要知道可能存在的問題,才能針對相應的問題設計相應的方法。

[[422454]]

本文轉載自微信公眾號「數倉寶貝庫」,作者趙志強 等。轉載本文請聯系數倉寶貝庫公眾號。

現實世界中的數據量越來越大,也越來越容易受到噪聲、缺失值和不一致數據等的影響。數據庫太大,如若有不同的來源,那么臟數據問題一定會存在,這是不可避免的。為了使數據中的各種問題對我們的建模影響最小化,需要對數據進行預處理。

在實際操作中,數據預處理通常分為兩大步,一是數據清洗,二是數據的基本分析。這兩步并不一定是按先后順序進行的,通常也會相互影響。比如,有的錯誤數據(不可能出現的極值),必須通過基本的統計分析才能發現。

有一種說法,數據的預處理會占據絕大部分的工作量,有的甚至會達到所有工作量的80%,建模和算法真正的工作量其實只有20%。這個結論在互聯網或者傳統IT領域,特別是面對大量的非結構化數據時,確實是事實。

所以第一步,也是非常關鍵的一步,就是數據清理。為了清理數據,我們必須要知道可能存在的問題,才能針對相應的問題設計相應的方法。

原始數據可能存在如下三種問題。

  • 數據缺失:數據缺失的問題在高頻數據里面特別常見。而且由于很多投資者是自己實時下載的數據,因此即使之后發現也很難彌補。
  • 噪聲或者離群點:由于系統或者人為的失誤,導致數據出現明顯的錯誤,比如某支股票的價格本應在12元左右,結果突然出現了100元的價格數據。
  • 數據不一致:很多投資者,為了確保數據正確性,會使用多個數據源進行交叉驗證,這時往往會出現數據不一致的問題。即使是同一個數據源,有時候也會出現數據不一致的問題。比如期貨行情數據,Wind、文華、MC的數據都有可能出現不一致的問題,數據頻率越高,不一致的可能性就越大。

01缺失值

針對缺失值,實際操作中,需要兩套程序:一套程序是檢查缺失值,一套程序是填補缺失值。一般流程是,先檢查缺失值,研究缺失值,選擇填補方法,進行填補,然后再次檢查。這樣迭代循環,直到將數據缺失控制在可接受范圍內。

缺失值,也有多種類型,一種是“正常缺失”,比如股票在某一天停牌,那么這一天的交易數據就是沒有的。一種是“非正常缺失”,比如明明有交易,但就是沒有交易數據。

舉個例子,在下載5分鐘數據的時候,發現20160104的數據都有缺失,但Wind上的數據又顯示當天的交易情況為“交易”。實際情況是當天發生了“熔斷”,因為是新的機制,所以Wind還沒來得及準備一個字段用于表示當天的交易狀態。這種情況就屬于數據的“正常缺失”,只是交易狀態與數據不一致而已。Wind的交易狀態字段如下圖所示。

在檢查缺失值時,這兩種缺失需要分辨清楚,因為不同的缺失值,處理方法也不一樣。檢查好缺失值之后,就需要進行處理了。先處理“非正常缺失”,一般流程具體如下。

1)檢查提取數據是否出錯。有時候,數據源本身是完整的,然而自己在提取數據的時候出現了問題。比如,筆者在使用市場上某家的金融高頻數據的時候,下載5分鐘數據計算高頻波動率,發現存在很多缺失的數據。經該公司后臺查詢后發現,他們的數據庫其實是有這個數據的,這說明是在下載數據的過程中出現了問題。

2)從其他數據源提取。有的數據源本身就缺失了數據,對于這種情況可以再尋找另外一個數據源進行補充。

算法填充。有的時候,我們沒有辦法使用多數據源進行補充,而且有的數據本身就有空缺,無法補充。這個時候,可以退而求其次,使用算法填充。

常用算法有向前填充和向后填充兩種。所謂向前填充是指使用之前最近的一個數據對空值進行填充。向后填充是指使用之后最近的一個數據對空值進行填充。

Pandas提供了一個函數用于數據填充。示例代碼如下:

  1. df = pd.DataFrame([[np.nan, 2, np.nan, 0], 
  2.  
  3. ...                    [3, 4, np.nan, 1], 
  4.  
  5. ...                    [np.nan, np.nan, np.nan, 5], 
  6.  
  7. ...                    [np.nan, 3, np.nan, 4]], 
  8.  
  9. ...                    columns=list('ABCD')) 
  10.  
  11. df 
  12.  
  13.      A    B   C  D 
  14.  
  15. 0  NaN  2.0 NaN  0 
  16.  
  17. 1  3.0  4.0 NaN  1 
  18.  
  19. 2  NaN  NaN NaN  5 

向前填充的示例代碼如下:

  1. df.fillna(method='ffill'
  2.  
  3.     A   B   C   D 
  4.  
  5. 0   NaN 2.0 NaN 0 
  6.  
  7. 1   3.0 4.0 NaN 1 
  8.  
  9. 2   3.0 4.0 NaN 5 
  10.  
  11. 3   3.0 3.0 NaN 4 

除了向前填充,該函數也支持向后填充,不過,要使用特定的值進行填充。

有的數據發生了缺失,無法使用簡單的向前填充或向后填充來處理。比如,使用Wind下載a股復權數據,會發現交易狀態trade_status在1999年之前都是空值,雖然實際上是有交易的,但如果直接按照trade_status=‘交易’這個條件來篩選,將會把1999年之前的所有數據都去掉。這個時候就需要根據邏輯設計一個算法來進行填充,比如將成交量volume>0的都填充為“交易”。

02 噪聲或者離群點

噪聲或離群點的問題一般有兩種情況,一種是數據錯誤導致的,比如本來應該是10.0的數據,錯誤顯示為10000;另一種則是其本身是真實數據,但就是離群點,比如金融危機中的收益率或者波動率,可能就非常極端,成為離群點。

一般的處理步驟具體如下。

1)通過一定的算法識別出離群點。一般是使用該數據標準差的多少倍來判斷。比如正太分布中,正負標準差3倍以上的概率是99.7%,可以將其認定為可疑離群點。

2)人工判斷離群點是屬于錯誤數據導致的,還是正常的離群點。

3)對離群點進行處理。一般來說,錯誤的離群點需要更正或者刪除。正常的離群點則需要另外建模進行分析。

03數據不一致

為了確保數據的準確性,有時候需要使用多種數據源進行交叉驗證。比如,在研究港股的時候,對比了Wind和Bloomberg的后復權數據之后,發現兩者存在很大的差別,這就是數據不一致的問題,但我們并不能確定哪一個才是正確的,于是又加入了同花順和CSMAR的數據進行對比,發現后者與Wind的數據是一致的。所以可以確認是Bloomberg的問題,因而采用Wind的數據。

當然,在實際工作中,數據清理的問題要遠遠多于這里介紹的幾種,需要系統性地、仔細地去處理。

 

本書摘編自《Python量化投資:技術、模型與策略》,經出版方授權發布。

 

責任編輯:武曉燕 來源: 數倉寶貝庫
相關推薦

2016-11-01 15:42:17

醫療健康大數據數據標準 數據挖掘

2009-06-18 10:24:00

CDMA網絡優化

2018-11-14 14:18:26

APP網絡分析

2013-11-19 15:48:34

電商安全網購安全

2024-11-11 14:23:11

2023-10-18 14:14:59

數字化轉型

2018-12-11 13:46:54

2022-02-12 11:14:25

物聯網安全物聯網IOT

2012-11-28 13:37:27

.NET.NET社區

2020-10-19 09:34:04

C語言內存錯誤編程語言

2015-10-19 14:35:46

安全污染數據

2010-11-09 17:10:38

2015-03-17 21:01:12

2010-11-11 13:44:46

2009-03-03 13:12:14

2011-11-21 15:04:30

2012-05-21 13:35:35

應用流量

2021-03-29 11:51:07

緩存儲存數據

2017-12-04 10:56:47

MySQL問題分析解決對策

2009-05-14 09:50:49

移動IPv6數據傳輸
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产中文| 日韩欧美一级 | 在线伊人网| 精品一区二区三区电影 | 成人精品一区 | 亚洲国产成人精品在线 | 婷婷在线视频 | 成人精品视频在线观看 | 美女一区二区在线观看 | 99精品99久久久久久宅男 | 91精品国产综合久久久久久首页 | 亚洲精品一区二区三区蜜桃久 | 激情综合五月天 | 视频一区二区三区四区五区 | 欧美一区二区三区在线免费观看 | 国产精品有限公司 | 欧美极品在线视频 | 精品一区二区久久久久久久网站 | 久久国产亚洲 | 久久久久久免费毛片精品 | 亚洲国产精品久久久 | 日日噜噜噜夜夜爽爽狠狠视频, | 亚洲精品国产第一综合99久久 | 九九热精品视频在线观看 | 老司机狠狠爱 | 国产日韩欧美 | 亚洲www | 亚洲一区自拍 | 老司机精品福利视频 | 影音先锋亚洲资源 | 精品欧美乱码久久久久久 | 91综合网 | 日韩在线观看 | 精品国产青草久久久久96 | 亚洲精品av在线 | 老外几下就让我高潮了 | 精品伊人久久 | av中文字幕在线 | 99久久免费观看 | 一区二区三区在线观看免费视频 | 午夜精品视频在线观看 |