成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一行Python命令搞定前期數據探索性分析

開發 后端
每當我們手上出現一份新的數據時,我們都需要事先通過人為地觀察、字段釋義等方式預先對數據進行熟悉與理解。在清洗、處理完數據之后才會開始真正的 EDA 過程。

 [[338350]]

對于每個從事和數據科學有關的人來說,前期的數據清洗和探索一定是個花費時間的工作。毫不夸張的說,80%的時間我們都花在了前期的數據工作中,包括清洗、處理、EDA(Exploratory Data Analysis,探索性數據分析)等。前期的工作不僅關乎數據的質量,也關乎最終模型預測效果的好壞。

每當我們手上出現一份新的數據時,我們都需要事先通過人為地觀察、字段釋義等方式預先對數據進行熟悉與理解。在清洗、處理完數據之后才會開始真正的 EDA 過程。

這個過程最通用的操作無非就是對現有的數據做基本性的統計、描述,包括平均值、方差、最大值與最小值、頻數、分位數、分布等。實際上往往都是比較固定且機械的。

在 R 語言中 skimr 包提供了豐富的數據探索性統計信息,比 Pandas 中的 describe() 基本統計信息更為豐富一些。

01-skmir

但在 Python 社區中,我們同樣也可以實現 skmir 的功能,甚至比 skmir 有過之而無不及。那就是使用 pandas-profiling 庫來幫助我們搞定前期的數據探索工作。

快速使用

通過 pip install pandas-profiling 之后我們就可以直接導入并使用了。我們只需要通過其一行核心代碼 ProfileReport(df, **kwargs) 即可實現: 

  1. import pandas as pd  
  2. import seaborn as sns  
  3. from pandas_profiling import ProfileReport  
  4. titanic = sns.load_dataset("Titanic")  
  5. ProfileReport(titanic, title = "The EDA of Titanic Dataset"

如果我們是在 Jupyter Notebook 中使用,則會在 Jupyter Notebook 中渲染最后直接輸出到單元格中。

02-profile

pandas-profiling 庫也擴展了 DataFrame 對象方法,這意味著我們也可以通過像調用方法一樣使用 DataFrame.profile_report() 來實現和上述一樣的效果。

無論使用哪種方式,最后都是生成一個 ProfileReport 對象;如果要進一步貼合 Jupyter Notebook,可以直接調用 to_widgets() 和 to_notebook_iframe() 來分別生成掛架或對應的組件,在展示效果上會更加美觀,而不是在輸出欄進行展示。

03-widgets

如果不在 Jupyter Notebook 中直接使用,而是使用其他 IDE,那么我們可以通過 to_file() 方法來直接將報告輸出,需要注意的是最后保存的文件名需要加上擴展名 .html。

另外,Pandas-profiling 還和多個框架、云上平臺等進行了集成,能夠讓我們方便的進行調用,詳情見官網(https://pandas-profiling.github.io/pandas-profiling/docs/master/rtd/pages/integrations.html)。

進一步定制報告信息

雖然生成的探索性報告基本上已經能滿足我們了解數據的簡單需求,但是當中輸出的信息也有些不足或是冗余。好在 pandas-profiling 也給我們提供了自己定制的可能。這些定制的配置最終會寫入到 yaml 文件中。

在官方文檔中列出了幾個我們能夠進一步調整的部分,分別對應了報告 Tab 欄的各部分標簽:

  •  vars:主要用于調整數據中字段或變量在報告中的呈現的統計指標
  •  missing_diagrams:主要涉及到關于缺失值字段的可視化展示
  •  correlations:顧名思義即調整有關各字段或變量之間相關關系的部分,包括是否計算相關系數、以及相關的閾值等
  •  interactions:主要涉及兩兩字段或變量之前的相關關系圖呈現
  •  samples:分別對應了 Pandas 中 head() 和 tail() 方法,即預覽前后多少條數據

這些部分還有許多可以指定的參數,感興趣的朋友可以直接參考官方文檔(https://pandas-profiling.github.io/pandas-profiling/docs/master/rtd/pages/advanced_usage.html),本文就不多加贅述了。

于是我們可以直接在代碼中手動寫入并進行調整,就像這樣: 

  1. profile_config = {  
  2.     "progress_bar": False,   
  3.     "sort": "ascending",  
  4.     "vars": {  
  5.         "num": {"chi_squared_threshold": 0.95},  
  6.         "cat": {"n_obs": 10}  
  7.     },   
  8.     "missing_diagrams": {  
  9.         'heatmap': False,  
  10.         'dendrogram': False,  
  11.     }  
  12.  
  13. profile = titanic.profile_report(**profile_config)  
  14. profile.to_file("titanic-EDA-report.html") 

將所有配置的信息寫在一個字典變量中,再通過 **variable 的形式將鍵值對進行解包使其能夠根據鍵來對應到相應的參數中。

除了代碼中的配置寫法外,如果你稍微了解一點 yaml 配置文件的寫法,那么我們也無需在代碼中逐個寫入,而是可以通過在 yaml 文件中修改。修改的不僅官方文檔中所列出的配置選項,還能修改未列出的參數。由于配置文件過長,這里我只放出基于官方默認配置文件 config_default.yaml 自己做出修改的部分: 

  1. # profile_config.yml  
  2. vars:  
  3.     num:  
  4.         quantiles:  
  5.               - 0.25  
  6.               - 0.5  
  7.               - 0.75  
  8.         skewness_threshold: 10  
  9.         low_categorical_threshold: 5  
  10.         chi_squared_threshold: 0.95  
  11.     cat:  
  12.         length: True  
  13.         unicode: True  
  14.         cardinality_threshold: 50  
  15.         n_obs: 5  
  16.         chi_squared_threshold: 0.95  
  17.         coerce_str_to_date: False  
  18.     bool:  
  19.         n_obs: 3 
  20.      file:  
  21.         active: False  
  22.     image:  
  23.         active: False  
  24.         exif: True  
  25.         hash: True  
  26. sort: "desceding" 

修改完 yaml 文件之后,我們只需在生成報告時通過 config_file 參數指定配置文件所在的路徑即可,就像這樣: 

  1. df.profile_report(config_file = "你的文件路徑.yml"

通過將配置文件與核心代碼相分離,以提高我們代碼的簡潔性與可讀性。

最后

pandas-profiling 庫為我們提供了一種方便、快捷的數據探索方式,提供了比基本統計信息更為豐富的一些信息(如缺失值相關圖、相關關系圖等),能夠為我們前期的數據探索工作節省出大量的時間。

不過由于 pandas-profiling 生成的報告維度相對來說比較固定和模板化,所以對于想讓報告更加豐富的朋友來說你可能需要自己再去做一些額外的工作了;同時,需要注意的是,pandas-profiling 比較適合在中小數據集中使用。隨著數據量的增加,報告渲染的速度會大幅度變慢且生成報告會耗時更多。

如果你仍有對大數據集進行 EDA 的需要,那么像官方文檔說的那樣你最好是通過抽樣或者采樣的方式來在不影響數據分布的情況下減少樣本量。官方也有表示會在以后的版本中使用 modin、spark 和 dask 等高性能的庫或框架作為可擴展的后端,到那時也許生成大數據集的 EDA 報告時可能就不是問題了。 

 

責任編輯:龐桂玉 來源: Python中文社區
相關推薦

2020-05-13 11:32:28

數據分析數值分析

2020-10-28 18:28:12

Pandas數據分析GUI

2022-11-11 11:35:14

2012-09-04 09:20:26

測試軟件測試探索測試

2024-07-30 12:10:22

2024-06-12 11:57:51

2023-12-22 09:14:48

EDA數據分析探索性數據分析

2024-05-21 13:33:49

2016-10-11 15:32:26

探索性大數據

2022-02-24 10:40:14

Python代碼

2023-05-11 13:39:39

EDA數據分析

2023-11-30 07:23:53

數據分析EDA

2017-04-25 18:35:47

硅谷數據科學家數據分析

2021-04-28 16:00:55

數據分析人工智能機器學習

2024-10-23 09:00:00

數據分析Pandas

2023-11-10 09:41:44

Python代碼

2016-08-27 16:16:40

大數據

2022-07-12 09:02:36

探索性測試測試

2022-05-13 09:36:06

Python水印命令

2019-01-28 17:42:33

Python數據預處理數據標準化
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日本韩国欧美在线观看 | 在线观看亚洲专区 | 午夜免费在线电影 | 国产成人午夜电影网 | av国产精品 | av资源中文在线天堂 | 国产精品国产a | 男人天堂免费在线 | 亚洲国产一区二区在线 | 老牛嫩草一区二区三区av | 日韩一区二区在线播放 | 亚洲综合婷婷 | 欧美2区| www国产亚洲精品久久网站 | 中文字幕在线一区二区三区 | 欧美精品一区在线 | 成人在线免费 | 日韩欧美国产精品一区 | 91成人精品 | 国产精品久久久久无码av | 夜夜爽夜夜操 | 在线观看视频亚洲 | 黄色在线观看 | 99精品电影 | 欧美aⅴ在线观看 | 日韩一区中文字幕 | 91精品国产综合久久久密闭 | 男女污污网站 | www国产成人免费观看视频,深夜成人网 | 日韩精品成人网 | 一区精品国产欧美在线 | av在线播放网 | 日韩网站在线观看 | 一级欧美 | 婷婷久| 国产精品久久久久久久久久久新郎 | 久久精品色欧美aⅴ一区二区 | 91久久久久久 | 高清国产午夜精品久久久久久 | 亚洲精品一区二区三区在线 | 久久久久国产一区二区三区 |