這5個Python庫太難搞！每位數據科學家都應該了解

作者：讀芯術 2020-08-11 06:51:58

本文將介紹五大難懂的Python庫，理解起來并不容易，但搞定它們你就能功力大增!

本文轉載自公眾號“讀芯術”(ID：AI_Discovery)。

Python之所以能成為世界上最受歡迎的編程語言之一，與其整體及其相關庫的生態系統密不可分，這些強大的庫讓Python保持著生命力和高效力。作為數據科學家免不了會使用一些Python庫用于項目和研究，除卻那些常見的庫，還有很多庫能夠增強你的數據科學研究能力。

本文將介紹五大難懂的Python庫，理解起來并不容易，但搞定它們你就能功力大增!

[[337112]]

1. Scrapy

每位數據科學家的項目都是從處理數據開始的，而互聯網就是最大、最豐富、最易訪問的數據庫。但可惜的是，除了通過pd.read_html函數來獲取數據時，一旦涉及從那些數據結構復雜的網站上抓取數據，數據科學家們大多都會毫無頭緒。

Web爬蟲常用于分析網站結構和存儲提取信息，但相較于重新構建網頁爬蟲，Scrapy使這個過程變得更加容易。

Scrapy用戶界面非常簡潔使用感極佳，但其最大優勢還得是效率高。Scrapy可以異步發送、調度和處理網站請求，也就是說：它在花時間處理和完成一個請求的同時，也可以發送另一個請求。Scrapy通過同時向一個網站發送多個請求的方法，使用非常快的爬行，以最高效的方式迭代網站內容。

除上述優點外，Scrapy還能讓數據科學家用不同的格式(如：JSON，CSV或XML)和不同的后端(如：FTP，S3或local)導出存檔數據。

[[337113]]

圖源：unsplash

2. Statsmodels

到底該采用何種統計建模方法?每位數據科學家都曾對此猶豫不決，但Statsmodels是其中必須得了解的一個選項，它能實現Sci-kit Learn等標準機器學習庫中沒有的重要算法(如：ANOVA和ARIMA)，而它最有價值之處在于其細節化處理和信息化應用。

例如，當數據科學家要用Statsmodels算一個普通最小二乘法時，他所需要的一切信息，不論是有用的度量標準，還是關于系數的詳細信息，Statsmodels都能提供。庫中實現的其他所有模型也是如此，這些是在Sci-kit learn中無法得到的。

OLSRegressionResults 
============================================================================== 
Dep. Variable: Lottery R-squared: 0.348 
Model: OLS Adj. R-squared: 0.333 
Method: LeastSquares F-statistic: 22.20 
Date: Fri, 21Feb2020 Prob (F-statistic): 1.90e-08 
Time: 13:59:15 Log-Likelihood: -379.82 
No. Observations: 86 AIC: 765.6 
DfResiduals: 83 BIC: 773.0 
DfModel: 2 
CovarianceType: nonrobust 
=================================================================================== 
coef std err t P>|t| [0.025 0.975] 
----------------------------------------------------------------------------------- 
Intercept 246.4341 35.233 6.995 0.000 176.358 316.510 
Literacy -0.4889 0.128 -3.832 0.000 -0.743 -0.235 
np.log(Pop1831) -31.3114 5.977 -5.239 0.000 -43.199 -19.424 
============================================================================== 
Omnibus: 3.713 Durbin-Watson: 2.019 
Prob(Omnibus): 0.156 Jarque-Bera (JB): 3.394 
Skew: -0.487 Prob(JB): 0.183 
Kurtosis: 3.003 Cond. No. 702. 
==============================================================================

對于數據科學家來說，掌握這些信息意義重大，但他們的問題是常常太過信任一個自己并不真正理解的模型。因為高維數據不夠直觀，所以在部署這些數據之前，數據科學家有必要深入了解數據與模型。如果盲目追求像準確度或均方誤差之類的性能指標，可能會造成嚴重的負面影響。

Statsmodels不僅具有極其詳細的統計建模，而且還能提供各種有用的數據特性和度量。例如，數據科學家們常會進行時序分解，它可以幫助他們更好地理解數據，以及分析何種轉換和算法更為合適，或者也可以將pinguoin用于一個不太復雜但非常精確的統計函數。

這5個Python庫太難搞！每位數據科學家都應該了解

圖源：Statsmodels

3. Pattern

一些成熟完善的網站用來檢索數據的方法可能更為具體，在這種情況下用Scrapy編寫Web爬蟲就有點“大材小用”了，而Pattern就是Python中更高級的Web數據挖掘和自然語言處理模塊。

Pattern不僅能無縫整合谷歌、推特和維基百科三者的數據，而且還能提供一個不太個性化的Web爬蟲和HTML DOM解析器。它采用了詞性標注、n-grams搜索、情感分析和WordNet。不論是聚類分析，還是分類處理，又或是網絡分析可視化，經Pattern預處理后的文本數據都可用于各種機器學習算法。

從數據檢索到預處理，再到建模和可視化，Pattern可以處理數據科學流程中的一切問題，而且它也能在不同的庫中快速傳輸數據。

這5個Python庫太難搞！每位數據科學家都應該了解

圖源：unsplash

4. Mlxtend

Mlxtend是一個任何數據科學項目都可以應用的庫。它可以說是Sci-kit learn庫的擴展，能自動優化常見的數據科學任務：

全自動提取與選擇特征。
擴展Sci-kit learn庫現有的數據轉換器，如中心化處理和事務編碼器。
大量的評估指標：包括偏差方差分解(即測量模型中的偏差和方差)、特征點檢測、McNemar測試、F測試等。
模型可視化，包括特征邊界、學習曲線、PCA交互圈和富集圖繪。
含有許多Sci-kit Learn庫中沒有的內置數據集。
圖像與文本預處理功能，如名稱泛化器，可以識別并轉換具有不同命名系統的文本(如：它能識別“Deer，John”，“J.Deer”，“J.D.”和“John Deer”是相同的)。

Mlxtend還有非常實用的圖像處理功能，比如它可以提取面部標志：

這5個Python庫太難搞！每位數據科學家都應該了解

圖源：Mlxtend

再來看看它的決策邊界繪制功能：

這5個Python庫太難搞！每位數據科學家都應該了解

圖源：Mlxtend

5. REP

與Mlxtend一樣，REP也可以被看作是Sci-kit學習庫的擴展，但更多的是在機器學習領域。首先，它是一個統一的Python包裝器，用于從Sci-kit-learn擴展而來的不同機器學習庫。它可以將Sci-kit learn與XGBoost、Pybrain、Neurolab等更專業的機器學習庫整合在一起。

例如，當數據科學家想要通過一個簡單的包裝器將XGBoost分類器轉換為Bagging分類器，再將其轉換為Sci-kit-learn模型時，只有REP能做到，因為在其他庫中無法找到像這種易于包裝和轉換的算法。

from sklearn.ensemble importBaggingClassifier 
from rep.estimators importXGBoostClassifier, SklearnClassifier 
clf =BaggingClassifier(base_estimator=XGBoostClassifier(), n_estimators=10) 
clf =SklearnClassifier(clf)

除此之外，REP還能實現將模型從任何庫轉換為交叉驗證(折疊)和堆疊模型。它有一個極快的網格搜索功能和模型工廠，可以幫助數據科學家在同一個數據集里有效地使用多個機器學習分類器。同時使用REP和Sci-kit learn，能幫助我們更輕松自如地構建模型。

[[337114]]

圖源：unsplash

這五個Python庫絕對你為它付出時間!

責任編輯：趙寧寧來源：今日頭條

Python 庫編程語言

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

這5個Python庫太難搞！每位數據科學家都應該了解