成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

讓你事半功倍的9個小眾Python庫

開發 開發工具 后端
Python 成功和受歡迎的原因之一是存在強大的庫,這些庫使 Python 極具創造力且運行快速。然而,使用 Pandas、Scikit-learn、Matplotlib 等常見庫在解決一些特殊的數據問題時可能并不實用,本文介紹的這些非常見庫可能更有幫助。

Python 是世界上發展最快的編程語言之一。它一次又一次地證明了自己在開發人員和跨行業的數據科學中的實用性。Python 及其機器學習庫的整個生態系統使全世界的用戶(無論新手或老手)都愿意選擇它。Python 成功和受歡迎的原因之一是存在強大的庫,這些庫使 Python ***創造力且運行快速。然而,使用 Pandas、Scikit-learn、Matplotlib 等常見庫在解決一些特殊的數據問題時可能并不實用,本文介紹的這些非常見庫可能更有幫助。

[[249833]]

1.WGET

提取數據,特別是從網絡中提取數據是數據科學家的重要任務之一。Wget 是一個免費的工具,用于以非交互式方式從 Web 上下載文件。它支持 HTTP、HTTPS 和 FTP 協議,通過 HTTP 代理進行檢索。由于它是非交互式的,即使用戶沒有登錄,它也可以在后臺工作。所以,如果你想下載一個網站或一個頁面上的所有圖片,wget 會幫助你。

安裝:

  1. $ pip install wget 

示例:

  1. import wget 
  2. url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3' 
  3. filename = wget.download(url) 
  4. 100% [................................................] 3841532 / 3841532 
  5. filename 
  6. 'razorback.mp3' 

2.Pendulum

對于那些在 python 中被處理datetimes困擾的人來說,Pendulum 是個好選擇。它是一個 Python 包,用于簡化 datetimes 操作。它是 Python「本機」類(native class)的代替。更多內容,請參閱文檔:

https://um.eustace.io/docs/# installation。

安裝:

  1. $ pip install pendulum 

示例:

  1. import wget 
  2. url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3' 
  3. filename = wget.download(url) 
  4. 100% [................................................] 3841532 / 3841532 
  5. filename 
  6. 'razorback.mp3' 

3.IMBALANCED-LEARN

可以看出,當每個類的樣本數量相等即平衡時,大多數分類算法的工作效果***。但現實生活中充滿了不平衡的數據集,這些數據集對機器學習的學習階段和后續預測都有影響。創建這個庫是為了解決這個問題。它與 scikit-learn 兼容,并且是 scikit-learn-contrib 項目的一部分。下次遇到不平衡的數據集時,可以嘗試一下。

安裝:

  1. pip install -U imbalanced-learn 
  2.  
  3. # or 
  4.  
  5. conda install -c conda-forge imbalanced-learn 

示例:

有關用法和示例,請參考:http://imbalancedlearn.org/en/stable/api.html。

4.FLASHTEXT

在 NLP 任務中,清理文本數據通常需要替換句子中的關鍵詞或從句子中提取關鍵詞。通常,這樣的操作可以用正則表達式來完成,但是如果要搜索的詞匯量過大,操作就會變得麻煩。Python 中基于 FlashText 算法的 FlashText 模塊,為這種情況提供了一個合適的替代方案。FlashText ***的優點是搜索詞數量不影響運行時長。更多相關信息請見:https://flashtext.readthedocs.io/en/latest/#。

安裝:

  1. $ pip install flashtext 

示例

提取關鍵詞:

  1. from flashtext import KeywordProcessor 
  2. keyword_processor = KeywordProcessor() 
  3. # keyword_processor.add_keyword(<unclean name><standardised name>
  4. keyword_processor.add_keyword('Big Apple', 'New York') 
  5. keyword_processor.add_keyword('Bay Area') 
  6. keywords_found = keyword_processor.extract_keywords('I love Big Apple and Bay Area.') 
  7. keywords_found 
  8. ['New York', 'Bay Area'] 

替換關鍵詞:

  1. keyword_processor.add_keyword('New Delhi', 'NCR region') 
  2. new_sentence = keyword_processor.replace_keywords('I love Big Apple and new delhi.') 
  3. new_sentence 
  4. 'I love New York and NCR region.' 

更多使用示例,請參閱官方文檔。

5.FUZZYWUZZY

雖然名字聽起來很奇怪,但涉及到字符串匹配時,fuzzywuzzy 是一個非常有用的庫,可以很容易地實現諸如字符串比較比率、token 比率等操作。對于匹配不同數據庫中的記錄也很方便。

安裝:

  1. $ pip install fuzzywuzzy 

示例:

  1. from fuzzywuzzy import fuzz 
  2. from fuzzywuzzy import process 
  3. # Simple Ratio 
  4. fuzz.ratio("this is a test", "this is a test!") 
  5. 97 
  6. # Partial Ratio 
  7. fuzz.partial_ratio("this is a test", "this is a test!") 
  8.  100 

更多有趣的例子可以在 GitHub 上找到:https://github.com/seatgeek/fuzzywuzzy。

6.PYFLUX

時間序列分析是機器學習領域最常見的問題之一。PyFlux 是 Python 中為處理時間序列問題而創建的開源庫。該庫有一系列極好的時間序列模型,包括但不限于 ARIMA、 GARCH 和 VAR 模型。簡而言之,PyFlux 提供了一個時間序列建模的概率方法。值得嘗試。

安裝:

  1. pip install pyflux 

示例:

有關用法和示例,請參考:https://pyflux.readthedocs.io/en/latest/index.html。

7.IPYVOLUME

交流結果是數據科學的一個基本方面。能夠將結果可視化是一個很大的優勢。IPyvolume 是一個用于在 Jupyter notebook 中可視化 3d 體積和字形(如 3d 散點圖)的 Python 庫,只需少量配置即可。然而,它目前還處于前 1.0 版。IPyvolume 的 volshow 之于 3d 數組,就像 matplotlib 的 imshow 之于 2d 數組一樣。更多相關信息請見:https://ipyvolume.readthedocs.io/en/latest/?badge=latest。

安裝:

  1. Using pip 
  2. $ pip install ipyvolume 
  3. Conda/Anaconda 
  4. $ conda install -c conda-forge ipyvolume 

8.DASH

Dash 是一個用于構建 web 應用程序的高效 Python 框架。它寫在 Flask、Plotly.js 和 React.js 之上,將下拉列表、滑塊和圖形等 UI 元素與你的分析性 Python 代碼直接相連,無需 javascript。Dash 非常適合構建數據可視化應用程序。然后這些應用程序可以在 web 瀏覽器中進行渲染。用戶指南請見:https://dash.plot.ly/。

安裝:

  1. pip install dash==0.29.0 # The core dash backend  
  2. pip install dash-html-components==0.13.2 # HTML components  
  3. pip install dash-core-components==0.36.0 # Supercharged components  
  4. pip install dash-table==3.1.3 # Interactive DataTable component (new!) 

示例:

下圖示例顯示了具有下拉功能的高度交互圖。當用戶在下拉列表中選擇一個值時,應用程序代碼會動態地將 Google Finance 的數據導出為 Pandas DataFrame。資源:

https://gist.github.com/chriddyp/3d2454905d8f01886d651f207e2419f0。

9.GYM

來自 OpenAI 的 Gym 是一個開發和對比強化學習算法的工具包。它兼容于任何數值計算庫,如 TensorFlow 或 Theano。Gym 庫是一個測試問題的集合,也被稱為環境——可以用它來計算你的強化學習算法。這些環境有一個共享的接口,允許你寫通用算法。

安裝:

  1. pip install gym 

示例:

運行環境 CartPole-v0 的 1000 個時間步驟實例,在每個步驟渲染環境。

閱讀其他環境請見:https://gym.openai.com/。

結論

這些是作者為數據科學挑選的實用 python 庫,而非常見的 numpy、panda 等。值得一試。

原文鏈接:

https://medium.com/analytics-vidhya/python-libraries-for-data-science-other-than-pandas-and-numpy-95da30568fad

【本文是51CTO專欄機構“機器之心”的原創譯文,微信公眾號“機器之心( id: almosthuman2014)”】

戳這里,看該作者更多好文

責任編輯:趙寧寧 來源: 51CTO專欄
相關推薦

2024-01-12 07:32:35

數據科學Python庫項目

2020-03-08 13:24:47

JavaScript開發

2020-09-16 11:10:33

Linux命令文件

2024-11-18 14:20:00

ChatGPTAI

2023-08-30 09:16:38

PandasPython

2025-02-20 10:13:54

2021-12-03 23:14:49

Github插件開發

2011-04-22 15:55:33

吊頂正投投影機

2023-11-27 19:22:24

Python庫編程語言

2024-11-29 10:48:54

IDEA技巧Mac

2015-04-02 09:39:39

移動開發開發工具APP

2011-04-21 13:02:29

2020-04-17 10:32:59

在線軟件文檔工具代碼

2023-04-10 14:49:35

Web應用程序工具

2020-11-20 10:40:20

PyTorch神經網絡代碼

2024-05-28 14:36:00

Python開發

2024-10-28 21:06:54

2023-12-14 07:11:24

編程語言微服務

2020-04-03 13:50:19

數據分析PandasNumPy

2024-01-05 09:13:35

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲精品乱码久久久久久蜜桃91 | 高清免费在线 | 中文字幕欧美在线观看 | 毛片视频观看 | 91精品国产综合久久精品 | 啪啪免费 | 久久久久国产精品午夜一区 | 毛片免费视频 | 久久爱黑人激情av摘花 | 国产无人区一区二区三区 | 成人免费观看视频 | 超碰日韩| 羞羞视频网站 | 日本不卡免费新一二三区 | 欧美影院 | 亚洲国产精品一区二区第一页 | 亚洲日本一区二区三区四区 | 久久久www成人免费精品 | 四虎永久免费影院 | 久久精品成人 | 色综合视频在线 | 午夜电影在线播放 | 欧美日韩大陆 | 欧美精品一区二区三区在线 | 久久久久久久电影 | 亚洲在线免费 | 日本一区二区三区四区 | 国产农村妇女精品一区 | 欧美www在线 | 黄色大片在线 | 精品亚洲视频在线 | 国产精品日产欧美久久久久 | 日本电影韩国电影免费观看 | 欧美a级成人淫片免费看 | 亚洲一区二区三区在线播放 | www.av在线| 国产一区电影 | 国产小视频精品 | 99爱在线 | 午夜精品久久久 | 国产精品亚洲视频 |