數據科學家的工具列表:提高生產效率的工具包
作者:讀芯術
新的東西令人激動,新的框架、新的儀器、新的工具,都會讓生活變得更輕松。保持更新很難,我們需要花更多的時間在其上。
本文轉載自公眾號“讀芯術”(ID:AI_Discovery)。
新的東西令人激動,新的框架、新的儀器、新的工具,都會讓生活變得更輕松。保持更新很難,我們需要花更多的時間在其上。
當然,我們并不是要一直更新到最新的發現,它可能是某個特定庫的新的小版本,也可能是處于興趣或是工作需要而尋找。現在開始吧!
- Texthero:文本從零到多個的預處理、向量化、可視化。應用tf-idf和tokenize查找功能來實現面向線性通信模型的主成分分析。
- Google Data Studio:未來的前端。以googledocs(谷歌文件)的方式創建儀表板、報表和分析,只需插入數據庫,上傳csv文件,就可以開始了。
- Deepnote:出色的jupyter筆記本。可以在你的瀏覽器中進行協作、代碼評審、可以更好的繪圖、支持aws3、MongoDB等等。
- Streamlit:是構建數據應用程序的最快方式,谷歌數據工作室的替代品,創建基于python的web應用程序、可視化和報表。

從R轉為python可以試試plotnine,這是一個基于ggplot2的Python圖形語法呈現方式。
- pivottablejs:在Jupyter筆記本中拖放數據透視表。
- RISE:把你的筆記本變成顯示基于.js-的幻燈片。
- gmaps:基于谷歌地圖的可視化庫——創建漂亮的交互式地圖和熱圖。
- flair:由來自柏林的扎蘭多支持研發的最先進的自然語言處理中的一個簡單框架。
- light fm:由python實現的流行推薦算法。
- ds-cheatsheets:大量備忘單集合,從python到R,包括SQL。
- Scraper.AI:真實有效的網絡爬蟲工具。
- AlwaysAI:在數分鐘內將計算機視覺模型部署到邊緣設備,如Nvidia Jetson、Raspberry PI,其目錄涵蓋了不同的預訓練模型,從對象分割到估計。
- Notion:具有配置項的記筆記軟件,使用Markdown來創建表格,列表,畫板還有看板。

概念:你將實際使用的筆記應用程序
- Weights & Biases:在訓練深度學習模型時,經常會發生實驗結果丟失、被覆蓋或難以跟蹤的情況。Weights &Biases只需通過添加幾行代碼就可以幫助你跟蹤模型訓練以及實驗。

- 無代碼機器學習?Obviously AI也許是AutoML的下一步。上傳(或連接)數據、選擇目標就足夠了,剩下的工作將由ObviouslyAI進行訪問ML過程,使其讓任何人都可以訪問。它們還為你生成一個決策圖譜,提供一個可解釋的模型。

- ML Playground:運行不同的算法,添加神經網絡,刪除圖層,繪制數據,或上傳自己的數據。
- Papers with code:正如其名,找到Github的腳本文件,準備被分叉開。
- Clever Grid:一個1核的圖形處理器和250GB的培訓數據,每天約10歐元。
- AWS DeepRacer:訓練你的自動駕駛(模型)車,在著名的F1賽道上與其他人競爭,比如巴塞羅那——加泰羅尼亞賽道。你也可以在亞馬遜上購買DeepRacer汽車的硬件版本。
- MusicTime for Spotify:一個VSCode編輯器插件,它可以在編寫代碼時發現最受歡迎的音樂。
- gspread_dataframe:是否必要把padas庫中的數據發送到Google Sheets。
- Kite:AI遇到代碼自動完成提供建議,它們為主要的pythonide提供插件,比如VSCode、Pycharm和Spyder。

- PuLP:對整數規劃和線性規劃有興趣嗎?對生產優化或多武裝犯罪分子之類的問題感興趣嗎?看看他們的案例研究吧。
- 使用Scikit Learn、Keras和TensorFlow進行實際操作機器學習:構建智能系統的概念、工具和技術:這本書數據科學家得人手一本,它涵蓋了從基本到高級的數據科學主題,十分實用且包含如何手動操作。
- datatau:數據科學領域的黑客新聞。
- Deta:一個慷慨大方的免費云端儲存提供商。
- 尋找副業項目?找到你感興趣的副業并參與其中,去看看 Solodoers吧。
- cookiecutter-data-science:數據科學的項目引導者。數據科學的代碼質量無非是正確性和再現性問題。
- tqdm:我們一直希望在for循環中有一個進度條。
- ELI5:可視化和調試各種機器學習模型,從黑匣子到可解釋的人工智能。

- gpxpy:你知道你可以把最喜歡的跑步應用程序數據導出到一個.gpx文件中嗎?這些文件可以被解析成pandas,我曾經做過類似的事情,從一次帆船旅行中導出數據:

- 《找到你的第一份數據科學工作》:一本免費的關于數據科學職業生涯和專家建議的書,一共70頁。
- GluonTS:基于mxnet的亞馬遜方式概率時間序列建模。

- Lifelines:實現通用生存分析模型的Python庫。生存分析廣泛用于預測事件在特定時間發生的可能性,例如,客戶將取消訂閱我們的服務。
- tensor-house:一個企業操作的參考機器學習和優化模型集合,對于想學習如何使用不同的機器學習模型來解決不同問題的人來說非常有趣。
- Gradio:讓模型創建易于使用的界面設計,對于展示模型預測非常有幫助,包括自然語言分析、圖像和回歸。
這些工具值得好好探索一陣兒啦。
責任編輯:趙寧寧
來源:
今日頭條