Github最新5大開源機器學(xué)習(xí)項目!數(shù)據(jù)計算快至80倍!
通過這5個具有挑戰(zhàn)性的開源機器學(xué)習(xí)項目,正確地開始2020年的學(xué)習(xí)吧!這些機器學(xué)習(xí)項目涵蓋了廣泛的領(lǐng)域,包括Python編程和NLP。

越來越多的人正在尋找一種過渡到數(shù)據(jù)科學(xué)的方法。無論是應(yīng)屆大學(xué)畢業(yè)生,還是該行業(yè)相對較新的參與者,還是中級專業(yè)人員,還是只是對機器學(xué)習(xí)感到好奇的人,每個人都希望從數(shù)據(jù)科學(xué)中分一杯羹。
我挑選了5個開源機器學(xué)習(xí)項目(于2020年1月創(chuàng)建),讓你熟悉最新的最新框架和庫。 你會看到從自然語言處理(NLP)到Python編程的所有內(nèi)容。
1、Reformer– PyTorch中的高效遷移
Transformer體系結(jié)構(gòu)改變了自然語言處理(NLP)格局。 它催生了許多NLP框架,例如BERT,XLNet,GPT-2等。

但是有一個問題,我敢肯定,你們中的大多數(shù)都將與之相關(guān)–這些以變壓器為動力的模型很大。 他們?nèi)〉昧俗钕冗M(jìn)的結(jié)果,但價格太昂貴,超出了大多數(shù)想要學(xué)習(xí)和實施它們的人們的范圍。該項目的作者提供了一個簡單而有效的示例以及整個代碼,以幫助您構(gòu)建自己的模型。
2、PandaPy –最受歡迎的Python庫
上周我發(fā)現(xiàn)了PandaPy,并且已經(jīng)在我當(dāng)前的項目中使用了它。 這是一個迷人的Python庫,具有成為主流的巨大潛力。
如果您正在使用混合數(shù)據(jù)類型(int,float,datetime,str等)進(jìn)行機器學(xué)習(xí)項目,則應(yīng)嘗試使用PandaPy而不是Pandas。 對于這些數(shù)據(jù)類型,它消耗的內(nèi)存比Pandas少大約三分之一!
這是您會發(fā)現(xiàn)有趣的三個關(guān)鍵領(lǐng)域(我從PandaPy GitHub存儲庫中逐字逐句地總結(jié)了這些觀點):
1)對于小型數(shù)據(jù)集(即加號,多號,對數(shù))的簡單計算,PandaPy比Pandas快25倍-80倍
2)對于小型數(shù)據(jù)集上的表函數(shù)(即組,樞紐,放置,連接,填充,填充),PandaPy比Pandas快5倍-100倍。
3)對于大多數(shù)使用小數(shù)據(jù)的用例,PandaPy比Dask,Modin Ray和Pandas快
3、Google Earth Engine – 300多個Jupyter筆記本可分析地理空間數(shù)據(jù)
多么出色的GitHub存儲庫! 我有很多有抱負(fù)的數(shù)據(jù)科學(xué)家在社交平臺上與我聯(lián)系,詢問如何開始進(jìn)行地理空間分析。 這是一個非常有趣的領(lǐng)域,提供了PB級的數(shù)據(jù)。 我們只需要一種結(jié)構(gòu)化的方法來清理和分析它。這個驚人的資料庫是300多個Jupyter筆記本的集合,其中包含使用Google Earth Engine數(shù)據(jù)的示例。
這些筆記本依靠三個Python庫來執(zhí)行代碼:
- Earth Engine Python API
- Folium
- Geehydro
GitHub存儲庫包含大量帶有Python代碼的示例,以幫助新手入門。
4、Automated Visual Analytics 自動化視覺分析
這是為新手提供的另一種高質(zhì)量的數(shù)據(jù)可視化創(chuàng)意。 在沒有任何實質(zhì)性框架的情況下,使數(shù)據(jù)探索步驟自動化的想法已經(jīng)浮出了一段時間。 Automated Visual Analytics 旨在使視覺分析由AI驅(qū)動和自動化。

5、Fast Neptune–加速機器學(xué)習(xí)項目
如今,無論是在研究領(lǐng)域還是行業(yè)中,可重復(fù)性都是任何機器學(xué)習(xí)項目的關(guān)鍵方面。 我們需要跟蹤我們執(zhí)行的每個測試,每個迭代,我們的機器學(xué)習(xí)模型的每個參數(shù)以及結(jié)果。
Fast Neptune庫使我們能夠快速記錄啟動機器學(xué)習(xí)實驗所需的所有信息。 換句話說,F(xiàn)ast Neptune是您在閱讀以上段落時可能會問到的可重復(fù)性問題的答案。
以下是Fast Neptune用來幫助我們進(jìn)行快速實驗的功能:
- 有關(guān)運行代碼的計算機的元數(shù)據(jù),包括操作系統(tǒng)和操作系統(tǒng)版本
- 運行實驗的筆記本的要求
- 體驗期間使用的參數(shù),表示要跟蹤的變量的值的名稱
- 在運行期間要記錄的代碼
最先進(jìn)的技術(shù)持續(xù)快速發(fā)展,對于新來者來說,如何跟上進(jìn)度,勢必會變得不知所措。stay hungry!