為什么每個人都應該使用Kaggle?
本文主要包含以下四大部分:
- 介紹
- Kaggle
- 好處
- 總結

介紹
很多人在剛開始學習數據科學的時候都會不知所措,因為不知道在哪可以了解更多的代碼、數據,甚至是最新的想法。但是在一個叫Kaggle的社區,能夠滿足你的所有需求。
參加機器學習模型的精度競賽幾乎是所有數據科學了解Kaggle的開始,數以萬計的數據科學家通過Kaggle提交模型精度的分數,在此基礎上了解與他人模型的不同之處,并加以學習和改進自己的數據模型。

通過與來自世界各地的數據科學家們的探討,不斷改變我們的思維方式和想法,提高模型的精度,進而提高我們的排名,讓更多人看到我們的成果。
我們可以通過與他們的代碼進行比較,來從那些聰明人的頭腦中學習新思想。
下面,我將Kaggle的好處以及為什么每個數據科學家都應該使用Kaggle的理由一一列出。還不知道這個神奇的網站的同學記得行動起來啦~
Kaggle

什么是Kaggle?Kaggle是一個分享想法、獲得靈感、與其他數據科學家競爭、學習新信息和編碼技巧以及查看各種真實世界數據科學應用實例的網站。在這里有很多數據集可以用于諸如視頻游戲銷售之類的簡單數據,也有可用于諸如空氣污染數據之類的更為復雜和重要的數據。這些數據是真實的,且被引用過的,所以你可以在項目上訓練和測試你的模型,最終幫助到其他有需要的人。
Kaggle還有很多其他有用的特性,比如數據、代碼、社區、靈感、競爭和課程。我將在下面詳細介紹這些好處,希望你能從Kaggle中找到自己需要的用途。
好處
Kaggle有幾個好處,我將在下面列出。這就是每個人都使用這個網站的原因,以及為什么你也應該使用這個網站。
1、數據
在Kaggle上有許多公開的數據集可以使用,你可以看到一個數據集列表,可以搜索任何你要在自己的數據模型中用到的特定數據集,而且大多數數據集都是可以直接引用的CSV文件格式。有一些數據格式已經不太流行但仍然有用,例如JSON格式的數據集、SQLite、archives和BigQuery。下面是三個目前最熱門的數據集的例子。
- COVID-19開放研究數據集挑戰(https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge)
- 揭開COVID-19的挑戰(https://www.kaggle.com/roche-data-science-coalition/uncover)
- ProZorro.烏克蘭公共采購數據集(https://www.kaggle.com/oleksastepaniuk/prozorro-public-procurement-dataset)
2、代碼
Kaggle上有很多代碼。如果你想看到其他Kaggle用戶的示例代碼,你可以搜索包含代碼的Notebooks,很輕松即可找到,這些代碼都是經過注釋的文本代碼,很容易就能看懂。我們可以學習、實踐,并看到別人如何執行類似的問題。在該網站中,大多數人都是用Python編寫代碼,也有其他編程語言,比如R、SQLite和Julia。
代碼通常以 Notebook 形式(也稱為Jupyter Notebook)的.ipynb 文件中找到。你可以看到展示端到端機器學習模型的示例,其中包括數據攝取和清理、探索性數據分析、特征工程、基本模型創建、最終機器學習模型實現、結果輸出和解釋。這是大多數數據科學家的標準探索過程,也是一種簡單且易于遵循的格式。
- code languages supported on Kaggle: Python, R, SQLite, and Julia
3、社區
與Medium、GitHub、Stack Overflow和LinkedIn一樣,Kaggle是一個數據分析師、數據科學家和機器學習工程師可以學習、成長和建立網絡的社區。你可以發布你的工作(數據、代碼和Notebooks),并且可以共享這些內容來發展自己的社區。成為社區的一分子對我們自身也有好處,所以我強烈建議大家先從Kaggle開始發展自己的社區,并擴展到其他社區。
4、靈感
因為有數據、代碼、社區、課程和競賽,你可能會受到很棒的啟發。看到其他人在一個有助于人或公司的競賽中表現出色是非常鼓舞人心的。如果你被困在下一步要學什么,或者如何執行某個功能,也許可以看看某人如何以特定的方式實現某個模型,比如隨機森林,你可以在Kaggle上看到所有這些內容,最終激勵你創造更好的工作。
5、競爭

如果你想測試一下自己的水平,看看你在同齡人中的排名,讓自己的簡歷更加漂亮,也能賺點外快,或者最重要的是可以幫助到別人,競爭是最好的方法。Kaggle提供了無數的競賽,贏得競賽,你就能得到上面所說的所有好處。上面的截圖顯示了前三名的比賽和他們各自的獎金。如你所見,這些不僅僅是有趣的比賽,它們也能給你帶來更好的收益。
通過參加Kaggle競賽,你可以看到自己在缺乏數據科學知識的情況下,與擁有近兩年數據科學經驗的人相比,自己的表現如何。
當成千上萬甚至數十萬的數據科學家為了達到同一目標而競爭時,這對一個有理想、有追求的數據科學從業者有多大的推動作用?
6、課程
對我來說,最大的好處是發現Kaggle有數據科學課程。你可以選修14門課程,我個人喜歡一些SQL課程,作為數據科學家更需要SQL,而不僅僅是Python。與其他課程網站不同的還有機器學習的可解釋性和游戲人工智能和強化學習的介紹。以下是他們網站上的所有課程:https://www.kaggle.com/learn/overview
- Python
- 機器學習入門
- 中級機器學習
- 數據可視化
- Pandas
- 特征工程
- 深度學習
- SQL入門
- 高級SQL
- 地理空間分析
- 微調整
- 機器學習的可解釋性
- 自然語言處理
- 游戲AI及強化學習入門
總結
Kaggle為有志于成為數據科學家提供大量的資源。Kaggle的好處包括但不限于:數據、代碼、社區、靈感、競賽和課程。
如果你想在數據分析、數據科學領域有更大的發展,建議你現在就開始了解和使用這個網站吧,這會是一個非常棒的體驗,和Github一樣!