10個豐富自我的機器學習項目
機器學習項目有很大的發展潛力,最近大火的韓劇也出現了這個詞語并且用很浪漫的說法解釋了它。你不僅能通過它來學習數據科學,還能為簡歷加分!畢竟招聘者一般通過你擁有的技能來判斷你的潛力。
每位程序人員都應該學習如何巧妙地處理大量數據,其中包括大型數據集。此外,確保所有數據集都呈現開放狀態允許自由訪問。
1.虹膜數據集
如果你是數據科學的“嬰兒”,這是你最好的起點。數據只有150行4列,應該是模式識別文獻中最通用、最簡單、資源最豐富的數據集。想要學習分類技術?用它準沒錯。
2.貸款預測數據集
它也是一個挺簡單的數據集,可以幫你預測貸款能否獲批。保險在所有行業中是分析和數據科學方法最大的用途之一。這個數據集讓你可以從保險公司的數據集中執行操作,你就可以知道那里蘊藏著哪些挑戰,使用了什么策略,有哪些影響變量等等。
3. Bigmart銷售數據集
大范圍使用分析來完善業務流程的行業還包含了零售。這是個回歸問題,此數據包含銷售商店的交易記錄,它可以預測商店的銷售額,用機器學習可以精巧地管理諸如產品布局,庫存管理,自定義報價等任務。
4.黑色星期五數據集
它是一個經典的數據集,可以從多種購物體驗中探索和擴展你的特殊工程技能以及日常理解能力。此數據集包含在零售商店捕獲的銷售交易,可以預測購買金額。
5.人類活動識別數據集
很多機器學習課程將這個數據運用于教學目的,它可以預測人類的活動類別,這是一個多分類問題。它是從30個人物的記錄中收集的,通過嵌入式智能慣性傳感器啟用的智能手機捕獲。
6.行程歷史數據集
想預測用戶類別嗎?該數據集從2010年就開始按季度提供了,它來自美國的共享單車服務。這個數據集需要你鍛煉專業數據處理技能。
7.電影鏡頭數據集
許多頁面都會隨著用戶轉變而變換內容,你建立推薦系統了嗎?它可以向用戶推薦新電影。此數據集是數據科學行業中備受歡迎的數據集。它在4,000部電影中獲得6,000名用戶的100萬收視率并且還有各類尺寸。
8.確定你的位數數據集
它讓你可以分析和識別圖像中的元素。就像相機使用圖像識別來檢測你的臉一樣。你也可以構建和測試該技術,它能識別圖像中的數字,其中包含7,000張28 X 28大小的圖像。
9.城市聲音分類
你是一個喜歡聲音的人嗎?是否會認真傾聽周圍的各種聲音呢?這個練習主要向你介紹常規分類情況下的音頻處理,幫你從音頻中分類聲音的類型。它內含10個類別的8,732個城市聲音的聲音摘錄。
10.芝加哥犯罪數據集
它具有600萬個觀測值,可以預測犯罪類型。當企業在整個數據集上具有計算能力時,他們不喜歡再用樣本。本數據集提供了在本地計算機上處理大型數據集所需的實際經驗。雖然問題很容易,但關鍵是數據管理。
總結
上方列出的10個數據集中,首先你可以找到一個與你的技能組相匹配的數據集。如果你只是個初學者,就不要跨太大步,從簡單開始,專注于逐步取得進展。