機器學習項目必備：端到端機器學習項目開發(fā)過程的任務表

作者：讀芯術 2020-08-03 07:59:12

任務列表能指導開發(fā)人員完成下一步，促使你檢查每個任務是否已成功執(zhí)行。有時候，我們很難找到出發(fā)點，任務表也可幫助開發(fā)人員從正確的來源中獲取正確的信息(數(shù)據(jù))，以便建立關系并揭示相關的見解。

本文轉載自公眾號“讀芯術”(ID：AI_Discovery)。

在創(chuàng)建具有重大意義的項目時，我會記錄所有在其他人身上學到的以及自己在工作中領悟到的東西。這對我來說是必須的，因為需要處理一個項目中的許多內容(爭論、準備、問題、模型、微調等等)，這容易讓人忘記一些事情。

最好的做法是讓項目的每一部分都經(jīng)過檢查。正如阿圖·葛文德在其《清單革命》(The Checklist Manifesto)中所說：“我們所知事物的數(shù)量和其復雜性已經(jīng)超過了我們能正確、安全、可靠地傳達其優(yōu)點的能力范疇。”

所以，看看這個簡潔明了的項目任務表，它將幫你減少工作量，提高產(chǎn)出!

機器學習項目清單

在幾乎每個機器學習項目中都必須執(zhí)行8-10個步驟，其中一些步驟可以按順序交替執(zhí)行。

1. 從高層次的角度定義問題

為了理解和闡明問題的業(yè)務邏輯，任務表應該告知：

2. 識別數(shù)據(jù)源并獲取數(shù)據(jù)

在大多數(shù)情況下，如果擁有數(shù)據(jù)，并且希望定義相關問題以更好地利用傳入的數(shù)據(jù)，可以在第一步之前執(zhí)行此步驟。

基于問題的定義，我們需要確定數(shù)據(jù)的來源，可以是數(shù)據(jù)庫、數(shù)據(jù)存儲庫、傳感器等。對于要在生產(chǎn)中部署的應用程序，需通過開發(fā)數(shù)據(jù)管道來自動執(zhí)行此步驟，以保持傳入數(shù)據(jù)流入系統(tǒng)。

[[336009]]

圖源：unsplash

3. 數(shù)據(jù)的初步探索

在這一步驟中會發(fā)現(xiàn)所有對研究結果、預測以及目標有影響的數(shù)據(jù)特征。如果你有一個巨大的數(shù)據(jù)塊，在該步驟中對其進行抽樣，使分析更易于管理。應遵循以下步驟：

4. 探索性數(shù)據(jù)分析，以準備數(shù)據(jù)

是時候通過定義用于數(shù)據(jù)轉換、清理、特征選擇/設計和縮放的函數(shù)來執(zhí)行前一步的發(fā)現(xiàn)了。

圖源：unsplash

5. 開發(fā)一個基準模型并探索其他模型以篩選最佳模型

創(chuàng)建一個非常基礎的模型，作為所有其他復雜機器學習模型的基線。按照以下步驟：

6. 微調入圍模型，檢查集成方法

這是關鍵步驟之一，在此步驟中將更接近最終解決方案。主要步驟應包括：

7. 記錄代碼并傳達解決方案

溝通的過程是多方面的，請時刻牢記所有現(xiàn)有的和潛在的利益相關者。主要步驟包括：

8. 在生產(chǎn)中部署模型和監(jiān)視器

如果項目需要在實時數(shù)據(jù)上測試部署，應該創(chuàng)建一個web應用程序或REST API，以便在所有平臺(web、android、iOS)上使用。主要步驟(因項目而異)包括：

圖源：unsplash

不要照本宣科，你的檢查表可以根據(jù)項目的復雜性進行調整。以此為基礎，一個完美的機器學習項目正向你招手。

責任編輯：趙寧寧來源：今日頭條

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看