成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

機器學習項目完整搭建流程及任務清單曝光,值得收藏

新聞 機器學習
對于創建機器學習項目,大部分人的印象都是數據、建模、測試等,但是具體的事項,以及要經過哪些步驟,估計99%的人都不知道,今天的內容就跟大家說說機器學習項目里,一定要做的幾件事。

 對于創建機器學習項目,大部分人的印象都是數據、建模、測試等,但是具體的事項,以及要經過哪些步驟,估計99%的人都不知道,今天的內容就跟大家說說機器學習項目里,一定要做的幾件事。

為了讓我們的工作能夠更順利地進行下去,工作計劃、工作進程、任務清單等都是我們的輔助工具,如果沒有這些,我們的工作將難以推進。機器學習也是如此,任何一個機器學習項目,都離不開任務清單,讓每個人都知道該做什么事,什么時候完成,我們需要處理項目中的許多事情(例如準備工作、可能出現的問題、模型創建、模型微調等等)。

[[332738]]

在本文中,我列出來的幾個步驟,可以幫助大家完成機器學習項目,并檢查每個任務是否已成功執行。

正如阿圖爾·加萬德在他的書《清單宣言》中所說,

我們所知東西的數量和復雜性已經超過了我們個人正確、安全或可靠地提供其收益的能力。

下面這份簡潔明了的項目行動任務清單將減少你的工作量,提高你的產出。

每個ML項目中,我們都要執行8-10個步驟。其中有一些步驟可以按順序交替執行。

1、從高層次的角度定義問題

這是為了理解和闡明問題的業務邏輯。它應該告訴你:

  • 問題的性質(有監督/無監督、分類/回歸)
  • 可開發的解決方案類型
  • 應該使用什么指標來衡量績效?
  • 機器學習是解決這個問題的正確方法嗎?
  • 手動解決問題的方法
  • 問題的內在假設

2、識別數據源并獲取數據

在這一步中,我們可以先用這個步驟來定義問題。

根據問題的定義,我們需要確定數據的來源,可以是數據庫、數據存儲庫、審查程序等。對于要在生產中部署的應用程序,應通過開發數據管道來自動執行此步驟,以保持傳入數據流入系統。

  • 列出所需數據的來源和數量。
  • 檢查空間是否會成為一個問題。
  • 檢查你是否有權將數據用于個人目的。
  • 獲取數據并將其轉換為可操作的格式。
  • 檢查數據類型(文本、分類、數字、時間序列、圖像)
  • 取一個樣品做最后的測試。
[[332739]]

3、數據的初步探索

這是你研究影響結果/預測/目標的所有特征的步驟。如果你有一個龐大的數據庫,在這個步驟中對它進行抽樣,使分析更易于管理。

應遵循的步驟:

  • 使用 jupyter notebooks,因為它們提供了一個簡單直觀的界面來研究數據。
  • 確定目標變量
  • 識別特征類型(分類、數字、文本等)
  • 分析特征之間的相關性。
  • 添加一些數據可視化,以便于解釋每個特性對目標變量的影響。
  • 記錄發現。

4、探索性數據分析以便準備數據

接下來,我們將通過定義數據轉換、清理、特征選擇/工程和縮放功能來執行上一步的發現。

  • 編寫函數來轉換數據并自動處理即將到來的數據批處理過程。
  • 編寫清除數據的函數(輸入缺失值并處理異常值)
  • 編寫函數來選擇和設計功能-刪除冗余功能、功能的格式轉換和其他數學轉換。
  • 特征縮放-標準化功能。

5、開發基準模型,然后探索其他模型以便篩選出最佳模型

創建一個非常基本的模型,作為其他復雜機器學習模型的基準。主要步驟包括:

  • 使用默認參數訓練一些常用的機器學習模型,如naivebayes、線性回歸、SVM等。
  • 測量并比較每個模型與基線和所有其他模型的性能。
  • 對每個模型采用N倍交叉驗證,并計算N個折疊上性能指標的平均值和標準差。
  • 研究對目標影響最大的特征。
  • 在預測誤差的同時分析模型的類型。
  • 以不同的方式設計功能。
  • 重復上述步驟幾次(反復試驗),以確保我們使用了正確格式的正確功能。
  • 根據模型的表現情況,篩選出最優模型。

6、微調入選模型并檢查整體方法

這將是我們接近最終解決方案的關鍵步驟之一。 主要步驟應包括:

  • 使用交叉驗證進行超參數調整。
  • 使用諸如隨機搜索或網格搜索之類的自動調整方法,為我們的最佳模型找出最佳配置。
  • 測試整體方法,例如投票分類器等。
  • 用盡可能多的數據測試模型。
  • 最終確定后,請使用我們在一開始就保留的看不見的測試樣本來檢查過擬合或欠擬合。

7、記錄代碼并傳達你的解決方案

溝通的過程是多方面的。 我們需要牢記所有現有和潛在的利益相關者。 因此,主要步驟包括:

  • 記錄代碼以及整個項目的方法和過程。
  • 創建儀表板,例如voila或具有自我解釋的可視化效果的演示文稿。
  • 寫博客/報告,記錄您如何分析功能,測試不同的轉換等。記錄你的學習成功(失敗的方法和有效的技術)
  • 總結主要結果和未來的應用范圍(如有)

8、在開發環境中部署監視器模型--Monitor!

如果你的項目需要在實時數據上進行測試和部署,則應創建一個Web應用程序或 REST API,在所有平臺(Web,Android,iOS)上使用。 主要步驟(會因項目而異)包括:

  • 將最終訓練好的模型保存到h5或pickle文件中。
  • 使用Web服務為模型服務,你可以使用Flask開發這些Web服務。
  • 連接輸入數據源并設置ETL管道。
  • 使用Pipenv,Docker / Kubernetes管理依賴項(基于擴展要求)
  • 你可以使用AWS,Azure或Google Cloud Platform部署服務。
  • 監控實時數據的性能,或僅供人們使用你的模型和數據。

注意:可以根據項目的復雜性來調整清單。

[[332740]]

 

 

責任編輯:張燕妮 來源: 今日頭條
相關推薦

2018-02-09 14:55:45

GitHubPython機器學習

2018-04-26 10:48:36

機器學習神經網絡TensorFlow

2020-06-08 09:15:14

前端 開發 Git

2018-05-10 17:32:03

機器學習人工智能入門方法

2019-01-17 08:16:05

MySQL規范數據庫

2020-08-03 07:59:12

機器學習開發數據

2019-09-02 14:53:53

JVM內存布局GC

2020-01-19 11:10:44

機器學習人工智能數據科學

2019-04-15 15:12:04

Redis命令數據庫

2021-12-13 09:14:06

清單管理數據集

2024-07-31 08:33:17

2020-10-30 08:53:34

機器學習任務編排

2020-03-27 15:40:10

MySQL索引數據庫

2018-05-07 08:29:56

機器學習開源適合

2021-02-23 15:13:41

人工智能機器學習數據

2020-08-10 15:05:02

機器學習人工智能計算機

2024-03-20 10:59:37

開源

2022-08-15 10:21:44

機器學習人工智能

2023-11-15 16:35:31

SQL數據庫

2019-02-15 09:00:00

機器學習API人工智能
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人影| 色婷婷亚洲一区二区三区 | 黄色大片网 | 久久香焦| 超碰在线久 | 亚洲精品永久免费 | 成人日韩 | 日韩免费视频 | 日本天堂视频在线观看 | 日韩免费| 久久久免费| 色婷婷亚洲一区二区三区 | 欧日韩在线 | 中文字幕视频一区 | www.日本国产| 91精品久久久 | 亚洲精品久久久久久国产精华液 | 亚洲欧洲国产视频 | 久久精品中文字幕 | 日本a∨精品中文字幕在线 亚洲91视频 | 欧美成人影院 | 99热.com| 亚洲一区视频在线 | 亚洲久久一区 | 久国产视频 | 韩国av一区二区 | 五月天激情电影 | 成人久久久| 日干夜操 | 国产无人区一区二区三区 | 国产视频福利 | 亚洲九九色 | 国产精品一区二区三区在线播放 | 欧美国产精品一区二区三区 | 欧美亚洲视频在线观看 | 日本不卡免费新一二三区 | 精品久久一区二区 | 国产成人精品一区二区三区 | 精品国产伦一区二区三区观看方式 | 成人av色 | 91九色视频 |