成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

像Git一樣用AI數據!免費托管工具上線,用「活」數據集訓練

新聞 人工智能
國外,一位名叫Simon Lousky的程序員小哥終于不能忍了,開發出了一套用于機器學習的數據版本控制工具 (Data Version Control,DVC)。

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。

搞機器學習的人,很多都飽受數據管理的折磨。

要么是數據集老舊,需要手工修訂標注。

要么是同一個數據集有很多被別人調整過的版本,無從下手。

或者,干脆沒有合適數據集,需要自己建立。

[[377448]]

國外,一位名叫Simon Lousky的程序員小哥終于不能忍了,開發出了一套用于機器學習的數據版本控制工具 (Data Version Control,DVC)。

一鍵調用數據集、一鍵查看編輯歷史……最重要的是,在DVC工具背后,有一個GitHub一樣的數據托管社區。

“盤活”數據集

Simon Lousky在學生時代做項目時,就已經感受到了機器學習數據集管理不便的痛點。

當時,他的模型需要一個植物和花朵的數據進行訓練,而開源數據集無論如何也得不到合理的結果。

于是他自己花了幾個小時的時間,一一修正了數據集中大量過時、不合理的標注,之后訓練結果讓人十分滿意。

[[377449]]

除了這個項目,他之后又進行過很多數據集的修正、增補、創建工作,他把這些費時費力的工序稱為“數據集的調試試錯”,并且開始有意記錄操作歷史。

他逐漸發現,自己的項目中,數據管理總是一塌糊涂,而依靠GitHub托管的代碼,卻一直井井有條。

那為什么不做一個類似GitHub、專門服務數據管理的工具呢?

像git一樣用AI數據!免費托管工具上線,用「活」數據集訓練

DVC就這樣誕生了。

這是一個預裝的工具庫,實現功能包括對數據集的調用、歷史操作信息的查看等等功能。

它的出現,意味著之前,研究人員在本地“死”的數據集上訓練模型的方式徹底改變。

你可以將項目鏈接到在線托管的數據集(或任何文件),建立實時、準確的聯系。數據集的任何更新變動,都能及時獲知,方便項目的開展。

像git一樣用AI數據!免費托管工具上線,用「活」數據集訓練

比如,現在有一個Repository A,這是一個“活”數據集,其中元數據文件,指向存儲在專用服務器的真實大文件。

用戶可以將數據集文件組織到目錄中,并添加帶有utils函數的代碼文件,以此來方便調用。

此外,還有一個Repository B,這是對應機器學習項目,項目代碼中,包含使用DVC導入數據集的指令。

只要創建一個數據注冊表,就能建立A和B之間的聯系:

  1. mkdir my-dataset && cd my-dataset 
  2. git init 
  3. dvc init 

此時,數據集目錄會是這樣:

像git一樣用AI數據!免費托管工具上線,用「活」數據集訓練

需要查看數據集相關信息時,輸入指令:

  1. dvc add annotations 
  2. dvc add images 
  3. git add . && git commit -m “Starting to manage my dataset” 

數據集的預覽會保存到一個目錄里,這個目錄也會被DVC跟蹤。

然后用戶只需要把代碼和數據推送到托管倉庫,這樣就隨時隨地訪問它,并與其他人分享。

當然,DVC要發揮作用,自然少不了背后的DAGsHub。

像git一樣用AI數據!免費托管工具上線,用「活」數據集訓練

DAGsHub就是一個GitHub的數據管理版本,由三部分組成,git倉庫、DVC、和機器學習流程平臺mlflow。

用戶可以提交自己的項目,DAGsHub會自動掃描提交,并提取有用的信息,如實驗參數,數據文件和模型的鏈接,并將它們結合到一個簡單的界面。

像git一樣用AI數據!免費托管工具上線,用「活」數據集訓練

DAGsHub可以瀏覽和比較代碼、數據、模型和實驗,而且不需要下載任何東西。

此外,還能生成可視化數據管道、數據操作歷史,并記錄模型性能,自動且美觀。

如何在機器學習項目中使用“活”數據集

要使用DAGsHub,只需要注冊登錄。

像git一樣用AI數據!免費托管工具上線,用「活」數據集訓練

通過以下指令安裝DVC:

  1. pip3 install dvc 

在DAGsHub上找到一個數據集,如何在自己的模型中使用它呢?

首先,要從托管的數據集中導入一個目錄,并把它當作原始文件:

  1. mkdir -p data/raw 
  2. dvc import -o data/raw/images \ 
  3. https://dagshub.com/Simon/baby-yoda-segmentation-dataset \ 
  4. data/images 
  5. dvc import -o data/raw/annotations \ 
  6. https://dagshub.com/Simon/baby-yoda-segmentation-dataset \ 
  7. data/annotations 

接著,圖片和注釋就會下載到你自己的項目中,并保留其中歷史信息的信息。

像git一樣用AI數據!免費托管工具上線,用「活」數據集訓練

當你想要知道數據集的變更歷史時,只需運行命令:

dvc update

就能將可視化結果返回默認目錄保存:

像git一樣用AI數據!免費托管工具上線,用「活」數據集訓練

是不是很方便?

對了,無論是DVC,還是DAGsHub,都是開源且免費的,趕快來試試吧

傳送門:

DVC教程:https://dagshub.com/docs/experiment-tutorial/2-data-versioning/
DAGsHub主頁:https://dagshub.com/

 

 

責任編輯:張燕妮 來源: 量子位
相關推薦

2019-11-20 09:10:12

開源技術 數據

2013-08-22 10:17:51

Google大數據業務價值

2018-09-21 11:06:10

2025-06-03 14:16:40

編程AI生成

2013-07-26 10:15:29

云計算大數據Hadoop

2017-11-06 14:18:03

2020-09-30 17:12:09

人工智能技術數據

2022-02-24 13:59:59

AI智能體研究

2023-04-05 14:19:07

FlinkRedisNoSQL

2021-12-28 11:23:36

SQLServerExcel數據分析

2025-01-17 13:53:11

AI大模型檢測工具

2022-12-21 15:56:23

代碼文檔工具

2023-05-23 13:59:41

RustPython程序

2013-12-31 09:19:23

Python調試

2013-12-17 09:02:03

Python調試

2017-04-26 14:02:18

大數據數據分析Excel

2017-06-23 08:18:17

2019-04-11 18:00:40

數據數據科學項目

2022-08-26 08:17:32

Sidekick開源

2022-08-03 08:52:35

Bytebase開源
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人午夜视频在线观看 | 一级黄色毛片子 | 一级片在线视频 | 日韩在线观看中文字幕 | 在线观看国产精品视频 | 欧美久操网 | 中文字幕av在线播放 | 精品久久久久一区二区国产 | 91精品久久久久久综合五月天 | 国产精品伦一区二区三级视频 | 国产中文字幕在线观看 | 黄色亚洲 | 欧美日韩国产不卡 | 毛片高清| 91在线一区二区三区 | 日韩精品一区在线观看 | 亚洲国产精品久久 | 欧美性另类 | 欧美中文字幕一区二区三区 | 亚洲精品一区中文字幕乱码 | 久久久国产一区二区三区四区小说 | 97超碰免费 | 欧美日韩视频在线第一区 | 久久久精品高清 | 久在线 | 中文字幕一区二区三区日韩精品 | 九九九精品视频 | 日本在线中文 | 久久精品二区亚洲w码 | 中文字幕在线观看一区二区 | 精品九九 | 国产日韩精品久久 | 国产三级国产精品 | 久久久久久精 | 精品一区二区三区中文字幕 | 国产亚洲成av人片在线观看桃 | 日本色高清 | 久久国产精品99久久久大便 | 又黄又爽的网站 | 免费a级毛片在线播放 | 午夜影院在线视频 |