AI時代的GitHub,這個陸奇看好的方向,終于有人做了
本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。
面向AI時代生存發展,什么最重要?
數據、數據,還是數據。
特別是中小企業、轉型中的廣大傳統企業,數據、優質數據,尋找并管理數據,更是剛需中的剛需——就像互聯網開發時代里對代碼共享和管理的需求那樣。
所以如果有面向AI時代打造一個數據方向的GitHub,是不是契合剛需痛點?
這不,還真有AI創業團隊這么做了。
而且看好的人中,還有個叫陸奇的big name.
GitHub for Data
出品者,格物鈦。
一家AI數據托管和數據協作SaaS提供商,創始團隊也都是一線技術工程師,深諳當前痛點所在。
一方面,AI數據準備與工程任務所耗費的時間占到了大多數AI項目的80%以上。在AI訓練中,如果沒有足夠的高質量訓練和測試數據集,則很難訓練出高質量的AI模型。
因此,面對AI開發過程中的高額隱性成本,提供高質量、場景化的真值數據,已經成為AI產業鏈的核心訴求之一。

另一方面,人工智能依賴大量的數據作為“思考”和“決策”的基礎。以往企業對數據開放的態度普遍較為保守敏感,然而伴隨著各類AI應用場景落地的技術難點逐漸浮出水面,以無人駕駛領域為例,許多駕駛場景具有稀缺性,僅憑一家之力構建包含所有的交通場景的數據集將消耗巨額的數據采集成本,并且很難在短時間內一步到位。
于是格物鈦的目標,就是希望可以加速打破人為壁壘,讓更多優質、龐大數據用開源共享的方式,實現合作共贏。

就像GitHub在代碼領域發揮的基礎設施作用一樣,AI數據領域,現在緊缺這樣的基礎設施。
而且隨著AI落地深入,另一個現狀和事實愈加清晰明確:
AI落地的現實世界中,只有一小部分機器學習系統由機器學習代碼組成,但其所需的周邊配套基礎設施,龐大而復雜。
其中,數據、數據集,就是最關鍵的一環。如果進一步聚焦于國內,還會發現適配AI項目落地的真值數據,更是稀缺。
有統計顯示,如今國內有近60萬AI開發者,但面臨的現狀是:
- 開源數據集普遍海外化,匹配性有限;
- 下載解析難度大,效率低;
- 數據參差不齊,質量難保證;
- 最核心的是針對中國本土化的數據匱乏。
這也進一步造成70%以上企業,數據共享難、數據版本管理混亂、數據可視化標簽轉換難,缺乏非結構化數據專業管理的共享協作平臺。
所以擺著格物鈦眼前的,只剩下一個問題:
How?

尋集令
顧名思義,尋找數據集。
分兩步走。
第一步,跟AI業內先鋒公司合作。
共同打造集合自動駕駛、互聯網泛娛樂、新零售、智慧城市和在線教育等AI商業落地最迫切的AI公開數據集生態聯盟。
俗話說就是開個頭、打個樣,看到價值,就會有更多企業和組織加入。
在尋集令發布會上,元戎啟行、新石器、速騰聚創、覺非、愛馳汽車,酷家樂等等都“站”臺支持。

格物鈦方面稱,星星之火可以燎原,希望從尋集令第一槍開始,打造中國最具規模化的非結構化數據集平臺。
類型上,全面覆蓋圖像、視頻、語音和文本類型。
資源上,兼具公開數據集以及AI頭部企業數據集資源。
領域上,則從商業落地最緊迫的自動駕駛、互聯網泛娛樂、智慧工業、新零售、線上教育和直播等開始。
此外,希望這個數據集平臺,可以成為GitHub一樣受開發者歡迎的社區,并且提供更多極致的數據集管理體驗,包括安全等等題中之義的要求。
實際上,雖然國內一直缺乏這樣的數據集開源平臺,但并不意味著業內沒有嘗試。
之前創新工場聯合國內頭部AI公司發起AI Challenger大賽,百度、騰訊、華為、字節跳動等公司也都有數據集為核心資源的挑戰賽。
只是始終,缺乏一個“全職”展開這件事的人。

而數據集之重要,AI從業者都應該很清楚。
比如假設沒有ImageNet,那這波AI復興應該還不會如此狂飆突進,是李飛飛李佳等華人科學家在數據集上的努力,加速催化了浪潮復興。
另外,數據集也能推動產學研更加緊密地合作,資源如果能更方便被利用,或許就會有更多力量加入其中,也就更有機會幫助實現該領域算法的提升和優化。
說白了,公開共享數據集,就像是發起了一場打擂,產學研領域的各方高手,既是自我檢測算法,也能不斷讓數據集所在場景,得到更高更強的推進。
所以從這個角度,或許也不難想見,為啥能得到陸奇的支持。
在奇績創壇的Demo Day上,這個項目就被重點介紹過,而且陸奇還親自“站”臺為尋集令作了致辭。
總而言之,好事一件,且終于有人做了。
誰做的?
最后也介紹下格物鈦背后的創始團隊,核心成員都是技術出身。
創始人及CEO崔運凱,Uber無人駕駛團隊早期員工,長期從事人工智能研究和產品化, 經歷Uber無人駕駛從50到1500人的成長。Uber無人駕駛部門最年輕的Tech Lead,第一個華人Tech Lead。
其他兩位聯合創始人,陳麒任,Snapchat早期員工,聊天系統、游戲系統的核心開發者和技術負責人。有多年分布式系統軟件開發經驗。主導開發snap游戲平臺,是snap的未來重要盈利方式。
王廣宇,阿里巴巴本地生活服務公司(餓了么),高級產品專家。攜程度假事業部當地向導平臺產品負責人,完成平臺從0到1,從1到100的搭建,實現了平臺的年3倍增長,為公司帶來過億的營收。