清理數據成數據科學家最大挑戰
數據分析師花費一半以上的時間清理和轉換數據,而不是從中提取商業智能,這并不稀奇。數據儲存的規模不斷增大,數據類型也在激增。新一代的工具蜂擁而至,并承諾把復雜的工具送到不依賴數據的科學家的手上。
技術領域最熱門的職位之一是數據科學家,或許只有***出現的***高管職位:***數據科學家能超越他們。顯而易見,人們對這種趨勢一直存在質疑,來自美國科技網站InfoWorld的 Yves de Montcheuil曾引用過一則笑話,數據學家就是住在加利福尼亞州的商業分析師。
每個公司都需要把公司的數據轉換為商業智能,這并不是什么有趣的事,這就是數據科學家承擔主導責任的時候。但隨著數據數量和種類的激增,數據科學家發現,他們大部分的時間都花費在清理和轉換數據,而不是分析數據,并把它們告訴給企業經理。
最近,IT項目眾包公司CrowdFlower的數據科學家進行了一項調查(需要注冊可查看)。調查發現,三分之二的分析人員認為清理和組織數據是它們最費時的工作,52%稱他們***的障礙是數據質量差。受訪者說出了在它們工作中使用的48種不同的技術,***的是Excel(55.6%),其次是開源語言研究(43.1%),和Tableau數據可視化軟件(26.1%)。

▲來源:CrowdFlower公司
數據科學家認為它們***的挑戰是清理數據花費時間,數據質量差,缺少分析時間,以及無效的數據建模。
是什么抑制了數據分析的發展?被調查的數據科學家列舉出,包括缺少有效滿足他們工作需要的工具(54.3%),組織沒有清楚地說明目標和宗旨(52.3%),以及培訓投資不足(47.7%)。

▲來源:CrowdFlower公司
缺乏工具,目標不明確,不注重培訓被報告為影響數據科學家效率的主要障礙。
承諾將滿足大數據分析師需要的新工具
在技術領域有一個基本的課題:早期只有少數精英需要理解和使用知識、工具,隨著時間的推移,產品日益改進,價格降低,企業適應,技術逐漸成為了主流。新的數據分析工具蜂擁而至,承諾把技術的效益帶給非科研人員。
2014年8月17日,Steve Lohr在紐約時報上刊登了幾種產品的簡介。例如,ClearStory Data公司的軟件結合多個來源的數據,并轉換成圖表、地圖和其他圖形。在數據準備問題上Paxata公司采取了不同方式,他們的軟件通過各種可視化工具對數據進行檢索、清理,和混合用于分析。
這家不以營利為目的的知識開放實驗室,號稱是一個為“公民駭客、數據管理者,以及對技術和資訊結合的可能性產生興趣的普通公民”提供的社區。這個組織正在招募“數據管理員”志愿者,來維護核心數據集,例如國內生產總值和ISO代碼??哲娍偹玖畈康腞ufus Pollock于2015年1月3日對該項目進行了描述。

▲來源:知識開放實驗室
知識開放實驗室正在尋找志愿者程序員,策劃核心數據集并作為零阻力數據計劃的一部分。
沒有比使用Morpheus更簡單和直接的方式來管理異構MySQL、MongoDB、Redis和ElasticSearch數據庫。儀表板上的一次單擊,Morpheus能使你在混合云上無縫提供、監控和分析SQL、NoSQL和內存數據庫。你創造每個的數據庫實例都包括一個內置的容錯和故障的完整副本集。