人人都說“數據直覺”很重要,但它到底是個啥?又該如何培養?
大數據文摘出品
來源:數據科學家Ryan T. Harter博客
編譯:張大筆茹
上周,一位同事讓我解釋下“數據直覺”的含義,我突然發現雖然自己一直在強調數據直覺,卻從來沒有真正的定義過它。
數據直覺能力是我面試新數據科學家所關注的三項技能之一(其他兩項是統計和技術能力)。其實我只是在2020年前9個月建立了Mozilla的數據直覺概念,現在卻突然驚訝地發現無法為自己要培養的東西做出解釋。
所以現在來補充一下!以下為數據直覺的定義:
數據直覺是對誤導性的數據和分析的敏感度。 |
換句話說,如果某人具有很強的數據直覺,他就很難被數據誤導,你也可以認為是對黑暗數據藝術的防御能力。
那具體在實踐中表現在哪些方面呢?
數據嗅覺
具有強烈數據直覺的人可以迅速聞到“數據味道”(與“代碼氣味”相近)。這種數據問題不一定會影響分析,但結果肯定會令人質疑。例如:
- 分析結果顯示一項看似隨意的指標:4天內的保留率提高了0.5%!4天保留時間從何而來?我們通常不是跟蹤7天的保留時間嗎?這是值得注意的一點。
- 分析報告的結果:此功能將保留率提高了10%!但是,過去不是一直在努力將保留率提高0.5%嗎?而且保留率已經不是90%嗎?那么要如何獲得并增加10%?
這些都是極端的例子。通常情況下,問題只會更加微妙,有數據直覺的人會覺得結果怪怪的(這就是為什么將其稱為“直覺”)。
顯然,數據直覺與產品直覺是有關的,盡管這倆屬于不同的技能。產品的直覺可以使結果與實際情況相符,并且可以更輕松地識別分析中的特殊要求。要知道保留率提高10%是荒謬的,我們需要知道的是用戶已經保留得很好了(90%的保留率)。
方法問題
強大的數據直覺還可以發現分析設計的問題。例如:作者是如何收集數據的?樣本有代表性嗎?是否需要進行實驗來論證因果關系?
舉個例子:一項分析報告表示,創建Firefox帳戶的用戶比未創建Firefox的用戶保留率高10%。默認情況下,許多人將其解釋為,如果我們花一些時間來幫助用戶開設帳戶,則保留率會增加。有數據直覺的人們會認識到這個結果只是相關關系(并非因果關系)。
經常使用該產品的用戶可能會停留更長的時間。開立賬戶的用戶都是活躍用戶,因此保留率更高。頻繁使用Firefox的用戶是更活躍的用戶,保留率會更好。
我認為這種直覺不僅是很好地理解統計數據。強大的統計背景可以在閱讀白皮書的方法部分時發現問題,可以讓我對新聞頭條中聽到的結果有多信任,更可以幫助我確定結果是否足夠真實。
不僅僅是懷疑主義
我幾乎將數據直覺定義為一種懷疑態度,但這是一個不好的描述。懷疑主義過于強調結果了。
直覺不僅僅是懷疑。它會將新數據納入現有知識體系的一部分。大多數時候這意味著確定新的傳入數據不一致,需要更多調查才能信任。其他時候則意味著需要比現有知識體系更具權威性的新數據來改變我們的觀點。
你是怎么想的?
我想聽聽你的想法!之所以公開發布此定義,部分原因是我想用坎寧安定律,即:獲得正確答案的最佳方法是發布錯誤答案!
這個數據直覺的定義能引起你的共鳴嗎?
【本文是51CTO專欄機構大數據文摘的原創譯文,微信公眾號“大數據文摘( id: BigDataDigest)”】