氣死!又被數(shù)據(jù)騙了!
最近發(fā)現(xiàn),公司有的新人喜歡在做數(shù)據(jù)分析報(bào)告的時(shí)候做一些小手腳,有時(shí)候差點(diǎn)連我都被唬住了,今天就來和大家聊聊數(shù)據(jù)分析里的那些騙人把戲。
做數(shù)據(jù)分析的人做的久了,就會(huì)自然而然產(chǎn)生一種想法,認(rèn)為數(shù)據(jù)展示出來的東西一定是正確的。畢竟如果連我們自己都質(zhì)疑數(shù)據(jù)分析的權(quán)威性和說服力,那我們數(shù)據(jù)分析人的工作不就成了白費(fèi)功夫了嘛。
一開始,我也認(rèn)為這是一條不可撼動(dòng)的“鐵律”,但是漸漸我開始發(fā)現(xiàn),數(shù)據(jù)分析很難做到一絲不茍地嚴(yán)謹(jǐn),也很難做到完全正確,有時(shí)候甚至?xí)`導(dǎo)我們的判斷。
因?yàn)閿?shù)據(jù)不僅能夠揭露事實(shí),它也可以用來隱藏真相!
比如下面這三種騙局,就是利用了數(shù)據(jù)的欺瞞性,變成了很容易讓人上當(dāng)?shù)墓戆褢?
坐標(biāo)軸里做手腳
可視化圖表本來是為了能夠讓人更加直觀、方便、快捷地了解數(shù)據(jù)情況,包括數(shù)據(jù)的異常情況和發(fā)展趨勢(shì),所以公司的老板和領(lǐng)導(dǎo)都喜歡看圖表,覺得圖表總不會(huì)騙人吧?但是可視化圖表有一個(gè)很大的局限性,就是必須保證指標(biāo)的統(tǒng)一性。而很多人恰恰利用了指標(biāo)的不一致性,或是增加某些東西,或是隱藏某些東西,就可以讓圖表說謊。
1、橫坐標(biāo)作弊:讓數(shù)據(jù)更“平穩(wěn)”
如果你是一位投資人,看到了上圖這樣一份公司近幾年的財(cái)務(wù)報(bào)告,展示了公司每年凈利潤(rùn)的走勢(shì),你就會(huì)覺得:哇,這家公司經(jīng)營(yíng)的不錯(cuò)啊,每年都在增長(zhǎng),看起來很有投資價(jià)值!
但是如果你是一個(gè)比較善于觀察的人,你就會(huì)發(fā)現(xiàn)一個(gè)問題:橫坐標(biāo)軸只有奇數(shù)列!
這就是很多人都會(huì)玩的一種把戲,故意刪減掉一些影響整體趨勢(shì)的值,為了讓整個(gè)數(shù)據(jù)更加平滑、平穩(wěn),就會(huì)直接將坐標(biāo)軸列刪除,美名其曰“數(shù)據(jù)太多、分組展示。”
而實(shí)際上,我們將橫坐標(biāo)軸進(jìn)行還原,這家公司的財(cái)務(wù)報(bào)告就可能變成下圖這個(gè)樣子:
財(cái)務(wù)數(shù)據(jù)波動(dòng)如此劇烈,估計(jì)每個(gè)投資人都不敢給這家公司一分錢了吧!
2、縱坐標(biāo)作弊:讓數(shù)據(jù)更“懸殊”
我們經(jīng)常可以在電視中看到這樣的統(tǒng)計(jì)分析圖,用來展示某個(gè)屬性或者指標(biāo)的對(duì)比情況。
比如這位棒球選手的速度,直觀上給人的感覺好像是下降了非常多,但是我們?nèi)绻吹街鶢顖D上的數(shù)據(jù)之后,就會(huì)發(fā)現(xiàn)根本就是從77.3下降到了75.3而已。
其實(shí)跟上一種把戲一樣,這個(gè)騙局就是將縱坐標(biāo)軸“處理”了一下,縱坐標(biāo)軸不再是從0開始,而是從某個(gè)值開始,這樣就會(huì)將兩者之間的差異進(jìn)行放大,會(huì)讓我們覺得數(shù)據(jù)十分的懸殊。
而實(shí)際上,我們將縱坐標(biāo)的起點(diǎn)還原為0之后就會(huì)發(fā)現(xiàn),其實(shí)二者的差距非常小。
當(dāng)然這種把戲玩得最好的,還要說是美國(guó)的媒體,用這種方式去抨擊領(lǐng)導(dǎo)人或者是贊揚(yáng)領(lǐng)導(dǎo)人可以說是屢試不爽!

3、整體比例作弊:讓數(shù)據(jù)更“突出”
如果大家覺得不用坐標(biāo)圖,不就可以避免橫縱坐標(biāo)軸的作弊行為了嗎?那你可就想的太簡(jiǎn)單了,因?yàn)檫@一招更加高明!當(dāng)然這招還是美國(guó)媒體玩的最好,比如下面這份統(tǒng)計(jì)數(shù)據(jù),最高與最低差了33%的比例,可以說非常懸殊。
但是其實(shí)我們很容易發(fā)現(xiàn),這三個(gè)數(shù)值加起來的比例根本不是100%,而是120%!也就是說統(tǒng)計(jì)者人為地將整體數(shù)據(jù)設(shè)置為了120%,因?yàn)檎故镜氖潜壤P(guān)系,因此這種比例就會(huì)擴(kuò)大,實(shí)際上兩者之間的差距僅僅只有28%!
偽相關(guān)
比起第一種把戲,這種把戲沒有在可視化圖表上動(dòng)手腳,而是利用了大家對(duì)于相關(guān)性的誤解,認(rèn)為相同即是相關(guān)。比如說下面這兩張圖,第一張圖是美國(guó)新建住房的銷售量與新建住房?jī)r(jià)格之間的關(guān)系走勢(shì)圖,第二張圖是美國(guó)每年的芝士消費(fèi)量與每年被床單纏住窒息而死的人數(shù)之間的關(guān)系走勢(shì)圖。
我們能夠看出來兩張圖都呈現(xiàn)出了高度的擬合性,那么我們能說兩種圖里的因素都具有很高的相關(guān)性嗎?
首先,第一張我們應(yīng)該都沒有什么質(zhì)疑,因?yàn)榉績(jī)r(jià)與銷售量之間存在很強(qiáng)的因果關(guān)系,所以兩者的變化趨勢(shì)基本都是一致的;
但是第二張中雖然兩個(gè)因素的變化趨勢(shì)也是一致的,但是我們很難相信,一個(gè)國(guó)家的芝士消費(fèi)量,會(huì)與每年被被單纏住窒息的死亡人數(shù)有關(guān)系,因?yàn)檫@兩者之間很難產(chǎn)生因果關(guān)系,這就叫做“偽相關(guān)”。
類似的例子還有很多,比如尼古拉斯凱奇在電影中的出鏡次數(shù)和淹死在游泳池里的人數(shù):
邏輯誤導(dǎo)
邏輯誤導(dǎo)經(jīng)常出現(xiàn)在我們?cè)谶M(jìn)行演繹推理的時(shí)候,比如最常見的邏輯誤導(dǎo)就是以偏概全,通過根據(jù)群體中一小部分人的經(jīng)歷得出有關(guān)整個(gè)群體的結(jié)論。
比如,你是一家集團(tuán)公司的總裁,在北京和上海均有業(yè)務(wù),你要根據(jù)市場(chǎng)占有率情況進(jìn)行重大的戰(zhàn)略調(diào)整。兩地的市場(chǎng)占有率如下表。
所以,你會(huì)判斷上海市場(chǎng)的業(yè)務(wù)要優(yōu)于北京市場(chǎng)的,對(duì)么?
此時(shí),只考慮了地區(qū)的差異,把所有的數(shù)據(jù)看成了整體,看似確實(shí)是上海市場(chǎng)的業(yè)務(wù)優(yōu)于北京市場(chǎng)。
但如果考慮多因素分析,根據(jù)各項(xiàng)業(yè)務(wù)實(shí)際占有率,你會(huì)驚奇地發(fā)現(xiàn):產(chǎn)品M的市場(chǎng)占有率,北京(49.33%)高于上海(47.13%),產(chǎn)品N的市場(chǎng)占有率,北京(40.4%)也同樣高于上海(40%)。
北京的每一項(xiàng)業(yè)務(wù)都比上海要好!
所以,面對(duì)數(shù)據(jù),我們一定要秉持著絕對(duì)客觀、嚴(yán)謹(jǐn)?shù)膽B(tài)度去看待,做數(shù)據(jù)分析,是為了推動(dòng)業(yè)務(wù)的發(fā)展,挖掘更多價(jià)值,而不是為了迎合業(yè)務(wù)想要的結(jié)果。
諸位共勉!