數據分析,用對圖表很重要
數據分析是互聯網產品極其重要的一個環節,目前整個互聯網行業的發展逐漸趨于理性了,從好些年前的“增量市場”變為“存量市場”,很大的一個特征就是獲客成本變高了,流量越來越珍貴。在這種行業背景下,數據分析成為了一手利器,可以推動產品設計與運營環節,列舉幾個典型的場景:
- 產品經理在規劃新版本時,如何制定相關的數據指標來驗證?
- 功能上線后,如何就采集到的數據,進行數據復盤,判斷新功能是否達到團隊預期?
- 如何通過數據了解產品目前的問題以及分析背后的原因?
- 運營人員在完成一個活動后,如何通過數據來評估本次活動的效果?
- 如何將冰冷的數據通過直觀的可視化圖表向上級進行匯報?
- 在產品設計的時候涉及到數據可視化統計的界面,如何選擇核心指標以及合適的可視化圖表?
- ........
以上只是數據分析應用的其中一部分場景,實際上還有很多。有些人可能會認為,數據分析那是數據產品經理的職責,其實不然,我認為數據分析重在思維,是一種通過現象看本質的思維,這種思維能力是產品經理需要掌握的,不少企業在招聘產品經理的時候也會看重產品經理的數據驅動能力。
數據本身冰冷沒有意義的,我們需要通可視化圖表將數據直觀的表現出來,然后對其進行分析,發現背后蘊藏的規律。
數據可視化圖表的類型十分豐富,此處不一一列舉,本篇文章主要跟大家分享幾種比較簡單、常見的數據分析可視化圖表以及使用場景。如果簡單的圖表可以解決問題,為什么還要花里胡哨呢?
一、常用的可視化圖表
常用的可視化圖表包括:餅圖、柱形圖、條形圖、折線圖、散點圖,這五類圖表可以滿足我們工作中大部分的數據展現與分析需求,簡單的圖表往往能夠有效、形象、快速地傳達信息。
這時候你再回想一下,你在日常工作中見到的圖表是不是基本上都是以下幾種類型。

基本的可視化圖表(圖來自《誰說菜鳥不懂數據分析》)
以上五類圖表是最為基本的可視化圖表,它們還能夠衍生出其他稍微復雜些的圖表,比如柱形圖還包括簇狀柱形圖、堆積柱形圖、百分比柱形圖。
EXCEL表對以上圖表進行了比較好的分類與歸納,有興趣做進一步了解的朋友可以打開你的EXCEL表,在插入圖表功能中可以看到。

二、通過數據間的關系選擇圖表
常見的數據關系包括:成分、排序、時間序列、頻率分布、相關性、多重數據比較。
1.成分(整體的一部分)
成分也稱構成,主要關注每個部分占整體的百分比關系。適用的圖表有餅圖、柱形圖、條形圖、瀑布圖。

1)餅圖
如果僅需要關注單個整體的各部分比例構成,則首選餅圖。餅圖的分類不建議超過9個,可以把剩余次要的部分歸類到“其它”項中。
餅圖在數據分析中是比較常用的一種圖表,比如用戶來源渠道占比、各終端GMV貢獻占比等都可以使用餅圖。

2)柱形圖
當需要對比多個項目之間的成分構成,且項目的個數不多時,我們可以用百分比堆積柱形圖。

通過上圖,我們縱向看出六大地區的銷售額構成,也可以橫向做對比。
為什么不繼續使用餅狀圖呢?大家可以想象一下,如果我使用6個餅狀圖來向你傳達6個地區按客戶類型銷售額占比,你還有那個耐心看下去嗎?
3)條形圖
其實條形圖跟柱形圖兩者最主要的差異并不在于統計分析,而是在于數據展示的可讀性。
當項目個數較多,名稱較長時,可優先選擇條形圖,因為條形圖能夠橫向布局,方便展示較長的項目名稱。
在產品設計中,橫向布局的條形圖更能節省頁面空間,且可以通過適當加大橫坐標的長度來體現類目之間的差異性,這也是考慮使用條形圖的一個場景。
所以,當需要對比多個項目之間的成分構成,且項目的個數比較多,項目名稱較長時,可以用百分比堆積條形圖來表示部分與整體之間的組成關系。

某校教師對學生在各方面表現的評價情況
關于瀑布圖,我就不在這里展開介紹了,我自己使用的比較少,有興趣的朋友可以自行百度了解。
2.對比(項目間的數據比較)
指不同項目間數據的比較。在對比的過程中會遇到如何排序問題,可以根據數值大小升序或者降序,也可以根據分析的主題來考慮使用什么排序。適用的圖表主要有柱形圖、條形圖。

1)普通柱形圖、條形圖
當對比的項目由單一成分構成時,使用普通的柱形圖或者條形圖即可,比如銷售額按地域進行對比、銷量按商品品類進行對比、Top排序等。

普通柱形圖

普通條形圖
2)堆積柱形圖、堆積條形圖
當對比的項目由多個部分構成時,可使用堆積柱形圖或者堆積條形圖。可以比較清楚的看出各個項目的總數值大小以各項目內部的構成。

堆積柱形圖

堆積條形圖
3.時間序列(走勢、趨勢)
時間序列用于表示某事物按一定的時間順序發展的趨勢、走勢,是上漲、下降、上下浮動還是基本穩定。適用的圖表有折線圖、柱形圖、面積圖。

1)折線圖
折線圖是最常用的表達事物隨時間發展趨勢的可視化圖表,當時間序列的時間點比較多時,建議使用折線圖。
如果大家有留意新冠疫情的動態統計,就會發現大家都是用折線圖來展示疫情的發展趨勢,我們通過一條曲線就可以很直觀地了解疫情的動態。
下面舉一個某小程序近30天變化趨勢展示。

某小程序GMV近30天變化趨勢
2)柱形圖
有些人可能問到,折線圖跟柱形圖都能夠表達時間序列的發展趨勢,那什么情況下可以使用柱形圖呢?
普通柱形圖:一般情況下,如果時間序列的點比較少,且統計的指標由單一成分構成時,可以使用普通的柱形圖。

堆積柱形圖:如果時間序列的點比較少,且統計的指標由多個部分構成時,使用堆積柱形圖會更為直觀些。

某平臺過去7天活躍用戶數趨勢
從上圖你可以看出,活躍用戶在8月15號達到最大值,隨后大幅度下降,呈現出比較穩定的趨勢。同時,你可以看出每天的活躍用戶構成情況,三大運營商的用戶數沒有比較大的差異。
3)面積圖
當然,我們也可以用面積圖來表示時間序列的發展趨勢。面積圖其實是折線圖的演變,折線圖下方填充陰影,就構成了面積圖。
普通面積圖:當統計的指標是由單個成分組成的時候,可以使用普通面積圖。
但是面積圖有個缺點,就是當數據指標大于1個時,各數據指標之間可能會出現相互遮擋的情況,會影響趨勢的展示,建議統計的指標類型不要太多。

由普通折線圖演變而來的面積圖
堆積面積圖:當統計的指標是由多個部分構成的時候,可以使用堆積面積圖。
下圖表示某物流平臺在第一大區(由四個重點地區組成)近四年的收入趨勢。

堆積面積圖
再比如,下圖表示的是8月15到8月21號某電商平臺的訂單總量,(共10個品類,現統計其中3個品類)的變化趨勢。

堆積面積圖
在介紹上面幾種可視化圖表時,多次提到了堆積類型的圖表,包括堆積柱形圖、堆積條形圖、堆積面積圖,它們都是由多個部分累加得來的,最后組成一個整體。
以上圖為例,2015年第一大區的總收入是39,分別由中山、東莞、廣州、深圳在2015年的收入累計組成。
4.頻率分布
頻率分布可以比較清楚顯示各組頻次分布情況與差別。
當然,這一類比較也可以用頻數分布表示,只是單位不同。比較典型的案例有班級學生的身高分布情況。適用的圖表有柱形圖、條形圖、折線圖。

利用頻率分布,可以幫助我們對某些產品數據進行分析,比如統計用戶在某一天內進行詳情頁瀏覽的次數分布、統計過去7天用戶的購買頻次分布情況。
1)柱形圖
柱形圖是比較常見的表示頻率分布的圖表,一般情況下,當表示分組較少的頻率分布時,可以考慮使用柱形圖。

某平臺過去7天用戶的購買頻次分布
2)條形圖
如果分組比較多、名稱較長的,可以考慮使用條形圖。
3)折線圖
折線圖也可以用于表示頻率分布,如果分組比較多,希望看到數據的波動情況,可以選擇折線圖。
5.相關性
相關性用于衡量X與Y的關系,比如銷量與價格之間的關系、訪問量與瀏覽量的關系等。
最為常用的圖表有散點圖、氣泡圖。另外對稱條形圖、柱形圖也可表示相關性,不過感覺見得比較少,所以在這里不做介紹,有興趣的朋友可自行了解。

1)散點圖
散點圖表示因變量隨自變量而變化的大致趨勢,通過散點圖,我們還可以看出各個點在坐標軸上的分布情況。
當只有兩個變量X跟Y時,可用散點圖觀察兩個變量之間的關系。

從上圖可以看出,轉化率和綜合瀏覽量兩者之間是呈正相關的關系。
2)氣泡圖
散點圖一般研究的是兩個變量之間的關系,但有時候我們的分析需要涉及到第三個變量,氣泡圖就是在散點圖的基礎上衍生而來的,用來表示三個變量之間的關系。
當存在第三變量,即X、Y、Z時,我們可以使用氣泡圖進行分析,點的大小或者顏色可以定義為第三個變量。

如上圖,用圓點大小來表示訪問次數的多少,可以看到訪問次數最多的那天(最大的圓點區域),轉化率和平均綜合瀏覽量都不高。
6.多重數據對比
多重數據對比指數據類多于2個,且每個數據類擁有多個維度的數據分析比較。我們可以用雷達圖來表示。
如下圖,比較中興Grand S 與索尼L36h 兩款產品分別在牌照、硬件、價格、屏幕、系統5個維度中的評分情況。

最后,呈上一張總結圖

常用圖表類型與作用(來自《誰說菜鳥不懂數據分析》)
三、寫在最后
數據圖表遠遠不止本篇文章提到的那些,以上是基于自己的經驗以及網上的資料總結而來,主要的目的在于幫助大家了解常用的圖表以及如何選擇合適的圖表,如有紕漏的地方,敬請指出。
數據分析的目的在于發現問題、解決問題,需要根據分析的主題、數據之間的關系選擇合適的圖表,如果簡單的圖表可以解決問題,實在沒有必要執著于復雜,常人不易理解的可視化圖表。