我們一起解密數據分析
本文轉載自微信公眾號「曉陽的數據小站」,作者曉陽的數據小站。轉載本文請聯系曉陽的數據小站公眾號。
|0x00 數據分析做什么
數據分析的定義,在百度百科上是這樣介紹的:“用適當的統計分析方法對收集來的大量數據進行分析,將它們加以匯總和理解并消化,以求最大化地開發數據的功能,發揮數據的作用。”這句話的理解比較費勁,那么簡單一點講,數據分析就是發現有用的信息,提供結論并支持決策。
有道是“數據在手,天下我有”,但如何尋找出數據中潛在的價值,就是分析師的重要工作了。
數據分析大概有兩種不同的發展方向,一種是偏向業務分析,需要對業務有比較深的理解,在此基礎上,通過數據來尋找業務增長的套路,例如用戶增長、網站分析、經營分析等;另一種是偏向數據挖掘,更加注重技術、尤其是算法能力的應用,需要對常見算法的應用熟練掌握。實際工作中,由于數據挖掘需要非常好的技術功底,因此絕大多數人都是偏向業務進行分析。
|0x01 數據分析的工作內容
那么數據分析的童鞋,日常主要在做什么呢?簡而言之,在做三件事:業務的現狀是什么、為什么會發生、未來將要如何(或如何改進)。
現狀分析,就是告訴業務決策者,過去發生了什么事情,并且通常以報表的形式呈現出來。所以分析師不光要能夠做日報、周報,還需要自己來搭建報表平臺,通過分析關鍵的指標,來掌握業務的運營情況。
原因分析,是在業務現狀的基礎上,分析為什么會發生這些事情。比如指標上升或者下降了,是因為什么原因造成的;或者是分析不同渠道對于最終轉化的貢獻情況。分析的過程,通常會通過專題的形式展示出來。
預測分析,則是告訴業務,未來會發生什么。預測其實是一件很重要的工作,不論是企業經營目標的制定,或者是相關策略的落實,都需要預測未來可能的情況,來保證業務的健康可持續發展。例如電商大促的到來,銷量會得到很大的提升,那么對應的預算、物流、商家要做怎樣的應對,都依賴于數據來提供預測。
|0x02 相關概念的解釋
還是有人會產生疑問:“數據分析”、“數據科學”、“數據驅動”、“商業智能”,這些概念都有怎樣的不同呢?
首先說一下“商業智能”,英文是Business intelligence,這是我們常說的BI,其主要價值,在于通過一系列的數據技術,從數據中挖掘隱藏的客觀規律,總結這些規律背后的原因,并用于指導公司業務的發展。大多數情況下,BI分析師的工作,就是通過SQL、Python等語言,將已經統計好的數據,結合數據模型或者是分析框架,來對業務進行各種分析,并做成有價值的報表或者報告的形式,供業務方進行分析。
再講講“數據科學”,這個概念就要寬泛的多,通常指在跨學科的領域中,通過數據來尋找到解決問題的方法。數據科學的概念其實比較模糊,屬于寬口徑的概念,在不同的行業里所做的事情,可能是截然不同的。在互聯網行業中,數據科學大約代表:先通過探索分析發現問題,然后再用數據建模去解決問題。
那么“數據驅動”又如何理解?數據驅動的字面意思是將數據來作為生產資料,通過科學的方法,來推動業務的優化提高。在互聯網行業里,數據驅動又可以分為數據驅動產品、數據驅動業務兩個方向,比如通過A/B測試來尋找最優的推薦算法,或者是設計實驗來指導產品迭代更新的方向,等等。
因此,在一家公司中,不同數據崗位的分工大體如下:數據工程師負責數據平臺的搭建、數據倉庫的建設,以確保數據被正確的計算和方便的獲取;數據分析師根據數據來描述或者是分析相應的問題,這其中包括了“商業智能”來做報表,或者是“數據科學”來尋找數據模型,最終都是“數據驅動”業務增長或產品迭代。
|0x03 如何來做數據分析
數據分析雖然需要的基礎知識非常多,屬于入門門檻比較高的那一種,但實際的工作卻大體遵循如下的步驟,細節可以有不同:
明確分析目的 - 確定思路框架 - 準備數據 - 分析數據 - 展示數據 - 報告撰寫。
一,明確分析目的,非常重要,目的不明確會導致分析的過程十分盲目。這里會有一個假設,即分析師需要懂業務,并且有自己對于業務的理解,如果沒有相應的專業知識,通常分析的結果就沒有特別大的價值。那么什么是懂業務?大體上就是需要明白企業的商業模式是怎樣的,通過什么樣的關系能夠產生商業價值。如果是2B方向,還需要懂一些管理學的內容,了解數據如何輔助公司的經營管理。
二,確定思路框架,是通過怎樣的指標、哪些角度來進行分析。其實業界有一些非常通過的方法,可以讓我們快速開展業務的同時,能夠保證“MECE原則”,即對于一個重大的議題,能夠做到不重疊、不遺漏的分類,而且能夠借此有效把握問題的核心,并成為有效解決問題的方法。
常見的思路框架包括:決策樹管理分析法、PEST行業分析法、5W2H問題分析法、4P營銷理論、SWOT競爭力分析模型…… 這里的方法論非常多,一些細分方向也有自己的成套理論,比如“用戶增長”常用的AARRR漏斗模型、RFM理論等。這里就不一一展開了,網上能夠搜到大把的資源,但有一點需要注意,就是掌握模型切記只掌握個大概,因為每個模型是相應知識體系的總結,只能交給你思路,而無法交給你哪些坑應該避免、什么情況下不起作用,等等。
三,準備數據,這個工作通常由數倉團隊完成,一些流量場景,需要采集數據的,也可以通過數據埋點平臺來自動完成。當然,成熟的團隊會通過建立自己的指標體系,來靈活的支持業務的發展。
四,分析數據,以上文提到的現狀、原因與預測分析為例,可以衍生出很多相應的分析方法。我們日常聽到比較多的假設檢驗、回歸分析、聚類分析等,都是在分析數據階段需要用到的專業知識。
常見的分析方法有:A/B測試、描述分析、假設檢驗、信度分析、推斷分析、相關分析、回歸分析、聚類分析、時間序列分析…… 在使用分析方法時,需要注意的一點是口徑要一致,例如指標的口徑范圍、計算方法、計量單位等進行檢查。
五,展示數據,一般情況下是通過圖表和表格來展示數據,通常是能用圖說明的,就不要用表格,除非表格能夠提供更多的信息。
詳情見下圖。
所以有句話說道:數據分析無非四種方法:“比較”、“分布”、“構成”、“聯系”。
六,報告撰寫,根據分析框架,圖文并茂的寫一個好故事吧,記得要有清晰的結論。
|0x04 A/B測試
俗話說,“增長團隊有三寶:埋點、漏斗、AB測”,埋點是數據平臺的功能,漏斗是分析問題的思路,但為什么要單獨提一下A/B測試?是因為有了數據分析的方法之后,我們還需要數據分析的平臺,來對分析的成果快速的進行實驗??梢哉f,A/B測試是支持數據決策最有力的工具。
A/B測試針對2種以上的方案,不論是一整套產品方案,還是一個小元素的改動,只要變量是唯一的,那么我們就可以對同一組人群,進行隨機的分組,在同等的時間維度內,將實驗組和對照組的結果進行對比,來衡量那種方案更好。
其實很多開發與測試的同學不太理解A/B測試的重要性,因為從開發的視角出發,這些內容確實會增加很多的動作量。但如果從業務的角度出發,那作用可就大了,不論是爭議方案的對比、還是產品轉化率的提升、亦或是多個數據策略的貢獻分配、再或者是產品功能保持簡潔的方法,都需要大量的實驗來驗證我們的想法。在互聯網公司中,我們并不缺少想法,但我們需要驗證想法的工具,讓數據來消除我們的收益淹沒、認知偏差、僥幸心理和收益分配矛盾。
在實際的工作中,A/B測試并不簡單的代表分成兩個實驗組,就完事了,因為我們需要考慮“辛普森悖論”的存在。辛普森悖論是指在某個條件下的兩組數據,分別討論時都會滿足某種性質,可是一旦合并考慮,卻可能導致相反的結論。如果不了解辛普森悖論,盲目的解讀試驗結論,很容易得出錯誤的結論。因此,我們通常會設計更多的參照,以驗證我們想法的正確性,比如AA測試,或者AAB測試,這都需要一些經驗的累積。
36Kr曾在一篇報道中寫道,“頭條發布一個新APP,其名字都必須打N個包放到各大應用市場進行多次A/B測試而決定,張一鳴告訴同事:哪怕你有99.9%的把握那是最好的一個名字,測一下又有神馬關系呢?”
|0x05 數據化運營
數據分析如果持續的做下去,那么它的目標就不僅僅是運營看板或者是分析報告了,而是走向“數據化運營”的發展路線中。
“數據化運營”的概念很火,但其實很多人對它有誤解,認為這就是將“運營”的工作線上化了而已,但其實不然。在百度百科中,對“數據化運營”的定義是:“數據化運營是指通過數據化的工具、技術和方法,對運營過程中的各個環節進行科學的分析,為數據使用者提供專業、準確的行業數據解決方案,從而達到優化運營效果和效率、降低運營成本、提高效益的目的。”
但在互聯網行業中,“數據化運營”的核心思路在于,基于“用戶”的行為和屬性,對“用戶”進行運營。因為互聯網產品的生命周期,就是一個閉環的模型:用戶獲取、用戶活躍、用戶留存、口碑傳播、付費轉化。這其中的每一個環節,都是一個漏斗,通過對數據進行分析,來運營指標的增長,或者是指導產品成長。例如最經典的啤酒與尿布的故事,就是一個典型的場景,通過發現用戶行為的關聯,來設置合理的運營策略,提升最終的產品銷量。
就像精益創業中提到的“MVP”理論一樣,不論是數據分析制定的各種策略,或者是企業的不同戰術打法,其實都不一定是奏效的,而在執行策略的同時,通過數據的沉淀,來不斷驗證策略打法的有效性,最終發現那個最合適的“MVP”功能,是數據化運營的核心導向。
現在的數據化運營體系已經變得更加復雜,不僅是因為業務場景的設計越來越復雜,也因為機器學習、因果推斷等新技術的應用,使得一些感性的數據能夠被利用起來,讓我們的運營能夠更加清楚的看到業務與目標的差距在哪里、應該通過哪些手段來彌補GAP,調整方法會產生怎樣的影響,最終形成我們口中的“數據智能”。
|0xFF 尾記
KPMG(畢馬威)的Swami Chandrasekaran分享過一個數據科學家的學習路線圖,包括了數據的基本原理、統計學、機器學習、數據可視化、大數據處理等方面的推薦知識,感興趣的可以學習一下。原本是2013年寫的,部分內容可能需要更新,但個人覺得這種類似地鐵線路圖的方式,很適合作為自己學習的思維導圖。
圖片