數(shù)據(jù)分析師的必讀書單
有不少人留言希望我推薦數(shù)據(jù)分析的書單,剛好即將春節(jié),無論是假日學(xué)習(xí)還是年后,都值得充電。讀書最好的時候是學(xué)生時期,其次是現(xiàn)在。內(nèi)容按照 《如何七周成為數(shù)據(jù)分析師 》 的順序。
數(shù)據(jù)分析是一門專業(yè)且跨越多個領(lǐng)域的學(xué)科,雖然我每篇公眾號都足夠篇幅(乃至我自己覺得啰嗦),可我還是得承認存在缺漏。如果有好書作為參考,對數(shù)據(jù)分析能力的成長更有幫助。
這份書單權(quán)作入門級推薦,如果大家有更好的歡迎留言說明。我不能保證全部看過,畢竟基礎(chǔ)書沒必要看幾本,但我盡量做到客觀。建議大家根據(jù)自己基礎(chǔ)挑選,不要貪多。
大家多支持正版。
Excel
《誰說菜鳥不會數(shù)據(jù)分析》
知名度比較高的一套書,適合新手,優(yōu)點是它和數(shù)據(jù)分析結(jié)合,而不是單純地學(xué)習(xí)函數(shù)。學(xué)會函數(shù)適用的場景和過程比它本身更重要。
是否需要學(xué)習(xí)VBA是仁者見仁的答案。我個人不建議。Excel VBA的最大優(yōu)勢是適用性廣,哪怕去其他行業(yè)其他職位,都離不開Excel,這時候它就是一個工作加分的亮點。但是在互聯(lián)網(wǎng)行業(yè),對數(shù)據(jù)分析師,VBA的性價比就不高了。
這里只推薦一本,因為我就翻過上面這本,還沒全看…
數(shù)據(jù)可視化
數(shù)據(jù)可視化的書不多。市面上多以編程為主,面向新手和設(shè)計的教程寥寥無幾。 如果只是了解圖表,看Excel的書籍也管用。
內(nèi)容很豐富,涉及可視化的方方面面,也囊括更類編程語言和設(shè)計軟件:Python+JS+R+Excel。作者還有另外一本書《數(shù)據(jù)之美》。
可視化是一門側(cè)重靈感的學(xué)科,有一種入門技巧是從他人設(shè)計中學(xué)習(xí),從模仿開始,了解他人是如何設(shè)計的,這個網(wǎng)絡(luò)上有大量的信息圖可以參考。當(dāng)然數(shù)據(jù)分析師更需要的是如何發(fā)現(xiàn),別只學(xué)習(xí)展示。
英文足夠好,可以看Edward Tufte的著作:《The Visual Display of Quantitative Information》、《Envisioning Information》、《Beautiful Evidence》。他是數(shù)據(jù)可視化的領(lǐng)軍人物,他的理念是反對為藝術(shù)效果而混淆或者簡化數(shù)據(jù)。暫時沒有中文版。
分析思維
《金字塔原理》
分析思維首推《金字塔原理》,金字塔原理有些人說它晦澀難懂,我認為是芭芭拉這個老太有騙稿費之嫌,本書包含了報告、寫文、演講等諸多內(nèi)容。可以細看可以快看。另外還有一本同名案例集,有興趣可以買。
另外麥肯錫相關(guān)的書籍還有《麥肯錫意識》《麥肯錫工具》《麥肯錫方法》等。
《深入淺出數(shù)據(jù)分析》
深入淺出系列是對新手非常友好的叢書,用生動但啰嗦的語言講解案例。厚厚的一本書翻起來很快。本書涉及的基礎(chǔ)概念比較廣,包含一點統(tǒng)計學(xué)知識,學(xué)下來對數(shù)據(jù)分析思維會有一個大概了解。
《精益數(shù)據(jù)分析》
國外的精益系列一直以互聯(lián)網(wǎng)創(chuàng)業(yè)作內(nèi)容導(dǎo)向,本書也屬于此類。如果是互聯(lián)網(wǎng)行業(yè)相關(guān),可以看看。它介紹了不同領(lǐng)域的指標(biāo),以及產(chǎn)品不同時期的側(cè)重點。案例都是歐美,這部分做參考用。
接下來的幾本,是興趣向讀物。《黑天鵝》能拓展思維,講敘了不確定性。《思考的技術(shù)》,大前研一的著作,也是咨詢類經(jīng)典。如果對咨詢向的分析感興趣,還可以看BCG系列,或者刷CaseBook。《批判性思維》,則是教你如何形成理性思維。
SQL
數(shù)據(jù)庫有很多種,常見有Oracle,MySQL,SQL Server等。我推薦學(xué)習(xí)MySQL,這是互聯(lián)網(wǎng)公司的主流數(shù)據(jù)庫。以后學(xué)習(xí)Hadoop生態(tài)時,MySQL也是最接近Hive語法的語言。
MySQL不需要專門看書學(xué)習(xí),因為數(shù)據(jù)分析師以查詢?yōu)橹鳎恍枰紤]數(shù)據(jù)性能、數(shù)據(jù)安全和架構(gòu)的問題。使用搜索引擎能解決90%的問題,我就是w3cschool學(xué)的。
《MySQL必知必會》
如果真想買書看,可以看這本,適合新手向的學(xué)習(xí),看基礎(chǔ)概念和查詢相關(guān)的章節(jié)即可。網(wǎng)絡(luò)上大部分MySQL都是偏DBA的。
如果想深入,可以看《高性能MySQL》,對分析師沒啥用。至于另外一個方向NoSQL,對入門者還是小眾了些。
如果有余力,就學(xué)習(xí)正則表達式吧,清洗數(shù)據(jù)的工作就靠它了。
統(tǒng)計學(xué)
統(tǒng)計學(xué)是比較大的范圍,分析師往后還需要學(xué)線性代數(shù)和矩陣、關(guān)系代數(shù)等。初學(xué)者不需要掌握所有公式定理的數(shù)學(xué)推導(dǎo),懂得如何應(yīng)用就行用。
《深入淺出統(tǒng)計學(xué)》
大概是最啰嗦的深入淺出系列,從賣橡皮鴨到賭博機的案例,囊括了常用的統(tǒng)計分析如假設(shè)檢驗、概率分布、描述統(tǒng)計、貝葉斯等。書本注重應(yīng)用和趣味性,數(shù)學(xué)推理一般。
《商務(wù)與經(jīng)濟統(tǒng)計》
國外的經(jīng)典教材,已經(jīng)出到第十二版了。國外教材都有豐富有趣的案例,所以讀起來會比國內(nèi)的輕松不少。如果你還在讀書,不妨買這本看一看。
名字既然有商務(wù)與經(jīng)濟,所以書中輔以了大量的相關(guān)案例。書內(nèi)容很多,看起來不會快,適合細讀。
《The Elements of Statistical Learning》
稍微有一些難度的英文書籍,屬于進階版統(tǒng)計學(xué),國外很推崇。如果要往機器學(xué)習(xí)發(fā)展,這本書可以打下很好的基礎(chǔ)。
以上書籍的難度是逐步遞增的。統(tǒng)計學(xué)是機器學(xué)習(xí)的基礎(chǔ),是概率、矩陣等實際應(yīng)用。現(xiàn)在已經(jīng)有很多統(tǒng)計工具,Excel的分析工具庫、傳統(tǒng)行業(yè)的SPSS、SAS以及R、Python等,使用過程都不用計算推導(dǎo),大學(xué)考試才會考,現(xiàn)在都是計算機解決,輕松不少。
業(yè)務(wù)知識
不同領(lǐng)域的業(yè)務(wù)知識都不一樣,這里以互聯(lián)網(wǎng)舉例。
《增長黑客》
增長黑客的概念就是隨著這本書的暢銷傳播開來。增長黑客在國內(nèi)即是數(shù)據(jù)分析+運營/產(chǎn)品的復(fù)合型人才。這本書好的地方在于拓展思路,告訴我們數(shù)據(jù)能夠做什么,尤其是連AB測試都不清楚的新人。
實際涉及的業(yè)務(wù)知識不多,我推薦,是希望新人能夠了解數(shù)據(jù)驅(qū)動的概念,這本算是我走上數(shù)據(jù)化運營的啟蒙讀物了。
《從零開始做運營》
知乎亮哥的書籍,互聯(lián)網(wǎng)所有的數(shù)據(jù)都是和運營相關(guān)的,如果是新手,就以此學(xué)習(xí)業(yè)務(wù)知識。如果已經(jīng)工作很多,就略過吧。
《網(wǎng)站分析實戰(zhàn)》
互聯(lián)網(wǎng)不再是網(wǎng)站的天下,但是移動端依舊有Web,我們在朋友圈看到的所有H5活動、第三方內(nèi)容等,都是依托網(wǎng)頁實現(xiàn)。網(wǎng)站的數(shù)據(jù)分析依舊有存在空間,網(wǎng)站的數(shù)據(jù)指標(biāo)還是能夠指導(dǎo)我們運營。
《數(shù)據(jù)挖掘與數(shù)據(jù)化運營實戰(zhàn)》
這本書涉及了數(shù)據(jù)挖掘,但是比較淺,可以作為數(shù)據(jù)分析師視野的承上啟下,了解數(shù)據(jù)化運營的高級應(yīng)用。特點是以阿里的實際工作相結(jié)合,可又因為保密原則不夠詳盡。
《數(shù)據(jù)實踐之美》
是各領(lǐng)域?qū)<冶娀I完成的書本,比起傳統(tǒng)的書籍,囊括范圍更廣。雖然沒有深度講解技術(shù),但是各領(lǐng)域的案例都是一手資料,對業(yè)務(wù)的觸類旁通理解有幫助。
業(yè)務(wù)知識我不再多推薦,以后我會通過公眾號文章的形式講解。因為從我看來,市面上也沒有詳盡介紹數(shù)據(jù)角度下的用戶行為、產(chǎn)品運營的書籍,都是點到為止。這一塊內(nèi)容,盡量從工作中去學(xué),收獲才是最大的。
Python/R
歡迎來到數(shù)據(jù)分析的最后殿堂,Python和R都是大分支,基本是前面所有內(nèi)容的實現(xiàn)。Python的學(xué)習(xí)以PY3為前提,畢竟2017年了,我實在想不出不用Python3的理由。
除了書籍,Python/R更多依靠博客和文檔學(xué)習(xí)。Python的學(xué)習(xí)路徑不陡峭,新手水平取決于查詢能力,所以也請學(xué)會如何高效搜索。
《深入淺出Python》
還是深入淺出系列,完全適合零基礎(chǔ)的新人。需要注意的是,編程學(xué)習(xí)不同于其他知識,如果計算機基礎(chǔ)不穩(wěn)固,在使用中會遇到各類問題。知其然不知其所以然,這是本書缺點:能掌握,但是Bug比較多。
《Python學(xué)習(xí)手冊》
對于擁有編程基礎(chǔ)的人,這本書系無巨細的有些啰嗦,不過對新人,可以避免不必要的坑。把它當(dāng)作一本工具文檔吧,當(dāng)遇到不理解的內(nèi)容隨時翻閱。這是紙質(zhì)書比電子書好的優(yōu)勢之一。
《利用Python進行數(shù)據(jù)分析》
非新手向的書籍,成書較早,部分內(nèi)容比較老舊。雖然學(xué)習(xí)中不會有問題,但很多Pandas函數(shù)已經(jīng)有更優(yōu)雅的寫法了,例如df.query。每段代碼都敲打一遍,千萬行的數(shù)據(jù)清洗基本不會有大問題了。
《Python Cookbook》
Python的進階書,如果想要掌握更好的編程能力,這是一本經(jīng)典,值得時時翻閱。注意,它更偏向程序員。
《R語言實戰(zhàn)》
R語言的入門書籍,從數(shù)據(jù)讀取到各類統(tǒng)計函數(shù)的使用。雖然沒有涉及機器學(xué)習(xí),依靠這本書入門R是綽綽有余了。
《統(tǒng)計學(xué):從數(shù)據(jù)到結(jié)論》
這本書是將R語言和統(tǒng)計學(xué)結(jié)合的教材,可以利用這本書再復(fù)習(xí)一遍統(tǒng)計知識。缺點是書本后面的內(nèi)容質(zhì)量不如前部分。
到這里,入門書籍推薦完畢,當(dāng)然好書不嫌多,例如《數(shù)學(xué)之美》、《集體智慧編程》、《統(tǒng)計學(xué)習(xí)方法》等,有興趣不妨閱讀。
上面的內(nèi)容都吃透,不論是成為一名數(shù)據(jù)分析師,還是往后向機器學(xué)習(xí)、數(shù)據(jù)科學(xué)家、數(shù)據(jù)產(chǎn)品發(fā)展、都有了良好的基礎(chǔ)。
希望你能沉下心閱讀。