文科生如何七周內入門數據分析?
引言
本文是TalkingData某項目組成員在項目過程中由于項目需求被逼學習數據分析的資料分享,作者是一個文科生,七周之內掌握基本的數據分析知識,希望能幫助想要入行的文科同學。
目標人群:適合之前工作不需要自己上手做分析、或者對付大量數據的少數群體。
學習預期:七周下來之后只能是會,但不是掌握,工作當中常用的問題可以熟練應用。
學習時間:每周5-10個小時。
材料來源:這個學習計劃以一位小米的游戲分析師版本為基礎,根據零售的特點和需求以及自己使用下來的經驗做了調整。
學習原則:分析只是方法,思維、邏輯、業務影響更為重要。我們是菜鳥,時間有限,不走fancy路線,工作用什么我們先學什么。
1.第一周:Excel
Excel函數:
https://zhuanlan.zhihu.com/p/23345231
主要簡單講解常用的函數,以及與之對應的SQL/Python函數。
Excel技巧:
https://zhuanlan.zhihu.com/p/23618955
主要講解有性價比的功能,提高工作效率,養成一個好習慣,不要合并單元格,不要過于花哨。表格按照原始數據、加工數據,圖表的類型管理。
Excel實戰:
https://zhuanlan.zhihu.com/p/24084300
主要將前兩篇的內容以實戰方式進行,簡單地進行了一次數據分析,每個task一定要練熟。數據源采用了真實的爬蟲數據,是5000行數據分析師崗位數據。
附加一道練習題,給1000個身份證號碼,描述里面有多少男女,各省市人口的分布,這些人的年齡和星座。(身份證號碼規律可以網上搜索)
下面是為了以后更好的基礎而附加的學習任務:
- 了解單元格格式,后期的數據類型包括各類timestamp、date、string、int、bigint、char、factor、float等
- 了解數組,以及怎么用(excel的數組挺難用),Python和R也會涉及到 list
- 了解函數和參數,當進階為編程型的數據分析師時,會讓你更快的掌握
- 了解中文編碼,UTF8和ASCII,包括CSV的delimiter等
2.第二周:數據可視化
經典圖表及展示目的:
https://zhuanlan.zhihu.com/p/24168144
報表制作:
https://zhuanlan.zhihu.com/p/24409555
第一周數據BI實戰:
https://zhuanlan.zhihu.com/p/24573880
PPT:http://study.163.com/my
附一張圖表建議的思維指南。
3.第三周:分析思維的訓練
金字塔原理、麥肯錫思維、SMART、5W2H、SWOT、4P理論、六頂思考帽等框架都是大巧不工的經典。網上搜咨詢公司的面試題,搜Case Book。題目用新學的思維導圖做,先套那些經典框架,做一遍,然后去看答案對比。
如果這些思維方式都很熟練了,利用以下兩篇文章做個溫習。
麥肯錫思維:
https://zhuanlan.zhihu.com/p/24773022
數據分析思維框架:
https://zhuanlan.zhihu.com/p/24887013
統計學和數學的基本概念:李航的《統計學習方法》。
4.第四周:數據庫學習
數據庫入門:
https://zhuanlan.zhihu.com/p/25120684
W3C教程:
http://www.w3school.com.cn/sql/index.asp
SQL是數據分析的核心技能之一,從Excel到SQL是數據處理效率的一大進步,W3C是用下來可讀性最高的。學習圍繞Select展開。增刪改、約束、索引、數據庫范式均可以跳過。主要了解where、group by、order by、having、like、count、sum、min、max、distinct、if、join、left join、limit、and和or的邏輯,時間轉換函數等。
如果想要跟進一步,可以學習row_number、substr、convert、contact等。另外不同數據平臺的函數會有差異,例如Presto和phpMyAdmin。
SQL進階:https://zhuanlan.zhihu.com/p/25435517
有時間網上刷題,可以根據后續工作提前準備好SQL語句,讓熟手幫忙改,而不是直接讓別人幫忙寫好。
5.第五周:統計知識學習
這一周努力掌握描述性統計,包括均值、中位數、標準差、方差、概率、假設檢驗、顯著性、總體和抽樣等概念。詳細的數學推導不用細看,只要看到數據,知道不能怎么樣,而是應該這樣分析即可。
Excel中有一個分析工具庫,簡單強大。對列1的各名詞做到了解。如果是多變量多樣本,學會各種檢驗。
6.第六周:業務學習
主要內容為財務、營銷、顧客關系管理、顧客決策流程、用戶行為、渠道、線上線下運營。
因為是業務出身,這周的內容我沒有學。建議非業務去看目前服務于該客戶的供應商產品以及市場上的競品,了解他們用什么,能摸出來他們關注什么。Demo是很好的資源。
7.第七周:Python學習
編程學習說簡單不簡單,說難也不難,因為我們是菜雞,所以學的方向比較單一,不會像廖XX的網站上一樣掛出對聯那么長的名目。需要學會條件判斷、字典、切片、循環、迭代、自定義函數等。知道數據領域最經典的包Pandas+Numpy。
Python入門:《深入淺出Python》,我用的是Anaconda,代碼一定要自己寫一遍。這部分我的操作和學SQL不一樣,是讓專家先寫了差不多二十段工作當中常用的代碼,然后自己按照之前學的基本原理愉快地剪切、復制、粘貼、抄襲。