通過大數據發現正在惡化的中國人口結構
近些年來,總有媒體報道,中國在養老、醫療、教育各個行業出現的巨大的人力需求缺口,2017年左右,中國的“光棍危機”開始爆發,小編希望能夠通過數據分析的方式搞清楚產生這系列問題的原因。
小編作為億信華辰一家知名的BI產商的數據分析師,手邊正好有很多可以利用的資源,數據全生命周期的產品均是唾手可得。
我先利用億信i@Report的“數據抓取”功能,從國家統計局公開的數據中抓取了“全國分年齡、性別的人口”數據。

i@Report數據抓取方案
有了這份數據,離真相又近了一步,小編甚是開心~
數據抓取完成后全部存放在數據庫中了。

i@Report數據抓取結果圖
雖然從統計局抓取過來的數據信息非常完整,但我發現,抓取過來的數據包含特殊字符,比如空格;或者含有多余的信息,比如總計行,0-4歲,5-9歲等。這樣的數據是一個匯總數據,而我需要的是明細數據,我需要對這份數據進行清洗、過濾。
我選擇了億信數據工廠產品,它是一款敏捷型數據處理工具,可以快速幫助用戶處理、整合數據。
現在需要將特殊字符和合計行數據處理掉,數據工廠清洗、過濾組件正好可以利用上。
先新建一個ETL過程

數據工廠中的組件多達幾十種,完全可以滿足我的清洗、處理數據的需求。
再添加清洗、過濾規則
將“總 計”及“x-x歲”中的特殊字符清理。

處理規則也非常多,設置方式也很簡單,還蠻容易上手的!
最后預覽處理結果

數據工廠數據處理結果與源數據對比
看得出來A3字段的數據被處理干凈,正是我想要的效果。
由于數據工廠和億信BI進行過高度集成,數據工廠處理好數據可以直接輸出一份方便億信BI進行分析的模型,小編可以直接使用這份模型進行分析啦~
億信BI是億信華辰在多年數據分析挖掘、報表處理的技術經驗基礎上,運用先進的數據倉庫、商務智能核心理論,經過多年的潛心研發而推出的商務智能產品軟件。
它可視化展示效果是蠻強大的,內置幾十種統計圖、每種統計圖又有很多種效果,通過組合設計可以搭配出上千種視覺效果,小編此次通過億信BI的人口金字塔圖分析了中國第四次、第五次、第六次人口普查的數據。(不理解金字塔圖請查看文章結尾附錄)

利用億信BI制作的人口金字塔圖
從左往右對比查看,可以發現三次人口普查新生兒出生數量占人口總數的比例每次都在縮減,而60歲以上的人口比例越來越大,人才主力軍20-~40歲的壯年比例不夠大,人口老齡化比較嚴重,這樣一分析,就可以解釋為啥當今社會存在人力需求缺口的現象,當然也應該還有其他的原因。
不過近兩年,國家也開放了二胎政策,越來越多的家庭選擇再生一個寶寶,也許對人口老齡化會起到一定的緩沖作用。
今年七夕節,公司有一批同事加班,一下子暴露了不少同事的單身狗屬性,一些還是大齡男青年,是不是真的如報道中所說的“中國男性比女性要多很多”,一些男青年真的就找不到對象,于是,小編選取第六次人口普查數據做了一個對比。

億信BI多系列線狀圖
藍線表示男性各年齡段占總人口的比例,紅線表示女性的占比,可以發現,年紀越小,男性比女性人數越多,看來“光棍危機”爆發是必然的,小編真是為男同志們捏一把汗!
結束語
有關人口的問題小編也僅分析了冰山一角,不過只要有數據作為支撐,結合億信全面的產品線,也完全可以剖析出我們生活中各種現象背后的原因噠~
附錄:
人口金字塔解釋
