用爬蟲分析互聯(lián)網(wǎng)大數(shù)據(jù)行業(yè)薪資情況
前言:
隨著互聯(lián)網(wǎng)大數(shù)據(jù)行業(yè)的日漸興盛,越來(lái)越多的人投身其中,也有很多的朋友對(duì)此有著濃厚的興趣,想要投身其中。從本期開(kāi)始我們將分四期帶大家走進(jìn)互聯(lián)網(wǎng)大數(shù)據(jù)行業(yè),分別了解數(shù)據(jù)挖掘&機(jī)器學(xué)習(xí)、數(shù)據(jù)分析、算法&深度學(xué)習(xí)、數(shù)據(jù)產(chǎn)品經(jīng)理這四個(gè)不同的與大數(shù)據(jù)相關(guān)的職位。
數(shù)據(jù)來(lái)源:
我們未來(lái)四期的數(shù)據(jù)主要來(lái)源于拉勾網(wǎng),目前比較火的招聘網(wǎng)站獵聘、boss直聘、拉勾都有比較多的互聯(lián)網(wǎng)職位介紹。我們基于以下幾點(diǎn)原因選擇拉勾:1.薪資大多有直接的范圍,較少為面議 2. 企業(yè)數(shù)量較全,基本上涵蓋了互聯(lián)網(wǎng)相關(guān)公司 3.url地址相對(duì)比較規(guī)整,方便進(jìn)行批量爬取。數(shù)據(jù)展示頁(yè)面如下:
該部分使用Python中Selenium爬取,部分代碼如下:
- while True:
- try:
- for j in range(15):
- xpath = '//*[@id="s_position_list"]/ul/li['+str(j+1)+']'
- a = driver.find_element_by_xpath(xpath)
- job_desc.append(a.text)
- job_code.append(a.find_element_by_class_name('position_link' ).get_attribute('data-lg-tj-cid'))
- js="var q=document.documentElement.scrollTop=10000"
- driver.execute_script(js)
- driver.find_element_by_class_name('pager_next').click()
- except:
- break
薪資情況:
我們將從多個(gè)角度去了解大家所關(guān)注的薪資情況,首先看一下各個(gè)城市的機(jī)會(huì)多少與平均月薪,如下圖(氣泡大小表示職位數(shù)量,柱形圖高度表示平均月薪):
可以看到,排名第八的武漢職位數(shù)量已經(jīng)是北京的四十分之一了,排名靠后的城市職位數(shù)量小于20個(gè)。這一定程度體現(xiàn)了數(shù)據(jù)挖掘&機(jī)器學(xué)習(xí)職位在北上廣深杭的集中性,除了五大城市之外,成都、南京、武漢未來(lái)也有著無(wú)限潛力。
下面看一下不同的工作經(jīng)驗(yàn)所對(duì)應(yīng)的職位數(shù)量與薪資情況:
可以看到拉勾網(wǎng)上大多的工作機(jī)會(huì)是針對(duì)于有工作經(jīng)驗(yàn)的求職者。3年、5年工作經(jīng)驗(yàn)也成為了兩個(gè)比較重要的門檻,薪資會(huì)有明顯的提示,這樣說(shuō)明了企業(yè)對(duì)于經(jīng)驗(yàn)的看重
下面看一企業(yè)對(duì)于學(xué)歷的要求:
需要注意的是,拉勾網(wǎng)上的學(xué)歷要求為最低要求,實(shí)際工作中大家的平均學(xué)歷會(huì)遠(yuǎn)高于圖上所顯示的。
我們來(lái)結(jié)合城市和經(jīng)驗(yàn)看一下不同城市工作經(jīng)驗(yàn)的提升對(duì)薪資的提升幅度:
北京在各個(gè)工作經(jīng)驗(yàn)層面的薪資均處于全國(guó)領(lǐng)先位置,這也表明了帝都互聯(lián)網(wǎng)中心的地位。在工作經(jīng)驗(yàn)5-10年的對(duì)比上,廣州的漲幅落后于其他幾大城市,有在廣州工作的朋友可以與我們分享下,這是否具有一定的現(xiàn)實(shí)性。
各大公司拉勾網(wǎng)提供平均月薪:
我們選取了在拉勾網(wǎng)上提供職位最多的十五家公司,BAT&TMD均在其中,也包括了搜狗、微博、網(wǎng)易這些知名互聯(lián)網(wǎng)公司。出人意料的是提供職位薪資最高的是新浪微博,眾所周知,一個(gè)企業(yè)內(nèi)的實(shí)際平均薪資情況十分復(fù)雜,上述數(shù)據(jù)也只是其在拉勾網(wǎng)上放出職位的情況,僅供參考。
以上圖表我們使用R語(yǔ)言ggplot繪制,代碼如下(以公司薪資圖為例):
- ggplot(company_com,aes(x=reorder(company,-salary),y=salary,fill=as.character(rep(1:5,each=3))))+
- geom_bar(stat= 'identity' )+
- geom_text(aes(label=round(salary,2),y= salary+1),size=5)+
- theme_wsj()+
- scale_fill_wsj()+
- scale_color_wsj()+
- ggtitle('各類公司拉勾網(wǎng)職位平均月薪(K)')+
- theme(axis.text.x = element_text(size=12),
- axis.text.y = element_blank(),
- plot.title = element_text(hjust=0.5,size=25),
- legend.position='none',
- panel.grid = element_blank(),
- axis.title = element_blank(),
- axis.text = element_text(face='bold',hjus=0.8,size=10,angle=15)
- )
期望月薪計(jì)算:
我們用線性回歸模型,簡(jiǎn)易地幫助大家計(jì)算一下所可以期待的薪資情況(數(shù)據(jù)為月薪,單位為K),我們僅選取了經(jīng)驗(yàn)、城市、學(xué)歷三個(gè)因素,并沒(méi)有考慮交互項(xiàng)、高次項(xiàng)等因素,結(jié)果僅供參考,實(shí)際情況要復(fù)雜很多:
所需技能&福利:
想要得到不錯(cuò)的年薪,除了上述一些硬件條件,個(gè)人所掌握的實(shí)際技能實(shí)際上會(huì)起到更加重要的作用,我們就來(lái)看一下入職數(shù)據(jù)挖掘&機(jī)器學(xué)習(xí)所需掌握的技能:
順利入職之后,我們又可以得到什么樣的福利呢,可以看一下下圖:
我們可以看到除了傳統(tǒng)的福利,技術(shù)氛圍好、大牛云集、海量數(shù)據(jù)也成為了數(shù)據(jù)挖掘&機(jī)器學(xué)習(xí)職位用來(lái)吸引求職者的重要籌碼。
最后祝愿目前已經(jīng)從事和有志于從事數(shù)據(jù)挖掘工作的同學(xué)都能有一份滿意的工作。
作者介紹:徐麟,目前就職于上海唯品會(huì)產(chǎn)品技術(shù)中心,哥大統(tǒng)計(jì)數(shù)據(jù)狗,從事數(shù)據(jù)挖掘&分析工作,喜歡用R&Python玩一些不一樣的數(shù)據(jù)