數據分析 VS 算法模型,如何高效分工合作?
本文轉載自微信公眾號「接地氣學堂」,作者接地氣的陳老師 。轉載本文請聯系接地氣學堂公眾號。
數據分析該如何與算法合作,是個老大難問題。一方面是業務方日益提高的,對模型的幻想。另一方面是大量企業里存在的,數據采集差,缺少足夠數據人員,工作目標不清晰等等問題。到底該如何和分析與算法協同增效?今天系統分享一下。
01兩種典型的錯誤做法
狗不理式:有些公司領導喜歡嫌棄自家數據分析師沒本事,總認為“上個模型才牛逼”。于是數據分析師們皆明哲保身,干脆和所有帶“模型”倆字的工作劃清界限,統統甩給算法工程師。
這么干,當然會坑死算法。
且不說,很多時候領導口中的模型根本就是“SWOT”一類虛無縹緲的東西;
且不說,很多建模目標根本就是:“預測我做什么能成功”一類不切實際的東西。
就單單基礎特征篩選工作沒人支持一項,就會讓算法工程師累死。項目進度慢,最后還是被嫌棄:“為啥你的模型不能100%精準預測!!!”
當然,此類問題常見于傳統企業。特別是數字化轉型階段,領導們看了很多高大上的ppt,自以為自己很懂的傳統企業。
當狗用式:一些互聯網公司對于算法的應用有相對清晰的定位,算法小組的地位也較高。于是走向另一極端:把配給算法組的分析師當狗使。做啥你不用管,你按我說的取數就好了。用無休無止的取數表淹沒了數據分析的工作。
這么干,坑的是所有人。因為連數據分析師都不懂算法邏輯,那運營部門更不懂。在茫然無知的情況下,運營部門只能通過簡單的數據指標監控,來推測算法效果。并且稍有風吹草動,就開始質疑:“算法不靈了吧!”,“你們悄悄改了啥!”,“就是你們瞎搞!”這些質疑,又會成為部門間甩鍋、扯皮的導火索,引發無休無止的內耗。
02破局的基本思路
從本質上看,分析和算法,都是數據的應用。那么靈魂拷問來了:是不是有了數據,鈔票就源源不斷從電腦里噴出來了?顯然不是!數據本身不能包治百病,想讓數據發揮作用,得緊密結合業務實際,找好數據能幫上忙的發力點才行。
而業務的實際情況又很復雜,經常是數據和業務行為交織在一起。
比如:
短視頻DAU下降,是算法推薦不給力,還是創作者本身質量太差
交易轉化率下降,是商品推薦不給力,還是貨源本身沒有選好
業績預測不精準,是預測模型不給力,還是業務自己放水了
這時候,業務部門永遠可以甩鍋:“我們的數據太無能,我們要是有字節的算法就牛逼了”。而數據這邊,不管是算法還是分析,都是背鍋的。所以最終的破局思路,是數據的同學們團結一致,找好場景,做出成績,減少背鍋,而不是自己人踩自己人。
空口說顯得太空洞,下邊結合一個具體問題場景看看。
03典型合作場景之一:項目立項
問題場景:某大型制造企業,期望建立“多維度立體式分析模型”,提升招聘效率。問,此時該怎么接需求?
這是個典型的需求不清晰場景。
- 什么叫:招聘效率?
- 招聘成本更低?招聘回來以后留存更好?招聘到合適的人?
- 什么叫合適的人?是否已經有清晰定義?
- 流水線工人、銷售、營銷策劃、管理人員的“合適”定義是否一致?
- 流水線工人、銷售、營銷策劃、管理人員的招聘問題是否相同?
以上情況統統不清楚
因此無論是算法/分析,誰接需求,都得先問清上邊的問題。當然,在問題定義都模糊不清的時候,讓數據分析師站出來溝通更合適。數據分析師和業務貼的更近,更容易理解業務語言,引導業務思路。
業務方進一步給出的回答是:
1、要幫助管理崗位招到更合適的人
2、要發現:XX省市的流水線工人更容易招,我們集中招聘
3、要讓整個部門的用人成本,控制在XXX萬元以內
那么,是不是可開始建“多維度”“立體式”的模型了呢?
不!遠遠不到!
04典型合作場景之二:任務分解
有三大問題,制約著項目推進:
1、管理崗位的“合適”定義不清晰。管理人員的考核,遠比流水線工人復雜。流水線工人只要考察年齡、身份證、學歷幾個簡單維度即可,考操作技巧也能通過標準化作業考核。管理人員則復雜的多,還有“領導看他順不順眼”這種高度個性化、無法量化的考核點。因此不能簡單的止步在這里。需要進一步定義。
2、各省市勞動力數據缺失。注意:從現在HR收到的簡歷里篩選出合適的,和從茫茫人海里鎖定哪里的勞動力多,完全是兩個問題。因為已經收到的可以統計數據,茫茫人海壓根連數據都沒有。如果盲目開工,很有可能引發誤判。
3、整體部門用人成本與招聘效率,根本就是兩個問題。整個部門用人成本,除了新招聘以外,還有在職工資福利,還有離職人員賠償等等。如果目標是控部門整體成本,那到底哪一塊總量最高,哪一塊占比最大,哪一塊是冗余,哪一塊增長最快,要提前一一分析清楚。再看怎么解決。
此時,可以拆出至少五個任務
任務1:定義管理崗位的“合適”(可能為了定義合適,要單獨建個業務模型,比如勝任力模型)。
任務2:基于過往面試數據,為管理崗位“合適”做標注,為建模做準備。
任務3:收集各地區勞動力市場數據(勞動力市場發布信息、中介提供信息等)。
任務4:結合過往招聘活動,驗證分地區招聘合理性(也有可能求職者雖然是內地省份的人,但是找工作還是跑到沿海省份找,分地區意義沒那么大,這些假設都待驗證)。
任務5:分析整體用人成本結構與走勢,找到成本控制關鍵點。
這五個任務,主要都是數據分析的活。數據分析理清現狀,采集數據,后邊算法就能有的放矢。比如:
1、在已有管理崗位“合適/不合適”標注的情況下,結合簡歷信息、獵頭給到信息、招聘渠道信息,對面試人員建分類預測的模型(邏輯回歸/決策樹),預測“合適”概率
2、在已經有整體用人成本結構、增長原因、發展趨勢數據情況下,建預測模型(時間序列/多元回歸)判斷用人成本是否會超出預期,從而干預決策(不要因為短期缺人就大量招聘,對比給加班費和增加新人成本差異)。
當然,還有第三個合作點:在工作中遭遇挑戰,大家一起應對。
05典型合作場景之三:問題解答
面對“模型為什么不準!”終極問題,一定是所有人一起努力。首先要排除的,是外部因素、意外波動、業務主動行為的影響。不要是個問題就往模型身上潑臟水。
比如:
突然有高管變動,引發管理層招聘要求全變
招工來源地發生疫情,人員出不來
行業領頭企業突然提高了薪資,拉高了整個行業成本
原定的招聘計劃因為各種原因推遲
原定招聘計劃,沒有達成預期,要加新渠道/新方式
所有這些因素都會讓原先設計的模型不成立或者效果下降。應對這些變化,數據分析要沖在前邊,在日常監控數據的時候,就及早發現問題,提示業務風險,提醒所有人關注變化。而不是等著業務打上門來再來扯皮。
06小結
算法和分析的工作性質差異,使得這兩者合作分工的時候,天生側重點不同。理想的合作方式,就是:分析掃清業務障礙,算法集中提升效率。大家一起做出成績。
實際上,如果你工作時間夠久,和業務接觸的夠多,就會發現:大部分直接從業務口中冒出來的“建模型”需求,都不靠譜,不是數據缺失,就是目標不清。別是涉及預測問題的時候(分類問題相對好一點)。經過數據分析師轉化的需求,反而靠譜很多。