京東支付研發(fā)負責人唐志雄:多角度談京東白條
原創(chuàng)京東(金融)白條是大數(shù)據(jù)應用一個很好的實例。京東618大促后,京東白條的知名度再次提升了一個高度 ,大家對它的關注點也隨著增加,例如它和我們的信用卡分期有何區(qū)別、為什么說白條是基于大數(shù)據(jù)的一款產品 、當面對交易風險又是如何控制等。帶著這些問題,51CTO記者對京東云平臺***架構師、京東支付研發(fā)負責人唐志雄進行了專訪,看他是如何多角度去分析大數(shù)據(jù)的應用和整體風控架構設計的。
【受訪者簡介】
京東支付研發(fā)負責人
唐志雄,京東5年級別的骨灰員工,曾負責過京東財務、交易、支付、虛擬資金、結算等核心系統(tǒng)。京東金融成立后加入到金融研發(fā)團隊,現(xiàn)在負責京東消費金融(京東白條)和京東保險兩條業(yè)務線的技術研發(fā)工作,對電商、互聯(lián)網(wǎng)金融等新興領域有豐富的經(jīng)驗和獨特的理解。
【采訪內容】
51CTO:您一直說白條是基于大數(shù)據(jù)的一款產品,能具體講一下嗎?
唐志雄:京東白條從誕生之初就充分利用的大數(shù)據(jù)的力量,它和傳統(tǒng)的信用卡相比,不需要填寫繁瑣的申請表單,不需要各種證明,通過用戶的各種行為數(shù)據(jù),我們就能評估用戶的風險程度。具體來講,主要在用戶授信和交易風控兩個方面:
授信是從千萬用戶從中識別哪些是優(yōu)質用戶哪些是風險用戶,將優(yōu)質用戶引入進來,將風險用戶拒絕門外,這就得充分利用數(shù)據(jù)的力量來挖掘了,它是一項龐大而且持續(xù)投入的事情,也是規(guī)避消費金融壞賬的***的防火墻。
當用戶引入之后,如何保護用戶資產安全,又如何識別用戶有往劣質用戶的趨勢轉變,也是需要有很強的發(fā)現(xiàn)能力。如何發(fā)現(xiàn)?還是需要大數(shù)據(jù)的充分應用加上運營人員經(jīng)驗的積累,業(yè)務我們不能未卜先知,但是通過數(shù)據(jù)我們能發(fā)現(xiàn)規(guī)律,比如大家常見的:喜歡晚上作業(yè)、購買高單價商品、收貨地址不明確、喜歡用極速達等。所有這些都是數(shù)據(jù)告訴我們的。
51CTO:除了京東內部的數(shù)據(jù)挖掘分析之外,京東體系外的數(shù)據(jù)是通過什么方式搜集到,又是如何存儲的呢?
唐志雄:外部數(shù)據(jù)的搜集是對費京東體系用戶需要享受白條服務的一個補充,搜集方式有很多種,可以購買也可以合作,實際上外面的數(shù)據(jù)的含金量是要打折扣的,我們需要花費一些精力來做數(shù)據(jù)校驗(真?zhèn)危瑪?shù)據(jù)清洗等。關于存儲是多級存儲,***級肯定是利用我們的大數(shù)據(jù)存儲中心,一般是在京東云上。清洗和檢驗之后會放在白條的自己的數(shù)據(jù)環(huán)境中。
51CTO:您覺得在金融領域,會有哪些大數(shù)據(jù)的應用呢?
唐志雄:現(xiàn)在互聯(lián)網(wǎng)金融非常火爆,互聯(lián)網(wǎng)公司開始滲入金融,金融公司開始要做互聯(lián)網(wǎng),這里面大數(shù)據(jù)的應用也許是將來發(fā)展的一個方向。舉幾個例子:
1、個人征信領域
目前國內除了人行的征信沒有別的權威機構,但是人行征信僅限于個人在特定金融機構的信貸行為數(shù)據(jù),而且還不夠靈活,所以這時候阿里跳出來說要做芝麻信用,京東也要做白條分。為什么是這兩家要大力度去做,因為電商領域留下了用戶大量的真實的行為數(shù)據(jù),通過這些數(shù)據(jù)是完全可以分析用戶的職業(yè)、家庭情況、消費水平、興趣偏好等,對用戶的信用評估更全面準確。
2、保險領域
比如剛剛開放費率的車險市場,如果有精確的用戶駕駛行為風險評估,就可以將保險的費率差異杠桿拉的更大,比如很優(yōu)質的用戶可以達到4折或者3折的保費,而風險高的駕駛員則可能需要2倍甚至更高的保費,這樣做更是保護那些具有良好駕駛習慣用戶的利益。其他的保險例如運費險也一樣,經(jīng)常退貨的用戶和很少退貨的用戶不一樣的是一樣的保費。
3、投資領域
大的電商是能感知到市場消費的晴雨表的,哪一類商品的熱銷或者滯銷的數(shù)據(jù)也能間接反映上游的企業(yè)的發(fā)展狀況,從而可以決策是否對哪些公司進行投資等。 類似的場景還有很多,以前大家也許還在暢想階段的事情,目前就是各大有實力的數(shù)據(jù)公司真正去挖掘商業(yè)價值的時候了。
51CTO: 對于京東白條來說,交易風險控制是不可缺的。在設計交易風控技術架構的過程中,是否遇到過一些難題?后續(xù)的解決方案又是什么?接下來面臨哪些挑戰(zhàn)?
唐志雄:白條是一個信用產品,在交易風控上面我們確實碰到過較多問題,比如規(guī)則過于簡單誤攔率較高,隨著數(shù)據(jù)量的增加和規(guī)則的增加系統(tǒng)性能跟不上等。然后就是大家都在摸索和研究,針對“壞人”的特征判別是個持續(xù)學習的過程,一開始避免不少誤判,但是后面就會有經(jīng)驗了,識別率也在不斷提升。 為了降低這個學習的代價,我們就做了分區(qū)隔離,一條風控規(guī)則的校驗首先是在隔離區(qū)運行的(用現(xiàn)在的話來說是旁路檢測),然后不斷是調試和更新規(guī)則的過程,直至***規(guī)則組合包的識別率達到了我們的要求之后才切換至正式環(huán)境,這種措施最有效的降低了誤攔的風險。 要說到挑戰(zhàn),主要還是精準識別會帶來系統(tǒng)復雜度的提升,復雜度的提升會降低系統(tǒng)的性能,但是我們又必須保證系統(tǒng)的性能對用戶體驗的影響,這是我們要必須克服解決的挑戰(zhàn)。
51CTO:實時風控的規(guī)則包在風險發(fā)生前制定好等用戶觸發(fā),或者事件發(fā)生之后在把問題總結列入規(guī)則包。基于對大數(shù)據(jù)分析,規(guī)則包是怎么進行計算,并且實施的?
唐志雄:交易的規(guī)則包只是一種人工干預的策略,簡單類比就像數(shù)學里面的函數(shù)一樣,而各種風險的大數(shù)據(jù)分析是另外一套獨立的系統(tǒng),分析出的結果可以直接應用于我們的策略,就像函數(shù)里面的各種常量。上次我的分享里面提到的規(guī)則包的改進主要是由原來的串行計算升級為并行計算,處理性能有大大提升,這個在規(guī)則包數(shù)量的增加后變得尤為有效。
51CTO:在設計白條系統(tǒng)架構時,從用戶和商家角度分別是怎樣考慮的?
唐志雄:用戶永遠是所有產品的主角,為了提高用戶體驗,我們在做系統(tǒng)設計時,就圍繞著用戶的問題永遠是***優(yōu)先級考慮的,在與用戶有關的授信激活、消費與還款環(huán)節(jié)上,我們在系統(tǒng)構件上就要確保系統(tǒng)的穩(wěn)定與高性能,用戶的數(shù)據(jù)永遠不能丟失,同時還做了大量的細節(jié)改進,今年618的消費量是去年雙11的四倍,但是我們卻保持了99%的成功率,這就是一個例證。從商家的角度,我們要打破傳統(tǒng)的模式,傳統(tǒng)模式上一家信用卡要與商家進行促銷是很費時費力的,大多是銀行與商家洽談,以折扣的形式呈現(xiàn)給用戶,效率較低且形式單一。而白條則不同,商家可以自行參與各種營銷模式,比如什么商品/服務什么時間能享受白條哪種形式的促銷(N元購、免息、滿減等),費用承擔比例等,都是系統(tǒng)直接控制的,用戶消費后,費用也是實時看瀏覽的,這對商家來說提供了更大的便利性,也對刺激銷售提供了更大的空間。
51CTO:京東是采取哪種機器學習模型?這樣的選擇是由哪些因素來確定的?
唐志雄:京東白條有單獨的數(shù)據(jù)分析和建模團隊,大多是一些數(shù)學高手,我們主要用的幾種模型:隨機森林,lasso回歸,文本主題模型,貝葉斯網(wǎng)絡GBDT等。還有比較傳統(tǒng)的,聚類算法,邏輯回歸等
51CTO:在未付款或正在分期付款期間,針對出現(xiàn)問題的商品,用戶在退換貨的這個過程從技術實踐上經(jīng)過哪幾個環(huán)節(jié)處理?
唐志雄:京東白條對京東商城來說,就類似于一家信用卡銀行的角色,商品本身的售后問題由商城來處理,如果發(fā)生退款,白條有相應的逆向流程,退回的金額會自動沖抵待還的本金+手續(xù)費,不知道你是不是想問退款時的計息規(guī)則?這里面的細節(jié)又很多了。
小結:
“白條”這種創(chuàng)新的支付方式,使京東在618大促期間大大提升了在線支付的成功率,而且?guī)砹烁嘈碌挠脩簦黾恿擞脩麴ざ取Ec此同時,它給消費者也帶來了更好的購物體驗:支付更加便捷,還能滿足高層次的消費愿望。相信無論是消費者還是電商平臺,都希望今后“白條’的額度能夠提升,并且有更加靈活的額度調配方式。但這個愿望可能面臨著一個非常大的挑戰(zhàn):目前國內消費信息不完整,個人信用難以預估。就這個問題京東采取了積極的應對方式,據(jù)悉,京東已經(jīng)開始與大數(shù)據(jù)分析公司ZestFinance合作,計劃將這種用戶網(wǎng)購習慣構建成一套完善的個人信用體系,從而讓京東白條技術得到進一步的完善和發(fā)展。