成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

度小滿(mǎn)嚴(yán)澄:數(shù)據(jù)科學(xué)與金融風(fēng)控模型

大數(shù)據(jù) 新聞
本次分享主要想和大家一起探討下,在金融風(fēng)控場(chǎng)景下,如何通過(guò)數(shù)據(jù)對(duì)齊模型和業(yè)務(wù)目標(biāo),哪些數(shù)據(jù)、方法可以應(yīng)用于風(fēng)控模型。

導(dǎo)讀:眾所周知,信息時(shí)代下的數(shù)據(jù)就是能源,就是生產(chǎn)力。但是面對(duì)海量、紛繁的數(shù)據(jù),特別是在金融領(lǐng)域,如何充分地利用數(shù)據(jù)是核心問(wèn)題。本次分享主要想和大家一起探討下,在金融風(fēng)控場(chǎng)景下,如何通過(guò)數(shù)據(jù)對(duì)齊模型和業(yè)務(wù)目標(biāo),哪些數(shù)據(jù)、方法可以應(yīng)用于風(fēng)控模型,通過(guò)哪些指標(biāo)可以正確地評(píng)估模型效果,以及最終如何用數(shù)據(jù)科學(xué)解釋模型結(jié)果。今天的介紹會(huì)圍繞下面四點(diǎn)展開(kāi):

  • 科學(xué)定義數(shù)據(jù)
  • 科學(xué)應(yīng)用數(shù)據(jù)
  • 科學(xué)評(píng)估數(shù)據(jù)
  • 科學(xué)解釋數(shù)據(jù)

01科學(xué)定義數(shù)據(jù)

1. 金融風(fēng)險(xiǎn)管理

信貸業(yè)務(wù)本質(zhì)是儲(chǔ)蓄轉(zhuǎn)化為投資的一種形式。類(lèi)比于其他的互聯(lián)網(wǎng)業(yè)務(wù),電商平臺(tái)的推薦系統(tǒng)實(shí)現(xiàn)的是客戶(hù)和商品需求之間的精準(zhǔn)匹配,廣告平臺(tái)的投放系統(tǒng)實(shí)現(xiàn)的是客戶(hù)和潛在興趣之間的精準(zhǔn)匹配,互聯(lián)網(wǎng)信貸業(yè)務(wù)的風(fēng)險(xiǎn)管理目標(biāo)就是實(shí)現(xiàn)資金供給方和資金需求方的精準(zhǔn)風(fēng)險(xiǎn)匹配。在風(fēng)險(xiǎn)匹配的兩端,資金供給方期望的風(fēng)險(xiǎn)目標(biāo)是明確的,所以風(fēng)險(xiǎn)管理的核心是預(yù)測(cè)資金需求方的風(fēng)險(xiǎn),從而進(jìn)行精準(zhǔn)匹配。接下來(lái)我們講講風(fēng)險(xiǎn)定義以及如何科學(xué)預(yù)測(cè)風(fēng)險(xiǎn)。

2. 科學(xué)定義數(shù)據(jù)

在信貸行業(yè)內(nèi),對(duì)風(fēng)險(xiǎn)最常見(jiàn)的定義是年化風(fēng)險(xiǎn),即年化不良金額除以年化余額。 這是因?yàn)楹?jiǎn)化收益大多是按照年化定價(jià) - 年化風(fēng)險(xiǎn) - 年化資金成本來(lái)計(jì)算的。一整包資產(chǎn)的年化風(fēng)險(xiǎn)受很多因素影響:逾期的用戶(hù)分布,逾期的金額分布,放款的久期分布。雖然年化風(fēng)險(xiǎn)從業(yè)務(wù)上來(lái)看是個(gè)非常直觀的指標(biāo),但如果要直接預(yù)測(cè)年化風(fēng)險(xiǎn)則是非常困難的。從更易實(shí)現(xiàn)的角度來(lái)看,預(yù)測(cè)逾期的用戶(hù)分布會(huì)更直接而簡(jiǎn)單。

假設(shè)有一個(gè)模型可以較好地預(yù)測(cè)人數(shù)逾期率,那么我們?cè)趺磁c年化風(fēng)險(xiǎn)目標(biāo)掛鉤呢?即模型的目標(biāo)如何與業(yè)務(wù)的目標(biāo)對(duì)應(yīng)。在真實(shí)的業(yè)務(wù)場(chǎng)景中,我們很容易發(fā)現(xiàn),資產(chǎn)的年化風(fēng)險(xiǎn)與人數(shù)逾期率(MOB12)的比值是一個(gè)在1附近的數(shù)值。對(duì)于這個(gè)數(shù)值的解讀,即當(dāng)年化風(fēng)險(xiǎn)除以人數(shù)逾期率顯著大于1時(shí),意味著整體額度過(guò)高,尤其是風(fēng)險(xiǎn)相對(duì)低的客戶(hù)的風(fēng)險(xiǎn)敞口沒(méi)有控制好;當(dāng)年化風(fēng)險(xiǎn)與人數(shù)逾期率接近時(shí),意味著額度和風(fēng)險(xiǎn)匹配得比較好;而當(dāng)年化風(fēng)險(xiǎn)除以人數(shù)逾期率顯著小于1時(shí),意味著整體的額度策略過(guò)于保守,雖然從風(fēng)險(xiǎn)角度講是好事,但從業(yè)務(wù)視角看其實(shí)是制約了整體的余額規(guī)模。經(jīng)過(guò)一定量的迭代以后,往往都會(huì)使得年化風(fēng)險(xiǎn)和人數(shù)逾期率之間的關(guān)系趨近于1。這時(shí)候如果人數(shù)逾期率預(yù)測(cè)得足夠準(zhǔn)確,那么意味著年化風(fēng)險(xiǎn)預(yù)測(cè)就會(huì)很容易。  

在前面的定義中提到了“逾期”的概念,那么如何定義逾期,以及如何定義用戶(hù)的“好”“壞”呢?

逾期本身是一個(gè)隨時(shí)間變化的狀態(tài)量, 比如在約定還款的15天內(nèi)都沒(méi)有還款,而在第16天成功還款,那么在前15天是逾期的,而第16天之后則不是逾期狀態(tài)。顯然,逾期的時(shí)間越長(zhǎng)越壞,最終逾期的概率越高。如何選擇一個(gè)合適的時(shí)間尺度去定義一個(gè)用戶(hù)是逾期的“壞”用戶(hù)?在實(shí)際操作中,我們往往通過(guò)觀察逾期N天后到最終逾期180天以上的概率。比如說(shuō)當(dāng)這個(gè)概率已經(jīng)大于90%時(shí),我們就可以認(rèn)為這個(gè)N已經(jīng)是一個(gè)很好的時(shí)間刻度了。在實(shí)際業(yè)務(wù)中,我們一般取N=30。

同樣的,對(duì)于“好”的定義,一樣有一個(gè)時(shí)間問(wèn)題。顯然,觀察越長(zhǎng)時(shí)間沒(méi)有逾期發(fā)生,用戶(hù)“好”的概率越高。然而對(duì)于用戶(hù)的觀察時(shí)間越長(zhǎng),會(huì)導(dǎo)致可用于學(xué)習(xí)的樣本量越少(尤其是新發(fā)展的業(yè)務(wù)本身數(shù)據(jù)就很少),并且樣本都是過(guò)去很久以前的數(shù)據(jù)(這在內(nèi)外環(huán)境快速變化的情況下影響更大)。

那么如何設(shè)定一個(gè)合適的觀察時(shí)間窗呢?通過(guò)右側(cè)的vintage曲線圖,我們可以看到,隨著時(shí)間的推移,不斷有新的用戶(hù)發(fā)生逾期,但新逾期發(fā)生的增速在緩慢地下降(斜率在變小)。理想情況下,我們希望找到斜率為0的那個(gè)時(shí)間點(diǎn)作為觀察窗口;而在實(shí)際操作中,我們往往根據(jù)業(yè)務(wù)的發(fā)展階段和vintage曲線的斜率變化來(lái)決策觀察窗口。在我們的實(shí)際業(yè)務(wù)中,一般取MOB=12作為中長(zhǎng)期的風(fēng)險(xiǎn)表現(xiàn)觀察窗口。

02科學(xué)應(yīng)用數(shù)據(jù)

當(dāng)有了樣本和模型的目標(biāo)以后,接下來(lái)看哪些特征數(shù)據(jù)可以應(yīng)用于風(fēng)控模型。從整個(gè)金融視角來(lái)看,可用數(shù)據(jù)類(lèi)型有以下幾類(lèi):

  • 征信報(bào)告:用戶(hù)歷史信用記錄
  • 互聯(lián)網(wǎng)數(shù)據(jù):用戶(hù)在互聯(lián)網(wǎng)上的各種數(shù)據(jù)
  • 第三方金融科技公司的合規(guī)數(shù)據(jù)
  • 用戶(hù)在自身產(chǎn)品下的行為數(shù)據(jù)

從三個(gè)視角來(lái)描述用戶(hù):

  • 基本屬性畫(huà)像:描述用戶(hù)的基本屬性畫(huà)像,如年齡、性別、婚姻、職業(yè)、文化水平、興趣愛(ài)好、人生階段、常駐地等(通過(guò)各種機(jī)器學(xué)習(xí)、NLP等算法預(yù)測(cè));
  • 行為序列:用戶(hù)在一段時(shí)間內(nèi)的行為,總是有很強(qiáng)的相關(guān)性。尤其在信貸場(chǎng)景下,行為序列很好地反映了用戶(hù)的需求(通過(guò)各種RNNs做序列建模);
  • 社交關(guān)系:物以類(lèi)聚,人以群分。比如通過(guò)用戶(hù)周?chē)说氖杖爰跋M(fèi)能力,例如同小區(qū)的人或者同事,可以一定程度從側(cè)面反映用戶(hù)的資產(chǎn)能力(通過(guò)各種GNNs做關(guān)聯(lián)網(wǎng)絡(luò)的建模)。

以下是一些簡(jiǎn)單的模型、特征設(shè)計(jì)示例,由于我們今天主要討論數(shù)據(jù)科學(xué),就不詳細(xì)展開(kāi)了。

  • 文本類(lèi)數(shù)據(jù):利用Attention網(wǎng)絡(luò)提取大量文本的核心數(shù)據(jù);
  • 時(shí)序類(lèi)數(shù)據(jù):利用大量借還款行為做RNNs模型預(yù)測(cè)用戶(hù)未來(lái)風(fēng)險(xiǎn);
  • 關(guān)聯(lián)類(lèi)數(shù)據(jù):1)分群算法:群屬性作為特征;2)基于深度圖卷積網(wǎng)絡(luò),充分利用相鄰節(jié)點(diǎn)的信息。

回顧之前關(guān)于選擇觀察期窗口的vintage圖表。如上圖紅框中所示,可以看到很多月份的曲線斜率突然大幅上揚(yáng)。按時(shí)間去對(duì)應(yīng)的話(huà),就會(huì)發(fā)現(xiàn)這段時(shí)間正是2020年初新冠疫情爆發(fā)的時(shí)間。疫情的爆發(fā)導(dǎo)致逾期率大幅上漲,而對(duì)疫情的影響我們沒(méi)有任何歷史經(jīng)驗(yàn),也就是說(shuō)歷史學(xué)習(xí)到的特征X(用戶(hù)屬性)與目標(biāo)Y(逾期率)之間的關(guān)系已經(jīng)不適用在疫情場(chǎng)景下了。于是針對(duì)當(dāng)下,我們需要考慮三個(gè)問(wèn)題:

  • 疫情影響是否結(jié)束?這涉及到我們?cè)撨x擇什么樣的X—Y關(guān)系用于建模和預(yù)測(cè)。
  • 疫情影響了哪些樣本?疫情顯然是特殊場(chǎng)景,不應(yīng)該和正常環(huán)境下的數(shù)據(jù)混合在一起。
  • 如何利用疫情下的樣本?

疫情持續(xù)反復(fù),但影響在不斷減弱,我們主要探討下面兩個(gè)問(wèn)題。

找出受疫情影響的用戶(hù),可以把客戶(hù)分成以下兩種:

  • 表現(xiàn)期不在疫情期間:包括正常用戶(hù)和自然逾期的用戶(hù);即這些用戶(hù)是不受疫情影響的。
  • 表現(xiàn)期在受疫情影響期間:包括正常用戶(hù)和逾期用戶(hù),而逾期用戶(hù)里必然有自然逾期和受疫情影響而逾期的用戶(hù)。

我們將表現(xiàn)期不在疫情期間逾期的用戶(hù)標(biāo)識(shí)為0,將表現(xiàn)期在受疫情期間的逾期用戶(hù)標(biāo)識(shí)為1,基于二分類(lèi)模型進(jìn)行訓(xùn)練。經(jīng)過(guò)模型訓(xùn)練以后,那些預(yù)測(cè)高概率為1的用戶(hù)就是那些受疫情影響而逾期的用戶(hù),而那些預(yù)測(cè)高概率為0的用戶(hù)就是不管有沒(méi)有疫情都大概率會(huì)逾期的客戶(hù)。這樣,我們?cè)O(shè)定一個(gè)閾值,就可以將大部分受疫情影響而逾期的用戶(hù)找出來(lái)。

另一種方法是通過(guò)EM迭代進(jìn)行識(shí)別。如上圖所示,我們按照授信月的各個(gè)MOB是否在疫情發(fā)生時(shí)期來(lái)對(duì)逾期客戶(hù)標(biāo)記顏色。藍(lán)色:自然逾期;紅色:在疫情期間內(nèi)逾期。

通過(guò)每一輪的EM迭代,我們可以將紅色分布里面近似于藍(lán)色分布的部分逐漸找出來(lái)并加入到藍(lán)色區(qū)塊內(nèi)。當(dāng)整體的風(fēng)險(xiǎn)水平接近疫情前時(shí)停止,那么依然留在紅色區(qū)域內(nèi)的逾期用戶(hù)就是受疫情影響而逾期的用戶(hù)了。

通過(guò)以上兩種方法過(guò)濾后,我們?cè)儆^察下隨時(shí)間的逾期率變化。從上圖可以看到,原先逾期30天以上的曲線在疫情發(fā)生期間是大幅上揚(yáng)的,但過(guò)濾后整個(gè)線就比較平了。

03科學(xué)評(píng)估數(shù)據(jù)

接下來(lái)講一下如何科學(xué)準(zhǔn)確地評(píng)估模型的效果。

風(fēng)險(xiǎn)模型最核心的指標(biāo)就是排序指標(biāo)KS。KS值可以很好地度量一個(gè)集合內(nèi)好壞用戶(hù)的排序分布。一個(gè)常見(jiàn)的情形是,離線評(píng)測(cè)模型的KS值很高,但是等到上線應(yīng)用后,模型的KS很快就大幅“衰減”了,而且很多時(shí)候都是離線提升的越多,線上衰減越大。那么是模型出問(wèn)題了嗎?這里其實(shí)有個(gè)觀察的誤區(qū),所謂的“衰減”是指在不同時(shí)期的不同用戶(hù)集合上的KS值比較,而實(shí)際上不同集合間的KS絕對(duì)值是沒(méi)有比較意義的。

舉一個(gè)簡(jiǎn)單的例子,某一場(chǎng)考試預(yù)測(cè)排名,試想對(duì)全校去年成績(jī)前50的學(xué)生進(jìn)行排序預(yù)測(cè)容易還是對(duì)任意一個(gè)班的學(xué)生預(yù)測(cè)排序容易,顯然對(duì)后者的預(yù)測(cè)必然會(huì)更準(zhǔn)確一些。上圖中右邊部分描述模型上線后KS“衰減”的原因。新模型V2的排序能力高于V1,它可以將V1授信通過(guò)的用戶(hù)中更多的壞用戶(hù)排到靠后。當(dāng)V2上線后,V2高準(zhǔn)確度識(shí)別的類(lèi)似壞用戶(hù)無(wú)法通過(guò)了(也就是只剩下全校排名靠前的學(xué)生了),因此對(duì)V2決策通過(guò)的用戶(hù)算KS自然就下降了。上圖中,只有KS2與KS1、KS3與KS4是有比較意義的。

模型穩(wěn)定性是另一個(gè)關(guān)鍵因素。分布穩(wěn)定性最基礎(chǔ)的指標(biāo)是PSI,只有預(yù)測(cè)分?jǐn)?shù)分布是穩(wěn)定的,這樣才有信心可以基于歷史數(shù)據(jù)去預(yù)測(cè)未來(lái)的風(fēng)險(xiǎn);性能穩(wěn)定性則是指,要保證預(yù)測(cè)分?jǐn)?shù)區(qū)間對(duì)應(yīng)的真實(shí)風(fēng)險(xiǎn)是相對(duì)穩(wěn)定的,比如600-650分之間對(duì)應(yīng)的逾期風(fēng)險(xiǎn)是1%,那么我們希望在所有月份上真實(shí)風(fēng)險(xiǎn)都能穩(wěn)定在1%的水平附近。

而在策略對(duì)模型的實(shí)際應(yīng)用中, 核心則是基于Swap in & out的分析。通過(guò)分段交叉的矩陣,考量在人數(shù)相同的情況下,新模型的整體逾期率是否顯著低于舊模型;而在相同逾期率的水平下,新模型的通過(guò)率提升多少,可以提升整體規(guī)模多少。

那些被拒絕掉的用戶(hù),是沒(méi)有風(fēng)險(xiǎn)表現(xiàn)的,只有那些最終通過(guò)且發(fā)生信貸行為的用戶(hù)才有風(fēng)險(xiǎn)表現(xiàn)。試想,用于學(xué)習(xí)的樣本都是歷代模型認(rèn)為較好的客戶(hù),隨著模型不斷迭代,模型學(xué)習(xí)的樣本向好用戶(hù)收斂,樣本的特征空間就越來(lái)越窄了。常見(jiàn)的一種方式是引入拒絕推斷,給拒絕的用戶(hù)賦予label,讓其參與到模型訓(xùn)練里。上圖介紹了一種做拒絕推斷的方法。

給拒絕的用戶(hù)按照模型1給出的打分,比如某個(gè)用戶(hù)模型1的分?jǐn)?shù)是0.2(逾期率20%),那么將這個(gè)用戶(hù)的樣本復(fù)制10份,其中8份樣本的label設(shè)成0,2份設(shè)置成1。這樣10份樣本特征一樣,但整體label為1的比例就是20%。當(dāng)然也可以不復(fù)制樣本,很多模型都支持設(shè)置樣本權(quán)重。通過(guò)這種方式增加了X取值的多樣性,可以一定程度提升模型的適用性。

客戶(hù)分群的方法有很多,上圖展示了一種劃分方法:最頂層先考慮實(shí)際的借款用途,區(qū)分為小微和消費(fèi);然后基于客戶(hù)的活躍程度進(jìn)一步劃分成活躍和非活躍;最后再根據(jù)如行業(yè)或者行為上的差異進(jìn)一步細(xì)分客群。細(xì)分客群的核心思想是,不同客群之間存在明顯的差異性,一種是特征上的差異,一種是風(fēng)險(xiǎn)表現(xiàn)上的差異。這種情況下,細(xì)分客群建模,可以讓每個(gè)模型充分學(xué)習(xí)自身樣本的信息,而不是從全局上平均化地去擬合。但是,如果尋找不到顯著的差異,特別是樣本總量還不是很充足的時(shí)候,分客群不是一個(gè)好的選擇。

04科學(xué)解釋數(shù)據(jù)

最后講一下如何解釋模型結(jié)果。

  • V1:邏輯回歸模型:優(yōu)點(diǎn)——可解釋強(qiáng)。缺點(diǎn)——特征數(shù)量少,模型簡(jiǎn)單,對(duì)特征的質(zhì)量要求非常高,預(yù)測(cè)的能力相對(duì)較弱。
  • V2:決策樹(shù)模型:優(yōu)點(diǎn)——避免大量特征工程,模型效果較好。缺點(diǎn)——特征多,且特征之間是非線性關(guān)系,難以解釋。
  • V3: 兩層模型:把成千上萬(wàn)的變量基于數(shù)據(jù)源,通過(guò)各種機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的算法構(gòu)建子模型,然后把這些子分作為上層LR或淺層X(jué)GB模型的輸入,完成最終的模型。優(yōu)點(diǎn)是在頂層模型上解釋性很好,子分與結(jié)果具有一定線性關(guān)系,可以快速定位子分的問(wèn)題,非常便于排查問(wèn)題。

今天的分享就到這里,謝謝大家。

責(zé)任編輯:張燕妮 來(lái)源: DataFunTalk
相關(guān)推薦

2025-01-03 08:26:17

2015-07-29 14:16:43

互聯(lián)網(wǎng)金融大數(shù)據(jù)

2019-05-07 16:30:18

TigerGraph數(shù)據(jù)庫(kù)金融風(fēng)控

2017-03-27 08:56:15

支付風(fēng)控模型

2016-10-14 13:27:13

大數(shù)據(jù)互聯(lián)網(wǎng)金融

2023-02-06 08:20:36

2017-04-21 14:04:50

互聯(lián)網(wǎng)

2020-07-11 15:56:07

人工智能大數(shù)據(jù)云計(jì)算

2024-05-17 08:16:08

數(shù)據(jù)建設(shè)風(fēng)控領(lǐng)域數(shù)據(jù)分析

2017-03-01 16:49:53

金融大數(shù)據(jù)張為斌

2020-06-28 09:53:16

大數(shù)據(jù)個(gè)人隱私技術(shù)

2017-03-01 10:50:45

2023-02-15 21:49:55

2023-09-04 07:03:35

2023-06-02 07:19:56

因果推斷度小滿(mǎn)

2017-02-28 14:53:13

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 欧美韩一区二区 | 国产视频黄色 | 成人精品一区二区 | 羞羞视频网站 | 精品国产乱码久久久久久88av | 免费久草| av中文字幕在线 | 日韩中文字幕在线观看视频 | 在线免费国产视频 | 国产激情片在线观看 | 美国一级黄色片 | 国产高清久久久 | 久久国产精品免费一区二区三区 | 精品久久久久久亚洲综合网 | 精品一区二区三区日本 | 在线欧美一区二区 | 激情一区二区三区 | 在线免费观看黄色网址 | 成人黄色三级毛片 | 国产成人a亚洲精品 | 精品国产一区二区三区观看不卡 | 久久精品综合 | 国产精品久久国产精品久久 | 日韩精品一区二区三区免费观看 | 色综合99 | 亚洲一区二区在线 | 精品久久久网站 | 国产精品精品3d动漫 | 亚卅毛片 | 自拍 亚洲 欧美 老师 丝袜 | 一区二区久久精品 | 精品在线一区二区三区 | 欧美精品一区二区三区四区五区 | av电影一区二区 | 亚洲精品久久嫩草网站秘色 | 免费视频一区二区 | 91在线色视频 | 日韩av.com| 尤物在线 | 韩日一区二区三区 | 亚洲精品自在在线观看 |