大數據與行為預測模型—劉志軍
原創今天要跟大家講講大數據與行動預測模型。為什么要講這個呢?馬上消費金融公司是一家持牌的消費金融公司,也就是說有國家銀監會發了營業執照的。我們首先是一家創業公司,因為是很小的團隊從零開始創建,同時是一家互聯網公司,因為我們要從事的是線上的業務。同時我們是一個大數據的公司,這也是我今天要跟大家簡短介紹的東西。
劉志軍博士 ,馬上金融副總經理,原美國前五大銀行Capital One統計分析部資深總監,曾擔任美國知名征信機構Equifax***統計學家和美國密西西比大學副教授。劉志軍擁有美國賓夕法尼亞州立大學的博士學位和中國科學技術大學的學士學位。
我們的消費金融做的業務跟別的消費金融和互聯網公司本質上沒有什么不一樣,但手段上可能有差異。我們的業務是以數據為依托的,有來自央行征信局的征信數據,有社保數據和公安部數據,加上互聯網上的數據。這些大量多元、高維的、動態的數據,會支撐整個業務,包括從產品設計到市場營銷,到風控策略,客戶管理,到***的催收,都是通過數據給我們提供決策的依據。
再說業務性質。消費金融有幾個特征,***個它是小額,個人消費金融不可能是特別大的額度,界定20萬為上限。第二是分散,咱們不像銀行做一個大生意,一大單好多億借出去,所以它比較集中,咱們分散,是面對全國的老百姓。第三是大量,咱們有14億人,除了未成年的以外,別的都是可能的客戶。第四是短期,咱們做決策的預測不需要預測10年、20年,就是一年兩年,甚至是幾個月。
這其中會有三類問題,一個是聚類,把客戶分成一類。還有一個是模式的識別,事先設了目標。還有一個是預測,根據你得到的數據來預測一個特定客戶的行為。這三類問題歸根結底還是預測問題。
預測歸結到數據或者統計上來說,是一個非常簡單的問題,問題的提法非常簡單,解法可不那么簡單。很多實際問題***個把它分為二元回歸模式。對我們來說,比如風險可以設為0和1,就是有和無,具體來說就是我放一筆貸款能收回來和收不回來,就是兩種可能。
這樣目標變量就叫Y,就是0和1。用什么來做預測,就看你能收集到什么數據,這些數據跟它有多少相關性。這個取決于兩個條件,一個你有沒有數據,一個你數據的質量怎么樣,跟你所對應的要解決的問題相關程度怎么樣。現在大家都說做大數據,大家手里有數據,覺得非常有價值,確實是非常有價值。但是它跟各類問題的相關性到底有多強,是有待驗證的,越強價越大,做出來的預測值是什么,就是一個概率。
具體怎么設定這個問題,有一個表現的窗口。我們能夠預測的觀察值就是在窗口的開始。比如說我們做風險的預測,就是在客戶申請貸款的那個時候的數據,作為預測放款以后他會什么樣的表現。我們要觀察給他多長時間合適,取決你金融的產品,取決你具體的業務。比如你就是一個三個月三期的分期的產品,用不著跑12個月。
更一般的情況是,我們有一般回歸的模型,對我們消費金融來講,比如說消費的金額,這個我們可以做預測,特別是對信用卡來說,信用卡可以貸多少,都跟盈利很有關系。我們有一批真實的數據,真實的收入,用我們相關的變量來預測,估計這個收入,這個可以做模型。也就是說用一種數據來預測另一種數據。
在這種情況下又變成一個回歸模型,既然都是回歸模型,那就抽象成非常簡單的回歸的模型,這個模型就是一個條件期望,就是Y比X,X是所謂你的L預測的數據、變量,一個條件期望。預測,這也就是說在大數據設定下,我們只管相關性,而不管因果性。
建模的方法,時間關系不會講細,我列一些方法,這些方法大家也都經常聽說過。從這邊比較傳統直觀的方法是參數的方法,參數方法說白了就是把你的預測變量分成小塊,在塊上看你要預測的變量觀察值的平均就完了,就那么簡單。
具體的問題還得具體分析。真正你要了解你要解決的問題是什么樣的,你才能把模型建好了。以我的經驗,***你發現你找到的***的方法是hybrid,所謂的hybrid就是綜合很多種不同的辦法,來做出的一個模型。
建模很重要,但是怎么用模型其實更重要。一個比較好的模型用的***,比一個***的模型一般用法要好。沒有特定的分界值,而是對不同風險的客戶群,我們有不同風險的政策。所以要復雜地應用這個模型,在別的維度上要想明白怎么優化,這樣模型的用法就會比簡單的切割要好得多。
***我準確講一講建模中常有的問題,這確實是針對目前國內情況的問題。在美國有問題,但不是這類的問題,一個是數據覆蓋率的問題。我知道很多機構,很多大公司,都有數據,都很寶貴,很難讓他們拿出來共享。這就造成了覆蓋率有問題,每一塊的數據覆蓋一部分,另一塊的數據又覆蓋另外一部分,這是一個問題。第二個是質量標準不一樣,可能是同樣來源的數據,但處理完了之后造成標準不一樣,質量不一。這就造成大量的缺失值,造成很多樣本的偏差。這個問題怎么解決,確實是我們面臨的很大的問題,這也是我覺得應該用大數據方法來解決的。
總結一下,消費金融的特性特別適合于大數據作為行為的預測。方法有非常多種,取決于你對這個業務的理解,對方法的理解。根據你實際的情況,能夠選擇最適合的辦法。通常不會是一種辦法,而是你自己創造出了辦法,結合好幾種辦法的東西造一個hybrid的東西。造完模型并不是就完成了,最重要的一塊是你的模型要有充分的驗證。因為這里面很重要的一點是講相關性,相關性不是因果關系的話,很可能這個模型失敗了你都不知道怎么回事,哪一天模型一點用都沒有,你都不知道怎么發生的。因為它不是因果關系的問題,是個相關性的問題,相關性在特定條件下產生的。這個特定條件一旦沒有的話,這個相關性就不存在。所以驗證和穩定性非常重要。還有一點,建模很重要,但是應用更重要。***我希望咱們的數據共享能夠更快、更廣的推廣,也希望大家共同努力,能夠把我們目前所遇到的問題解決了。