成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數據與行為預測模型—劉志軍

原創
移動開發
由51CTO舉辦的WOT”互聯網+”時代大數據技術峰會上,來自馬上消費金融公司的副總經理劉志軍做了以《大數據與行為預測模型》為主題的演講。本文章是把本次分享干貨亮點的整理成文字形式,呈獻廣大的用戶。

今天要跟大家講講大數據與行動預測模型。為什么要講這個呢?馬上消費金融公司是一家持牌的消費金融公司,也就是說有國家銀監會發了營業執照的。我們首先是一家創業公司,因為是很小的團隊從零開始創建,同時是一家互聯網公司,因為我們要從事的是線上的業務。同時我們是一個大數據的公司,這也是我今天要跟大家簡短介紹的東西。

劉志軍博士 ,馬上金融副總經理,原美國前五大銀行Capital One統計分析部資深總監,曾擔任美國知名征信機構Equifax***統計學家和美國密西西比大學副教授。劉志軍擁有美國賓夕法尼亞州立大學的博士學位和中國科學技術大學的學士學位。

我們的消費金融做的業務跟別的消費金融和互聯網公司本質上沒有什么不一樣,但手段上可能有差異。我們的業務是以數據為依托的,有來自央行征信局的征信數據,有社保數據和公安部數據,加上互聯網上的數據。這些大量多元、高維的、動態的數據,會支撐整個業務,包括從產品設計到市場營銷,到風控策略,客戶管理,到***的催收,都是通過數據給我們提供決策的依據。

再說業務性質。消費金融有幾個特征,***個它是小額,個人消費金融不可能是特別大的額度,界定20萬為上限。第二是分散,咱們不像銀行做一個大生意,一大單好多億借出去,所以它比較集中,咱們分散,是面對全國的老百姓。第三是大量,咱們有14億人,除了未成年的以外,別的都是可能的客戶。第四是短期,咱們做決策的預測不需要預測10年、20年,就是一年兩年,甚至是幾個月。

這其中會有三類問題,一個是聚類,把客戶分成一類。還有一個是模式的識別,事先設了目標。還有一個是預測,根據你得到的數據來預測一個特定客戶的行為。這三類問題歸根結底還是預測問題。

預測歸結到數據或者統計上來說,是一個非常簡單的問題,問題的提法非常簡單,解法可不那么簡單。很多實際問題***個把它分為二元回歸模式。對我們來說,比如風險可以設為0和1,就是有和無,具體來說就是我放一筆貸款能收回來和收不回來,就是兩種可能。

這樣目標變量就叫Y,就是0和1。用什么來做預測,就看你能收集到什么數據,這些數據跟它有多少相關性。這個取決于兩個條件,一個你有沒有數據,一個你數據的質量怎么樣,跟你所對應的要解決的問題相關程度怎么樣。現在大家都說做大數據,大家手里有數據,覺得非常有價值,確實是非常有價值。但是它跟各類問題的相關性到底有多強,是有待驗證的,越強價越大,做出來的預測值是什么,就是一個概率。

具體怎么設定這個問題,有一個表現的窗口。我們能夠預測的觀察值就是在窗口的開始。比如說我們做風險的預測,就是在客戶申請貸款的那個時候的數據,作為預測放款以后他會什么樣的表現。我們要觀察給他多長時間合適,取決你金融的產品,取決你具體的業務。比如你就是一個三個月三期的分期的產品,用不著跑12個月。

更一般的情況是,我們有一般回歸的模型,對我們消費金融來講,比如說消費的金額,這個我們可以做預測,特別是對信用卡來說,信用卡可以貸多少,都跟盈利很有關系。我們有一批真實的數據,真實的收入,用我們相關的變量來預測,估計這個收入,這個可以做模型。也就是說用一種數據來預測另一種數據。

在這種情況下又變成一個回歸模型,既然都是回歸模型,那就抽象成非常簡單的回歸的模型,這個模型就是一個條件期望,就是Y比X,X是所謂你的L預測的數據、變量,一個條件期望。預測,這也就是說在大數據設定下,我們只管相關性,而不管因果性。

建模的方法,時間關系不會講細,我列一些方法,這些方法大家也都經常聽說過。從這邊比較傳統直觀的方法是參數的方法,參數方法說白了就是把你的預測變量分成小塊,在塊上看你要預測的變量觀察值的平均就完了,就那么簡單。

具體的問題還得具體分析。真正你要了解你要解決的問題是什么樣的,你才能把模型建好了。以我的經驗,***你發現你找到的***的方法是hybrid,所謂的hybrid就是綜合很多種不同的辦法,來做出的一個模型。

建模很重要,但是怎么用模型其實更重要。一個比較好的模型用的***,比一個***的模型一般用法要好。沒有特定的分界值,而是對不同風險的客戶群,我們有不同風險的政策。所以要復雜地應用這個模型,在別的維度上要想明白怎么優化,這樣模型的用法就會比簡單的切割要好得多。

***我準確講一講建模中常有的問題,這確實是針對目前國內情況的問題。在美國有問題,但不是這類的問題,一個是數據覆蓋率的問題。我知道很多機構,很多大公司,都有數據,都很寶貴,很難讓他們拿出來共享。這就造成了覆蓋率有問題,每一塊的數據覆蓋一部分,另一塊的數據又覆蓋另外一部分,這是一個問題。第二個是質量標準不一樣,可能是同樣來源的數據,但處理完了之后造成標準不一樣,質量不一。這就造成大量的缺失值,造成很多樣本的偏差。這個問題怎么解決,確實是我們面臨的很大的問題,這也是我覺得應該用大數據方法來解決的。

總結一下,消費金融的特性特別適合于大數據作為行為的預測。方法有非常多種,取決于你對這個業務的理解,對方法的理解。根據你實際的情況,能夠選擇最適合的辦法。通常不會是一種辦法,而是你自己創造出了辦法,結合好幾種辦法的東西造一個hybrid的東西。造完模型并不是就完成了,最重要的一塊是你的模型要有充分的驗證。因為這里面很重要的一點是講相關性,相關性不是因果關系的話,很可能這個模型失敗了你都不知道怎么回事,哪一天模型一點用都沒有,你都不知道怎么發生的。因為它不是因果關系的問題,是個相關性的問題,相關性在特定條件下產生的。這個特定條件一旦沒有的話,這個相關性就不存在。所以驗證和穩定性非常重要。還有一點,建模很重要,但是應用更重要。***我希望咱們的數據共享能夠更快、更廣的推廣,也希望大家共同努力,能夠把我們目前所遇到的問題解決了。

責任編輯:李英杰 來源: 51CTO
相關推薦

2013-12-17 13:17:25

大數據

2021-03-07 22:27:23

大數據網絡視頻

2017-12-26 16:34:19

大數據人工智能違法

2014-03-13 10:45:40

大數據

2013-09-05 09:33:25

大數據盧東明SAP

2018-04-02 13:42:36

大數據數據泄露監管

2015-11-28 19:21:05

WOT2015大數據消費金融

2020-10-19 08:15:23

自動駕駛模型人工智能

2015-03-24 22:14:07

大數據分析

2014-01-22 15:27:13

大數據

2021-12-23 14:44:31

大數據大數據動向數據技術

2022-03-30 11:14:25

大數據數據分析安全

2021-01-15 10:25:22

大數據云計算大數據分析

2023-11-02 07:24:41

大數據行業預測

2015-12-29 17:06:17

大數據存儲

2013-11-08 17:57:01

SAP

2020-09-27 17:30:55

大數據軍事技術

2013-12-02 10:25:34

大數據消費行為數字化

2013-05-16 10:56:52

2014-06-05 15:18:53

大數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成年人在线视频 | 亚洲精品免费视频 | 日本一区二区电影 | 亚洲交性| 一区二区三区四区五区在线视频 | 亚洲在线高清 | 久久精品视频在线播放 | 中文字幕一区在线 | 六月成人网 | 欧美一级在线观看 | 天堂素人约啪 | 草久久免费视频 | 国产女人叫床高潮大片免费 | 国产精品乱码一区二区三区 | 一区中文字幕 | 欧美成人高清视频 | 久久一二 | 人人玩人人添人人澡欧美 | 久久精品亚洲一区二区三区浴池 | 精品久久久一区 | 日本午夜精品一区二区三区 | 久久久久国产 | 国产wwwcom | 不卡视频一区二区三区 | 国产一区二区三区四区在线观看 | 成人精品国产一区二区4080 | 久久成人一区 | 日韩一区二区三区精品 | 精品成人免费视频 | 成人在线精品 | 国产精品激情在线 | 黄a大片| 日操操| 成人夜晚看av | 国产成人精品一区二区三区在线 | 欧美日韩国产综合在线 | 国产999在线观看 | 国产91视频免费 | 久久er精品 | 91精品国产乱码久久久久久久久 | 亚洲天堂免费 |