金融科技公司如何運用 AI 進行風控
原創【51CTO.com原創稿件】21世紀以來的金融科技大潮洶涌澎湃。伴隨著人工智能和互聯網技術的興起,傳統金融行業受到了顛覆性的沖擊。特別是在金融風控領域,伴隨著機器學習理論的發展和成熟,以及人們對技術的信賴度逐漸增加,越來越多的金融企業和機構采納了人工智能的方式來處理傳統的業務問題。
站在人工智能的角度上來說,風控本身是一個不均衡分類問題。所謂不均衡分類問題,是指在分類的過程中正負樣本的分布極為不均。因為在銀行借貸的過程中,欺詐用戶畢竟是少數人,互聯網金融公開的數據欺詐率在 10% 到 20%,傳統銀行業的欺詐率通常更低。所以金融科技公司要解決的就是如何在數據分布不均衡的情況下通過分類的方法把惡意用戶篩選掉。
因為本質上是分類問題,所以只要是分類算法,都可以用來嘗試解決問題。像傳統的淺層模型邏輯回歸、隨機森林、xgboost 以及后續的混合模型和深度學習模型都可以用來做風控。這里分享恒昌利通的研究人員在 2018 年的國際會議 DMKD 2018 發表的一篇介紹金融行業風控的論文《Detection of fraudulent users in P2P financial market》。
論文作者的數據輸入主要是線下門店的用戶填表信息,包括用戶的家庭信息,工作單位信息,貸款信息等。作者嘗試使用隨機森林和 xgboost 的方法,并進行了對比。對比主要采用了 Grid Search 枚舉了模型參數。評測指標為 AUC 。
輸入數據總共有 97 個特征,其中有 33 個特征是類別特征。類別特征用 one-hot 的形式進行了處理。實驗數據分為訓練集、測試集和驗證集,數據比例為 4:1:1。因為數據總體維度較高,因此在分類前嘗試用 PCA 的方法進行數據降維處理,得到隨機森林 + PCA 的 Grid Search 效果圖如下所示:
隨機森林+PCA 在測試集上的 AUC 為 0.78 ,在訓練集上的 AUC為 0.797。隨后作者比較了 xgboost + PCA 的效果。因為數據集合的分布跨度很大,因此考慮采用 tanh 對數據進行歸一化處理,歸一化處理后 xgboost + tanh 的效果***,排除奇異點得到的 AUC基本在 0.88 左右,如下圖所示:
作者也嘗試了 PCA + tanh 結合的方式,但是效果并不如 xgboost + tanh 理想,所以最終采納的模型為 xgboost + tanh 。
風控反欺詐領域的人工智能探索持續了多年,早在 2000 年初期美國的研究者就已經在研究相關領域的技術。然而相關技術真正得到人們的信任,也是等到了許多年的時間檢驗之后。直到人工智能技術日趨成熟的今天,仍然會有許多的門戶之見:例如只有精通金融業務的人才能真正做好風控,風控數據重要還是模型重要等帶有嚴重偏見的無聊辦公室政治話題經常影響公司內部正常的業務開展。
2018年 Kaggle 上 Home Credit 這家公司組織了一次反欺詐比賽,提供的基本數據都是一樣的,參賽的基本都是技術人員,差別只在大家對特征工程和模型的選擇和處理上,最終的結果千差萬別。這樣的比賽活動能夠打消許多人對于人工智能技術的偏見和誤解。所以說很多時候影響一項技術或者事業進步的,不是技術本身,而是人的固有執念。
當然,這也并不是說技術不成熟就要硬上。比如深度學習模型在金融風控領域其實現在還沒有取得比 xgboost 或者淺層模型更好的效果。為了績效或者面子工程而拿深度學習模型作秀實屬浪費公司的資源和開發者個人的寶貴時間。
總之,金融科技行業近幾年來發展迅猛,但是在發展的過程中泥沙俱下。作為金融科技從業者對于自己的事業要有清晰的認知和定位。
作者簡介:
汪昊,區塊鏈公司科學家,前恒昌利通大數據部負責人,美國猶他大學本科/碩士,在百度,新浪,網易,豆瓣等公司有多年的研發和技術管理經驗,擅長機器學習,大數據,推薦系統,社交網絡分析等技術。在 TVCG 和 ASONAM 等國際會議和期刊發表論文 10 篇。本科畢業論文獲國際會議 IEEE SMI 2008 ***論文獎。
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】