成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

文檔脫敏技術(shù)在信貸評審業(yè)務(wù)上的應(yīng)用

原創(chuàng) 精選
人工智能
本文詳細(xì)闡述了工行軟開中心如何運用人工智能技術(shù)對行內(nèi)信貸評審報告進行智能脫敏處理,通過敏感信息塊檢測、敏感要素檢測、敏感圖像檢測等技術(shù)手段進行敏感信息識別,實現(xiàn)評審報告合規(guī)共享,從而支撐審貸人員更便捷地獲取各行業(yè)的優(yōu)質(zhì)評審經(jīng)驗,提升評審質(zhì)效。

一、背景

傳統(tǒng)信貸評審流程中,審貸人員通常依據(jù)貸前盡調(diào)報告及自身經(jīng)驗撰寫評審報告,報告涵蓋擬授信企業(yè)的行業(yè)分析、財務(wù)情況評估及市場前景預(yù)估等內(nèi)容,對審貸人員的行業(yè)知識儲備、風(fēng)險評估能力和趨勢判斷能力有較高的要求,且近年來新能源汽車、芯片等新興行業(yè)的市場情況瞬息萬變,無疑使信貸評審工作增添了更多的挑戰(zhàn)。因此,審貸人員亟需獲取行內(nèi)資深審貸專家報告來汲取相關(guān)評審經(jīng)驗,輔助審批決策;但由于法律法規(guī)、監(jiān)管規(guī)定對跨分行文檔閱讀權(quán)限等安全性方面的制約,基層審貸人員往往難以獲取到該類評審報告。

在此背景下,工行軟開中心對歷史大量評審報告影像資料和業(yè)界數(shù)據(jù)安全技術(shù)進行了調(diào)研研究,創(chuàng)新性地提出了文檔智能脫敏方案。在符合法律法規(guī)和監(jiān)管規(guī)定的前提下,通過敏感信息塊檢測、敏感要素檢測、敏感圖像檢測等技術(shù)手段進行敏感信息識別和涂抹,對信貸評審報告實現(xiàn)了敏感信息99%的自動脫敏,在保證文檔安全性的同時,實現(xiàn)文檔的快速共享。

二、文檔智能脫敏方案

文檔智能脫敏方案主要是借助人工智能技術(shù)對文檔進行深度結(jié)構(gòu)化分析,再通過自然語言處理識別文檔中的敏感信息塊和各類敏感要素,通過圖像處理識別敏感圖像,使得文檔中的文字信息和圖像內(nèi)容安全地脫敏。該方案主要涉及三個核心能力:

1.敏感信息塊檢測

文檔中有些敏感信息通常以孤立的形式存在,缺乏必要的上下文信息,例如,審貸人員的姓名及其所屬機構(gòu)等數(shù)據(jù),多以嵌入隱藏表格的方式保存,傳統(tǒng)的要素抽取技術(shù)和實體識別模型無法滿足識別該類孤立敏感數(shù)據(jù)識別的需求。為了有效識別孤立敏感數(shù)據(jù),工行軟開中心設(shè)計并建設(shè)了敏感信息塊檢測能力,通過文檔分割并將內(nèi)容向量化,與自建的敏感短語向量數(shù)據(jù)庫進行比對,高效識別敏感信息塊。

圖1 敏感信息塊效果(紅框所示)圖1 敏感信息塊效果(紅框所示)

敏感信息塊檢測的主要流程如下:首先,從歷史影像資料中收集可能的敏感短語,并利用基于StructBert訓(xùn)練的分類模型進行處理;其次,將敏感短語向量化,作為分類模型的隱層特征(768維);再次,將向量化的敏感短語信息存儲到向量數(shù)據(jù)庫中。當(dāng)需要脫敏的文檔上傳后,將文檔內(nèi)容分割成多個小部分(chunk)并批量向量化,再計算chunk中的向量與向量數(shù)據(jù)庫中已存儲的敏感短語向量之間的余弦距離,若余弦距離超過預(yù)設(shè)閾值,則該部分內(nèi)容被判定為敏感信息。

圖2 敏感塊檢測圖2 敏感塊檢測

2.敏感要素檢測

文檔中的敏感信息種類繁多,包括但不限于企業(yè)名稱、企業(yè)法人姓名、股東名稱、股權(quán)代碼、社會統(tǒng)一代碼等十余種關(guān)鍵要素,這些敏感要素?zé)o固定格式,識別該類要素具有一定的挑戰(zhàn)。因此,工行軟開中心建設(shè)了敏感要素檢測能力,采用多種模型集成的方法,來精確識別文檔中各類敏感元素。

對于企業(yè)法人名稱、企業(yè)名稱、股東法人名稱、股東名稱等敏感要素,工行軟開中心采取在BERT模型基礎(chǔ)上進行微調(diào)的方法來提升檢出率。具體來說,首先,對文檔語料進行打標(biāo),實體的開頭字符用“B-”表示,實體的非開頭部分用“I-”標(biāo)記,非實體部分則用“0”表示;其次,在原有的BERT模型基礎(chǔ)上,添加條件隨機場(CRF)層,形成微調(diào)后的新模型,對打標(biāo)語料識別'B-I'部分,抽取出不同類型的實體元素,從而提升敏感要素的識別精度。

圖3 敏感元素檢測圖3 敏感元素檢測

對于身份證號碼、股票代碼等敏感要素,工行軟開中心設(shè)計了一系列精確的正則表達式來提高檢出率。首先利用Libreoffice框架將doc、wps、docm等各種格式的文檔,統(tǒng)一轉(zhuǎn)換為docx格式進行處理;其次,基于docx的XML結(jié)構(gòu),將文檔進行深度結(jié)構(gòu)化拆分,對于拆分出來的每個小部分(chunk),使用正則匹配技術(shù)查找符合特定規(guī)則的模式;最后,輸出已識別的身份證號碼、股票代碼等具有規(guī)則化結(jié)構(gòu)的實體信息。

圖4 規(guī)則數(shù)據(jù)解析圖4 規(guī)則數(shù)據(jù)解析

對于企業(yè)注冊地址等敏感要素,工行軟開中心對標(biāo)業(yè)界先進經(jīng)驗選擇LBERT+CRF模型結(jié)合知識圖譜的方法來精準(zhǔn)識別企業(yè)的省、市、區(qū)、街道等詳細(xì)地址信息。在傳統(tǒng)的BERT模型基礎(chǔ)上引入Lexicon Adapter模塊(即LBERT模型),該模塊能夠關(guān)聯(lián)字符和詞匯特征,這樣,LBERT模型在預(yù)測實體時,不僅能考慮字符級別的特征,也能考慮詞匯級別的特征,從而提高了地址信息的識別準(zhǔn)確度。此外,由于地址信息可能存在因手工輸入錯誤、歷史地名變遷等導(dǎo)致的錯誤或缺失,利用地址知識圖譜對LBERT模型輸出的地址信息進行校正和補充,地址知識圖譜按照省、市、區(qū)、街道的層級構(gòu)建,并納入了舊名、別名等信息。

圖5 LBERT模型結(jié)構(gòu)圖5 LBERT模型結(jié)構(gòu)

圖6 地址知識圖譜結(jié)構(gòu)圖6 地址知識圖譜結(jié)構(gòu)

3.敏感圖像檢測

敏感圖像檢測由兩個關(guān)鍵能力組成,語義理解和圖像理解。首先,利用結(jié)構(gòu)化分析技術(shù)解析文檔內(nèi)容,將圖像信息與周圍的文本內(nèi)容結(jié)合,通過語義理解模型分析這些關(guān)聯(lián)信息,以判斷圖像是否包含敏感內(nèi)容;其次,構(gòu)建圖像理解模型,直接解析圖像本身內(nèi)容,進一步評估圖像是否涉及敏感信息;最后,將這兩個模型的識別結(jié)果進行合并,確保不遺漏任何敏感圖像。

圖7 圖像理解能力構(gòu)建圖7 圖像理解能力構(gòu)建

圖8 語義理解模型構(gòu)建圖8 語義理解模型構(gòu)建

圖9 敏感圖像檢測調(diào)用流程圖9 敏感圖像檢測調(diào)用流程

三、總結(jié)和展望

本文詳細(xì)闡述了工行軟開中心如何運用人工智能技術(shù)對行內(nèi)信貸評審報告進行智能脫敏處理,通過敏感信息塊檢測、敏感要素檢測、敏感圖像檢測等技術(shù)手段進行敏感信息識別,實現(xiàn)評審報告合規(guī)共享,從而支撐審貸人員更便捷地獲取各行業(yè)的優(yōu)質(zhì)評審經(jīng)驗,提升評審質(zhì)效。

在數(shù)字化轉(zhuǎn)型的潮流中,金融行業(yè)正迎來前所未有的變革。工行軟開中心積極擁抱科技,引入人工智能、大數(shù)據(jù)等創(chuàng)新技術(shù),充分激活并發(fā)揮行內(nèi)數(shù)據(jù)資產(chǎn)價值,不斷優(yōu)化和提升金融服務(wù)水平。接下來,工行軟開中心將繼續(xù)以積極的態(tài)度和創(chuàng)新的實踐,為金融行業(yè)的高質(zhì)量發(fā)展貢獻自己的力量。

責(zé)任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2021-09-13 18:09:59

騰訊文檔業(yè)務(wù)云計算

2016-12-01 13:44:19

iosandroid

2022-02-13 23:05:23

加密貨幣比特幣貨幣

2021-11-17 14:28:18

區(qū)塊鏈數(shù)字錢包數(shù)字貨幣

2020-09-28 10:05:57

數(shù)據(jù)工具技術(shù)

2023-09-14 08:34:28

linux架構(gòu)參數(shù)

2018-01-26 07:53:46

數(shù)據(jù)脫敏數(shù)據(jù)安全信息安全

2024-09-30 09:29:18

2011-11-30 07:38:07

存儲虛擬化

2022-09-01 10:10:27

數(shù)據(jù)編排技術(shù)

2009-01-19 16:44:31

數(shù)據(jù)挖掘沃爾瑪應(yīng)用

2009-04-10 09:42:00

數(shù)據(jù)集成業(yè)務(wù)數(shù)據(jù)路由器

2011-03-17 12:33:56

面向?qū)ο髷?shù)據(jù)庫電子商務(wù)

2013-04-19 10:52:06

上海貝爾多層業(yè)務(wù)交換

2016-11-22 09:40:08

2010-01-06 15:21:00

軟交換技術(shù)

2021-07-07 13:47:38

OCR游戲運行圖像

2021-09-14 23:00:04

區(qū)塊鏈金融技術(shù)

2009-12-31 13:19:40

城域網(wǎng)接入技術(shù)

2013-09-17 18:11:56

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: www.亚洲视频 | 天天躁人人躁人人躁狂躁 | 婷婷综合色 | 国产精品18久久久久久白浆动漫 | 欧美日韩亚洲在线 | 精品久久久久久久久久久下田 | 一区二区三区四区免费视频 | 精品久久一 | 午夜性色a√在线视频观看9 | 久久一区精品 | av天天干| 一级aaaa毛片 | 日本视频在线播放 | 色视频欧美 | 三级视频在线观看电影 | 97成人精品 | 在线观看深夜视频 | 在线观看中文字幕 | 久草成人 | 午夜在线影院 | 国产日韩一区二区三区 | 日韩电影一区 | 精品国产乱码久久久久久中文 | 欧美一区二区三区在线 | 黄色一级视频 | 亚洲国产成人av好男人在线观看 | 超碰一区二区 | 祝你幸福电影在线观看 | a欧美 | 中文字幕国产精品 | 亚洲第一网站 | 久久国产一区二区三区 | 亚洲精品二区 | 视频在线观看一区 | 国产亚洲欧美日韩精品一区二区三区 | 91精品国产综合久久福利软件 | 国产一区二区黑人欧美xxxx | 亚洲精品永久免费 | 婷婷色婷婷 | 午夜欧美 | 欧美精品第一区 |