走出“題海戰(zhàn)術(shù)”,讓模型學(xué)會像人一樣思考
近日,螞蟻安全天筭實驗室安全專家蕉雪與復(fù)旦大學(xué)自然語言處理團隊(Fudan NLP)魏忠鈺教授合作的學(xué)術(shù)論文《基于小樣本學(xué)習(xí)的個性化Hashtag推薦》被中國計算機學(xué)會推薦B類期刊《中文信息學(xué)報》錄取。
《中文信息學(xué)報》創(chuàng)刊于1986年,作為國內(nèi)計算機、計算技術(shù)類83種中文期刊評出的十五種核心期刊之一,及時反映著我國中文信息處理的先進水平 。數(shù)據(jù)顯示,《中文信息學(xué)報》每年在各個相關(guān)子方向錄取文章平均為10篇左右, 代表了我國最新的中文信息處理進展和學(xué)術(shù)動向。
一、快速學(xué)習(xí):從“題海戰(zhàn)術(shù)”到“觸類旁通”
當(dāng)你在社交媒體上發(fā)表內(nèi)容時,在打出#時,社交媒體會推薦給你一個合適的Hashtag (話題詞) ,把內(nèi)容劃分到相應(yīng)的話題下面去,方便對社交媒體的內(nèi)容進行分類管理。
為什么要在Hashtag推薦算法里引入小樣本學(xué)習(xí)算法?復(fù)旦大學(xué)自然語言處理團隊的曾蘭君同學(xué)向我們介紹:舉個例子,現(xiàn)有的Hashtag推薦算法,一般是使用分類框架來做的, 當(dāng)你 使用屬于100個類別的社交媒體文本來對模型進行訓(xùn)練,后面在做推薦時,模型也只能將待 推薦的文本分到這100個類別中來。 沒有進行重新訓(xùn)練的情況下,模型不能處理訓(xùn)練不可見的Hashtag。
然而,Hashtag會隨著時事熱點不斷快速更新。課題組 希 望社交媒體在你寫下#時,就會根據(jù)你社交媒體文本的歷史特征和當(dāng)前輸入的文本內(nèi)容,猜到你可能需要的Hashtag,并將合適的Hashtag推薦給你。
為了解決這一問題,論文提出將Hashtag推薦任務(wù)建模成小樣本學(xué)習(xí)任務(wù)。 同時,結(jié)合用戶使用Hashtag的 偏好降低推薦的復(fù)雜度。 通過互聯(lián)網(wǎng)公開授權(quán)的API獲取的數(shù)據(jù)集上的 實驗表明, 與目前最優(yōu)方法相比,該模型不僅可以取得更好的推薦結(jié)果,而且表現(xiàn)更為魯棒 (即穩(wěn)定性更強) 。
一般模型在認(rèn)識一個類別的時候,需要非常多的數(shù)據(jù)才能夠正確地識別一個類別,這種依賴于數(shù)據(jù)學(xué)習(xí)的識別,就像一個高考機器,通過題海戰(zhàn)術(shù)來提高做題效率,卻缺乏有效的推理邏輯。而對于人類來說,即便是兒童,當(dāng)你告訴他看到的一張圖片是什么的話,他就能很快地認(rèn)識這個類別。
小樣本學(xué)習(xí)就是希望機器能夠擁有這樣一個能力,在見到一個只有少量樣本的類別之后,通過數(shù)據(jù)學(xué)習(xí)舉一反三,就擁有對這個類別的識別能力。它可以根據(jù)用戶的歷史特征,之前學(xué)到的經(jīng)驗和當(dāng)前的少量樣本,能夠快速的認(rèn)識這個新類別,從而使識別的效率得到提升。
在未來,小樣本學(xué)習(xí)可以運用到更多的領(lǐng)域當(dāng)中。在欺詐風(fēng)險防控中,欺詐手法識別對于欺詐風(fēng)險形勢感知以及欺詐管控至關(guān)重要。而新欺詐手法會不斷出現(xiàn),對于新手法的樣本積累往往不足以訓(xùn)練好的識別模型,如何在少數(shù)樣本積累的情況下對新手法進行準(zhǔn)確識別也是一個問題。這篇對于小樣本學(xué)習(xí)進行研究的工作后續(xù)計劃遷移到欺詐手法識別的場景中。
二、知識驅(qū)動:從“填鴨式接受”到“主動推理”
在小樣本學(xué)習(xí)領(lǐng)域以外,魏忠鈺教授和螞蟻天筭安全實驗室還在欺詐要素識別的領(lǐng)域進行了合作。魏忠鈺教授表示,此項目是希望模型在面對大量用戶的欺詐投訴文本時,能夠通過舉報文本來判定欺詐要素是否滿足進而判定欺詐事實是否成立。
項目的創(chuàng)新之處在于:之前的模型識別是數(shù)據(jù)來驅(qū)動;現(xiàn)在模型能在模型識別文本要素后主動推理,通過數(shù)據(jù)學(xué)習(xí)和知識推理的雙驅(qū)動,更有效地將風(fēng)險防范于未然。
因為該項目跟業(yè)務(wù)場景有很高的關(guān)聯(lián)度,但團隊沒有法律方面的專家,在前期對欺詐文本的標(biāo)注及識別上遇到困難,只能通過對信息檢索系統(tǒng)和相關(guān)文獻的調(diào)研,來設(shè)計初步的文本標(biāo)注的框架。
而螞蟻在合作中引入了司法團隊,提供了相對專業(yè)的關(guān)于欺詐識別的框架設(shè)計,使標(biāo)簽體系的建立更符合業(yè)務(wù)場景,在此框架上,校方團隊再進行數(shù)據(jù)的標(biāo)注、模型自動化識別等算法的設(shè)計來完成模型。螞蟻前期提供的框架基礎(chǔ),相當(dāng)于在業(yè)務(wù)上對研究團隊有了一次很實際的指導(dǎo),最后呈現(xiàn)出來的效果甚至超出雙方的預(yù)期。
目前團隊對于欺詐要素的識別準(zhǔn)確率已超過85%,主要識別舉報者是否被誘騙轉(zhuǎn)賬、收款方是否有非法占有目的等欺詐司法審理的關(guān)鍵證據(jù)。研究團隊目前完成欺詐投訴樣本的要素標(biāo)注達(dá)到4萬條,通過欺詐要素識別模型判斷引導(dǎo)用戶主動去補充遺漏點,加強用戶在舉報流程中的體驗感和主觀能動性。在這過程中用戶完成舉報率相對提高了10%,舉報的信息質(zhì)量提升了8%。確保了欺詐定性的準(zhǔn)確率穩(wěn)定增長,對于欺詐的防控效率也得到提升。
據(jù)課題組的研究成果顯示,在對用戶舉證文本的欺詐證據(jù)要素的識別基礎(chǔ)上,進一步通過數(shù)據(jù)+知識推理實現(xiàn)智能抗辯審理,模型根據(jù)用戶舉證與大數(shù)據(jù)信息為用戶輸出可解釋性更強的審理邏輯鏈條和結(jié)果 (即模型不僅能給出結(jié)論,還能告訴你它的分析思路,提供有說服力的理由) 。
相較于傳統(tǒng)的依賴數(shù)據(jù)學(xué)習(xí)的欺詐識別算法,本次與螞蟻的聯(lián)合創(chuàng)新性地提出了將人的知識、經(jīng)驗、規(guī)則都輸入到欺詐識別算法體系中,模型將實現(xiàn)基于推理的智能判斷。相信課題組在這一技術(shù)上的創(chuàng)新將更好地保障用戶的資金安全,也對提升行業(yè)整體的風(fēng)控水平起到重要作用。
魏忠鈺教授表示: 這樣全新的校企合作模式,不僅帶來了團隊研究一直所需的應(yīng)用落地場景,還將螞蟻的實際業(yè)務(wù)經(jīng)驗與團隊在算法上的創(chuàng)新互相補益,成為往后科研項目運營的一次很好的示范。 期待與螞蟻日后能夠有更進一步的長期合作,同時也期待這項研究在多個場景中得到應(yīng)用,為用戶推薦更為精準(zhǔn)的信息內(nèi)容。