首頁>博客>應(yīng)用場景行業(yè)實(shí)踐>基于實(shí)時(shí)圖技術(shù)的信用卡申請反欺詐應(yīng)用|應(yīng)用分享
基于實(shí)時(shí)圖技術(shù)的信用卡申請反欺詐應(yīng)用|應(yīng)用分享
本文整理自普適智能 CTO 劉元弘在《圖創(chuàng)價(jià)值·圖+AI在金融行業(yè)的應(yīng)用實(shí)踐》的現(xiàn)場分享,,一起來看看圖數(shù)據(jù)庫在信用卡反欺詐場景的應(yīng)用與優(yōu)勢,。
業(yè)務(wù)背景
常見的信用卡欺詐風(fēng)險(xiǎn)主要包括欺詐申請,、偽卡盜刷,、套現(xiàn)等。其中,,信用卡申請欺詐通常指犯罪分子使用不正當(dāng)手段進(jìn)行信用卡申請,、為獲得信用額度偽造申請信息、冒用他人信息申請信用卡,,或申請人信息真實(shí)但惡意騙取信用額度不還,。
在信用卡業(yè)務(wù)實(shí)踐發(fā)展過程中,,欺詐申請的金額損失往往在欺詐損失案件中占據(jù)了非常大的比例,,因此欺詐申請識別,是所有信用卡發(fā)卡機(jī)構(gòu)風(fēng)險(xiǎn)管理的一個(gè)重要組成部分,。
隨著近些年金融線上化和渠道化的發(fā)展,,信用卡申請欺詐逐漸呈現(xiàn)出兩大發(fā)展趨勢:
一個(gè)是犯罪分子集團(tuán)化,越來越多欺詐是有組織的犯罪團(tuán)伙行為,,團(tuán)伙案件對銀行造成的金額損失大,、而且盜用信息還對銀行聲譽(yù)造成較大范圍影響;另一個(gè)是欺詐手段專業(yè)化,,犯罪團(tuán)伙的欺詐手段越來越專業(yè)化,,為了保證申請?zhí)峤宦屎蜕暾埻ㄟ^率,在批量申請時(shí),,對申請信息,、申請?jiān)O(shè)備等進(jìn)行專業(yè)包裝,加大了銀行反欺詐的難度。
在新發(fā)卡貸前審批反欺詐策略中,,常見的做法是查詢申請人的人行征信,、工商信息、學(xué)歷信息等,,在自動(dòng)化審批環(huán)節(jié)對一部分還款能力和還款意愿較好或較差的申請人進(jìn)行通過或拒絕,,剩下的部分流轉(zhuǎn)至人工審批。常見的流程如下:
在這個(gè)過程中,,金融機(jī)構(gòu)往往需要處理大量的申請信息和用戶數(shù)據(jù),,同時(shí)還涉及到人工審核效率及準(zhǔn)確度的問題,因此需要我們搭建一套更智能且具有實(shí)時(shí)性的智能反欺詐系統(tǒng)來幫助金融機(jī)構(gòu)實(shí)現(xiàn)更高效,、更精確的新發(fā)卡貸前審批,。
利用圖技術(shù)進(jìn)行新發(fā)卡實(shí)時(shí)反欺詐
為什么用圖技術(shù)進(jìn)行新發(fā)卡反欺詐
基于業(yè)務(wù)背景的介紹,傳統(tǒng)的信用卡審批流程中所使用的數(shù)據(jù)主要是統(tǒng)計(jì)學(xué)原理的規(guī)則或者模型,,更多的是針對獨(dú)立個(gè)體的分析挖掘,,但是當(dāng)個(gè)體的特征稀疏時(shí),則難以對個(gè)體做出全面有效的判斷,。
特別是現(xiàn)在隨著欺詐手段呈現(xiàn)多樣化,、專業(yè)化、團(tuán)體化等特征,,傳統(tǒng)的專家規(guī)則和機(jī)器學(xué)習(xí)模型對通過多層關(guān)系進(jìn)行掩飾的復(fù)雜欺詐手段或者團(tuán)伙欺詐難以識別,。
另外,由于目前發(fā)卡,、運(yùn)營,、催收等各個(gè)環(huán)節(jié)的數(shù)據(jù)之間缺少必要的邏輯視圖和交叉校驗(yàn),容易導(dǎo)致金融機(jī)構(gòu)信息割裂,,沒有統(tǒng)一的框架和視圖描述客戶的信用卡業(yè)務(wù)全生命周期,,使得風(fēng)控決策/人工審核時(shí)缺少必要的數(shù)據(jù)支撐。
而圖技術(shù)具有將實(shí)體間的復(fù)雜關(guān)系直觀展示并納入模型學(xué)習(xí)的特性,,能夠?yàn)樾庞每I(yè)務(wù)真實(shí)性審核提供更多維度的分析技術(shù)手段,,恰好能彌補(bǔ)剛剛提到的傳統(tǒng)反欺詐手段的這些短板。
圖在新發(fā)卡反欺詐場景中的應(yīng)用流程
首先是用戶發(fā)起進(jìn)件流程,,用戶申請進(jìn)件后信息會進(jìn)入到進(jìn)件中心,,進(jìn)入進(jìn)件中心的同時(shí),系統(tǒng)會做兩個(gè)事情,,一個(gè)是走實(shí)時(shí)流,,另一個(gè)是離線流。
- 實(shí)時(shí)流
如果按照傳統(tǒng)走批的數(shù)據(jù)處理方式,,可能第二天才會發(fā)現(xiàn)一些欺詐或作弊行為,。像我們之前碰到有個(gè)團(tuán)伙10分鐘之內(nèi)提交了100多張新發(fā)卡申請,通過實(shí)時(shí)流是有可能在他們申請前幾張的時(shí)候就把它攔截下來,這就是實(shí)時(shí)的必要性,。
走實(shí)時(shí)流,,我們會讓進(jìn)件中心把數(shù)據(jù)寫入到 kafka 里,然后通過一套實(shí)時(shí)引擎去監(jiān)聽kafka,,一旦監(jiān)聽到有用戶提交進(jìn)件,,接下來就用我們的圖平臺快速地配置各種各樣的規(guī)則和指標(biāo),快速地用圖引擎掃一遍所有的指標(biāo)來看看有沒有命中,,并把結(jié)果寫入到消息隊(duì)列中,,然后提供給下游的一些決策系統(tǒng)進(jìn)行消費(fèi),同時(shí)會提供 API 給其他業(yè)務(wù)部門進(jìn)行調(diào)用,,幫助業(yè)務(wù)人員進(jìn)行關(guān)聯(lián)決策,。
- 離線流
除了走實(shí)時(shí)通道,我們也使用離線數(shù)據(jù)處理通道,,就是下面的流程會進(jìn)入到底層數(shù)倉,,然后走Hive去進(jìn)行T+1的離線構(gòu)圖,主要是防止實(shí)時(shí)流程中存在數(shù)據(jù)沖突,,我們可以通過離線進(jìn)行校驗(yàn),,之后再去進(jìn)行整體更新。
所以我們實(shí)際在幫客戶做圖的時(shí)候,,并不是靜態(tài)圖,,或者每天更新一次的一個(gè)流程。我們一般會起多個(gè)流程,,包括實(shí)時(shí)流,,各種全量的離線流,去保證我們圖庫數(shù)據(jù)處理的及時(shí)性和有效性,。
如何構(gòu)建新發(fā)卡欺詐的圖譜
首先是本體模型,,里面分為「點(diǎn)」代表的實(shí)體類型和「邊」代表的關(guān)系類型。實(shí)體類型包含個(gè)人,、信用卡申請進(jìn)件,、公司、地址,、聯(lián)系電話、設(shè)備號,、地址,、網(wǎng)格化坐標(biāo)、車牌,、營銷員,、代理人等實(shí)體;關(guān)系類型則主要包含父母、子女,、擔(dān)保人,、家庭住址等關(guān)系的本體模型。
我們構(gòu)建圖譜的數(shù)據(jù)來源主要是多個(gè)業(yè)務(wù)線的客戶數(shù)據(jù),,以及客戶標(biāo)簽數(shù)據(jù),,另外包含一些外部數(shù)據(jù)。擁有豐富的數(shù)據(jù)源,,一方面提高網(wǎng)絡(luò)的關(guān)聯(lián)程度,,另一方面豐富實(shí)體的屬性,能夠?yàn)殛P(guān)系網(wǎng)絡(luò)特征挖掘提供良好的數(shù)據(jù)基礎(chǔ),。
利用圖技術(shù)的反欺詐應(yīng)用
我們常用的圖的反欺詐分析主要通過四大類型完成,,包含圖規(guī)則校驗(yàn)、圖指標(biāo)分析,、社群分析和圖機(jī)器學(xué)習(xí),。
一、圖規(guī)則校驗(yàn)
所謂“圖規(guī)則”本質(zhì)上是一段判定的邏輯,,這段邏輯是基于本體模型構(gòu)建一個(gè)復(fù)雜圖的拓?fù)浣Y(jié)構(gòu)來進(jìn)行表示和使用,。業(yè)務(wù)可以使用圖規(guī)則功能,快速實(shí)現(xiàn)復(fù)雜關(guān)聯(lián)欺詐邏輯的可視化開發(fā),,校驗(yàn)申請人提供的信息和數(shù)據(jù)庫中數(shù)據(jù)是否一致或不一致,。
以下圖為例,我們看到圖1這個(gè)人和另外一個(gè)人是關(guān)聯(lián)的,,它們同時(shí)關(guān)聯(lián)同一個(gè)電話和工作地址,,所以我們就可以去構(gòu)建這種圖的規(guī)則,然后去做一些規(guī)則校驗(yàn),。比如圖1可能表示工作地址相同,,電話是相同的,代表他填寫的信息是有效的,。
再看圖2,,右邊紅色的點(diǎn)代表一個(gè)人,這個(gè)人申請了一張信用卡,,他填寫資料后又拉出了一個(gè)地址,,地址的條件數(shù)量大于等于2,也就是這個(gè)人一張申請卡,,卻存在兩個(gè)不同的地址,,這對風(fēng)控來說也是比較有效的指標(biāo)。
能把圖規(guī)則做好,,尤其是在銀行,,重點(diǎn)在于兩個(gè)數(shù)據(jù)維度,,一個(gè)是企業(yè)的維度,另一個(gè)是地址的維度,,但是金融用戶一般有個(gè)痛點(diǎn),,就是每個(gè)人填寫信息時(shí),每次填寫的地址不一定是一樣的,,以前很多引擎沒辦法準(zhǔn)確判斷這兩個(gè)地址是否是同一個(gè),。
為了強(qiáng)化反欺詐引擎的效果,在圖規(guī)則引擎之中引入了文本相似度算子,,我們早期做過一些NLP的東西,,所以我們把一些NLP尤其是關(guān)于地址對齊和企業(yè)名稱對齊的類型,構(gòu)建了自己的算法,,把這個(gè)算法加入到了模型中,,它就可以配置一些更有意思的東西,比如:我個(gè)人關(guān)聯(lián)的地址,,關(guān)聯(lián)的同事A,、同事B、同事C等等,,我們的地址可以填的不一樣,,有的填了路,有的沒有填路,,有的填了區(qū),,有的沒填區(qū),其實(shí)這個(gè)很常見的,,那我們就可以把所有填寫不同的地址聚合到一塊,,去構(gòu)建一些高質(zhì)量的規(guī)則,幫助業(yè)務(wù)構(gòu)建更強(qiáng)大的欺詐校驗(yàn)?zāi)芰Α?/p>
地址和企業(yè)對齊準(zhǔn)確率經(jīng)過大型股份制銀行的業(yè)務(wù)校驗(yàn),,準(zhǔn)確率在98%以上,。
二、圖指標(biāo)分析
圖指標(biāo)其實(shí)和原本的指標(biāo)體系是完全一樣的,,只是構(gòu)建這個(gè)指標(biāo)時(shí)會有幾個(gè)特殊點(diǎn),,通過維度、標(biāo)簽,、客群,。邏輯就是先構(gòu)建一個(gè)有效的關(guān)聯(lián)性,常用的一些構(gòu)建關(guān)聯(lián)性的維度包括:同一單位,、同一家庭,、同一設(shè)備、同一LBS,、同一聯(lián)系方式,、同一推薦人、同一親屬等等,,這就是我們說的關(guān)系維度,。
我們會在關(guān)系維度上增加一些標(biāo)簽,比如:用左邊和右邊關(guān)聯(lián)放到一塊,,我們就可以構(gòu)建成一個(gè)有效的規(guī)則,。
舉例:
「同一單位」(左)關(guān)聯(lián)出的人在「黑名單」(右)的一個(gè)數(shù)目
「同一家庭」(左)關(guān)聯(lián)出了「申請被拒絕」(右)的情況
「同一設(shè)備」(左)關(guān)聯(lián)出其他人「逾期」(右)的情況
我們就可以把這些信息全部組合起來,結(jié)合我們自己的一個(gè)考慮,,用維度關(guān)聯(lián)右邊這種常用的標(biāo)簽和指標(biāo),,構(gòu)建一些有效的規(guī)則和邏輯,從而識別資料異常的申請人,,或申請人關(guān)聯(lián)的特定客群,。
我們在用圖的過程中,規(guī)則是全局的,,需要有業(yè)務(wù)經(jīng)驗(yàn),,所以這種方式還是有缺陷的。我們常用的規(guī)則是強(qiáng)關(guān)聯(lián)關(guān)系的維度,,比如:「電話設(shè)備」,,很難出現(xiàn)一個(gè)電話被很多人使用的情況。但在平時(shí)采集的數(shù)據(jù)是有很多的弱關(guān)聯(lián),,也是很有效的維度,,比如:「WiFi 設(shè)備」,幾個(gè)人同時(shí)接入到相同的 WiFi設(shè)備,,并不能代表他們之間有強(qiáng)關(guān)系,,但是起碼代表有弱關(guān)聯(lián)??赡茉谝粋€(gè)辦公樓,,也可能住的是同一個(gè)地方。再比如說「IP」也是很典型的弱關(guān)聯(lián),,還有很多其他的弱關(guān)聯(lián),,包括同一個(gè)單位,并不能夠代表你們就一定認(rèn)識,,尤其是對一些規(guī)模比較大的單位,,這個(gè)時(shí)候我們就可以用圖算法,通過平臺可視化界面構(gòu)建規(guī)則和圖指標(biāo),。
三,、社群分析(Louvain)
圖算法的核心主要是幫助我們整合一些弱關(guān)聯(lián),尤其是有像Louvain 這種,,在我們緊密相連的大圖中,,就可以拿 Louvain 去切一些客戶圈和客戶之間的社群,,比如:有10個(gè)人,不可能10個(gè)人都是單線相連的,,A認(rèn)識B,,B認(rèn)識C,C認(rèn)識D,,Louvain 切出的結(jié)果基本上就是A認(rèn)識B,,B認(rèn)識C,然后A也認(rèn)識C,,這才是Louvain里面跑出來的結(jié)果,,就可以通過這個(gè)算法,再加上邊的權(quán)重,,比如:家庭親屬的關(guān)聯(lián)性設(shè)成1,,同一IP設(shè)置成0.1,再去進(jìn)行社群的切分,,就可以得到業(yè)務(wù)想要的社區(qū)結(jié)果,。
既然我們用了社區(qū)切分算法去得到一個(gè)好的社區(qū),社區(qū)里面的人必然是緊密關(guān)聯(lián)的,,就可以用社區(qū)做一些有意思的指標(biāo),,比如:整個(gè)社區(qū)進(jìn)入黑名單的概率是多少,就是所謂的黑名單的濃度,,逾期的濃度,,業(yè)務(wù)通過計(jì)算不同維度下的客群指標(biāo),就可以挖掘可疑的個(gè)體,。
四,、圖機(jī)器學(xué)習(xí)
首先圖可以幫助我們機(jī)器學(xué)習(xí)去更快速構(gòu)建特征。在沒有做機(jī)器學(xué)習(xí)之前,,傳統(tǒng)的做法是需要人力把很多特征整合成一張寬表,,再傳入到建模平臺。但是圖從本質(zhì)上來說,,就是連接了一張又一張的表,,這種表的關(guān)聯(lián)性完全可以通過圖進(jìn)行整合,再去拉取特征(Feature)的時(shí)候就可以用前面說的圖指標(biāo),,放到機(jī)器學(xué)習(xí)里面指標(biāo)就是一個(gè)特征(比如:指標(biāo)是某個(gè)人的逾期率為0.6,,那0.6是一個(gè)數(shù)值,但它放到對應(yīng)的機(jī)器學(xué)習(xí)就是一個(gè)特征),,拉取的指標(biāo)就可以作為其中一個(gè)特征濃度進(jìn)行訓(xùn)練,。
對于我們客戶行為來說,或者客戶特征特別稀疏的時(shí)候,。很多企業(yè)都會維護(hù)潛在客戶名單,,既然是潛在客戶,,就可能存在不知道他的姓名,或者說只知道他碎片化的信息,,可能他只是點(diǎn)了一個(gè)廣告或者一個(gè)鏈接,,但實(shí)際上我們獲取到了他的IP,,就可以通過圖機(jī)器學(xué)習(xí)平臺,,挖掘有效的特征,在決策系統(tǒng)上部署策略,,運(yùn)用于新發(fā)卡實(shí)時(shí)審批環(huán)節(jié),。 另外我們還在做一些有意思的事情,我們把機(jī)器學(xué)習(xí)的一些結(jié)果放回圖里去看,。就拿預(yù)測VIP來說,,模型得出大于0.5,你會認(rèn)為它是VIP,,小于0.5你認(rèn)為它不是 VIP,,如果我們再度回圖里,我們給是否是VIP這樣的概率,,增加一個(gè)屬性,,預(yù)測結(jié)果放回圖里看,就可以識別高概率的VIP客群,,高可能的關(guān)聯(lián)圈,,這也就是下期我們要分享的【潛在VIP挖掘】的場景應(yīng)用。
案例效益
普適的圖智能平臺在某股份制銀行上線后取得了不錯(cuò)的成效,。使用圖技術(shù),,進(jìn)行實(shí)時(shí)構(gòu)網(wǎng)和實(shí)時(shí)圖指標(biāo)計(jì)算,優(yōu)化決策系統(tǒng),。風(fēng)控效果提升近3倍,,預(yù)計(jì)每年挽損1000萬以上。
- 相關(guān)推薦: