久久久一本精品99久久精品66_国产99九九久久精品无码_三上悠亚ssni-473无码_韩国免费一级a一片在线播放_做床爱无遮挡免费视频在线观看_无码中文亚洲AV_京香juliaAV无码流出_日韩精品欧美亚洲高清有无_欧美成人精品视频一区二区三区四区_国产成人高清在线观看播放,久久久久精品免费人妻奶头,国产经典视频第一页在线观看,亚洲欧美日韩综合久久久久

悅數(shù)圖數(shù)據(jù)庫

首頁>博客>應(yīng)用場景>中國移動:悅數(shù)圖數(shù)據(jù)庫在金融風(fēng)控領(lǐng)域的落地應(yīng)用

中國移動:悅數(shù)圖數(shù)據(jù)庫在金融風(fēng)控領(lǐng)域的落地應(yīng)用

本文整理自 中國移動算法工程師 汪海濤 在 NUC 2022 年度用戶大會上的分享,。

各位朋友上午好,我是來自中國移動的算法工程師汪海濤,。接下來我主要聊一聊圖數(shù)據(jù)庫在中國移動,,特別是金融風(fēng)控場景的落地應(yīng)用。

為什么中國移動要建設(shè)圖平臺,?

「全國 9 億用戶,,每天產(chǎn)生大量數(shù)據(jù)」

中國移動有非常多的數(shù)據(jù),,全國的用戶每天都會產(chǎn)生海量的數(shù)據(jù)。如何從這么大數(shù)據(jù)量里面挖掘出有用的信息,,然后用到金融風(fēng)控場景,?這就是我們需要做的事情

之前,,我們是以手機號為維度去提取特征,,然后去做一些模型或規(guī)則判斷一個手機號是否是有違約風(fēng)險。但僅僅基于手機號很難綜合去考慮風(fēng)險情況,,因此我們就想采用圖計算技術(shù)去綜合看一個手機號以及周圍的其他手機號的信息,,然后共同評判它的風(fēng)險。

最開始是基于消費金融的場景,從比如說像螞蟻金服,、微信以及京東白條這樣一些產(chǎn)品切入,,通過用戶通話數(shù)據(jù)、短信數(shù)據(jù),、設(shè)備等多維度的一些信息,,去判斷用戶風(fēng)險。但中國移動數(shù)據(jù)量這么大,,不管我們要做什么,,最大的訴求就是需要有一個非常高性能的平臺去支撐數(shù)據(jù)分析

為什么選擇「悅數(shù)」圖數(shù)據(jù)庫,?

「JanusGraph vs TigerGraph vs 悅數(shù)圖數(shù)據(jù)庫」

我們最早是采用了 JanusGraph 加上 Spark 去建設(shè)我們平臺,但是通過一些測試,,我們發(fā)現(xiàn) JanusGraph 的查詢性能以及導(dǎo)入性能都比較一般,,然后 GraphX 的話,它的計算性能其實也比較一般,,特別是它需要的內(nèi)存量特別大,,因此我們后來又開始去調(diào)研了市場上很多的圖產(chǎn)品,并且對一些圖產(chǎn)品做了測試,,包括國外的產(chǎn)品,,像 TigerGraph 之類的等等,但是因為一些特殊原因,,中國移動是在美國商務(wù)部的實體清單上,,所以很多外國的產(chǎn)品我們是沒法去采購和使用的。

因此最后,,我們是選擇國內(nèi)的幾家廠商進行了一些測試和比較,,最后選擇了「悅數(shù)圖數(shù)據(jù)庫 」

中國移動是如何搭建圖平臺的

圖平臺建設(shè)概況

中國移動_以NebulaGraph為底座的圖數(shù)據(jù)庫平臺概覽圖

我們整體的架構(gòu)大概是這樣的——

最底層是我們的數(shù)據(jù)源,,中國移動建設(shè)有一個全國大數(shù)據(jù)中心,,主要包括通話數(shù)據(jù)、位置數(shù)據(jù),、消費數(shù)據(jù),、設(shè)備數(shù)據(jù)、用戶數(shù)據(jù)和 APP 數(shù)據(jù)等等,,我們每月把這些數(shù)據(jù)抽取到 HDFS 里面,,然后把其中有用的數(shù)據(jù)抽取到悅數(shù)圖數(shù)據(jù)庫里面,那么這里用的就是悅數(shù)的一個導(dǎo)入工具,,這是我們圖數(shù)據(jù)存儲這一層,。

再上一層是計算分析層,這也是我們建模和業(yè)務(wù)分析人員主要使用的一些框架。首先第一個是 Plato,,它是騰訊之前開源的一個圖計算引擎,,但是據(jù)我所知騰訊現(xiàn)在已經(jīng)不維護這一套引擎了,因此我們也是專門找一些工程師,,然后去維護這里面的一套框架,,以及修復(fù)一些小 bug 之類的。

那么它包含的算法其實很多的,,這里我主要是列舉了兩個社區(qū)發(fā)現(xiàn)算法、Louvain 算法和 HANP 算法,。它里面還包含一個 LPA 算法,,因為LPA 算法的話是 HANP 算法一個簡化版,所以這里我沒有列出來,。

然后里面還有一個我們有可能后面會用到的關(guān)于隨機游走類的算法,,主要是基于隨機游走得到一個節(jié)點序列,會為我們后面用于圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練做一個前期數(shù)據(jù)預(yù)處理的工作,。

第三個是 GNN,,就是圖神經(jīng)網(wǎng)絡(luò)。圖神經(jīng)網(wǎng)絡(luò)是最近幾年興起的一個領(lǐng)域,,我們現(xiàn)在主要是基于這些模型做一些簡單的產(chǎn)品,,看看能不能取得比以往的方法更好的一些效果。最后基于悅數(shù)的圖查詢語言,,主要是 go 語句和 fetch 語句做一些簡單查詢,。

再上一層的話就是應(yīng)用層。首先是關(guān)聯(lián)風(fēng)險分,,關(guān)聯(lián)風(fēng)險分主要是基于配套的社區(qū)發(fā)現(xiàn)算法來做的,。第二個號碼風(fēng)險分和最后一個催收分析是基于悅數(shù)圖數(shù)據(jù)庫的查詢語句來做的,主要就是查詢用戶跟一度,、二度聯(lián)系人以及一些違約用戶,,或是催收專用號碼進行一些主動或被動的呼叫。第三個信用評分卡是基于圖神經(jīng)網(wǎng)絡(luò)來做的,,主要是用邏輯回歸或者決策樹之類的模型,,希望通過圖神經(jīng)網(wǎng)絡(luò)做一些提高。

圖數(shù)據(jù)結(jié)構(gòu)介紹

中國移動_導(dǎo)入圖數(shù)據(jù)庫的點邊數(shù)據(jù)結(jié)構(gòu)

  • 點數(shù)據(jù)

點數(shù)據(jù)主要是有四類,,第一個是手機號,,手機號也是我們最重要的點數(shù)據(jù),主要是包括比如這手機號它是屬于哪個市的,,是否發(fā)生過停機等等,,還有一些消費信息。第二個是地理位置,主要基于基站,。第三個身份證,,作為唯一身份證識別,可能也會有年齡或?qū)W歷之類的標志,。最后是設(shè)備信息,,一般手機會有一個設(shè)備值,有對應(yīng)的型號,、設(shè)備系統(tǒng)等,。

  • 邊數(shù)據(jù)

目前邊數(shù)據(jù)的話,一個是用戶跟用戶的通話數(shù)據(jù),,第二個是手機號和身份之間的對應(yīng)關(guān)系,,第三個是手機號和設(shè)備之間對應(yīng)關(guān)系,第四個是手機號跟地理位置之間對應(yīng)關(guān)系,,那么這些是我們在圖數(shù)據(jù)庫里面保存的一些數(shù)據(jù),。

圖技術(shù)在中國移動有哪些應(yīng)用

應(yīng)用1:號碼風(fēng)險分

中國移動_怎樣建立號碼風(fēng)險分模型

首先是號碼風(fēng)險分模型,主要用在羊毛黨識別這個場景,。我們會根據(jù)用戶的通話流量位置以及手機行為信息去判斷一個號碼有沒有可能是個羊毛黨,,主要通過四個模塊——

第一個是接碼模塊,我們會跟一些外面數(shù)據(jù)公司合作,,判斷一個號碼有沒有可能是一個接碼號碼,,如果是,我們會認為這個號碼是薅羊毛的可能性就很大,。

第二個行為異常號碼,,比如說這個手機號是否當月一次通話都沒有,然后是不是每月都基本只有固定的月租這樣的消費,。這種號碼我們認為它可能是一個小號,,或者是專門用來去薅羊毛的號碼。

第三個是位置異常,,比如說這個手機是否一個月下來就是在一個位置從來沒有動過,,可能只是放在家里偶爾用一下,不會帶出去這種,。對于這種號碼的話,,我們認為它的風(fēng)險也是相對比較大的。

第四個是染灰模塊,,圖技術(shù)主要就是用于這個模型,。基于前三個模塊的結(jié)果,,我們首先獲得了一批已經(jīng)確定的羊毛黨用戶,,那么我們可不可以發(fā)現(xiàn)他的一些共同特征——比如說可能有幾個羊毛黨(號碼)是屬于同一個用戶的,,那么我們是不是可以看看這個用戶下面其他手機號是不是也可能是羊毛黨?

另外,,如果發(fā)現(xiàn)有一堆手機號是之前在同一個設(shè)備上使用過,,我們可能也會認為這個設(shè)備上對應(yīng)的其他手機號也可能會是一些羊毛黨。專業(yè)的羊毛黨會采用卡池這種設(shè)備專門去薅羊毛,,用圖技術(shù)就可以快速發(fā)現(xiàn)并識別,。

染灰模塊是什么、怎樣實現(xiàn)

應(yīng)用2 :關(guān)聯(lián)風(fēng)險分

關(guān)聯(lián)風(fēng)險分是什么以及應(yīng)用場景

然后是關(guān)聯(lián)風(fēng)險分,,通俗來說就是「近朱者赤近墨者黑」,。

在平時交際圈,如果你的違約可能性比較低,,那么周圍人可能違約性也會比較低,。基于這樣一種想法,,我們主要做法就是首先基于移動所有用戶構(gòu)建一個關(guān)系網(wǎng)絡(luò),然后采用一些社區(qū)發(fā)現(xiàn)類的算法去挖掘這個社區(qū)中個人的評分以及個人之間的關(guān)系,,通過對這個社區(qū)打分,,去識別出這個社區(qū)是否是欺詐或低信用社區(qū)。

關(guān)聯(lián)風(fēng)險分的主要應(yīng)用場景就是欺詐領(lǐng)域,,比如信貸欺詐,、交易欺詐、營銷欺詐,、支付欺詐以及賬戶欺詐等等多個方面,。

應(yīng)用3:圖神經(jīng)網(wǎng)絡(luò)(GNN)

圖神經(jīng)網(wǎng)絡(luò)在中國移動的應(yīng)用

最后是關(guān)于圖神經(jīng)網(wǎng)絡(luò)的一些應(yīng)用,主要是用于金融風(fēng)控信用評分卡的場景,。過去我們用做信用評分卡大部分都是先提取用戶特征,,再然后訓(xùn)練一個邏輯回歸模型或者是角色數(shù)字類的模型。

那么現(xiàn)在,,我們想通過圖神經(jīng)網(wǎng)絡(luò)做一些模型,,通過用戶之間通話數(shù)據(jù),比如近三個月主動通話,、被動通話以總通話次數(shù)是否達到要求,,去判斷要不要保留這樣一條邊。

我們大概提取 100 多個主要的特征去錄模,,這里的模型相對來說比較簡單,,目前是嘗試了一個雙塔的模型,左邊的是關(guān)于圖神經(jīng)網(wǎng)絡(luò)聚合的這樣一個模型,,右邊用戶特征本身的一個全連接網(wǎng)絡(luò)做了這樣 MLP 的模型,。左邊的神經(jīng)網(wǎng)絡(luò)聚合,,是比較簡單也是最常用的——GCN、GrapSAGE 和 GAT 這三個模型,。

另外我們現(xiàn)在采用的是一個同構(gòu)圖的網(wǎng)絡(luò)建模,,后面可能會考慮異構(gòu)圖,比如說考慮用 HAN 這樣的一些異構(gòu)圖的模型去建模,,把用戶的身份證和設(shè)備以及位置信息這些點都歸納進來,,然后一起進行建模。

圖數(shù)據(jù)應(yīng)用的未來展望

中國移動_圖數(shù)據(jù)庫平臺的未來展望

1.數(shù)據(jù)血緣

中國移動大數(shù)據(jù)中心會提供給大概 30 多家客戶的 50 多個項目進行共同的建模,,建模工作里包含的數(shù)據(jù)維表會特別多,,因為我們會給每個用戶都匹配數(shù)據(jù),然后幫他們生成特征,,最后會把結(jié)果表也保存在數(shù)據(jù)庫里面,,大概現(xiàn)在有 1000 多張數(shù)據(jù)表,平時基本靠人工管理,,后面看看能不能通過數(shù)據(jù)血緣的方式去做一個歸納,。

2.圖神經(jīng)網(wǎng)絡(luò)

中國移動除了大數(shù)據(jù)中心,還有人工智能中心,,那里有很多的 GPU 資源進行人工神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,,但是目前模型訓(xùn)練效率比較低下,所以后面看看怎么用圖數(shù)據(jù)技術(shù)去解決這個問題,。

  • 相關(guān)推薦

《美團:圖數(shù)據(jù)庫平臺建設(shè)及業(yè)務(wù)實踐》

《如何用 NebulaGraph 圖技術(shù)搞定 7 個典型社交網(wǎng)絡(luò)應(yīng)用,?》


想要感受 悅數(shù)圖數(shù)據(jù)庫 v3.4.0 的最新特性? 點擊 鏈接,,立刻開啟您的圖數(shù)據(jù)庫之旅,!