久久久一本精品99久久精品66_国产99九九久久精品无码_三上悠亚ssni-473无码_韩国免费一级a一片在线播放_做床爱无遮挡免费视频在线观看_无码中文亚洲AV_京香juliaAV无码流出_日韩精品欧美亚洲高清有无_欧美成人精品视频一区二区三区四区_国产成人高清在线观看播放,久久久久精品免费人妻奶头,国产经典视频第一页在线观看,亚洲欧美日韩综合久久久久

悅數(shù)圖數(shù)據(jù)庫(kù)

首頁(yè)>博客>技術(shù)干貨行業(yè)實(shí)踐>圖 + AI 在金融行業(yè)的應(yīng)用及技術(shù)前瞻|應(yīng)用分享

圖 + AI 在金融行業(yè)的應(yīng)用及技術(shù)前瞻|應(yīng)用分享

本文整理自悅數(shù)圖數(shù)據(jù)庫(kù)-資深技術(shù)專(zhuān)家-古思為 在《圖創(chuàng)價(jià)值·圖+AI 在金融反欺詐行業(yè)應(yīng)用》現(xiàn)場(chǎng)的分享,,查看原文 點(diǎn)擊此處,。

非常開(kāi)心有機(jī)會(huì)跟大家做一個(gè)分享,。今天的主題是圖技術(shù)+ AI 在金融反欺詐領(lǐng)域的應(yīng)用,,我的分享內(nèi)容與之呼應(yīng)——就是 Graph 和 AI 結(jié)合金融領(lǐng)域的一些案例以及最近我們?cè)谧龅囊恍┐笳Z(yǔ)言模型及前沿技術(shù)工具,,讓我們看看每一個(gè)場(chǎng)景里這些新技術(shù)能給行業(yè)帶來(lái)什么樣的變化,。

如何用圖的方式做欺詐檢測(cè)

隨著金融業(yè)務(wù)線上化的普及,,現(xiàn)在許多用戶會(huì)在金融 APP 客戶端上申請(qǐng)信用貸款,,然后金融機(jī)構(gòu)的系統(tǒng)里面就會(huì)關(guān)聯(lián)到申請(qǐng)人的一些信息,比如聯(lián)系人電話以及工作公司等,。首先給大家展示的就是這個(gè)線上借貸場(chǎng)景的圖模型,,目前比較快速直接的方式是把這個(gè)問(wèn)題以圖的形式去表達(dá),然后就可以去做一些基礎(chǔ)的圖模式匹配,。

圖示  描述已自動(dòng)生成

  • 線上借貸場(chǎng)景的圖模型

另外一個(gè)就是用標(biāo)簽傳播(Label Spread)的方法去解決其他問(wèn)題,。比如說(shuō),從一個(gè)點(diǎn)開(kāi)始找到符合條件的單子,,然后我發(fā)現(xiàn)他用到了另一個(gè)設(shè)備,,這個(gè)設(shè)備是跟另一個(gè)單子共享的——這個(gè)信息如果能夠被金融機(jī)構(gòu)以毫秒級(jí)的速度獲得的話,不僅可以給領(lǐng)域?qū)<夷脕?lái)做一些及時(shí)的洞察分析,,而且可以把它放在線上系統(tǒng)里作為提示風(fēng)險(xiǎn)的一個(gè)衡量指標(biāo),。

img

  • 通過(guò)圖查詢(xún)語(yǔ)句來(lái)搜索群控設(shè)備

那隨之而來(lái)就有個(gè)問(wèn)題,如果我們標(biāo)記的高風(fēng)險(xiǎn)數(shù)據(jù)量不夠的話,,怎么能夠提高這種特征風(fēng)控的效果呢,?

這里有另一個(gè)方法叫「標(biāo)簽傳播」(Label Spread)。它其實(shí)基本上利用了這個(gè)標(biāo)簽傳播 Label Propagation 的方法,,但這個(gè)算法目標(biāo)有一點(diǎn)變化,,我們是想要基于少量標(biāo)注的有高風(fēng)險(xiǎn)的信息在圖上做迭代,類(lèi)似于標(biāo)簽傳播,,但我們目的并不是找出社區(qū),,而是擴(kuò)展灰度的標(biāo)簽,。這個(gè)信息在有時(shí)候也是有提示意義的,,它可以作為單獨(dú)的一個(gè)參考,給更復(fù)雜的風(fēng)控系統(tǒng)當(dāng)作一個(gè)考量維度,。

圖示  描述已自動(dòng)生成

除此之外的話還有一些利用到「機(jī)器學(xué)習(xí)」的方法,,最直接也是比較傳統(tǒng)的方法,就是純利用數(shù)據(jù)屬性去做一些分類(lèi)的模型,,然后去定期地識(shí)別高風(fēng)險(xiǎn)的交易,。當(dāng)我們把圖屬性也考慮進(jìn)來(lái),,比如說(shuō)下面的 Demo,我們可以把社區(qū)聚集的信息也作為圖特征(Feature)的一部分,,我們分出少量的社區(qū),,然后把這個(gè)社區(qū)的數(shù)字用 bitwise 的方式把它作為 feature。

我剛剛點(diǎn)了 Louvain 算法之后就可以很清晰地看到有聚集性的集群,,不同社區(qū)可以使用不同的顏色去區(qū)分,,這部分信息是可以作為傳統(tǒng)機(jī)器學(xué)習(xí)里邊的特征考量進(jìn)來(lái)的,因?yàn)樗w現(xiàn)了一定情況下這些實(shí)體之間潛在的關(guān)聯(lián)遠(yuǎn)近程度,,而這個(gè)信息在風(fēng)險(xiǎn)預(yù)測(cè)領(lǐng)域是非常有用的,。

圖示  描述已自動(dòng)生成

除此之外,比如說(shuō)我們跑一個(gè)比較常見(jiàn)的節(jié)點(diǎn)重要度算法—— PageRank 算法,,就可以看到這里最重要的就是「設(shè)備」 這個(gè)點(diǎn)跟很多信息都有關(guān)聯(lián),,通過(guò) PageRank 值能夠體現(xiàn)節(jié)點(diǎn)被連接的程度,這個(gè)量化的值作為圖特征也是被證明有效的,。

另外還有在機(jī)器學(xué)習(xí)領(lǐng)域比較流行的圖神經(jīng)網(wǎng)絡(luò)(GNN),,它是通過(guò)一種表示的形式和方法使得圖上鄰接的關(guān)系,以及它在這個(gè)函數(shù)迭代的過(guò)程,,能夠充分地用點(diǎn)和其他點(diǎn)相鄰的關(guān)系以及點(diǎn)上屬性給體現(xiàn)出來(lái),,所以跟之前只是用圖特征這幾個(gè)維度數(shù)字作為輸入相比,能更好地把圖上點(diǎn)與點(diǎn)之間的關(guān)系利用起來(lái),。

圖示  描述已自動(dòng)生成

這個(gè)例子我之前也分享過(guò),,圖左邊的 GNN 模型是一個(gè)節(jié)點(diǎn)的分類(lèi)模型,目標(biāo)就是預(yù)測(cè)圖上任意一個(gè)點(diǎn)是否有風(fēng)險(xiǎn)的分類(lèi),;右邊就是線上系統(tǒng)最后落地的樣子,。我們建立好圖建模信息之后,根據(jù)模型里面標(biāo)注的提示高風(fēng)險(xiǎn)的點(diǎn)進(jìn)行訓(xùn)練,,模型訓(xùn)練好之后輸入任意一個(gè)子圖,,它都可以預(yù)測(cè)出新的子圖上任意一個(gè)點(diǎn)的風(fēng)險(xiǎn)值,所以在一些金融風(fēng)控的線上系統(tǒng)中每發(fā)現(xiàn)一個(gè)新的交易或者是一個(gè)請(qǐng)求過(guò)來(lái),,我們就把這個(gè)信息插到圖譜上,,這樣就可以實(shí)時(shí)進(jìn)行欺詐檢測(cè)。

圖如何幫助大語(yǔ)言模型的應(yīng)用落地

第二部分給大家簡(jiǎn)單介紹一下圖(Graph)和大語(yǔ)言模型(LLM)的結(jié)合點(diǎn),。

圖示  描述已自動(dòng)生成

這張圖是講現(xiàn)在我們?cè)诖笳Z(yǔ)言模型引領(lǐng)和賦能下可以怎樣實(shí)現(xiàn)比較智能的圖應(yīng)用,。基本上我把它分為接入層和連接層,,當(dāng)然連接層里邊是可以迭代的,,每個(gè)小部分還可以?xún)?nèi)嵌一個(gè)大語(yǔ)言模型,然后提示給大語(yǔ)言模型,比如說(shuō) Cloud 或者是 OpenAI 的 GPT 的某一個(gè)版本,,它就可以理解你的意圖,,并且直接回答你的問(wèn)題,也可以根據(jù)你的意圖再去調(diào)用我們已有的其他服務(wù)或者模型,。

如果你想要做一些創(chuàng)造性的探索,,它就可以幫你調(diào)某一個(gè)生成模型,比如說(shuō)你想做某個(gè)服務(wù)的查詢(xún),,那像 OpenAI 有 API 或者是你自己用一些方式就可以去訪問(wèn)互聯(lián)網(wǎng),。有了大語(yǔ)言模型這一層,使得以前比如專(zhuān)門(mén)做 NLP 或者翻譯等等很多以前看起來(lái)很難被智能化又非常昂貴的領(lǐng)域,,現(xiàn)在都有了更多的備選方案,。

圖示  描述已自動(dòng)生成

在這里,圖數(shù)據(jù)庫(kù)可以做什么,?

首先,,我們可以在接入層做一點(diǎn)事情。比如說(shuō)我們想要在既定的一個(gè)大語(yǔ)言模型上做給定領(lǐng)域的知識(shí)問(wèn)答,,一個(gè)常見(jiàn)的情況就是我們需要額外同步專(zhuān)有的領(lǐng)域知識(shí),,但是這個(gè)同步是有限制的,不是所有模型都支持,,而且有的時(shí)候比較昂貴,。比如說(shuō)我們要基于一個(gè) 100 兆的 PDF 作為上下文的背景知識(shí)來(lái)問(wèn)問(wèn)題,常見(jiàn)的方式就是把它給分割開(kāi)來(lái),,比如說(shuō)分成 100 份,,然后每份的內(nèi)容把它總結(jié)起來(lái),然后放在 Vector search 里面做一個(gè)嵌入,。

具體落地來(lái)說(shuō),,比如你問(wèn)一個(gè)問(wèn)題,他會(huì)把這個(gè)問(wèn)題跟你分割的每一個(gè)小塊的信息在向量空間里做一個(gè)距離的搜尋,,取出離得最近的比如三塊的相關(guān)上下文內(nèi)容,,而把這個(gè)上下文和你這個(gè)問(wèn)題一起丟給大語(yǔ)言模型——這是現(xiàn)在最直接的一個(gè)方法,但是它還是有問(wèn)題,。

首先就是這種方法雖然緩解了上下文過(guò)多的問(wèn)題,,但是也會(huì)丟失部分你要額外增加的背景知識(shí),而且你缺失了節(jié)點(diǎn)與節(jié)點(diǎn)之間的關(guān)聯(lián),,是個(gè)割裂的知識(shí)塊,。

其次,我們知道大語(yǔ)言模型有時(shí)候的回答不是穩(wěn)定和可重現(xiàn)的,,也不是那么專(zhuān)業(yè)可信,。舉個(gè)例子,,如果我們想要做一個(gè)在醫(yī)院里處理分診問(wèn)題的智能問(wèn)答機(jī)器人,,這種情況下即使用非常智能的大語(yǔ)言模型,,哪怕只有萬(wàn)分之一的可能會(huì)給出很奇怪的結(jié)果,所帶來(lái)的負(fù)面影響都是不能承受的——因?yàn)樗鼤?huì)影響人的生命和健康,。這種領(lǐng)域的話,,傳統(tǒng)方法其實(shí)是利用專(zhuān)業(yè)的知識(shí)圖譜(Knowledge Graph)基于基本的模式匹配之后給出一個(gè)確定的推理。

這時(shí)候就可以用圖(Graph) 去解決剛剛提到兩個(gè)問(wèn)題,,一個(gè)是當(dāng)我們用 Vector search 去做切分的時(shí)候,,我們可以利用知識(shí)圖譜提供全局視野。另一個(gè)就是我們?cè)诨谀硞€(gè)非結(jié)構(gòu)化的海量上下文做問(wèn)答的時(shí)候,,比如說(shuō)一個(gè)很大的網(wǎng)站和文檔知識(shí)庫(kù),,同時(shí)接入已有的知識(shí)圖譜話,就可以提供一個(gè)相對(duì)來(lái)說(shuō)比較高可信度的推理,。

圖示  描述已自動(dòng)生成

這個(gè)圖就是剛剛我提到的知識(shí)嵌入(embedding)部分引入圖技術(shù),, 另一部分其實(shí)大語(yǔ)言模型本身是可以幫助圖的,就是我們?nèi)ピO(shè)置一個(gè)知識(shí)圖譜的時(shí)候,,知識(shí)的梳理其實(shí)有時(shí)候是涉及到理解力的,,這個(gè)時(shí)候大語(yǔ)言模型是能夠起到幫助作用的,而且有時(shí)候能夠替代一些以前必須得要領(lǐng)域?qū)<乙氲沫h(huán)節(jié),,相對(duì)來(lái)說(shuō)更加的高效和自動(dòng)化,。

圖形用戶界面, 應(yīng)用程序  描述已自動(dòng)生成

關(guān)于前面提到的大語(yǔ)言模型的查詢(xún)層,實(shí)際上這個(gè)領(lǐng)域來(lái)說(shuō),,到今天比較先進(jìn)的方式是有一些人做了一些封裝,,當(dāng)然你可以自己直接從頭寫(xiě)代碼去,中間只要插一個(gè) Vector search 就能做 embedding 的事情,。但是有些 dirty work 需要你額外去做,,其實(shí)大家都做重復(fù)的一塊。再一個(gè)就是有的時(shí)候它中間不只是僅僅的去分割然后抽取,,其實(shí)這是大體的思路,,但實(shí)際上落地的時(shí)候會(huì)有很多小的細(xì)節(jié)的優(yōu)化途徑,所以這個(gè)領(lǐng)域其實(shí)有一些抽象的中間層的庫(kù),,比較流行的,,比如叫 Langchain 的一個(gè)項(xiàng)目。

其次還有個(gè)項(xiàng)目叫 LLAMA Index,,大家感興趣的話可以去了解一下,,基本上我給 LLAMA 外部知識(shí)圖譜這個(gè)概念,它能夠在建立正常的設(shè)置參數(shù)的過(guò)程中,,同步地把信息里邊的知識(shí)總結(jié)出來(lái),,然后導(dǎo)入到外部的知識(shí)圖譜中去。

電腦螢?zāi)划?huà)面  描述已自動(dòng)生成

另外,大語(yǔ)言模型也可以幫助很多系統(tǒng)去掉昂貴的人力投入環(huán)節(jié),。這里邊有幾個(gè)方面,,一個(gè)是在知識(shí)抽取的過(guò)程中,我受到啟發(fā)很有名的項(xiàng)目叫 GraphGPT,?;旧衔揖透嬖V大語(yǔ)言模型,你現(xiàn)在要幫我做一個(gè)知識(shí)解析的過(guò)程,,就是你要從這一段文字里面解析出主謂賓的知識(shí)結(jié)構(gòu),。在這個(gè)案例里,我給他了一段關(guān)于哈利波特的文字,,最后他就幫我返回了一個(gè)一段 Json,,就描述了這一段話里面的三元組的知識(shí)。最后我們把它渲染出來(lái),,就是一個(gè)關(guān)于哈利波特的知識(shí)圖譜,。

這只是一個(gè)很小的 demo,但圖譜其實(shí)表現(xiàn)地也很自然,,大家只要做圖都會(huì)想到用大語(yǔ)言模型建立一個(gè)知識(shí)圖譜,,現(xiàn)在跟以前的情況和需要的投入完全不同了。

另外一個(gè)大語(yǔ)言模型幫助到圖(Graph)的一個(gè)例子是是我另一個(gè)項(xiàng)目,,這個(gè)項(xiàng)目寫(xiě)得很早,,基本上就是你提供給我圖上的 schema 以及你想要做的 query,它就可以幫你實(shí)時(shí)的去寫(xiě)圖數(shù)據(jù)庫(kù)的查詢(xún),。

當(dāng)然了,,未來(lái)這些能力都會(huì)嵌在我們「悅數(shù)圖數(shù)據(jù)庫(kù)」各種各樣的產(chǎn)品里,也是蠻有意思,,大家如果感興趣的話,,可以找這個(gè) Demo 玩一下。

圖表, 圖示  描述已自動(dòng)生成

最后我想說(shuō)其實(shí)圖天然是有可解釋性的,,舉個(gè)例子,,這個(gè)是我的另一篇文章里邊的例子,但是這個(gè)系統(tǒng)是一個(gè)推薦系統(tǒng),。我們知道上個(gè)禮拜 OpenAI 有篇文章講他們?cè)趺蠢?GPT-4 去為他們的 GPT-2 模型做模型里的可解釋性的分析,,還挺酷的,其實(shí)利用圖的話也可以做一定的努力,。

這個(gè)例子,,其實(shí)就是我們一個(gè)很黑盒的推薦系統(tǒng)給出的結(jié)果,只要有這個(gè)結(jié)果里面涉及到實(shí)體做一個(gè)路徑查詢(xún),,我們通過(guò)圖數(shù)據(jù)庫(kù)是可以給出一定的可解釋性的,,蠻有意思的,。

悅數(shù)圖數(shù)據(jù)庫(kù):打造更順滑高效的 Graph + AI 工具鏈

最后一部分給大家介紹 Graph + AI 時(shí)代,悅數(shù)會(huì)打造怎么樣的產(chǎn)品以及能提供什么樣的方法論,。

電腦螢?zāi)坏慕貓D  描述已自動(dòng)生成

首先,,悅數(shù)圖數(shù)據(jù)庫(kù)是原生分布式的,所以你可以很輕松地實(shí)時(shí)處理很大的數(shù)據(jù)集群,。因?yàn)楸举|(zhì)上,,悅數(shù)圖數(shù)據(jù)庫(kù)的計(jì)算與存儲(chǔ)是分離的,,它的計(jì)算層是無(wú)狀態(tài)的,,這使得我們做了很多不同的計(jì)算層,其實(shí)對(duì)于圖來(lái)說(shuō)都只是另一個(gè)異構(gòu)的查詢(xún)或計(jì)算層而已,,因此它的可擴(kuò)展性非常好,。?

除了內(nèi)核數(shù)據(jù)庫(kù)之外,悅數(shù)還提供了自研的圖算法工具,,我們可以在這上面自己實(shí)現(xiàn)或者是跑現(xiàn)有內(nèi)置的各種圖的算法,,目前也很受大家歡迎。其中「悅數(shù)圖分析」是我們推出的一個(gè)圖算法工具,,這個(gè)是只有企業(yè)版本,。它主要的優(yōu)勢(shì)是有更高的資源使用率,然后性能也會(huì)更好一些,。

img

  • 悅數(shù)可視化產(chǎn)品中的工作流操作展示

「悅數(shù)圖分析」還有一個(gè)優(yōu)勢(shì)就是它能跟我們的可視化的工具有非常好的結(jié)合,。剛才給大家演示的 Demo 就是在悅數(shù)的可視化工具里邊實(shí)現(xiàn)的。大家可以利用工作流快速去驗(yàn)證一個(gè)想法,,之后再在數(shù)據(jù)規(guī)模更大的情況下再進(jìn)一步去做 Benchmark 或驗(yàn)證,,最后落地到真實(shí)的場(chǎng)景。比如這一步取什么樣的數(shù)據(jù)/怎么取,,下一步做什么樣的運(yùn)算,,這一步運(yùn)算的輸出和另一個(gè)運(yùn)算輸出指向下一個(gè)任務(wù)后再輸出到哪里,這些過(guò)程在悅數(shù)的工具體系里都可以拖拉拽,、零代碼地實(shí)現(xiàn),。

img

  • 基于 AI 工具生成的可視化圖數(shù)據(jù)集

然后,悅數(shù)也在做一些跟 AI 以及 GNN 結(jié)合的工具類(lèi)產(chǎn)品,。在這里給大家介紹的一個(gè)項(xiàng)目叫「AI Suite」,,它其實(shí)是一個(gè)面向 Graph 和 AI 的一個(gè) high level 的 API,它是個(gè) Python 的庫(kù),,通過(guò)幾行代碼就可以把悅數(shù)圖數(shù)據(jù)庫(kù)上的信息讀到這個(gè)圖里邊,,然后緊接著像這兩行就直接跑了一個(gè) PageRank 算法,然后 AI 工具就可以自動(dòng)把它畫(huà)出來(lái),。

另外還有跟最流行的兩個(gè)圖神經(jīng)網(wǎng)絡(luò)(GNN)的框架之一,,亞馬遜和紐約大學(xué)開(kāi)源的圖深度學(xué)習(xí)框架 DGL 合作的項(xiàng)目,,你可以很容易地把悅數(shù)圖數(shù)據(jù)庫(kù)里面的圖給它序列化成 DGL 的對(duì)象,然后在此基礎(chǔ)之上就可以很容易地做,,比如說(shuō)鏈路的預(yù)測(cè),、節(jié)點(diǎn)的分析等等。比如說(shuō)我訓(xùn)練好鏈路預(yù)測(cè)的模型之后,,取一個(gè)點(diǎn)和跟它沒(méi)有相連的點(diǎn),,然后把數(shù)據(jù)這個(gè)喂給模型就可以做預(yù)測(cè),比如某個(gè)人有可能想要看哪個(gè)電影,,也是一個(gè)蠻有意思的一個(gè)工具,。

以上就是我分享的內(nèi)容,感謝大家的時(shí)間,,歡迎大家關(guān)注我們的公眾號(hào)和官網(wǎng),,目前悅數(shù)圖數(shù)據(jù)庫(kù)在阿里云上支持 免費(fèi)試用,歡迎大家進(jìn)一步了解,,謝謝,。