久久久一本精品99久久精品66_国产99九九久久精品无码_三上悠亚ssni-473无码_韩国免费一级a一片在线播放_做床爱无遮挡免费视频在线观看_无码中文亚洲AV_京香juliaAV无码流出_日韩精品欧美亚洲高清有无_欧美成人精品视频一区二区三区四区_国产成人高清在线观看播放,久久久久精品免费人妻奶头,国产经典视频第一页在线观看,亚洲欧美日韩综合久久久久

悅數(shù)圖數(shù)據(jù)庫

首頁>博客>用戶分享技術干貨>肖仰華教授:知識圖譜與圖計算研究分享

肖仰華教授:知識圖譜與圖計算研究分享

本文整理自 復旦大學-計算機科學技術學院-肖仰華教授在 NUC 2022 年度用戶大會上的分享,。

認知智能的起源與發(fā)展

認知智能的發(fā)展路徑

圖計算有很多應用場景,知識圖譜是近幾年或者是未來一段時間里,,圖計算非常重要的應用場景之一,。

為什么有這個判斷?因為整個人類社會已經(jīng)進入了所謂的智能時代,,而當下我們尤為迫切的需要是發(fā)展機器的認知能力,,從而不但代替我們的體力勞動,,更多的要代替我們簡單的腦力勞動,讓更多的知識工作由機器來協(xié)助我們完成,,當然了,,最終的決策權還是要由我們人類來完成。所以讓機器具備人類的,,尤其是行業(yè)的認知能力,,讓機器能夠理解我們行業(yè)的數(shù)據(jù),,具備一定的推理能力,、解釋能力、規(guī)劃決策能力,,以這樣一種形態(tài)為代表的認知智能已經(jīng)在各行各業(yè)發(fā)生,,可以說每一個行業(yè)的智能化發(fā)展都對機器具備認知智能提出了要求

從大的趨勢來看,,如果說過去10多年,,機器是具備了人的感知和運動能力,那么下一步大家看到了一個很鮮明的趨勢是讓機器具備人類的心理能力,。認知是我們的心靈里面最重要的一種能力,,所以基本上可以做出這么一個判斷——未來,認知智能將是進一步釋放整個人工智能產(chǎn)業(yè)發(fā)展的紅利和價值的一個非常重要的出口,,可以說,,認知智能對推動各行業(yè)的智能化發(fā)展具備一個非常重要的作用。

認知智能的實現(xiàn)需要AI三大流派的形成合力

實現(xiàn)認知智能需要人工智能很多的思想技術,,比如說深度學習,,比如說聯(lián)結主義,它本質上通過訓練深度學習這種神經(jīng)網(wǎng)絡來解決問題,,本質上是讓機器具備了我們大腦的這樣一種快思考的能力,。比如說問大家:3x4 等于多少?我想所有人不假思索地會給我答案 12,,你為什么能夠做到這一點,?那是因為你小時候很多次背誦乘法運算表,背誦的過程就是在強化“3×4” 這個輸入和 “12” 這個輸出之間的關聯(lián),,這個就和我們現(xiàn)在訓練神經(jīng)網(wǎng)絡的過程本質是一致的,。

所以聯(lián)結主義,是一定程度上在實現(xiàn)人類的這種快思考的能力,,而知識圖譜是要在實現(xiàn)什么,?實際上很大程度上是在實現(xiàn)我們人類的慢思考

慢思考一個典型的問題就是,,如果問大家:345×1234 等于多少,?這個時候估計很少有人立馬給我答案了,,但是如果你有筆有紙,你就會把你小時候學的乘法運算的過程規(guī)則書寫下來,,把整個計算過程書寫下來本質上在做這些數(shù)字符號的加工和運算,,那么以這種符號去表達知識然后用這種架構運算,本質上表達了一種推理過程,,符號表示再加上推理這樣一種解決問題的方式,,實際上就是符號主義解決問題的一個基本的思路。

而剛才這種解題的過程中,,我們可能要花多長時間,?可能要花個一分鐘;而剛才 3×4 花了多少,,可能幾毫秒,?所以這個是完全不同量級的,這是一種典型的慢系統(tǒng),,它是以符號推理為主要形態(tài)的一種解決問題的方式,,也是知識圖譜解決問題的非常重要的一種方式

那么未來我們可能還需要借助進化和行為主義,,他們的基本觀點認為,,人的智能是靠從環(huán)境中獲得反饋,不斷演化得來的,。那么機器智能是不是也要去放在某個環(huán)境中去演化呢,?這對于實現(xiàn)機器的這種社會認知、物理環(huán)境的交互是尤為重要,。事實上,,整個認知智能發(fā)現(xiàn)要把這三大流派形成合力才能夠形成,知識圖譜基本上也屬于用符號主義解決問題的一種方式,。

符號主義是知識圖譜解決問題的重要方式

符號主義要去解決問題的重要前提是我們如何去表達,,如何去承載符號知識?那么這就用到了知識圖譜,。本質上它是一種語義網(wǎng)絡,,它可以認為是現(xiàn)在大數(shù)據(jù)時代,知識最重要的一種表示方式,,它把很多實體,、概念關聯(lián)在一起,我們甚至可以沿著這種關聯(lián)關系逐步地探索下去,,所以知識圖譜就是一種人類知識非常重要的載體,。

事實上,我們現(xiàn)在已經(jīng)在建各行各業(yè)的知識圖譜,,其實就是希望用它去表達,、沉淀行業(yè)的知識,。可以說,,知識圖譜已經(jīng)成為大數(shù)據(jù)時代最為重要的知識表示方式,。

知識圖譜是一種大數(shù)據(jù)知識工程

那么知識圖譜實際上是什么?從學科上來講,,它本質上是整個大數(shù)據(jù)知識工程的一個核心技術,,它實際上是從互聯(lián)網(wǎng)應用誕生的,是從搜索引擎誕生的,。大家知道最早知識圖譜這個詞,,就是谷歌在 2012 年發(fā)布了自己的知識圖譜,當時是為了應對互聯(lián)網(wǎng)的一些大規(guī)模開放應用,,比如說我搜一個詞,,這個詞我不理解它,,那么有了知識圖譜,,我就能理解你搜的是什么。

比如說,,我要搜這個洲際酒店,,然后上海,實際上意圖很明顯,,我要搜一個在上海附近的洲際酒店,,那么你就要知道上海是一個地方,洲際是個酒店品牌,,沒有這種背景知識就不知道用戶的搜索意圖,,我們就需要有大量的背景知識支撐,才能夠讓用戶理解這種搜索——所以當初搜索引擎為什么提出知識圖譜,,很大程度上就是為了讓機器理解搜索,。

那么我們說互聯(lián)網(wǎng)的發(fā)展,就帶來很多大數(shù)據(jù)是吧,?大數(shù)據(jù)的誕生使得知識圖譜的發(fā)展也具備了相應的條件,,一方面有前所未有的大數(shù)據(jù),可以發(fā)展很多數(shù)據(jù)驅動的知識獲取的方法,,另外一方面現(xiàn)在有很多機器學習的模型,,這些機器學習的模型可以使我們從海量文本里面去抽取這些知識。另外一方面我們還有很多前所未有的算力,,所以在算力和數(shù)據(jù)的支撐下,,知識圖譜的發(fā)展插上了翅膀

知識圖譜是認知智能的基石

可以說,,知識圖譜在今天已經(jīng)成為各行業(yè)認知智能的基石,。每個行業(yè)要想發(fā)展自己的認知智能,,總要把自己的知識表達出來,沉淀下來,,所以說,,知識圖譜已經(jīng)成為每個行業(yè)去實現(xiàn)語言認知(的基礎)。

比如說很多機器不能理解的基本的背景知識,,很多行業(yè)像金融,、醫(yī)療、司法都需要一些可解釋的東西,,圖譜里面的很多實體概念都是我們解釋的來源,,所以知識圖譜對各行業(yè)形成解釋的能力也很重要,它對于提升當下廣泛應用的機器學習的一些性能,,突破它的瓶頸也是非常有意義的,。我們看到知識圖譜在搜索、推薦,、問答,、解釋、決策等等應用場景下有諸多的應用,。

圖視角下的知識圖譜

那么知識圖譜跟圖數(shù)據(jù)有什么關系,?實際上知識圖譜天然就是一張圖,它本質是一個語義網(wǎng)絡,,而語義網(wǎng)絡是一種用圖的形式來表達的一種知識表示,。他用點表達實體和概念,用邊表示這種語義關系,,這就是知識初步的表示,。

所以知識圖譜從本質上來講,是一種基于圖的表示,,如果把很多實體概念都展開來,,它就變成一張帶有很多語義關系的巨大的語義網(wǎng)絡。

知識圖譜視角下圖的多種表示形式

那么從圖的視角來看知識圖譜你會發(fā)現(xiàn)這個知識圖譜實際上有圖的形態(tài)是很復雜的,,很多樣的,。它可以是有向圖,也可以是無向圖,;它可以是屬性圖,,就是說這里的點邊上帶屬性,比如說柏拉圖出生在雅典,,可以把出生地屬性再附上出生時間是一個屬性圖,;它還可以是樹狀圖,比如說我們很多概念層級體系,很多行業(yè)有商品類目什么的,,本質上是一個概念層級體系,,是一個樹狀圖,有的時候實際上如果你這個層級體系里面這個是用詞來表達的,,它實際上還有可能構成一個有向無環(huán)圖,,還有一些是用概率來表示某個關系成立的可能性,比如說漢堡是不是健康食物,?可能有的人認為是有的認為不是,,所以用概率來表達它是健康食物的程度,那是很合適的,。我們還可以用叫異構信息網(wǎng)絡來表達圖,,所以知識圖譜的視角下,圖的表示是非常多元的,。

圖系統(tǒng)管理知識圖譜對必要性

正因為圖的表達很豐富很多樣,,就對于如何系統(tǒng)化地管理知識圖譜提出了要求。

我們需要在剛才說的各種各樣的知識圖譜上去查詢和檢索,,這里就有很多事,,第一如何表達查詢?你需要一些查詢語言,,需要一些圖數(shù)據(jù)庫的查詢語言來表達你的意圖,。然后查詢意圖也可以很復雜,,可以是查子結構,,可以是帶關鍵字的查詢,可以查一個路徑,,還可以查模糊匹配的增長表達式的匹配等等,,所以查詢的意圖表示如果沒有一個圖系統(tǒng)性的支撐的話,我們每個人自己去寫那是很痛苦的,,一定要有一個規(guī)范化的查詢語言,。

然后執(zhí)行的時候又有很多問題,這個數(shù)據(jù)這到底之前應該去匹配哪個答案,?怎么去檢索怎么去 raking 呢,?誰的匹配最可信呢?還有存儲,、還有索引等等問題,。

知識圖譜應用面臨的挑戰(zhàn)

知識圖譜對圖數(shù)據(jù)管理提出了非常高的要求

所以,知識圖譜對圖數(shù)據(jù)管理提出了非常高的一個要求,,不單單是有這個必要性,,同時你會發(fā)現(xiàn)知識圖譜其實對圖數(shù)據(jù)管理也提出了很多挑戰(zhàn)。首先知識圖譜作為一個圖數(shù)據(jù),它的數(shù)據(jù)結構很復雜,,上面很多數(shù)據(jù)的操作和訪問,,它實際上沿著邊在做一些隨機的訪問,那么這種隨機訪問實際上是對我們傳統(tǒng)數(shù)據(jù)庫基于局部特性的一些緩存優(yōu)化提出了非常大的挑戰(zhàn),。

而且圖上的很多計算,,像深度優(yōu)先遍歷,實際上下一步走哪一個是依賴于前面走的,,所以它實際上是對前序的過程有依賴關系,,這種有很強的依賴關系的算子它是很難并行化的。現(xiàn)在加速很多都是靠并行,,但是圖上的很多計算很難并行,,所以圖數(shù)據(jù)底層實際上是很復雜的,那么這種復雜性一定要向用戶交割清楚,,用戶不應該去面對這種復雜性,,專業(yè)的事情還得給專業(yè)的人來做。

圖計算的計算類型也很復雜,。圖計算可以是離線的分析型計算,,也可以是在線去做查詢,比如說查一條路徑或者查這兩個實體,,尤其在欺詐的應用中有沒有一些潛在的關系,?這都對實時性要求很高,他對吞吐量有時候要求也很高,,所以它的計算也是很復雜,。

那么知識圖譜本身很多樣,知識圖譜結構也很復雜,,某些知識圖譜它很密集,,某些又可能很稀疏,還有一些知識圖譜會呈現(xiàn)一定的狀態(tài),,比如說像工業(yè)在很多場景下,,他就要求用工業(yè)類的知識要求來表達,所以它實際上更像是一個偏序列的一張圖,。

那么還有一個很大的挑戰(zhàn),,就很多領域的圖譜規(guī)模巨大。最近有報告說有人已經(jīng)在百萬億規(guī)模的圖布上去做這種疫情防控——劃一個風險區(qū)域,,哪個時間點到哪個省,、一周之內去過這個地方的所有人跟這個地點發(fā)生關系了?它就是有風險的,,那么這張圖譜可以是非常巨大的,。

知識圖譜的復雜性和更新需求對圖系統(tǒng)提出的獨特挑戰(zhàn)

那么知識圖譜本身還對服務系統(tǒng)提出一些很獨特的挑戰(zhàn)。

比如說圖譜有時候為了追求規(guī)模,它的模式定義并不精確,,這就要求我們的圖數(shù)據(jù)管理具有一定的容錯能力,。屬性值往往是很多的,定長的管理一般來講在數(shù)據(jù)庫管理是容易的,,變長管理大家很害怕,。還有比如說如何定義實體的類型?如果說實體只有一個概念,,就是一個模板,,這個我們只要套用一套的模式來去管理它;但是很多時候一個實體往往有多個角色,,比如說喬布斯,,他可以是 CEO,他還可以有其他角色比如億萬富翁,,不同的角色的模板不一樣,,所以處理也很困難。

還有很重要一點,,就是更新,。數(shù)據(jù)要更新,知識庫里面的知識要更新,,我們的模式有的時候也要更新,,比如說美國總統(tǒng)換屆了,那么美國總統(tǒng)這個知識你就要換,。還有的模式它也要更新,,我們的認知某個場景它會發(fā)生變化,比如說電動車的歸屬,,一開始可能沒有電動車這種新的車品,,比如現(xiàn)在有獨輪車,獨輪電動車到底應該歸到哪一個類,?像這種新型的東西,它的模式也會影響更新,。

還有就是邏輯推理,,我們本意是希望知識圖譜能夠做很多很復雜的推理,那么這個推理往往要沿著路徑跳很多地方,,這個時候如果6步跳出去會怎么樣,?可能就要觸及全圖,那么這個代價是非常大,,所以這種推理如何做得高效也很非常困難,。

知識圖譜應用正從消費互聯(lián)網(wǎng)向垂直應用場景轉變

知識圖譜發(fā)展到今天,應該不是一個新鮮的事物了。實際上整個知識工程從上個世紀七八十年代就已經(jīng)發(fā)展到了知識圖譜時代的大數(shù)據(jù)知識工程時代,,主要是互聯(lián)網(wǎng)的應用推動的,。

從谷歌提出知識圖譜到今天,差不多有正好十年的時間,,那么這十年基本上知識圖譜已經(jīng)解決了很多頭部應用場景,,尤其是在消費互聯(lián)網(wǎng)的應用場景,知識圖譜已經(jīng)解決得很不錯了,,大家看到了百度,、美團、淘寶等上面的搜索關聯(lián)推薦,,都是知識圖譜在現(xiàn)在大規(guī)模應用場景的一些落地,。

但是從差不多從17、18年開始,,你會發(fā)現(xiàn)越來越多的訴求轉向了垂直行業(yè)的應用,,面向企業(yè)的場景現(xiàn)在越來越多:像醫(yī)療、司法,、工業(yè),、金融等等,都是一種典型的我們稱作叫小規(guī)模復雜應用場景,。

為什么說小規(guī)模,?你說它的數(shù)據(jù)量也不小,但跟搜索跟互聯(lián)網(wǎng)比好像也比不了,。然后它的應用其實又非常的復雜,,比如像工業(yè)里面應用太復雜了對吧,醫(yī)療更不用說,。然后它的知識應用得很深入,,而且跟互聯(lián)網(wǎng)不一樣,你得了什么???為什么得這個病,?不是行業(yè)內的人員,,你根本就不知道這個知識。所以它往往涉及大量的專家知識,,尤其是聚焦某個場景,、某個工種某個問題,它的數(shù)據(jù)量是非常稀少的,,所以這個都構成了知識圖譜應用的一個非常復雜的挑戰(zhàn),。

深度學習發(fā)展迅速機器隱性知識興起

其次從大的技術生態(tài)里看的話,,你會發(fā)現(xiàn)現(xiàn)在大規(guī)模訓練語言模型正在崛起。大家最近應該聽到很多這種新聞,,什么 GPT 能夠代替人去寫小說,、多模態(tài)的大模型能去畫畫、給個文本就直接生成視頻……這個都是大模型的崛起,。實際上它本質是什么,?它從海量的數(shù)據(jù)里面訓練出來,因此學到了很多人類還沒有意識到的隱性的知識,。

如果說大模型現(xiàn)在已經(jīng)有很多成功應用的話,,基本說明一個問題,我們人類已知積累的這些知識,,在知識圖譜里面積累這些知識都是顯性的符號知識,,很重要對吧?但是在數(shù)據(jù)中可能還蘊含了大量的我們沒法表達的,,隱性的,,很難言說的一些知識,就是大模型的威力,。

所以未來,,我們會想更重要的是把知識圖譜這里面的這種符號知識,專家知識,,顯性知識和大模型中的隱性知識結合來解決行業(yè)的問題,,所以技術生態(tài)的變化也對知識圖譜的應用提出了挑戰(zhàn)

知識圖譜面臨成本和效用之間的矛盾

另外一個是非常重要的挑戰(zhàn),,就是成本和效用的矛盾,。其實現(xiàn)在很多領域已經(jīng)在建知識圖譜,也在用知識圖譜,,但是發(fā)現(xiàn)周圍落地還是面臨一些挑戰(zhàn),。

第一,很多場景它是為了突破而突破,,應用場景并不明確,。第二,其實圖譜的應用很多是錦上添花的,,并不是這種雪中送炭的應用,。第三,就是圖譜的很多技術它也不定型,,比如說從文本中去抽知識,這個技術路線可以很多,,可以基于規(guī)則,,可以基于傳統(tǒng)機器學習,,現(xiàn)在基于深度學習可以用大模型做底座,也可以不用大模型做底座,。它有很多種豐富技術路線,,所以技術發(fā)展路線仍然在變化過程當中,但是圖譜本身的建設是又耗了大量的數(shù)據(jù)成本,、構建成本,、運維成本,所以成本和效用的矛盾也是日益突出,。

圖計算如何幫助知識圖譜應對挑戰(zhàn)

知識圖譜對圖計算提出了哪些問題和挑戰(zhàn)

正是因為有這些新的挑戰(zhàn),,我們提出了一些問題,我們這個圖計算怎么幫助我們知識圖譜應對這些挑戰(zhàn),?

首先,,圖計算如何支撐知識圖譜盡快突破當前的一些瓶頸?主要從三個角度,,第一個從知識表示,,第二個從知識獲取,第三個從知識管理的角度,。

知識表示

知識表示:知識圖譜的分布式數(shù)值表示

從知識表示的角度來講,,現(xiàn)在一個非常重要的趨勢,就是把知識圖譜分布式用數(shù)值來表示,,現(xiàn)在拿到的是一個符號化的表示,,但是要把它變成向量變成數(shù)值化的表示,因為只有變成數(shù)值化的表示,,它才能進入深度模型,,去協(xié)助深度模型更好地解決問題,所以知識圖譜的分布式表示是非常重要的,。

大規(guī)模知識圖譜的分布式表示的高效管理技術

但是現(xiàn)在絕大部分圖數(shù)據(jù)庫管理系統(tǒng)針對知識圖譜仍然還只是符號的,,一旦把知識圖譜變成一個分布式的離散向量,我們的圖還能不能有效管理,,這仍然是一個開放的問題,。

比如說一級以上的知識圖譜,它本身如何得到有效的分布式表述,?其次你如何表示,?是不是要降維?如何降維,?比如說用50維有很大的存儲代價,,那30維行不行?20維行不行,?到什么邊界能接受,?那么高維現(xiàn)象能不能壓縮表達,?如何去做有效的組織和索引?現(xiàn)在完全是個開放性問題,。

知識表示:概念的分布式表(基于結構)

那么圖譜里面其實除了實體知識之外,,還有很多概念知識,這種概念知識的表達跟實體是不一樣的,,如何有效的向量表示,?這個也仍然是一個開放問題。

知識表示:概念的分布式表(基于原型)

那么這里我們也做了很多研究工作,,比如說基于人類認知的原型理論,,去讓機器去認知。比如說人是怎么認識貓,?你對貓這個概念的認知來自于很多具體的概念,,把它融合在一起變成一個語言表示。機器能不能也利用這種原型來認知這個概念,,這就是知識圖譜為概念的表示,。

知識表示:KG將向大規(guī)模知識網(wǎng)絡演進

另外現(xiàn)在越來越多的行業(yè)應用把各種知識表示聯(lián)合應用,這里面有本體,、有框架,、有規(guī)則、有邏輯,、有語言模型,。我們現(xiàn)在很多系統(tǒng)它還是單一的,它可能只支持知識圖譜,,一旦要去跟大模型融合,,要去跟什么規(guī)則結合,你會發(fā)現(xiàn)就很不方便,,所以這個也是一個非常重要的趨勢,。

知識表示:人機知識的定量化實證分析

另外就是說知識定量化的分析,最后你知識圖譜里有了很多知識,,那么這個抽出來的知識和專家認知有什么不一樣,,你從互聯(lián)網(wǎng)抽到的知識或者從教材里抽的知識和專家視角的知識,和業(yè)務上要用的知識有什么不同,?這個都是要去研究的,。

知識表示:“表示+推理”一體化

還有表示和推理的一體化,這個也是很有意思的問題,。

我們傳統(tǒng)整個知識工程走的路線就是先表示再推理,,就是先用知識圖譜把知識表達出來,然后再利用知識圖譜去做路徑推理,。但實際上人類的專家真正解決問題的時候,,他是把表示和推理一體化在應用,。就是我看到問題我就知道應該怎么解決,,大部分專家你問他是怎么解決的,,實際上是一種事后的解釋,真正形成那個角色和答案的時候,,實際上是一種直覺式的,,這就叫做表示和推理一體化。

那么我們基于知識圖譜的表示和基于知識圖譜的推理,,如何去做到這種一體化的決策,?這個都是當下最有挑戰(zhàn)性的研究問題,像這種問題在很多實際應用場景很有用,,比如說在工業(yè)中的這種故障診斷,,老師傅看到這個現(xiàn)象立馬就知道問題出在了,如果新手問他是怎么解決的,,他就想一想我是怎么解決,,但它實際上是一種直覺的決策,它是把表示和推理一體化在做,,所以這個對我們的行業(yè)應用都非常關鍵,。

知識獲取

知識獲取:基于圖模型的概念圖譜補全

在知識獲取方面,,圖系統(tǒng)其實是可以發(fā)揮很多的威力的,。我們的很多知識獲取是從現(xiàn)有的知識圖譜里面去推斷出更多的知識,這里面很多的算法都是一些知識圖譜上一些缺失的鏈接的推薦算法,。比如,,我們可以看到一個詞是不是應該有某個上位詞,就可以看他的鄰居是不是有這上位詞,,這是一個典型的協(xié)同過濾的思想,,那么我們的圖計算的系統(tǒng)能不能支持這種協(xié)同過濾的思想呢,

在圖譜糾錯這塊,,你會發(fā)現(xiàn)有很多圖譜里面有些邊,,比如說它是不是這樣構成了一些環(huán),尤其是在這種層級關系里面,,如果有環(huán)是很奇怪的,,那么把這環(huán)給去掉,破除這個環(huán)就有可能得到一個更干凈的知識圖譜,。

知識獲?。夯趫D模型的概念圖譜糾錯

這個時候你就可以把這個問題建模成圖的一些計算問題,建模成從圖上去掉一些環(huán),、破除一個環(huán),,然后得到一個有效無環(huán)圖,,然后這張圖可能是你這個概念圖譜更好的一種表達。

知識獲?。夯趫D模型的概念圖譜糾錯

那么還有就是領域突破,,比如像現(xiàn)在一些新的詞,我應該掛載到哪一個屬性上,,我們可以用圖的一些隨機游走的算法去算一算新詞和這個圖上的其他的一些屬性,,其他的這些值之間是不是有很強的相似性?那圖上的這種隨機游走都是基于傳統(tǒng)的圖的一些算法,,所以我們可以利用圖系統(tǒng)提供大量的圖算法來做知識圖譜的優(yōu)化,、補全、糾錯等等,。

知識管理

知識圖譜的質量評估體系如何建立

那么在知識管理的角度,,我們仍然有很多需要這個圖系統(tǒng)來支撐的。知識圖譜已經(jīng)到了什么階段了呢,?大部分單位都已經(jīng)做了一次性建設,,未來幾年知識圖譜一個非常重要的趨勢就是知識圖譜的持續(xù)運營和持續(xù)建設。現(xiàn)在很多企業(yè)已經(jīng)上線了知識圖譜系統(tǒng),,已經(jīng)跟應用系統(tǒng)掛鉤了,,這個時候應用可能會反饋出一些問題,我的圖譜應該如何去更新,?如何更好適配應用,?都對知識圖譜的評估提出了挑戰(zhàn)。

從哪些方面評估,,實際上很多人都會有這個困惑,,要從準確一致完整實效等很多角度去評估,而且還要考慮圖譜規(guī)模巨大的問題,,你很難全量評估,,采樣怎么采這又是一個很大的問題,所以這個都對圖系統(tǒng)提出了挑戰(zhàn),,如果我們的系統(tǒng)能夠提供這種能力,,我們用戶是不是更愿意買單是吧?

知識圖譜的幾大評估維度

那么從哪些維度去評估呢,?你要從很多級別,,從單條三元組,多條三原主的的維度,,還有整個知識庫,,你整個知識庫里面是不是會不會有一塊是冗余的,會不會有一塊是不完整的,結構上是不是很奇怪,,這個都是我評估的一些維度,。

知識圖譜準確性評估

我們首先要去評估你是不是準確,準確性評估最大的問題在哪,?圖譜很大,,現(xiàn)在很多企業(yè)的圖動不動幾億實體?一條一條人工評估肯定受不了,,所以人工評估只能去采樣評估,,你采什么樣就很重要對吧,到底是以節(jié)點為中心采樣,,還是以三元組為中心采樣了,這里面都有很多問題,。

知識圖譜實時性評估

再進一步去評估初步是不是實時的,。

比如說有很多知識是會變的,美國總統(tǒng) 5 年要變一次的對吧,,但有些是不會變的,,比如地球是圓的,你不可能過幾年地球變成方的了,。這個秦始皇是哪一年統(tǒng)一中國的,,除非出來新的史料,否則不會變,,其實大部分知識是不會變的,,但是有很多知識會經(jīng)常變,我們去評估哪些知識容易變,,哪些知識不容易變,,這個叫實時性評估

知識圖譜完整性評估

還有完整性評估,,實際上是一個非常有意思的問題,。

很多的行業(yè)應用現(xiàn)在提出這個訴求,說你給我做了一個知識圖譜,,你怎么保證你是完整的,?現(xiàn)在這個問題是很難回答的,因為完整往往是相對的,,那么怎么辦,?實際上最近還是有一些方案,你這個領域可能有語料有文檔,,那么我們能不能利用現(xiàn)在已有的文檔看我這圖譜是不是完整的,,文檔里面提到的所有東西是不是我初步都能夠涵蓋,這些現(xiàn)在已經(jīng)能有一些解決方案了。

知識圖譜結構性評估

再進一步,,圖譜這個結構上是不是有問題,。

實際上你會發(fā)現(xiàn)建了一個很大的行業(yè)圖譜之后,它應該呈現(xiàn)出一些基本的特性,。比如說那些有高頻的知識,、重要領域的核心知識可能濃密度很高,那些長尾的知識它可能濃密度比較稀疏,,所以知識圖譜應該是有一些結構特性的,,可以從它的度分布,從很多角度去研究這個問題,。

知識圖譜的冗余性評估

還有就是一個很有價值的問題,,就是圖譜的冗余性評估。實際上我覺得現(xiàn)在很多人說要建圖譜,,然后甲方說我肯定要給乙方一個指標,,圖譜建多大是吧,很多甲方就求大求全,,就覺得越大越全越好,,但實際上現(xiàn)在整個圖譜的建設是不宜盲目地求大求全的。

我們最近做了個研究,,現(xiàn)在有很多圖譜規(guī)模雖然很大,,但是它里面冗余性很成問題。最近做出來一個很有意思的結果,,就是說大家看有很多像右邊這是很多規(guī)則,,比如說 A 出生在 B,那國籍可能也是 B,,比如你的出生地是中國,,你的國籍可能也是中國,這就是一個推理規(guī)則,。那么既然我可以有推理規(guī)則,,你就會發(fā)現(xiàn)知識圖譜里面很多三元組是可以通過有限的幾條規(guī)則壓縮掉的。大部分人出生在哪一個國家,,國籍可能就是哪一個國家,,你只要知道你出生地了,然后再存一條這種處理規(guī)則,,不就可以了嗎,?那是不是就可以不要存每個人的國籍了,每個人一個國籍的事實就要一條三元組,,我們中國 13 億人就得 13 億條三元組,,那也就是我用這一條規(guī)則,,就可以壓掉 13 億條三元組。事實證明的確是這樣的,,有很多通用領域是可以被壓掉百分之三四十,,然后就通過 10 條 20條這種規(guī)則就可以了,那意味著什么,?你辛辛苦苦去抽取,,辛辛苦苦人肉去標,花了那么多錢,,最后發(fā)現(xiàn)你還不如寫一條規(guī)則對吧,?一條規(guī)則可能抵得上幾百萬條三元組,所以這就告訴我們不能盲目求大求全,,所以一定要考慮你的知識是否冗余,。

知識圖譜的眾包構建

還有圖譜的眾包構建。

剛才說知識圖譜構建,,很多是抽取來的或者從關系數(shù)據(jù)庫轉換來的,,但是這些圖譜往往還需要一些眾包的人為干預,比如說錯了就錯了一條,,重新跑一遍抽取算法肯定沒必要,還不如人來編輯一下,。還有很多知識他需要撒給很多專家一起來確證到底對還是不對,。所以眾包的過程是非常重要的,對于知識的質量來講很重要,,那么我們整個眾包的過程能不能也融入到我們知識圖譜的管理系統(tǒng)里面,,對吧。

人機協(xié)作是知識圖譜落地的關鍵

還有一個就是剛才說的人機協(xié)作,。就剛才說了人機協(xié)作非常重要,。因為現(xiàn)在很多行業(yè)應用,人類能表達的知識往往是有(左邊)這些特點,,比如語言知識,、決策知識、模糊知識,、異常知識,,這都是人擅長表達的。

但是機器擅長表達一些什么事實,?靜態(tài)的,、常規(guī)的、隱蔽的,,所以人機的知識體系是互補的,。所謂機器的知識,很多是數(shù)據(jù)驅動的,從數(shù)據(jù)里面提煉出來一些隱性的表示,,所以人的知識要和從數(shù)據(jù)中提煉出來的機器的知識互補,,才有可能很好的解決人類的問題,這種互補關系非常重要,,整個體系不能只是支撐我們的顯性知識,,要對隱性知識機械知識,尤其是大模型,,大模型里面語言模型里面的知識實際上已經(jīng)成為知識圖譜知識的一個非常重要的補充,。

預訓練語言模型成為KG的重要知識補充

所以我們甚至在提議,我們除了系統(tǒng)在支撐知識圖譜的時候,,是不是也可以有一個模塊能夠把大模型融入進來,。

知識管理面向語言模型的查詢處理

那么面向這種大模型,我們又有很多問題要去處理,。

大模型和知識圖譜怎么樣去做協(xié)同查詢和處理,,我們現(xiàn)在很多查詢只能針對知識圖譜去查,但是實際上大規(guī)模訓練模型也能夠查到很多知識,,不過他查詢方式和大知識圖譜的查詢是不一樣的,,你要去聲明你的查詢語言,這種獲取知識的方式和知識圖譜這種顯性查詢的方式是不同的,,如何針對大模型和知識圖譜協(xié)同去做產(chǎn)品,,實際上現(xiàn)在在很多領域這個需求是很迫切的,已經(jīng)越來越迫切了,。

大規(guī)模圖神經(jīng)網(wǎng)絡對于巨圖的分布式計算提出了新的挑戰(zhàn)

還有另外一個非常重要,,知識圖譜它本身也是一個圖,提煉圖的結構性特征一個非常有效的手段,,是大規(guī)模的圖神經(jīng)網(wǎng)絡(GNN),,圖神經(jīng)網(wǎng)絡實際上是知識圖譜,未來我認為它和知識圖譜一定會合流,。我們會利用圖形的網(wǎng)絡去提煉知識圖譜中基于結構的很多特征,,當然知識圖譜除了結構特性之外,它還有很豐富的語義特性,,那么利用圖神經(jīng)網(wǎng)絡提煉這種結構特性,,再加上知識圖譜的語義特性,就能夠比較好地捕捉知識圖譜上各種各樣的信息,。

這套框架非常重要,,將來圖系統(tǒng)、大模型知識圖譜,、圖神經(jīng)網(wǎng)絡這三者融合在一起是有可能解決絕大部分行業(yè)的一個問題,,成為解決問題的通用的框架,,所以我們的圖系統(tǒng)對于圖神經(jīng)網(wǎng)絡的支持也是勢在必行。

圖數(shù)據(jù)庫與知識圖譜:共創(chuàng)關聯(lián)價值

世界普遍關聯(lián),,關聯(lián)創(chuàng)造價值

最后簡單總結一下——這個世界本質上是普遍關聯(lián)的,,圖數(shù)據(jù)庫和知識圖譜的技術聯(lián)姻和共舞,我們認為將會進一步釋放關聯(lián)數(shù)據(jù)的能量,,提升數(shù)據(jù)產(chǎn)業(yè)的發(fā)展能級,。