首頁>博客>用戶分享技術(shù)干貨>肖仰華教授:知識(shí)圖譜與圖計(jì)算研究分享
肖仰華教授:知識(shí)圖譜與圖計(jì)算研究分享
本文整理自 復(fù)旦大學(xué)-計(jì)算機(jī)科學(xué)技術(shù)學(xué)院-肖仰華教授在 NUC 2022 年度用戶大會(huì)上的分享。
認(rèn)知智能的起源與發(fā)展
圖計(jì)算有很多應(yīng)用場景,,知識(shí)圖譜是近幾年或者是未來一段時(shí)間里,,圖計(jì)算非常重要的應(yīng)用場景之一。
為什么有這個(gè)判斷,?因?yàn)檎麄€(gè)人類社會(huì)已經(jīng)進(jìn)入了所謂的智能時(shí)代,而當(dāng)下我們尤為迫切的需要是發(fā)展機(jī)器的認(rèn)知能力,,從而不但代替我們的體力勞動(dòng),,更多的要代替我們簡單的腦力勞動(dòng),讓更多的知識(shí)工作由機(jī)器來協(xié)助我們完成,,當(dāng)然了,,最終的決策權(quán)還是要由我們?nèi)祟悂硗瓿伞K宰寵C(jī)器具備人類的,,尤其是行業(yè)的認(rèn)知能力,,讓機(jī)器能夠理解我們行業(yè)的數(shù)據(jù),具備一定的推理能力,、解釋能力,、規(guī)劃決策能力,以這樣一種形態(tài)為代表的認(rèn)知智能已經(jīng)在各行各業(yè)發(fā)生,,可以說每一個(gè)行業(yè)的智能化發(fā)展都對(duì)機(jī)器具備認(rèn)知智能提出了要求,。
從大的趨勢來看,如果說過去10多年,機(jī)器是具備了人的感知和運(yùn)動(dòng)能力,,那么下一步大家看到了一個(gè)很鮮明的趨勢是讓機(jī)器具備人類的心理能力,。認(rèn)知是我們的心靈里面最重要的一種能力,所以基本上可以做出這么一個(gè)判斷——未來,,認(rèn)知智能將是進(jìn)一步釋放整個(gè)人工智能產(chǎn)業(yè)發(fā)展的紅利和價(jià)值的一個(gè)非常重要的出口,,可以說,認(rèn)知智能對(duì)推動(dòng)各行業(yè)的智能化發(fā)展具備一個(gè)非常重要的作用,。
實(shí)現(xiàn)認(rèn)知智能需要人工智能很多的思想技術(shù),,比如說深度學(xué)習(xí),比如說聯(lián)結(jié)主義,,它本質(zhì)上通過訓(xùn)練深度學(xué)習(xí)這種神經(jīng)網(wǎng)絡(luò)來解決問題,,本質(zhì)上是讓機(jī)器具備了我們大腦的這樣一種快思考的能力。比如說問大家:3x4 等于多少,?我想所有人不假思索地會(huì)給我答案 12,,你為什么能夠做到這一點(diǎn)?那是因?yàn)槟阈r(shí)候很多次背誦乘法運(yùn)算表,,背誦的過程就是在強(qiáng)化“3×4” 這個(gè)輸入和 “12” 這個(gè)輸出之間的關(guān)聯(lián),,這個(gè)就和我們現(xiàn)在訓(xùn)練神經(jīng)網(wǎng)絡(luò)的過程本質(zhì)是一致的。
所以聯(lián)結(jié)主義,,是一定程度上在實(shí)現(xiàn)人類的這種快思考的能力,,而知識(shí)圖譜是要在實(shí)現(xiàn)什么?實(shí)際上很大程度上是在實(shí)現(xiàn)我們?nèi)祟惖?strong>慢思考,。
慢思考一個(gè)典型的問題就是,,如果問大家:345×1234 等于多少?這個(gè)時(shí)候估計(jì)很少有人立馬給我答案了,,但是如果你有筆有紙,,你就會(huì)把你小時(shí)候?qū)W的乘法運(yùn)算的過程規(guī)則書寫下來,把整個(gè)計(jì)算過程書寫下來本質(zhì)上在做這些數(shù)字符號(hào)的加工和運(yùn)算,,那么以這種符號(hào)去表達(dá)知識(shí)然后用這種架構(gòu)運(yùn)算,,本質(zhì)上表達(dá)了一種推理過程,符號(hào)表示再加上推理這樣一種解決問題的方式,,實(shí)際上就是符號(hào)主義解決問題的一個(gè)基本的思路,。
而剛才這種解題的過程中,我們可能要花多長時(shí)間,?可能要花個(gè)一分鐘,;而剛才 3×4 花了多少,可能幾毫秒,?所以這個(gè)是完全不同量級(jí)的,,這是一種典型的慢系統(tǒng),,它是以符號(hào)推理為主要形態(tài)的一種解決問題的方式,也是知識(shí)圖譜解決問題的非常重要的一種方式,。
那么未來我們可能還需要借助進(jìn)化和行為主義,,他們的基本觀點(diǎn)認(rèn)為,人的智能是靠從環(huán)境中獲得反饋,,不斷演化得來的,。那么機(jī)器智能是不是也要去放在某個(gè)環(huán)境中去演化呢?這對(duì)于實(shí)現(xiàn)機(jī)器的這種社會(huì)認(rèn)知,、物理環(huán)境的交互是尤為重要,。事實(shí)上,整個(gè)認(rèn)知智能發(fā)現(xiàn)要把這三大流派形成合力才能夠形成,,知識(shí)圖譜基本上也屬于用符號(hào)主義解決問題的一種方式,。
符號(hào)主義要去解決問題的重要前提是我們?nèi)绾稳ケ磉_(dá),如何去承載符號(hào)知識(shí),?那么這就用到了知識(shí)圖譜,。本質(zhì)上它是一種語義網(wǎng)絡(luò),它可以認(rèn)為是現(xiàn)在大數(shù)據(jù)時(shí)代,,知識(shí)最重要的一種表示方式,,它把很多實(shí)體、概念關(guān)聯(lián)在一起,,我們甚至可以沿著這種關(guān)聯(lián)關(guān)系逐步地探索下去,,所以知識(shí)圖譜就是一種人類知識(shí)非常重要的載體。
事實(shí)上,,我們現(xiàn)在已經(jīng)在建各行各業(yè)的知識(shí)圖譜,,其實(shí)就是希望用它去表達(dá)、沉淀行業(yè)的知識(shí),??梢哉f,知識(shí)圖譜已經(jīng)成為大數(shù)據(jù)時(shí)代最為重要的知識(shí)表示方式,。
那么知識(shí)圖譜實(shí)際上是什么?從學(xué)科上來講,,它本質(zhì)上是整個(gè)大數(shù)據(jù)知識(shí)工程的一個(gè)核心技術(shù),,它實(shí)際上是從互聯(lián)網(wǎng)應(yīng)用誕生的,是從搜索引擎誕生的,。大家知道最早知識(shí)圖譜這個(gè)詞,,就是谷歌在 2012 年發(fā)布了自己的知識(shí)圖譜,當(dāng)時(shí)是為了應(yīng)對(duì)互聯(lián)網(wǎng)的一些大規(guī)模開放應(yīng)用,,比如說我搜一個(gè)詞,,這個(gè)詞我不理解它,,那么有了知識(shí)圖譜,我就能理解你搜的是什么,。
比如說,,我要搜這個(gè)洲際酒店,然后上海,,實(shí)際上意圖很明顯,,我要搜一個(gè)在上海附近的洲際酒店,那么你就要知道上海是一個(gè)地方,,洲際是個(gè)酒店品牌,,沒有這種背景知識(shí)就不知道用戶的搜索意圖,我們就需要有大量的背景知識(shí)支撐,,才能夠讓用戶理解這種搜索——所以當(dāng)初搜索引擎為什么提出知識(shí)圖譜,,很大程度上就是為了讓機(jī)器理解搜索。
那么我們說互聯(lián)網(wǎng)的發(fā)展,,就帶來很多大數(shù)據(jù)是吧,?大數(shù)據(jù)的誕生使得知識(shí)圖譜的發(fā)展也具備了相應(yīng)的條件,一方面有前所未有的大數(shù)據(jù),,可以發(fā)展很多數(shù)據(jù)驅(qū)動(dòng)的知識(shí)獲取的方法,,另外一方面現(xiàn)在有很多機(jī)器學(xué)習(xí)的模型,這些機(jī)器學(xué)習(xí)的模型可以使我們從海量文本里面去抽取這些知識(shí),。另外一方面我們還有很多前所未有的算力,,所以在算力和數(shù)據(jù)的支撐下,知識(shí)圖譜的發(fā)展插上了翅膀,。
可以說,,知識(shí)圖譜在今天已經(jīng)成為各行業(yè)認(rèn)知智能的基石。每個(gè)行業(yè)要想發(fā)展自己的認(rèn)知智能,,總要把自己的知識(shí)表達(dá)出來,,沉淀下來,所以說,,知識(shí)圖譜已經(jīng)成為每個(gè)行業(yè)去實(shí)現(xiàn)語言認(rèn)知(的基礎(chǔ)),。
比如說很多機(jī)器不能理解的基本的背景知識(shí),很多行業(yè)像金融,、醫(yī)療,、司法都需要一些可解釋的東西,圖譜里面的很多實(shí)體概念都是我們解釋的來源,,所以知識(shí)圖譜對(duì)各行業(yè)形成解釋的能力也很重要,,它對(duì)于提升當(dāng)下廣泛應(yīng)用的機(jī)器學(xué)習(xí)的一些性能,突破它的瓶頸也是非常有意義的,。我們看到知識(shí)圖譜在搜索,、推薦,、問答、解釋,、決策等等應(yīng)用場景下有諸多的應(yīng)用,。
那么知識(shí)圖譜跟圖數(shù)據(jù)有什么關(guān)系?實(shí)際上知識(shí)圖譜天然就是一張圖,,它本質(zhì)是一個(gè)語義網(wǎng)絡(luò),,而語義網(wǎng)絡(luò)是一種用圖的形式來表達(dá)的一種知識(shí)表示。他用點(diǎn)表達(dá)實(shí)體和概念,,用邊表示這種語義關(guān)系,,這就是知識(shí)初步的表示。
所以知識(shí)圖譜從本質(zhì)上來講,,是一種基于圖的表示,,如果把很多實(shí)體概念都展開來,它就變成一張帶有很多語義關(guān)系的巨大的語義網(wǎng)絡(luò),。
那么從圖的視角來看知識(shí)圖譜你會(huì)發(fā)現(xiàn)這個(gè)知識(shí)圖譜實(shí)際上有圖的形態(tài)是很復(fù)雜的,,很多樣的。它可以是有向圖,,也可以是無向圖,;它可以是屬性圖,就是說這里的點(diǎn)邊上帶屬性,,比如說柏拉圖出生在雅典,,可以把出生地屬性再附上出生時(shí)間是一個(gè)屬性圖;它還可以是樹狀圖,,比如說我們很多概念層級(jí)體系,,很多行業(yè)有商品類目什么的,本質(zhì)上是一個(gè)概念層級(jí)體系,,是一個(gè)樹狀圖,,有的時(shí)候?qū)嶋H上如果你這個(gè)層級(jí)體系里面這個(gè)是用詞來表達(dá)的,它實(shí)際上還有可能構(gòu)成一個(gè)有向無環(huán)圖,,還有一些是用概率來表示某個(gè)關(guān)系成立的可能性,,比如說漢堡是不是健康食物?可能有的人認(rèn)為是有的認(rèn)為不是,,所以用概率來表達(dá)它是健康食物的程度,,那是很合適的。我們還可以用叫異構(gòu)信息網(wǎng)絡(luò)來表達(dá)圖,,所以知識(shí)圖譜的視角下,圖的表示是非常多元的,。
正因?yàn)閳D的表達(dá)很豐富很多樣,,就對(duì)于如何系統(tǒng)化地管理知識(shí)圖譜提出了要求,。
我們需要在剛才說的各種各樣的知識(shí)圖譜上去查詢和檢索,這里就有很多事,,第一如何表達(dá)查詢,?你需要一些查詢語言,需要一些圖數(shù)據(jù)庫的查詢語言來表達(dá)你的意圖,。然后查詢意圖也可以很復(fù)雜,,可以是查子結(jié)構(gòu),可以是帶關(guān)鍵字的查詢,,可以查一個(gè)路徑,,還可以查模糊匹配的增長表達(dá)式的匹配等等,所以查詢的意圖表示如果沒有一個(gè)圖系統(tǒng)性的支撐的話,,我們每個(gè)人自己去寫那是很痛苦的,,一定要有一個(gè)規(guī)范化的查詢語言。
然后執(zhí)行的時(shí)候又有很多問題,,這個(gè)數(shù)據(jù)這到底之前應(yīng)該去匹配哪個(gè)答案,?怎么去檢索怎么去 raking 呢?誰的匹配最可信呢,?還有存儲(chǔ),、還有索引等等問題。
知識(shí)圖譜應(yīng)用面臨的挑戰(zhàn)
所以,,知識(shí)圖譜對(duì)圖數(shù)據(jù)管理提出了非常高的一個(gè)要求,,不單單是有這個(gè)必要性,同時(shí)你會(huì)發(fā)現(xiàn)知識(shí)圖譜其實(shí)對(duì)圖數(shù)據(jù)管理也提出了很多挑戰(zhàn),。首先知識(shí)圖譜作為一個(gè)圖數(shù)據(jù),,它的數(shù)據(jù)結(jié)構(gòu)很復(fù)雜,上面很多數(shù)據(jù)的操作和訪問,,它實(shí)際上沿著邊在做一些隨機(jī)的訪問,,那么這種隨機(jī)訪問實(shí)際上是對(duì)我們傳統(tǒng)數(shù)據(jù)庫基于局部特性的一些緩存優(yōu)化提出了非常大的挑戰(zhàn)。
而且圖上的很多計(jì)算,,像深度優(yōu)先遍歷,,實(shí)際上下一步走哪一個(gè)是依賴于前面走的,所以它實(shí)際上是對(duì)前序的過程有依賴關(guān)系,,這種有很強(qiáng)的依賴關(guān)系的算子它是很難并行化的?,F(xiàn)在加速很多都是靠并行,但是圖上的很多計(jì)算很難并行,,所以圖數(shù)據(jù)底層實(shí)際上是很復(fù)雜的,,那么這種復(fù)雜性一定要向用戶交割清楚,用戶不應(yīng)該去面對(duì)這種復(fù)雜性,,專業(yè)的事情還得給專業(yè)的人來做,。
圖計(jì)算的計(jì)算類型也很復(fù)雜,。圖計(jì)算可以是離線的分析型計(jì)算,也可以是在線去做查詢,,比如說查一條路徑或者查這兩個(gè)實(shí)體,,尤其在欺詐的應(yīng)用中有沒有一些潛在的關(guān)系?這都對(duì)實(shí)時(shí)性要求很高,,他對(duì)吞吐量有時(shí)候要求也很高,,所以它的計(jì)算也是很復(fù)雜。
那么知識(shí)圖譜本身很多樣,,知識(shí)圖譜結(jié)構(gòu)也很復(fù)雜,,某些知識(shí)圖譜它很密集,某些又可能很稀疏,,還有一些知識(shí)圖譜會(huì)呈現(xiàn)一定的狀態(tài),,比如說像工業(yè)在很多場景下,他就要求用工業(yè)類的知識(shí)要求來表達(dá),,所以它實(shí)際上更像是一個(gè)偏序列的一張圖,。
那么還有一個(gè)很大的挑戰(zhàn),就很多領(lǐng)域的圖譜規(guī)模巨大,。最近有報(bào)告說有人已經(jīng)在百萬億規(guī)模的圖布上去做這種疫情防控——?jiǎng)澮粋€(gè)風(fēng)險(xiǎn)區(qū)域,,哪個(gè)時(shí)間點(diǎn)到哪個(gè)省、一周之內(nèi)去過這個(gè)地方的所有人跟這個(gè)地點(diǎn)發(fā)生關(guān)系了,?它就是有風(fēng)險(xiǎn)的,,那么這張圖譜可以是非常巨大的。
那么知識(shí)圖譜本身還對(duì)服務(wù)系統(tǒng)提出一些很獨(dú)特的挑戰(zhàn),。
比如說圖譜有時(shí)候?yàn)榱俗非笠?guī)模,,它的模式定義并不精確,這就要求我們的圖數(shù)據(jù)管理具有一定的容錯(cuò)能力,。屬性值往往是很多的,,定長的管理一般來講在數(shù)據(jù)庫管理是容易的,變長管理大家很害怕,。還有比如說如何定義實(shí)體的類型,?如果說實(shí)體只有一個(gè)概念,就是一個(gè)模板,,這個(gè)我們只要套用一套的模式來去管理它,;但是很多時(shí)候一個(gè)實(shí)體往往有多個(gè)角色,比如說喬布斯,,他可以是 CEO,,他還可以有其他角色比如億萬富翁,不同的角色的模板不一樣,所以處理也很困難,。
還有很重要一點(diǎn),,就是更新。數(shù)據(jù)要更新,,知識(shí)庫里面的知識(shí)要更新,我們的模式有的時(shí)候也要更新,,比如說美國總統(tǒng)換屆了,,那么美國總統(tǒng)這個(gè)知識(shí)你就要換。還有的模式它也要更新,,我們的認(rèn)知某個(gè)場景它會(huì)發(fā)生變化,,比如說電動(dòng)車的歸屬,一開始可能沒有電動(dòng)車這種新的車品,,比如現(xiàn)在有獨(dú)輪車,,獨(dú)輪電動(dòng)車到底應(yīng)該歸到哪一個(gè)類?像這種新型的東西,,它的模式也會(huì)影響更新,。
還有就是邏輯推理,我們本意是希望知識(shí)圖譜能夠做很多很復(fù)雜的推理,,那么這個(gè)推理往往要沿著路徑跳很多地方,,這個(gè)時(shí)候如果6步跳出去會(huì)怎么樣?可能就要觸及全圖,,那么這個(gè)代價(jià)是非常大,,所以這種推理如何做得高效也很非常困難。
知識(shí)圖譜發(fā)展到今天,,應(yīng)該不是一個(gè)新鮮的事物了,。實(shí)際上整個(gè)知識(shí)工程從上個(gè)世紀(jì)七八十年代就已經(jīng)發(fā)展到了知識(shí)圖譜時(shí)代的大數(shù)據(jù)知識(shí)工程時(shí)代,主要是互聯(lián)網(wǎng)的應(yīng)用推動(dòng)的,。
從谷歌提出知識(shí)圖譜到今天,,差不多有正好十年的時(shí)間,那么這十年基本上知識(shí)圖譜已經(jīng)解決了很多頭部應(yīng)用場景,,尤其是在消費(fèi)互聯(lián)網(wǎng)的應(yīng)用場景,,知識(shí)圖譜已經(jīng)解決得很不錯(cuò)了,大家看到了百度,、美團(tuán),、淘寶等上面的搜索關(guān)聯(lián)推薦,都是知識(shí)圖譜在現(xiàn)在大規(guī)模應(yīng)用場景的一些落地,。
但是從差不多從17,、18年開始,你會(huì)發(fā)現(xiàn)越來越多的訴求轉(zhuǎn)向了垂直行業(yè)的應(yīng)用,面向企業(yè)的場景現(xiàn)在越來越多:像醫(yī)療,、司法,、工業(yè)、金融等等,,都是一種典型的我們稱作叫小規(guī)模復(fù)雜應(yīng)用場景,。
為什么說小規(guī)模?你說它的數(shù)據(jù)量也不小,,但跟搜索跟互聯(lián)網(wǎng)比好像也比不了,。然后它的應(yīng)用其實(shí)又非常的復(fù)雜,比如像工業(yè)里面應(yīng)用太復(fù)雜了對(duì)吧,,醫(yī)療更不用說,。然后它的知識(shí)應(yīng)用得很深入,而且跟互聯(lián)網(wǎng)不一樣,,你得了什么?。繛槭裁吹眠@個(gè)???不是行業(yè)內(nèi)的人員,你根本就不知道這個(gè)知識(shí),。所以它往往涉及大量的專家知識(shí),,尤其是聚焦某個(gè)場景、某個(gè)工種某個(gè)問題,,它的數(shù)據(jù)量是非常稀少的,,所以這個(gè)都構(gòu)成了知識(shí)圖譜應(yīng)用的一個(gè)非常復(fù)雜的挑戰(zhàn)。
其次從大的技術(shù)生態(tài)里看的話,,你會(huì)發(fā)現(xiàn)現(xiàn)在大規(guī)模訓(xùn)練語言模型正在崛起,。大家最近應(yīng)該聽到很多這種新聞,什么 GPT 能夠代替人去寫小說,、多模態(tài)的大模型能去畫畫,、給個(gè)文本就直接生成視頻……這個(gè)都是大模型的崛起。實(shí)際上它本質(zhì)是什么,?它從海量的數(shù)據(jù)里面訓(xùn)練出來,,因此學(xué)到了很多人類還沒有意識(shí)到的隱性的知識(shí)。
如果說大模型現(xiàn)在已經(jīng)有很多成功應(yīng)用的話,,基本說明一個(gè)問題,,我們?nèi)祟愐阎e累的這些知識(shí),在知識(shí)圖譜里面積累這些知識(shí)都是顯性的符號(hào)知識(shí),,很重要對(duì)吧,?但是在數(shù)據(jù)中可能還蘊(yùn)含了大量的我們沒法表達(dá)的,隱性的,很難言說的一些知識(shí),,就是大模型的威力,。
所以未來,我們會(huì)想更重要的是把知識(shí)圖譜這里面的這種符號(hào)知識(shí),,專家知識(shí),,顯性知識(shí)和大模型中的隱性知識(shí)結(jié)合來解決行業(yè)的問題,所以技術(shù)生態(tài)的變化也對(duì)知識(shí)圖譜的應(yīng)用提出了挑戰(zhàn),。
另外一個(gè)是非常重要的挑戰(zhàn),,就是成本和效用的矛盾。其實(shí)現(xiàn)在很多領(lǐng)域已經(jīng)在建知識(shí)圖譜,,也在用知識(shí)圖譜,但是發(fā)現(xiàn)周圍落地還是面臨一些挑戰(zhàn),。
第一,,很多場景它是為了突破而突破,應(yīng)用場景并不明確,。第二,,其實(shí)圖譜的應(yīng)用很多是錦上添花的,并不是這種雪中送炭的應(yīng)用,。第三,,就是圖譜的很多技術(shù)它也不定型,比如說從文本中去抽知識(shí),,這個(gè)技術(shù)路線可以很多,,可以基于規(guī)則,可以基于傳統(tǒng)機(jī)器學(xué)習(xí),,現(xiàn)在基于深度學(xué)習(xí)可以用大模型做底座,,也可以不用大模型做底座。它有很多種豐富技術(shù)路線,,所以技術(shù)發(fā)展路線仍然在變化過程當(dāng)中,,但是圖譜本身的建設(shè)是又耗了大量的數(shù)據(jù)成本、構(gòu)建成本,、運(yùn)維成本,,所以成本和效用的矛盾也是日益突出。
圖計(jì)算如何幫助知識(shí)圖譜應(yīng)對(duì)挑戰(zhàn)
正是因?yàn)橛羞@些新的挑戰(zhàn),,我們提出了一些問題,,我們這個(gè)圖計(jì)算怎么幫助我們知識(shí)圖譜應(yīng)對(duì)這些挑戰(zhàn)?
首先,,圖計(jì)算如何支撐知識(shí)圖譜盡快突破當(dāng)前的一些瓶頸,?主要從三個(gè)角度,第一個(gè)從知識(shí)表示,第二個(gè)從知識(shí)獲取,,第三個(gè)從知識(shí)管理的角度,。
知識(shí)表示
從知識(shí)表示的角度來講,現(xiàn)在一個(gè)非常重要的趨勢,,就是把知識(shí)圖譜分布式用數(shù)值來表示,,現(xiàn)在拿到的是一個(gè)符號(hào)化的表示,但是要把它變成向量變成數(shù)值化的表示,,因?yàn)橹挥凶兂蓴?shù)值化的表示,,它才能進(jìn)入深度模型,去協(xié)助深度模型更好地解決問題,,所以知識(shí)圖譜的分布式表示是非常重要的,。
但是現(xiàn)在絕大部分圖數(shù)據(jù)庫管理系統(tǒng)針對(duì)知識(shí)圖譜仍然還只是符號(hào)的,一旦把知識(shí)圖譜變成一個(gè)分布式的離散向量,,我們的圖還能不能有效管理,,這仍然是一個(gè)開放的問題。
比如說一級(jí)以上的知識(shí)圖譜,,它本身如何得到有效的分布式表述,?其次你如何表示?是不是要降維,?如何降維,?比如說用50維有很大的存儲(chǔ)代價(jià),那30維行不行,?20維行不行,?到什么邊界能接受?那么高維現(xiàn)象能不能壓縮表達(dá),?如何去做有效的組織和索引,?現(xiàn)在完全是個(gè)開放性問題。
那么圖譜里面其實(shí)除了實(shí)體知識(shí)之外,,還有很多概念知識(shí),,這種概念知識(shí)的表達(dá)跟實(shí)體是不一樣的,如何有效的向量表示,?這個(gè)也仍然是一個(gè)開放問題,。
那么這里我們也做了很多研究工作,比如說基于人類認(rèn)知的原型理論,,去讓機(jī)器去認(rèn)知,。比如說人是怎么認(rèn)識(shí)貓?你對(duì)貓這個(gè)概念的認(rèn)知來自于很多具體的概念,,把它融合在一起變成一個(gè)語言表示,。機(jī)器能不能也利用這種原型來認(rèn)知這個(gè)概念,,這就是知識(shí)圖譜為概念的表示。
另外現(xiàn)在越來越多的行業(yè)應(yīng)用把各種知識(shí)表示聯(lián)合應(yīng)用,,這里面有本體,、有框架、有規(guī)則,、有邏輯,、有語言模型。我們現(xiàn)在很多系統(tǒng)它還是單一的,,它可能只支持知識(shí)圖譜,,一旦要去跟大模型融合,要去跟什么規(guī)則結(jié)合,,你會(huì)發(fā)現(xiàn)就很不方便,,所以這個(gè)也是一個(gè)非常重要的趨勢。
另外就是說知識(shí)定量化的分析,,最后你知識(shí)圖譜里有了很多知識(shí),,那么這個(gè)抽出來的知識(shí)和專家認(rèn)知有什么不一樣,你從互聯(lián)網(wǎng)抽到的知識(shí)或者從教材里抽的知識(shí)和專家視角的知識(shí),,和業(yè)務(wù)上要用的知識(shí)有什么不同?這個(gè)都是要去研究的,。
還有表示和推理的一體化,,這個(gè)也是很有意思的問題。
我們傳統(tǒng)整個(gè)知識(shí)工程走的路線就是先表示再推理,,就是先用知識(shí)圖譜把知識(shí)表達(dá)出來,,然后再利用知識(shí)圖譜去做路徑推理。但實(shí)際上人類的專家真正解決問題的時(shí)候,,他是把表示和推理一體化在應(yīng)用,。就是我看到問題我就知道應(yīng)該怎么解決,大部分專家你問他是怎么解決的,,實(shí)際上是一種事后的解釋,,真正形成那個(gè)角色和答案的時(shí)候,實(shí)際上是一種直覺式的,,這就叫做表示和推理一體化,。
那么我們基于知識(shí)圖譜的表示和基于知識(shí)圖譜的推理,如何去做到這種一體化的決策,?這個(gè)都是當(dāng)下最有挑戰(zhàn)性的研究問題,,像這種問題在很多實(shí)際應(yīng)用場景很有用,比如說在工業(yè)中的這種故障診斷,,老師傅看到這個(gè)現(xiàn)象立馬就知道問題出在了,,如果新手問他是怎么解決的,,他就想一想我是怎么解決,但它實(shí)際上是一種直覺的決策,,它是把表示和推理一體化在做,,所以這個(gè)對(duì)我們的行業(yè)應(yīng)用都非常關(guān)鍵。
知識(shí)獲取
在知識(shí)獲取方面,,圖系統(tǒng)其實(shí)是可以發(fā)揮很多的威力的。我們的很多知識(shí)獲取是從現(xiàn)有的知識(shí)圖譜里面去推斷出更多的知識(shí),,這里面很多的算法都是一些知識(shí)圖譜上一些缺失的鏈接的推薦算法,。比如,我們可以看到一個(gè)詞是不是應(yīng)該有某個(gè)上位詞,,就可以看他的鄰居是不是有這上位詞,,這是一個(gè)典型的協(xié)同過濾的思想,那么我們的圖計(jì)算的系統(tǒng)能不能支持這種協(xié)同過濾的思想呢,,
在圖譜糾錯(cuò)這塊,,你會(huì)發(fā)現(xiàn)有很多圖譜里面有些邊,比如說它是不是這樣構(gòu)成了一些環(huán),,尤其是在這種層級(jí)關(guān)系里面,,如果有環(huán)是很奇怪的,那么把這環(huán)給去掉,,破除這個(gè)環(huán)就有可能得到一個(gè)更干凈的知識(shí)圖譜,。
這個(gè)時(shí)候你就可以把這個(gè)問題建模成圖的一些計(jì)算問題,,建模成從圖上去掉一些環(huán),、破除一個(gè)環(huán),然后得到一個(gè)有效無環(huán)圖,,然后這張圖可能是你這個(gè)概念圖譜更好的一種表達(dá),。
那么還有就是領(lǐng)域突破,,比如像現(xiàn)在一些新的詞,,我應(yīng)該掛載到哪一個(gè)屬性上,我們可以用圖的一些隨機(jī)游走的算法去算一算新詞和這個(gè)圖上的其他的一些屬性,,其他的這些值之間是不是有很強(qiáng)的相似性,?那圖上的這種隨機(jī)游走都是基于傳統(tǒng)的圖的一些算法,所以我們可以利用圖系統(tǒng)提供大量的圖算法來做知識(shí)圖譜的優(yōu)化,、補(bǔ)全,、糾錯(cuò)等等。
知識(shí)管理
那么在知識(shí)管理的角度,,我們?nèi)匀挥泻芏嘈枰@個(gè)圖系統(tǒng)來支撐的,。知識(shí)圖譜已經(jīng)到了什么階段了呢,?大部分單位都已經(jīng)做了一次性建設(shè),未來幾年知識(shí)圖譜一個(gè)非常重要的趨勢就是知識(shí)圖譜的持續(xù)運(yùn)營和持續(xù)建設(shè)?,F(xiàn)在很多企業(yè)已經(jīng)上線了知識(shí)圖譜系統(tǒng),,已經(jīng)跟應(yīng)用系統(tǒng)掛鉤了,這個(gè)時(shí)候應(yīng)用可能會(huì)反饋出一些問題,,我的圖譜應(yīng)該如何去更新,?如何更好適配應(yīng)用?都對(duì)知識(shí)圖譜的評(píng)估提出了挑戰(zhàn),。
從哪些方面評(píng)估,,實(shí)際上很多人都會(huì)有這個(gè)困惑,要從準(zhǔn)確一致完整實(shí)效等很多角度去評(píng)估,,而且還要考慮圖譜規(guī)模巨大的問題,,你很難全量評(píng)估,采樣怎么采這又是一個(gè)很大的問題,,所以這個(gè)都對(duì)圖系統(tǒng)提出了挑戰(zhàn),,如果我們的系統(tǒng)能夠提供這種能力,我們用戶是不是更愿意買單是吧,?
那么從哪些維度去評(píng)估呢,?你要從很多級(jí)別,從單條三元組,,多條三原主的的維度,,還有整個(gè)知識(shí)庫,你整個(gè)知識(shí)庫里面是不是會(huì)不會(huì)有一塊是冗余的,,會(huì)不會(huì)有一塊是不完整的,,結(jié)構(gòu)上是不是很奇怪,,這個(gè)都是我評(píng)估的一些維度,。
我們首先要去評(píng)估你是不是準(zhǔn)確,準(zhǔn)確性評(píng)估最大的問題在哪,?圖譜很大,,現(xiàn)在很多企業(yè)的圖動(dòng)不動(dòng)幾億實(shí)體?一條一條人工評(píng)估肯定受不了,,所以人工評(píng)估只能去采樣評(píng)估,,你采什么樣就很重要對(duì)吧,到底是以節(jié)點(diǎn)為中心采樣,,還是以三元組為中心采樣了,,這里面都有很多問題。
再進(jìn)一步去評(píng)估初步是不是實(shí)時(shí)的,。
比如說有很多知識(shí)是會(huì)變的,,美國總統(tǒng) 5 年要變一次的對(duì)吧,,但有些是不會(huì)變的,比如地球是圓的,,你不可能過幾年地球變成方的了,。這個(gè)秦始皇是哪一年統(tǒng)一中國的,除非出來新的史料,,否則不會(huì)變,,其實(shí)大部分知識(shí)是不會(huì)變的,但是有很多知識(shí)會(huì)經(jīng)常變,,我們?nèi)ピu(píng)估哪些知識(shí)容易變,,哪些知識(shí)不容易變,這個(gè)叫實(shí)時(shí)性評(píng)估,。
還有完整性評(píng)估,,實(shí)際上是一個(gè)非常有意思的問題。
很多的行業(yè)應(yīng)用現(xiàn)在提出這個(gè)訴求,,說你給我做了一個(gè)知識(shí)圖譜,,你怎么保證你是完整的?現(xiàn)在這個(gè)問題是很難回答的,,因?yàn)橥暾窍鄬?duì)的,,那么怎么辦?實(shí)際上最近還是有一些方案,,你這個(gè)領(lǐng)域可能有語料有文檔,,那么我們能不能利用現(xiàn)在已有的文檔看我這圖譜是不是完整的,文檔里面提到的所有東西是不是我初步都能夠涵蓋,,這些現(xiàn)在已經(jīng)能有一些解決方案了,。
再進(jìn)一步,圖譜這個(gè)結(jié)構(gòu)上是不是有問題,。
實(shí)際上你會(huì)發(fā)現(xiàn)建了一個(gè)很大的行業(yè)圖譜之后,,它應(yīng)該呈現(xiàn)出一些基本的特性。比如說那些有高頻的知識(shí),、重要領(lǐng)域的核心知識(shí)可能濃密度很高,,那些長尾的知識(shí)它可能濃密度比較稀疏,所以知識(shí)圖譜應(yīng)該是有一些結(jié)構(gòu)特性的,,可以從它的度分布,,從很多角度去研究這個(gè)問題。
還有就是一個(gè)很有價(jià)值的問題,,就是圖譜的冗余性評(píng)估,。實(shí)際上我覺得現(xiàn)在很多人說要建圖譜,然后甲方說我肯定要給乙方一個(gè)指標(biāo),,圖譜建多大是吧,,很多甲方就求大求全,,就覺得越大越全越好,但實(shí)際上現(xiàn)在整個(gè)圖譜的建設(shè)是不宜盲目地求大求全的,。
我們最近做了個(gè)研究,,現(xiàn)在有很多圖譜規(guī)模雖然很大,但是它里面冗余性很成問題,。最近做出來一個(gè)很有意思的結(jié)果,,就是說大家看有很多像右邊這是很多規(guī)則,比如說 A 出生在 B,,那國籍可能也是 B,,比如你的出生地是中國,你的國籍可能也是中國,,這就是一個(gè)推理規(guī)則,。那么既然我可以有推理規(guī)則,你就會(huì)發(fā)現(xiàn)知識(shí)圖譜里面很多三元組是可以通過有限的幾條規(guī)則壓縮掉的,。大部分人出生在哪一個(gè)國家,,國籍可能就是哪一個(gè)國家,你只要知道你出生地了,,然后再存一條這種處理規(guī)則,,不就可以了嗎?那是不是就可以不要存每個(gè)人的國籍了,,每個(gè)人一個(gè)國籍的事實(shí)就要一條三元組,,我們中國 13 億人就得 13 億條三元組,那也就是我用這一條規(guī)則,,就可以壓掉 13 億條三元組,。事實(shí)證明的確是這樣的,有很多通用領(lǐng)域是可以被壓掉百分之三四十,,然后就通過 10 條 20條這種規(guī)則就可以了,,那意味著什么?你辛辛苦苦去抽取,,辛辛苦苦人肉去標(biāo),,花了那么多錢,,最后發(fā)現(xiàn)你還不如寫一條規(guī)則對(duì)吧,?一條規(guī)則可能抵得上幾百萬條三元組,所以這就告訴我們不能盲目求大求全,,所以一定要考慮你的知識(shí)是否冗余,。
還有圖譜的眾包構(gòu)建。
剛才說知識(shí)圖譜構(gòu)建,,很多是抽取來的或者從關(guān)系數(shù)據(jù)庫轉(zhuǎn)換來的,,但是這些圖譜往往還需要一些眾包的人為干預(yù),,比如說錯(cuò)了就錯(cuò)了一條,重新跑一遍抽取算法肯定沒必要,,還不如人來編輯一下,。還有很多知識(shí)他需要撒給很多專家一起來確證到底對(duì)還是不對(duì)。所以眾包的過程是非常重要的,,對(duì)于知識(shí)的質(zhì)量來講很重要,,那么我們整個(gè)眾包的過程能不能也融入到我們知識(shí)圖譜的管理系統(tǒng)里面,對(duì)吧,。
還有一個(gè)就是剛才說的人機(jī)協(xié)作,。就剛才說了人機(jī)協(xié)作非常重要。因?yàn)楝F(xiàn)在很多行業(yè)應(yīng)用,,人類能表達(dá)的知識(shí)往往是有(左邊)這些特點(diǎn),,比如語言知識(shí)、決策知識(shí),、模糊知識(shí),、異常知識(shí),這都是人擅長表達(dá)的,。
但是機(jī)器擅長表達(dá)一些什么事實(shí),?靜態(tài)的、常規(guī)的,、隱蔽的,,所以人機(jī)的知識(shí)體系是互補(bǔ)的。所謂機(jī)器的知識(shí),,很多是數(shù)據(jù)驅(qū)動(dòng)的,,從數(shù)據(jù)里面提煉出來一些隱性的表示,所以人的知識(shí)要和從數(shù)據(jù)中提煉出來的機(jī)器的知識(shí)互補(bǔ),,才有可能很好的解決人類的問題,,這種互補(bǔ)關(guān)系非常重要,整個(gè)體系不能只是支撐我們的顯性知識(shí),,要對(duì)隱性知識(shí)機(jī)械知識(shí),,尤其是大模型,大模型里面語言模型里面的知識(shí)實(shí)際上已經(jīng)成為知識(shí)圖譜知識(shí)的一個(gè)非常重要的補(bǔ)充,。
所以我們甚至在提議,,我們除了系統(tǒng)在支撐知識(shí)圖譜的時(shí)候,是不是也可以有一個(gè)模塊能夠把大模型融入進(jìn)來,。
那么面向這種大模型,,我們又有很多問題要去處理。
大模型和知識(shí)圖譜怎么樣去做協(xié)同查詢和處理,我們現(xiàn)在很多查詢只能針對(duì)知識(shí)圖譜去查,,但是實(shí)際上大規(guī)模訓(xùn)練模型也能夠查到很多知識(shí),,不過他查詢方式和大知識(shí)圖譜的查詢是不一樣的,你要去聲明你的查詢語言,,這種獲取知識(shí)的方式和知識(shí)圖譜這種顯性查詢的方式是不同的,,如何針對(duì)大模型和知識(shí)圖譜協(xié)同去做產(chǎn)品,實(shí)際上現(xiàn)在在很多領(lǐng)域這個(gè)需求是很迫切的,,已經(jīng)越來越迫切了,。
還有另外一個(gè)非常重要,知識(shí)圖譜它本身也是一個(gè)圖,,提煉圖的結(jié)構(gòu)性特征一個(gè)非常有效的手段,,是大規(guī)模的圖神經(jīng)網(wǎng)絡(luò)(GNN),圖神經(jīng)網(wǎng)絡(luò)實(shí)際上是知識(shí)圖譜,,未來我認(rèn)為它和知識(shí)圖譜一定會(huì)合流,。我們會(huì)利用圖形的網(wǎng)絡(luò)去提煉知識(shí)圖譜中基于結(jié)構(gòu)的很多特征,當(dāng)然知識(shí)圖譜除了結(jié)構(gòu)特性之外,,它還有很豐富的語義特性,,那么利用圖神經(jīng)網(wǎng)絡(luò)提煉這種結(jié)構(gòu)特性,再加上知識(shí)圖譜的語義特性,,就能夠比較好地捕捉知識(shí)圖譜上各種各樣的信息,。
這套框架非常重要,將來圖系統(tǒng),、大模型知識(shí)圖譜,、圖神經(jīng)網(wǎng)絡(luò)這三者融合在一起是有可能解決絕大部分行業(yè)的一個(gè)問題,成為解決問題的通用的框架,,所以我們的圖系統(tǒng)對(duì)于圖神經(jīng)網(wǎng)絡(luò)的支持也是勢在必行,。
圖數(shù)據(jù)庫與知識(shí)圖譜:共創(chuàng)關(guān)聯(lián)價(jià)值
最后簡單總結(jié)一下——這個(gè)世界本質(zhì)上是普遍關(guān)聯(lián)的,,圖數(shù)據(jù)庫和知識(shí)圖譜的技術(shù)聯(lián)姻和共舞,,我們認(rèn)為將會(huì)進(jìn)一步釋放關(guān)聯(lián)數(shù)據(jù)的能量,提升數(shù)據(jù)產(chǎn)業(yè)的發(fā)展能級(jí),。