首頁(yè)>博客>新聞資訊>演講回顧丨杭州悅數(shù) CTO 葉小萌:圖數(shù)據(jù)庫(kù)發(fā)展新航向——擁抱 GQL,,融合 HTAP,,攜手 AI
演講回顧丨杭州悅數(shù) CTO 葉小萌:圖數(shù)據(jù)庫(kù)發(fā)展新航向——擁抱 GQL,融合 HTAP,,攜手 AI
本文為杭州悅數(shù) CTO 葉小萌在“標(biāo)準(zhǔn)+智能:新質(zhì)生產(chǎn)力的原動(dòng)力”悅數(shù)圖數(shù)據(jù)庫(kù)新產(chǎn)品發(fā)布會(huì)上的演講回顧,,主題為:《新標(biāo)準(zhǔn)、新期待:展望圖數(shù)據(jù)庫(kù)發(fā)展的關(guān)鍵方向》
各位嘉賓,、悅數(shù)圖數(shù)據(jù)庫(kù)的用戶以及線上的觀眾朋友們大家好,!今天很高興有機(jī)會(huì)和大家分享我對(duì)數(shù)據(jù)庫(kù),尤其是圖數(shù)據(jù)庫(kù)的感悟與想法,。
GQL 的誕生推動(dòng)圖數(shù)據(jù)庫(kù)的發(fā)展
在 2000 年前后,,圖數(shù)據(jù)庫(kù)的概念尚未普及,當(dāng)時(shí)主要通過(guò) Java API 進(jìn)行相關(guān)操作,。直到 2009 年,,Apache TinkerPop 規(guī)范定義的 Gremlin 查詢語(yǔ)言首次發(fā)布,;兩年后的 2011年,Neo4j 推出了更加廣為人知的 Cypher 圖查詢語(yǔ)言,。在圖數(shù)據(jù)庫(kù)的后續(xù)發(fā)展中,,雖然越來(lái)越多的廠商為圖數(shù)據(jù)庫(kù)增添了豐富的功能,但多樣的查詢語(yǔ)言也給用戶帶來(lái)了困擾,。在選擇產(chǎn)品時(shí),,用戶不僅需要考慮產(chǎn)品本身的性能,還必須評(píng)估查詢語(yǔ)言的易學(xué)性和掌握難度,。此外,,如果所選產(chǎn)品所使用的查詢語(yǔ)言在幾年后不再被廣泛采用,替換成本將會(huì)非常高,。這種情況直接影響了圖數(shù)據(jù)庫(kù)在業(yè)界的接受度,。
直到 2019 年,國(guó)際標(biāo)準(zhǔn)化組織(ISO)成立了專門(mén)工作組,,致力于制定圖數(shù)據(jù)庫(kù)查詢語(yǔ)言的標(biāo)準(zhǔn),。經(jīng)過(guò)近五年的討論,2024 年 4 月,,ISO 正式發(fā)布了國(guó)際標(biāo)準(zhǔn)圖查詢語(yǔ)言 ——Graph Query Language(GQL),。GQL 標(biāo)準(zhǔn)的發(fā)布標(biāo)志著圖數(shù)據(jù)庫(kù)技術(shù)走向成熟的重要一步。它不僅有助于提高圖數(shù)據(jù)庫(kù)的可操作性,,還降低了用戶的遷移成本,,促進(jìn)了圖數(shù)據(jù)庫(kù)技術(shù)的廣泛應(yīng)用。杭州悅數(shù)作為圖數(shù)據(jù)庫(kù)廠商也積極參與了標(biāo)準(zhǔn)的制定,,進(jìn)一步增強(qiáng)了標(biāo)準(zhǔn)的權(quán)威性和實(shí)用性,,悅數(shù)圖數(shù)據(jù)庫(kù)更是全球首款原生支持 GQL 的圖數(shù)據(jù)庫(kù)產(chǎn)品。相信 GQL 的發(fā)布有望像當(dāng)年 SQL 標(biāo)準(zhǔn)推動(dòng)關(guān)系數(shù)據(jù)庫(kù)發(fā)展一樣,,推動(dòng)圖數(shù)據(jù)庫(kù)的發(fā)展,,提升業(yè)界對(duì)圖數(shù)據(jù)庫(kù)的接受程度。我們有理由相信,,在 2030 年前后,,依托于 GQL 標(biāo)準(zhǔn), 圖技術(shù)將全方位融入生活,,形成行業(yè)的結(jié)構(gòu)化,、產(chǎn)業(yè)化。
圖數(shù)據(jù)庫(kù)與 HTAP:融合發(fā)展,,突破數(shù)據(jù)處理瓶頸
在數(shù)據(jù)庫(kù)領(lǐng)域,近年來(lái)出現(xiàn)了 HTAP 概念,,旨在將 OLTP(在線事務(wù)處理)和 OLAP(在線分析處理)功能整合于一個(gè)系統(tǒng)中,。在傳統(tǒng)企業(yè)架構(gòu)中,,OLTP 系統(tǒng)負(fù)責(zé)在線業(yè)務(wù)的數(shù)據(jù)修改和查詢,而數(shù)據(jù)隨后會(huì)同步到后端數(shù)據(jù)倉(cāng)庫(kù)以進(jìn)行分析和挖掘,。然而,,這種方式無(wú)論是傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)還是圖數(shù)據(jù)庫(kù),往往都面臨高存儲(chǔ)成本和數(shù)據(jù)時(shí)效性的問(wèn)題,。截至 2023 年,,OLTP 和 OLAP 在的市場(chǎng)份額基本上各占一半。然而,,在圖數(shù)據(jù)庫(kù)領(lǐng)域,分析需求的占比可能更高,。根據(jù)我們接觸到的市場(chǎng)情況,,分析需求可能占到 60% - 70%,而在線事務(wù)處理則占 30% - 40%,。
作為圖數(shù)據(jù)庫(kù)廠商,,我們希望能夠整合圖數(shù)據(jù)庫(kù)的交易與分析功能,實(shí)現(xiàn) HTAP 能力,。首先,,實(shí)現(xiàn)底層數(shù)據(jù)共享,以解決存儲(chǔ)和數(shù)據(jù)時(shí)效性的問(wèn)題,;其次,,針對(duì)分析查詢,既然已經(jīng)有了 GQL 標(biāo)準(zhǔn),,我們可以能夠使用它進(jìn)行分析查詢,,就像使用 SQL 進(jìn)行查詢一樣。此外,,圖數(shù)據(jù)庫(kù)中存在許多算法,,而以往在不同系統(tǒng)中描述這些算法的難度較大,對(duì)數(shù)據(jù)分析人員的要求也很高,。因此,,我們希望在 GQL 的基礎(chǔ)上,具備描述算法的能力,,從而真正實(shí)現(xiàn)查詢語(yǔ)言的統(tǒng)一,。因此我們認(rèn)為基于標(biāo)準(zhǔn)的分布式 HTAP 系統(tǒng)是圖數(shù)據(jù)庫(kù)未來(lái)的重要發(fā)展方向。
圖數(shù)據(jù)庫(kù)與 AI :打破向量局限,,實(shí)現(xiàn)優(yōu)勢(shì)互補(bǔ)
2022 年底,OpenAI 發(fā)布了 3.0 大模型,,掀起了 AI 的熱潮,。如何有效地將私有數(shù)據(jù)與公共領(lǐng)域的知識(shí)模型結(jié)合,,成為了一個(gè)重要的研究課題。對(duì)于企業(yè)而言,,訓(xùn)練專有的大模型不僅需要強(qiáng)大的計(jì)算能力,,還對(duì)技術(shù)團(tuán)隊(duì)和研發(fā)團(tuán)隊(duì)提出了較高的要求。相比之下,,RAG 技術(shù)將私有數(shù)據(jù)作為大模型的補(bǔ)充,,避免了重新校正和訓(xùn)練模型的復(fù)雜過(guò)程,因此對(duì)技術(shù)能力的要求相對(duì)較低,。隨著大模型的不斷發(fā)展,,基于向量數(shù)據(jù)庫(kù)的 RAG 解決方案也逐漸涌現(xiàn)。
然而,,基于向量數(shù)據(jù)庫(kù)的 RAG 存在顯著問(wèn)題,。私有數(shù)據(jù)本身具有內(nèi)在的關(guān)聯(lián)關(guān)系,但向量數(shù)據(jù)庫(kù)無(wú)法有效地體現(xiàn)這些關(guān)系,。而用戶給到大模型的請(qǐng)求是按照 Token 來(lái)計(jì)算的,,Token 越多,計(jì)算量越大,,價(jià)格也越高,,時(shí)間也越長(zhǎng),RAG 因?yàn)槿鄙倭岁P(guān)聯(lián)的知識(shí),,會(huì)導(dǎo)致大量的計(jì)算資源的浪費(fèi)和時(shí)間的浪費(fèi),,且結(jié)果不夠精準(zhǔn)。
相比之下,,圖數(shù)據(jù)庫(kù)能夠更好地識(shí)別和保留這些關(guān)系,,從而提高信息檢索的準(zhǔn)確性和效率。圖數(shù)據(jù)庫(kù)在處理復(fù)雜關(guān)系和大規(guī)模數(shù)據(jù)方面具有天然優(yōu)勢(shì),,這對(duì)于 AI 的理解和推理能力至關(guān)重要,。
在 2023 年 8 月,我們提出用圖數(shù)據(jù)庫(kù)取代向量數(shù)據(jù)庫(kù),,并與 LlamaIndex 社區(qū)合作推出 Graph RAG,。該方案通過(guò)提供更具上下文感知的能力和數(shù)據(jù)訓(xùn)練的方法,緩解了傳統(tǒng)搜索增強(qiáng)技術(shù)的幻覺(jué),,能夠區(qū)分像“保溫杯”和“保溫大棚”這種關(guān)鍵字相似但語(yǔ)義不同的內(nèi)容,,確保所提供的回復(fù)不僅精確,而且信息豐富,。今年上半年,,微軟開(kāi)源的 Graph 相關(guān)項(xiàng)目也印證了圖數(shù)據(jù)庫(kù)與 AI 結(jié)合是市場(chǎng)和技術(shù)共同選擇的結(jié)果。
展望未來(lái)
圖數(shù)據(jù)庫(kù)的未來(lái)發(fā)展方向主要包括三個(gè)方面:
擁抱 GQL:繼續(xù)支持和推廣 GQL 標(biāo)準(zhǔn),,促進(jìn)圖數(shù)據(jù)庫(kù)技術(shù)的普及與應(yīng)用,。
探索基于標(biāo)準(zhǔn)的 HTAP 解決方案:開(kāi)發(fā)高效的 HTAP 系統(tǒng),,滿足日益增長(zhǎng)的數(shù)據(jù)處理需求。
深化圖數(shù)據(jù)庫(kù)與 AI 技術(shù)的融合:結(jié)合圖數(shù)據(jù)庫(kù)和大模型的優(yōu)勢(shì),,推動(dòng)智能決策支持系統(tǒng)的發(fā)展,。
圖數(shù)據(jù)庫(kù)不僅在技術(shù)上不斷創(chuàng)新,還在實(shí)際應(yīng)用中展現(xiàn)出巨大的潛力,。未來(lái),,圖數(shù)據(jù)庫(kù)將在社交網(wǎng)絡(luò)、推薦系統(tǒng),、金融風(fēng)控等多個(gè)領(lǐng)域發(fā)揮重要作用,,為數(shù)據(jù)驅(qū)動(dòng)的決策提供強(qiáng)有力的支持。
感謝各位的聆聽(tīng),,希望今天的分享能夠?yàn)榇蠹規(guī)?lái)一些啟發(fā)和思考,。謝謝。