騰訊音樂:知識(shí)圖譜在音樂搜索中的應(yīng)用
基于圖數(shù)據(jù)庫(kù)實(shí)現(xiàn)復(fù)雜查詢和歌曲關(guān)聯(lián)推薦,,讓搜索又快又精準(zhǔn)
近幾年來,,圖數(shù)據(jù)在計(jì)算機(jī)領(lǐng)域得到了廣泛的應(yīng)用,。圖數(shù)據(jù)在影音娛樂場(chǎng)景中也廣泛存在,,其中與音樂相關(guān)的業(yè)務(wù)數(shù)據(jù)主要有以下三類:內(nèi)容方面有歌曲、綜藝,、影視,、專輯等;歌手方面有歌手信息,、歌手之間的關(guān)系,,包括組合、相似度等,;歌手和歌手內(nèi)容之間的關(guān)系有演唱,、作詞、作曲等,。
之前騰訊音樂的搜索召回主要是基于文本匹配,,召回后還需進(jìn)行相關(guān)性排序,存在召回流程/排序策略復(fù)雜,、精準(zhǔn)度不足,、過度召回的問題,難以滿足業(yè)務(wù)需求,。為了讓內(nèi)容搜索更加智能化,、用戶體驗(yàn)更佳,,騰訊音樂希望借助知識(shí)圖譜對(duì)搜索行為的后臺(tái)邏輯進(jìn)行優(yōu)化。
為了滿足平臺(tái)業(yè)務(wù)需要,,我們選出的是支持千億級(jí)規(guī)模數(shù)據(jù),,高性能毫秒級(jí)多跳查詢,能做到毫秒級(jí)的在線響應(yīng),、支持?jǐn)?shù)據(jù)批量導(dǎo)入導(dǎo)出的分布式圖數(shù)據(jù)庫(kù)產(chǎn)品,。經(jīng)過對(duì)多個(gè)圖數(shù)據(jù)庫(kù)的對(duì)比 & 優(yōu)缺點(diǎn)分析,并通過一度鄰居(跟點(diǎn)直接相連的點(diǎn)),、兩度鄰居,、共同鄰居這三個(gè)方面的數(shù)據(jù)庫(kù)性能測(cè)試,綜合來看發(fā)現(xiàn)「悅數(shù)圖數(shù)據(jù)庫(kù)」不管是單機(jī)性能,,還是集群性能,,都要遠(yuǎn)超于其他競(jìng)品。
騰訊音樂知識(shí)圖譜項(xiàng)目架構(gòu)可以分為在線層和離線層,,在線層主要包含以下模塊:storaged 負(fù)責(zé)具體數(shù)據(jù)的存儲(chǔ),,包括點(diǎn)數(shù)據(jù)、邊數(shù)據(jù),,以及相關(guān)的索引,;metad 負(fù)責(zé)存儲(chǔ)圖數(shù)據(jù)的 meta 信息,例如數(shù)據(jù)庫(kù)的 schema,、addition 等,。離線層有音樂數(shù)據(jù)實(shí)時(shí)的新增數(shù)據(jù),例如新增發(fā)行的唱片,,還有全量數(shù)據(jù)的更新,,我們選擇了全量加增量的數(shù)據(jù)層方案。通過全量數(shù)據(jù)生成和實(shí)時(shí)數(shù)據(jù)生成的方案,,形成一個(gè)增量的源數(shù)據(jù),,實(shí)現(xiàn)分鐘級(jí)的歷史增量的補(bǔ)發(fā)。
音樂知識(shí)圖譜不僅可以做簡(jiǎn)單的搜索,,還可以實(shí)現(xiàn)復(fù)雜搜索需求,。例如要查詢周杰倫的男女對(duì)唱的歌曲有哪些,如果要實(shí)現(xiàn)這個(gè)查詢,,需要對(duì)周杰倫的歌曲進(jìn)行一定的過濾,,歌手的數(shù)量要等于 2,另一位歌手的性別是女性,,還要考慮基于播放量、歌手權(quán)重等等的排序,。
在傳統(tǒng)關(guān)系型數(shù)據(jù)要實(shí)現(xiàn)這個(gè)功能很復(fù)雜,,利用知識(shí)圖譜就比較簡(jiǎn)單了——先找到歌手周杰倫,查找周杰倫的所有歌曲中滿足 2 人合唱,另一個(gè)歌手性別是女性的,,只要兩跳就可以實(shí)現(xiàn)復(fù)雜的搜索查詢,。
使用知識(shí)圖譜可以根據(jù)搜索的關(guān)鍵詞查詢圖譜中的實(shí)體節(jié)點(diǎn),進(jìn)而查詢出關(guān)聯(lián)的節(jié)點(diǎn),,用關(guān)聯(lián)的節(jié)點(diǎn)給出推薦的結(jié)果,。例如:用戶搜索“周華健”,我們希望通過關(guān)聯(lián)信息推薦出“李宗盛”,。如果通過原有的搜索引擎這個(gè)關(guān)聯(lián)很難實(shí)現(xiàn),;而用知識(shí)圖譜,從周華?。ǜ枋郑?duì)應(yīng)到縱貫線(組合),,從組合再到另一歌手李宗盛,只要兩跳,。
通過圖譜的關(guān)聯(lián)信息,、實(shí)體上下位信息、實(shí)體屬性信息,,也可以根據(jù)知識(shí)圖譜的計(jì)算結(jié)果查詢出相應(yīng)的答案,。例如用戶搜索劉德華90年代的歌曲,用知識(shí)圖譜的話,,只要選擇「歌手」-劉德華,、「時(shí)間」-90年代歌曲,兩個(gè)聯(lián)合起來就可以得到結(jié)果,。
傳統(tǒng)的搜索召回是基于文本匹配,,流程復(fù)雜準(zhǔn)確度不足,,而知識(shí)圖譜搜索召回是基于實(shí)體之間的關(guān)系進(jìn)行查詢,搜索召回具有結(jié)果精準(zhǔn),、流程短的優(yōu)點(diǎn),。通過使用圖數(shù)據(jù)庫(kù)進(jìn)行音樂知識(shí)圖譜的升級(jí),增強(qiáng)了檢索和推薦的效率,,同時(shí)基于圖數(shù)據(jù)技術(shù)實(shí)現(xiàn)的知識(shí)庫(kù)具備一定的推理能力,,提升了客戶的搜索體驗(yàn)。
目前,,騰訊音樂已經(jīng)上線了知識(shí)圖譜的搜索應(yīng)用,,支持各類搜索場(chǎng)景。例如:校歌搜索-當(dāng)用戶搜索大學(xué)校名和校歌組合時(shí),,召回對(duì)應(yīng)的學(xué)校的校歌,;歌手場(chǎng)景-當(dāng)用戶搜索歌手名字的時(shí)候,,返回歌手所在組合,以及合唱過知名歌曲的合作歌手等,;影視場(chǎng)景-當(dāng)用戶搜索影視主題曲,、片尾曲、插曲等等的時(shí)候,,返回對(duì)應(yīng)的影視的歌曲等等,。
用戶評(píng)價(jià)
圖數(shù)據(jù)可以很好地把專家經(jīng)驗(yàn)智能融入圖譜,通過圖數(shù)據(jù)技術(shù)實(shí)現(xiàn)的知識(shí)庫(kù),,增強(qiáng)了檢索,、推薦、可視化等功能,。騰訊音樂很好地對(duì)知識(shí)圖譜技術(shù)進(jìn)行了應(yīng)用,,大大提高了客戶的搜索體驗(yàn)感,增強(qiáng)了客戶黏度,。
--- 騰訊音樂高級(jí)工程師 Elvin
公司介紹
騰訊音樂娛樂集團(tuán) (NYSE: TME) 簡(jiǎn)稱騰訊音樂,,是中國(guó)在線音樂娛樂服務(wù)領(lǐng)航者,擁有中國(guó)廣受喜愛和獨(dú)具匠心的音樂平臺(tái):QQ音樂,、酷狗音樂,、酷我音樂和全民K歌,總月活用戶數(shù)超過8億,。將 悅數(shù)圖數(shù)據(jù)庫(kù) 應(yīng)用在音樂知識(shí)圖譜搜索中,。