中亦安圖 :圖技術在智能運維行業(yè)中的實踐
以悅數(shù)圖數(shù)據(jù)庫為底座的智能運維解決方案
隨著 IT 基礎架構的標準化和自動化水平的提升,智能運維技術開始在越來越多企業(yè)落地,。但相較于互聯(lián)網(wǎng)企業(yè),,非互聯(lián)網(wǎng)行業(yè)的智能運維還處于初級階段,特別是金融行業(yè),,由于系統(tǒng)組件關系,、運維對象、運維部門組織架構等比較復雜,,而且監(jiān)管要求高,,運維人員更新與引進速度慢等綜合因素,導致智能運維在金融業(yè)的落地門檻較高,。
目前,,專門針對運維場景設計與優(yōu)化的機器學習算法已經(jīng)逐漸成熟,,智能運維落地的核心難點落在了如何對海量、多維,、多模態(tài)的運維數(shù)據(jù)進行持續(xù)的數(shù)據(jù)治理與高效的數(shù)據(jù)分析,。因此,能處理多維數(shù)據(jù)統(tǒng)一查詢視圖的運維數(shù)據(jù)基座成為眾多客戶與團隊的真實痛點需求,。
在考慮多維運維數(shù)據(jù)的關聯(lián)需求或嘗試描述 IT 基礎架構時,,我們發(fā)現(xiàn)圖是最符合業(yè)務直覺的表達方式。假想一下,,故障發(fā)生時工程師腦海中最先浮現(xiàn)什么,?就是負責系統(tǒng)的整體架構圖與組件依賴關系,再結合自身的運維知識進行故障根因定位,。
因此,,為了支持能夠靈活、快速地形成多維數(shù)據(jù)的查詢視圖,,我們選擇了 悅數(shù)圖數(shù)據(jù)庫 的圖數(shù)據(jù)庫作為更具優(yōu)勢的存儲與計算核心,。通過設計合理的圖譜結構,組織起已經(jīng)自動采集的 CMDB 數(shù)據(jù),、性能監(jiān)控指標,、應用日志數(shù)據(jù),甚至是基于微服務的 Trace 數(shù)據(jù),,從而構建出真正能滿足智能運維的數(shù)據(jù)基座,。
我們知道,變更是引起故障的重要原因之一,。每次變更開始時,,管理員都需要考慮變更對象、影響面,、觸發(fā)故障的隱患等一系列問題,。部分問題可通過持續(xù)集成的管理去解決,另一部分問題則可通過對運維圖譜進行圖查詢解決,。 在故障場景中,,也可以使用圖查詢的場景,如多告警實體關聯(lián)查詢,,我們可通過結果視圖尋找多個 IP 之間的關系,,故障的根因就能浮出水面。
同時,,使用圖算法能夠幫助企業(yè)進行運維數(shù)據(jù)分析和知識挖掘,,從而釋放企業(yè)長時間積累的運維數(shù)據(jù)的真實價值。常用的圖算法包括:廣度優(yōu)先算法,、深度優(yōu)先算法,、所有節(jié)點對最短路徑,、最小生成樹算法、隨機游走算法,、中心性算法,、緊密性中心性、社群發(fā)現(xiàn)算法等,。
以 KGOPS 解決方案為例,,它采用 悅數(shù)圖數(shù)據(jù)庫 作為圖數(shù)據(jù)存儲核心,通過結合動靜數(shù)據(jù),,KGOPS 提供標準的 Schema 定義方案,,用戶可以根據(jù)自身 IT 環(huán)境的具體情況,實際需求進行定制化修改,。同時,,我們在 Server 層封裝了大量圖計算、圖分析的模塊,,可以組合提供用戶進行使用,并在用戶層提供統(tǒng)一的工作臺,,用戶可以方便地進行交互查詢,。
目前圖相關技術已成為業(yè)界數(shù)據(jù)分析的熱點和重點,諸多頭部企業(yè)已經(jīng)擁有多年將圖應用于運維業(yè)務的經(jīng)驗,,我們的智能運維解決方案依托于圖數(shù)據(jù)庫 悅數(shù)圖數(shù)據(jù)庫 本身的圖計算能力與諸多頭部金融客戶的落地建設經(jīng)驗,,提供開箱即用的圖算法,幫助客戶在具體的場景中實現(xiàn)智能算法,,輔助疏通運維管理的阻滯點,,提升運維團隊整體效率。
不同的應用之間基于業(yè)務邏輯,,呈現(xiàn)出各類應用的數(shù)據(jù)訪問關系,,這些關系對應用的運行、重要性等都有重要的參考價值,。配置管理數(shù)據(jù)庫( CMDB )能夠?qū)?shù)據(jù)流向關系與應用訪問關系以可視化方式呈現(xiàn)出來,,便于管理人員進行數(shù)據(jù)分析。
涉及技術:路徑檢索類算法,、圖譜自動布局算法,、圖譜交互可視化引擎。
價值:可用于性能分析,、故障分析,、影響分析,為管理者提供應用性能監(jiān)控,、數(shù)據(jù)鏈路支持,。
基于應用系統(tǒng)的整體架構配置基線比對,。包括對應用、中間件,、數(shù)據(jù)庫,、服務器等進行配置比對。
價值:直觀展示配置和架構上的差異,,為災備切換,、應用發(fā)布等復雜場景提供可行性分析的數(shù)據(jù)支撐。
應用系統(tǒng)的運行架構中,,可自動發(fā)現(xiàn)單點運行的環(huán)節(jié),。
涉及技術:圖視圖切換、自定義圖查詢
價值:快速識別影響應用系統(tǒng)可用性的風險點
利用應用的類型信息,、關系信息,,分析應用的重要程度與影響范圍,確定應用重要級別,。
涉及技術:自定義圖查詢,、節(jié)點影響力算法
價值:對應用系統(tǒng)的定級提供數(shù)據(jù)支持,便于管理者對應用系統(tǒng)進行更加精細化管理
按應用的重要程度設置風險權重,,并根據(jù)運行架構,,將風險值向下分攤,到物理層時,,能夠自動計算不同物理節(jié)點的風險權重值,。
涉及技術:節(jié)點影響力算法、圖傳播算法
價值:能夠幫助管理人員識別出有風險匯聚的資源點,,并且準確識別風險級別
在項目初期,,該大型股份制銀行面臨的問題有:部分數(shù)據(jù)關聯(lián)缺失/過多關聯(lián)直接無法顯示/無場景應用指導 / 多數(shù)偏向于自主查詢。
中亦的團隊通過融合該銀行的 CMDB 與其他可獲得的監(jiān)控性能數(shù)據(jù),,配置變更數(shù)據(jù),、告警數(shù)據(jù),采用科學合理的圖譜設計方法,,構建出統(tǒng)一,、全面、可擴展性強,,符合該銀行自身業(yè)務特點的運維知識圖譜,。
構建并完善了全景應用運維圖譜,,不僅可以支持更復雜的運維管理場景變更影響面分析,,并可以對外提供數(shù)據(jù)查詢服務,大幅降低運維管理及外圍系統(tǒng)查詢對接成本,。
將告警粒度從應用監(jiān)控指標層穿透到資源指標層,,明顯提升了故障定位的精度。
將小時級排障縮短至分鐘級排障,,大幅提升了故障定位的時效性,。
智能化運維對于不同的角色帶來的收益是不同的。
對于管理層,,智能化運維可實現(xiàn)資產(chǎn)數(shù)據(jù)化和可視化,,實現(xiàn)管理數(shù)字化,同時提升企業(yè)信息安全,。
對于運維部門,智能化運維可實現(xiàn)企業(yè)動態(tài)應用拓撲圖,、智能基線比對,、智能變更審核,同時支持基于 AIOps(人工智能 IT 運營) 的各種提升,。
對于業(yè)務團隊,,智能化運維可實現(xiàn)部門資產(chǎn)可視化、成本數(shù)字化,、運維數(shù)據(jù)采集加業(yè)務數(shù)據(jù),,實現(xiàn)全面提升運營、營銷和反欺詐效果,。
目前,,智能運維解決方案已在金融行業(yè)進入落地階段。歡迎相關行業(yè)伙伴前來交流,,我們也希望為企業(yè)數(shù)據(jù)中心運維數(shù)字化轉(zhuǎn)型提供更多支持,。
公司介紹
中亦科技是國內(nèi)領先的IT架構“服務+產(chǎn)品”綜合提供商,致力于為客戶提供IT基礎架構層從架構搭建,、運行維護到自動化,、智能化運維的全流程服務,,同時為客戶提供基于IT應用架構層的運營數(shù)據(jù)分析服務。