版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于圖數(shù)據(jù)庫(kù)的元數(shù)據(jù)血緣關(guān)系分析技術(shù)研究與實(shí)踐
【摘要】圖數(shù)據(jù)庫(kù)是近年來(lái)成長(zhǎng)最快的數(shù)據(jù)庫(kù)分類,在關(guān)系存儲(chǔ)上具有的巨大的優(yōu)勢(shì)使其得到各行各業(yè)的廣泛關(guān)注。本文將分享基于圖數(shù)據(jù)庫(kù)對(duì)元數(shù)據(jù)血緣關(guān)系進(jìn)行的研究和實(shí)踐,希望讀者通過(guò)本文可以對(duì)相關(guān)知識(shí)及其在企業(yè)的實(shí)際應(yīng)用有更進(jìn)一步了的了解。1背景圖數(shù)據(jù)庫(kù),不是存儲(chǔ)圖片的數(shù)據(jù)庫(kù),而是以圖論為基礎(chǔ)存儲(chǔ)節(jié)點(diǎn)與節(jié)點(diǎn)間關(guān)系的數(shù)據(jù)庫(kù)。圖數(shù)據(jù)庫(kù)是近年來(lái)成長(zhǎng)最快的數(shù)據(jù)庫(kù)分類,從社交網(wǎng)絡(luò)到金融關(guān)系,都會(huì)涉及大量的高度關(guān)聯(lián)數(shù)據(jù),因此圖數(shù)據(jù)庫(kù)很早就開(kāi)始被Twitter,F(xiàn)acebook和Google等公司采用,也成為當(dāng)今各行各業(yè)所推崇的主流技術(shù)。較傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù),關(guān)系在圖數(shù)據(jù)庫(kù)中是最重要的元素,應(yīng)用程序不必使用外鍵約束實(shí)現(xiàn)表間的相互引用。圖1分別展示了圖數(shù)據(jù)庫(kù)和關(guān)系型數(shù)據(jù)庫(kù)在查找三度人脈關(guān)系時(shí)的工作原理,可以看出圖數(shù)據(jù)庫(kù)能夠充分發(fā)揮其存儲(chǔ)關(guān)系的優(yōu)勢(shì),利用關(guān)系作為連接跳板進(jìn)行查詢,而關(guān)系型數(shù)據(jù)庫(kù)必須進(jìn)行表連接的操作,表連接次數(shù)隨著查詢的度數(shù)增大而增多,會(huì)極大影響查詢的響應(yīng)速度。圖1
圖數(shù)據(jù)庫(kù)和關(guān)系型數(shù)據(jù)庫(kù)查找三度人脈關(guān)系邏輯示例圖數(shù)據(jù)庫(kù)支持非常靈活和細(xì)粒度的數(shù)據(jù)模型,可以用簡(jiǎn)單直觀的方式對(duì)數(shù)據(jù)應(yīng)用進(jìn)行建模和管理,利用圖的方式來(lái)表達(dá)現(xiàn)實(shí)世界的很多事物將更為直接、易于理解,同時(shí)圖數(shù)據(jù)庫(kù)在查詢關(guān)系時(shí)性能極佳,在深挖關(guān)系上極具潛力,具備挖掘數(shù)據(jù)潛在價(jià)值的能力,與關(guān)系數(shù)據(jù)庫(kù)相比,圖數(shù)據(jù)庫(kù)可支持更多類型的關(guān)系場(chǎng)景,本文將基于圖數(shù)據(jù)庫(kù)對(duì)元數(shù)據(jù)血緣關(guān)系進(jìn)行研究和實(shí)踐。1.1元數(shù)據(jù)大數(shù)據(jù)時(shí)代的到來(lái),意味著數(shù)據(jù)的海量性和復(fù)雜性。隨著平臺(tái)應(yīng)用不斷推廣創(chuàng)新,基礎(chǔ)數(shù)據(jù)也會(huì)飛速增長(zhǎng),增長(zhǎng)的數(shù)據(jù)就會(huì)存在血緣不清、重復(fù)存儲(chǔ)加工、口徑混亂、數(shù)據(jù)質(zhì)量參差不齊等一系列問(wèn)題。元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù),對(duì)數(shù)據(jù)及信息資源進(jìn)行描述,是關(guān)于數(shù)據(jù)的更高層次抽象,通過(guò)對(duì)元數(shù)據(jù)的有效管理,能夠有效解決上述問(wèn)題。根據(jù)元數(shù)據(jù)描述對(duì)象的不同,可將其劃分為業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和管理元數(shù)據(jù)。(1)業(yè)務(wù)元數(shù)據(jù)主要記錄在系統(tǒng)中業(yè)務(wù)的相關(guān)概念信息,包括業(yè)務(wù)術(shù)語(yǔ)、信息分類、指標(biāo)定義、業(yè)務(wù)規(guī)則等。(2)技術(shù)元數(shù)據(jù)描述系統(tǒng)中技術(shù)領(lǐng)域的相關(guān)概念信息,包括數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)處理方面特征描述,以及數(shù)據(jù)源接口、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市、存儲(chǔ)等全面數(shù)據(jù)處理環(huán)節(jié)的信息。(3)管理元數(shù)據(jù)定義系統(tǒng)中涉及管理領(lǐng)域的相關(guān)概念等信息,如對(duì)項(xiàng)目管理、IT運(yùn)維、IT資源設(shè)備等相關(guān)信息的描述。元數(shù)據(jù)實(shí)現(xiàn)了信息的描述和分類的格式化,能夠?qū)?shù)據(jù)資產(chǎn)進(jìn)行有效管理,理清數(shù)據(jù)之間的關(guān)系。元數(shù)據(jù)可以幫助研發(fā)人員了解平臺(tái)的情況,例如平臺(tái)所包含的數(shù)據(jù)、數(shù)據(jù)存儲(chǔ)占用的空間、數(shù)據(jù)存儲(chǔ)位置、數(shù)據(jù)產(chǎn)出信息等,在此基礎(chǔ)上可以做一些運(yùn)維報(bào)警工作。此外,它還有助于制定平臺(tái)數(shù)據(jù)統(tǒng)計(jì)的標(biāo)準(zhǔn),梳理出統(tǒng)一的數(shù)據(jù)口徑、計(jì)算指標(biāo)、上下游關(guān)聯(lián)關(guān)系,為數(shù)據(jù)質(zhì)量及維護(hù)可視化奠定基礎(chǔ)。1.2元數(shù)據(jù)應(yīng)用元數(shù)據(jù)記錄了系統(tǒng)包含的數(shù)據(jù)、數(shù)據(jù)的表示、數(shù)據(jù)的來(lái)源,以及在系統(tǒng)中的流轉(zhuǎn)關(guān)系。元數(shù)據(jù)的應(yīng)用廣泛,可以使用其構(gòu)建業(yè)務(wù)術(shù)語(yǔ)、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)字典、數(shù)據(jù)資產(chǎn)目錄、數(shù)據(jù)血緣關(guān)系以及數(shù)據(jù)地圖等。下面將主要介紹下文所涉及的數(shù)據(jù)血緣關(guān)系。數(shù)據(jù)血緣能夠表示數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系,反映數(shù)據(jù)在系統(tǒng)中的生產(chǎn)加工流程,主要包括集群血緣關(guān)系、系統(tǒng)血緣關(guān)系、表級(jí)血緣關(guān)系和字段血緣關(guān)系,當(dāng)溯源數(shù)據(jù)的上游,即可查詢?cè)摂?shù)據(jù)的生成流程,對(duì)其來(lái)源進(jìn)行跟蹤。當(dāng)分析下游流向時(shí),便具備影響度分析的功能。在系統(tǒng)進(jìn)行升級(jí)改造時(shí),通過(guò)對(duì)依賴數(shù)據(jù)進(jìn)行影響性分析,可以快速定位到下游受到影響的范圍,從而減少系統(tǒng)升級(jí)改造帶來(lái)的風(fēng)險(xiǎn),如圖2快速定位改造影響系統(tǒng)范圍。當(dāng)同時(shí)分析上游和下游流向時(shí),即能獲得完整的數(shù)據(jù)流動(dòng)鏈,依據(jù)此可以更好地分析依賴關(guān)系,輔助后續(xù)系統(tǒng)功能的增加。圖2
快速定位改造影響系統(tǒng)范圍2元數(shù)據(jù)血緣關(guān)系實(shí)踐使用圖數(shù)據(jù)庫(kù)存儲(chǔ)查詢?cè)獢?shù)據(jù)血緣關(guān)系,需要首先梳理出元數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系建立圖模型,再以此為基礎(chǔ)整理出所需的數(shù)據(jù),并將數(shù)據(jù)加載進(jìn)圖數(shù)據(jù)庫(kù),之后即可設(shè)計(jì)關(guān)系模型進(jìn)行鏈路匹配查詢。本文基于農(nóng)業(yè)銀行人民銀行金融基礎(chǔ)數(shù)據(jù)報(bào)送系統(tǒng),梳理了系統(tǒng)中表、腳本、作業(yè)、作業(yè)鏈、應(yīng)用系統(tǒng)、主機(jī)、節(jié)點(diǎn)之間的關(guān)系,以構(gòu)建圖模型。在數(shù)據(jù)準(zhǔn)備環(huán)節(jié),通過(guò)SQL腳本獲得腳本和表之間的關(guān)系以及表和表之間的關(guān)系,通過(guò)調(diào)度監(jiān)控臺(tái)中作業(yè)鏈相關(guān)信息,建立作業(yè)和腳本,作業(yè)鏈和作業(yè),父子作業(yè)等關(guān)系。隨后在圖數(shù)據(jù)庫(kù)平臺(tái)上進(jìn)行操作,創(chuàng)建圖模型、建立模型與數(shù)據(jù)的映射關(guān)系,并執(zhí)行數(shù)據(jù)加載操作,完成從建模到數(shù)據(jù)裝載的過(guò)程。為了實(shí)現(xiàn)血緣關(guān)系的查詢,需要提前設(shè)定好圖的匹配模式,在此基礎(chǔ)上編寫相應(yīng)的圖查詢語(yǔ)句。結(jié)合現(xiàn)有的數(shù)據(jù),本文展示了三種關(guān)系分析模型。2.1圖模型定義在圖模型的設(shè)計(jì)上,本文采用先建立實(shí)體,再以實(shí)體節(jié)點(diǎn)展開(kāi)建立節(jié)點(diǎn)與節(jié)點(diǎn)之間的關(guān)系的方式。通過(guò)農(nóng)業(yè)銀行人民銀行金融基礎(chǔ)數(shù)據(jù)報(bào)送系統(tǒng)進(jìn)行分析,建立作業(yè)鏈、作業(yè)、腳本等7種實(shí)體以及表之間的依賴關(guān)系、父子作業(yè)、作業(yè)鏈與作業(yè)的包含關(guān)系等10種關(guān)系,具體如下:表1圖模型schema定義類型名稱中文名稱
實(shí)體ent_table表ent_script腳本ent_job作業(yè)ent_jobchain作業(yè)鏈ent_system應(yīng)用系統(tǒng)ent_node節(jié)點(diǎn)ent_host主機(jī)
關(guān)系rel_tab_dep表與表依賴關(guān)系rel_script_input表輸入腳本關(guān)系rel_script_output腳本輸出表關(guān)系rel_job_excute作業(yè)執(zhí)行腳本關(guān)系rel_jobchain_contain作業(yè)鏈包含作業(yè)關(guān)系rel_job_place作業(yè)與節(jié)點(diǎn)存儲(chǔ)關(guān)系rel_job_runat作業(yè)與主機(jī)運(yùn)行關(guān)系rel_job_follow作業(yè)之間父子關(guān)系rel_jobchain_follow作業(yè)鏈之間父子關(guān)系rel_jobchain_belongto作業(yè)鏈與系統(tǒng)所屬關(guān)系
圖3元數(shù)據(jù)血緣關(guān)系圖模型示意圖根據(jù)已定義的實(shí)體和關(guān)系,梳理如下信息:表基礎(chǔ)信息、腳本基礎(chǔ)信息、作業(yè)基礎(chǔ)信息、作業(yè)鏈基礎(chǔ)信息、應(yīng)用系統(tǒng)基礎(chǔ)信息、節(jié)點(diǎn)基礎(chǔ)信息、主機(jī)基礎(chǔ)信息、表與表依賴關(guān)系、表輸入腳本關(guān)系、腳本輸出表關(guān)系、作業(yè)執(zhí)行腳本關(guān)系、作業(yè)鏈包含作業(yè)關(guān)系、作業(yè)與節(jié)點(diǎn)存儲(chǔ)關(guān)系、作業(yè)與主機(jī)運(yùn)行關(guān)系、作業(yè)之間父子關(guān)系、作業(yè)鏈之間父子關(guān)系以及作業(yè)鏈與系統(tǒng)所屬關(guān)系。2.2血緣關(guān)系模型定義根據(jù)想要追溯的數(shù)據(jù)關(guān)系方向,將模型分為三類:向上追溯的依賴關(guān)系模型、向下流動(dòng)的影響度分析模型以及串聯(lián)整個(gè)數(shù)據(jù)流向的數(shù)據(jù)加工模型,具體如下:(1)依賴關(guān)系分析模型對(duì)表級(jí)、作業(yè)級(jí)、作業(yè)鏈級(jí)依賴關(guān)系進(jìn)行追溯。此三類的關(guān)系追溯處理邏輯相似,以表為例,選定一張表后不斷尋找該表的依賴表,直到找到源頭所在,形成向上的關(guān)系溯源。(2)影響度分析模型對(duì)其進(jìn)行下游影響度分析時(shí),需要不斷的進(jìn)行查找當(dāng)前節(jié)點(diǎn)被哪些節(jié)點(diǎn)依賴,以形成向下的完整關(guān)系鏈。(3)數(shù)據(jù)加工模型該模型能夠反映數(shù)據(jù)的生成加工過(guò)程,可查看表、腳本、作業(yè)、作業(yè)鏈、系統(tǒng)等不同級(jí)別的關(guān)聯(lián)關(guān)系,具體模型如圖4所示。從一張表出發(fā)展開(kāi)與其相關(guān)的表的一度關(guān)系,并且關(guān)聯(lián)處理該表的腳本,追溯執(zhí)行腳本的作業(yè),展開(kāi)該作業(yè)的父作業(yè)和子作業(yè)、運(yùn)行節(jié)點(diǎn)和主機(jī),查找包含該作業(yè)的作業(yè)鏈,并展開(kāi)該作業(yè)鏈的所屬系統(tǒng),從而呈現(xiàn)完整的數(shù)據(jù)加工過(guò)程。圖4
數(shù)據(jù)加工模型
2.3結(jié)果可視化Cypher是Neo4j圖數(shù)據(jù)庫(kù)描述性圖查詢語(yǔ)言,允許不必編寫圖形結(jié)構(gòu)的遍歷代碼實(shí)現(xiàn)對(duì)圖形存儲(chǔ)有表現(xiàn)力和效率的查詢,其語(yǔ)法形象易懂,編寫使用難度較低。開(kāi)發(fā)人員只需關(guān)注如何找到數(shù)據(jù),不必關(guān)心查詢過(guò)程的具體細(xì)節(jié)。上文提到的各血緣關(guān)系以虛擬場(chǎng)景實(shí)現(xiàn)具體代碼及結(jié)果如下:(1)依賴關(guān)系分析(以查詢機(jī)構(gòu)信息表)為例)MATCHdata=(na:TABLE{TABLE_NAME:'機(jī)構(gòu)信息表_當(dāng)期表_歷史表'})<-[r:DEPENDANCE*]-(nb:TABLE)RETURNdata圖5
依賴關(guān)系分析查詢結(jié)果圖(2)影響度分析(以查詢客戶信息表為例)MATCHdata=(na:TABLE{TABLE_NAME:'客戶信息表_備份表_歷史表'})-[r:DEPENDANCE*]->(nb:TABLE)RETURNdata圖6影響度分析查詢結(jié)果圖(3)數(shù)據(jù)加工模型MATCHdata1=(:TABLE{TABLE_NAME:'機(jī)構(gòu)信息表_當(dāng)期表_歷史表'})<-[:DEPENDANCE*1..2]-(:TABLE),data2=(:TABLE{TABLE_NAME:'機(jī)構(gòu)信息表_當(dāng)期表_歷史表'})<-[:OUTPUT*]-(:SCRIPT)<-[:EXCUTE*]-(nJ:JOB)<-[:RELATION*]-(:JOB),data3=(nJ)-[:BELONGTO*]->(:LINK)-[:PERTAINTO*]->(:SYS),data4=(nJ)-[:RUNINGON|RUNNINGON*]->()RETURNdata1,data2,data3,data4圖7
數(shù)據(jù)加工查詢結(jié)果圖圖5-圖7展示了上文各模型Cypher語(yǔ)句的查詢結(jié)果??梢钥闯隼脠D數(shù)據(jù)庫(kù)平臺(tái)能夠?qū)D查詢結(jié)果進(jìn)行直觀地展示,并且支持查詢圖譜嵌入其他可視化系統(tǒng)。其作為輔助工具,能夠直觀地展示各個(gè)實(shí)體之間的關(guān)聯(lián)關(guān)系及屬性,有助于數(shù)據(jù)分析師、研發(fā)人員、業(yè)務(wù)人員進(jìn)行分析探查。以圖7為例,從表機(jī)構(gòu)信息表_當(dāng)期表_歷史表出發(fā),它的加工處理依賴于表補(bǔ)錄表、地區(qū)表、賬號(hào)表。向左追溯,它是由腳本文件腳本_機(jī)構(gòu)信息表的執(zhí)行產(chǎn)出,該腳本由作業(yè)_機(jī)構(gòu)信息表執(zhí)行。它的父作業(yè)有作業(yè)_外部基礎(chǔ)信息表、作業(yè)_組織信息表、作業(yè)_代碼表等。該作業(yè)在節(jié)點(diǎn)_數(shù)據(jù)節(jié)點(diǎn)上,在主機(jī)_數(shù)據(jù)主機(jī)上。它包含于作業(yè)鏈_機(jī)構(gòu)信息表作業(yè)鏈,此作業(yè)鏈屬于數(shù)據(jù)系統(tǒng)應(yīng)用系統(tǒng)。以上就是查詢一張表的基本加工處理關(guān)系的全部過(guò)程。3總結(jié)與展望本文基于圖數(shù)據(jù)庫(kù)對(duì)元數(shù)據(jù)的血緣關(guān)系進(jìn)行研究和分析,通過(guò)建立圖模型、構(gòu)建數(shù)據(jù)映射關(guān)系、定義血緣關(guān)系模型以及編寫Cypher查詢語(yǔ)句以實(shí)現(xiàn)元數(shù)據(jù)血緣關(guān)系的存儲(chǔ)和展示。在進(jìn)行系統(tǒng)升級(jí)、系統(tǒng)改造甚至表結(jié)構(gòu)變更等操作時(shí)通過(guò)該模型查詢結(jié)果的輔助,能夠快速、有效定位系統(tǒng)中受影響的范圍,大大減少了時(shí)間成本。目前,我行的數(shù)據(jù)湖建設(shè)正在有序推進(jìn),未來(lái)數(shù)據(jù)湖所涉及到大量的實(shí)時(shí)型、分析型計(jì)算,圖數(shù)據(jù)庫(kù)在關(guān)鍵路徑的分析中無(wú)疑會(huì)起到非常重要的作用。圖數(shù)據(jù)庫(kù)在關(guān)系存儲(chǔ)上具有巨大的優(yōu)勢(shì),使其作為近六年來(lái)使用增長(zhǎng)最迅速的數(shù)據(jù)庫(kù),得到各行各業(yè)的廣泛關(guān)注。在互聯(lián)網(wǎng)、5G、人工智能等數(shù)字化技術(shù)推動(dòng)下,隨著數(shù)據(jù)技術(shù)與金融行業(yè)的融合發(fā)展,銀行金融業(yè)當(dāng)前面臨以下兩個(gè)問(wèn)題。(1)數(shù)據(jù)間關(guān)聯(lián)復(fù)雜度增加,數(shù)據(jù)本身的4V特性(Volume大量、V
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年食堂炊事員應(yīng)急管理與服務(wù)合同范本3篇
- 2025年蟹塘養(yǎng)殖基地承包與品牌授權(quán)協(xié)議3篇
- 二零二五版美容院美容設(shè)備研發(fā)與技術(shù)支持采購(gòu)合同4篇
- 2025年高速公路停車場(chǎng)租賃及旅游導(dǎo)覽服務(wù)合同3篇
- 2025年星巴克綠色環(huán)保包裝材料采購(gòu)合同2篇
- 二零二五年度面包磚生產(chǎn)設(shè)備租賃合同4篇
- 2025年度采礦權(quán)出讓合同范本:礦業(yè)權(quán)收益分配機(jī)制3篇
- 2025年度特色菜品研發(fā)廚師合作合同4篇
- 2025版吸糞車租賃合同范本(含保險(xiǎn)條款)3篇
- 2025版售樓部裝修工程防水防潮合同3篇
- 湖北省黃石市陽(yáng)新縣2024-2025學(xué)年八年級(jí)上學(xué)期數(shù)學(xué)期末考試題 含答案
- 硝化棉是天然纖維素硝化棉制造行業(yè)分析報(bào)告
- 央視網(wǎng)2025亞冬會(huì)營(yíng)銷方案
- 《無(wú)砟軌道施工與組織》 課件 第十講雙塊式無(wú)砟軌道施工工藝
- 江蘇省南京市、鹽城市2023-2024學(xué)年高三上學(xué)期期末調(diào)研測(cè)試+英語(yǔ)+ 含答案
- 2024新版《藥品管理法》培訓(xùn)課件
- 《阻燃材料與技術(shù)》課件 第7講 阻燃橡膠材料
- 爆炸物運(yùn)輸安全保障方案
- 江蘇省南京市2025屆高三學(xué)業(yè)水平調(diào)研考試數(shù)學(xué)試卷(解析版)
- 鉗工考試題及參考答案
- 移動(dòng)商務(wù)內(nèi)容運(yùn)營(yíng)(吳洪貴)任務(wù)五 引發(fā)用戶共鳴外部條件的把控
評(píng)論
0/150
提交評(píng)論