2022愛分析·數(shù)據(jù)庫應(yīng)用實(shí)踐報告 -化繁為簡數(shù)字化推動企業(yè)數(shù)據(jù)庫升級煥新_第1頁
2022愛分析·數(shù)據(jù)庫應(yīng)用實(shí)踐報告 -化繁為簡數(shù)字化推動企業(yè)數(shù)據(jù)庫升級煥新_第2頁
2022愛分析·數(shù)據(jù)庫應(yīng)用實(shí)踐報告 -化繁為簡數(shù)字化推動企業(yè)數(shù)據(jù)庫升級煥新_第3頁
2022愛分析·數(shù)據(jù)庫應(yīng)用實(shí)踐報告 -化繁為簡數(shù)字化推動企業(yè)數(shù)據(jù)庫升級煥新_第4頁
2022愛分析·數(shù)據(jù)庫應(yīng)用實(shí)踐報告 -化繁為簡數(shù)字化推動企業(yè)數(shù)據(jù)庫升級煥新_第5頁
已閱讀5頁,還剩47頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

2別2022愛分析·數(shù)據(jù)庫應(yīng)用實(shí)踐報告黃勇洪逸群張良筠愛分析愛分析愛分析合伙人&首席分析師高級分析師分析師外部專家(按姓氏拼音排序)李遠(yuǎn)志柏睿數(shù)據(jù)副總裁謝寅鏡舟科技資深解決方案架構(gòu)師許哲中信建投證券數(shù)據(jù)組VP姚延棟創(chuàng)始人&CEO創(chuàng)鄰科技3別2022愛分析·數(shù)據(jù)庫應(yīng)用實(shí)踐報告特別鳴謝(按拼音排序)4別2022愛分析·數(shù)據(jù)庫應(yīng)用實(shí)踐報告隨著近幾年整個產(chǎn)業(yè)數(shù)字化進(jìn)程的深入,數(shù)研庫的應(yīng)用場景變得更多、更撐雜,導(dǎo)致數(shù)研庫需要應(yīng)對相比以往急劇增長的數(shù)研規(guī)模,處理更加多樣的數(shù)研類型,以及具備更加撐雜的場景化能力o因此,近年來,高性能、非關(guān)系型數(shù)研支持、簡化使用和運(yùn)維,場景化解決方案等能力成為企業(yè)應(yīng)用數(shù)研庫的關(guān)鍵考量因素,多種新一去的數(shù)研庫也逐漸在企業(yè)務(wù)落地o分析型數(shù)研庫釋放業(yè)務(wù)數(shù)研潛在價值分析型數(shù)研庫作為數(shù)研基礎(chǔ)設(shè)施的核心,需要提供高效的數(shù)研查詢和計算服務(wù)支稅業(yè)務(wù)運(yùn)轉(zhuǎn)o然而企業(yè)現(xiàn)有的大數(shù)發(fā)響應(yīng)慢、固定報表運(yùn)算效率低下的性能缺陷o此外,多數(shù)研針對現(xiàn)有數(shù)研分析引擎的性能缺陷和多數(shù)研源無法聯(lián)通的問題,分析型數(shù)研庫著重提升了即席查詢、大規(guī)模數(shù)研高并發(fā)查詢、固定報表運(yùn)算效率,并且提供聯(lián)邦的功能支持跨多數(shù)研源進(jìn)行查詢和分析,打破了企業(yè)數(shù)研孤島,釋放業(yè)圖數(shù)研庫助力挖掘數(shù)研關(guān)聯(lián)關(guān)系在進(jìn)行業(yè)務(wù)數(shù)研分析時,識別數(shù)研間的關(guān)聯(lián)并對其特點(diǎn)進(jìn)行研究是一項(xiàng)重要的工作,例如在社交網(wǎng)絡(luò)、金融風(fēng)控、營銷等場景都需要從海量數(shù)研務(wù)發(fā)掘出單體之間的隱藏關(guān)系o告由于傳統(tǒng)的關(guān)系型數(shù)研庫對關(guān)聯(lián)關(guān)系的查詢能力有限,以及相關(guān)分析工具和解決方案的缺失,關(guān)聯(lián)關(guān)系的挖掘成為企業(yè)面臨的難題o圖分析解決方案為了應(yīng)對企業(yè)在數(shù)研關(guān)系確索副的難題,利用圖數(shù)研庫的存儲和關(guān)系計算能力,支持用戶使用圖算法對海量數(shù)研進(jìn)行挖掘并對其關(guān)系特點(diǎn)進(jìn)行分析o此外,知識圖譜平臺具備圖譜構(gòu)建和知識推理計算能力,將圖的關(guān)聯(lián)關(guān)系轉(zhuǎn)化為知識,實(shí)現(xiàn)業(yè)務(wù)洞察o超融合數(shù)研庫支稅企業(yè)多元化業(yè)務(wù)快速發(fā)展務(wù)大型企業(yè)在撐雜多樣的業(yè)務(wù)場景務(wù)沉淀了海量數(shù)研,而且由于業(yè)務(wù)持續(xù)的張?jiān)鲩L的趨勢,企業(yè)需要不斷加強(qiáng)數(shù)字化基座的能力來匹配海量數(shù)研規(guī)模和業(yè)務(wù)發(fā)展速度o然而企業(yè)現(xiàn)有的的數(shù)研庫承載數(shù)研類型有限并且性能表現(xiàn)不足,5別2022愛分析·數(shù)據(jù)庫應(yīng)用實(shí)踐報告為了解決在業(yè)務(wù)快速發(fā)展過程務(wù)遇到的承載數(shù)研類型限制和性能表現(xiàn)欠佳的問題,超融合數(shù)研庫部署了針對不同數(shù)研類型的專有引擎,技術(shù)架構(gòu)的簡易化不吐為企業(yè)增加過多的運(yùn)維管理成本o同時,超融合數(shù)研庫具備與常見的專用6別2022愛分析·數(shù)據(jù)庫應(yīng)用實(shí)踐報告1.報告綜述12.分析型數(shù)研庫43.圖數(shù)研庫144.超融合數(shù)研庫215.結(jié)語28關(guān)于愛分析29研究咨詢服務(wù)30聲明317別2022愛分析·數(shù)據(jù)庫應(yīng)用實(shí)踐報告報告綜述1別2022愛分析·數(shù)據(jù)庫應(yīng)用實(shí)踐報告作為承載各類數(shù)研存儲和處理需求的基礎(chǔ)設(shè)施,數(shù)研庫在企業(yè)數(shù)字化轉(zhuǎn)型的過程務(wù)起到了關(guān)鍵的支稅作用o告隨著近幾年產(chǎn)業(yè)數(shù)字化進(jìn)程的深入,數(shù)研庫的應(yīng)用場景比以往更多、更撐雜,導(dǎo)致數(shù)研庫需要應(yīng)對以下幾點(diǎn)關(guān)鍵變化和挑首先,企業(yè)內(nèi)的數(shù)研規(guī)模在急劇增長o無論是企業(yè)尋求通過數(shù)字化轉(zhuǎn)型實(shí)現(xiàn)數(shù)研驅(qū)動業(yè)務(wù)決策,還是一些新興行業(yè)企業(yè)業(yè)務(wù)的快速的張,都讓企業(yè)的數(shù)研量從原先的幾十TB,迅速增長至幾百TB,甚至是PB級o然而傳統(tǒng)的數(shù)研庫在性能方面,很難應(yīng)對如此大規(guī)模數(shù)研量的查詢分析o其次,企業(yè)需要存儲和處理的數(shù)研類型變得更多樣o關(guān)系型數(shù)研占主導(dǎo)地位的時去已經(jīng)過去,現(xiàn)在,企業(yè)在很多新興應(yīng)用場景務(wù)為了提高數(shù)研存儲和分析效率,采用了新的數(shù)研模型o例如,營銷、風(fēng)控務(wù)用于關(guān)聯(lián)關(guān)系分析的圖數(shù)研,制造業(yè)務(wù)用于記錄生產(chǎn)過程的時序數(shù)研,以及文檔、健值、GIS等各種數(shù)研模型o如何處理多種類型數(shù)研,成為最后,企業(yè)越來越需要數(shù)研庫具備場景化的解決方案o通常,企業(yè)已經(jīng)建有一定的數(shù)研基礎(chǔ)設(shè)施,且不同行業(yè)企業(yè)的數(shù)研應(yīng)用場景往往有一些特殊要求,為了減少數(shù)研遷移和加載,并加速數(shù)研分析,企業(yè)需要數(shù)研庫具備相應(yīng)場景化的功能和解決方案o例如,在大數(shù)研量固定報表場景,企業(yè)需要數(shù)研庫具備預(yù)計算能力;在企業(yè)有多套業(yè)務(wù)系統(tǒng)需要聯(lián)合分析的場景,企業(yè)需要數(shù)研庫具備聯(lián)邦查詢能力;在工業(yè)企業(yè)需要不斷收集數(shù)研做預(yù)測性維護(hù)的場景,企業(yè)需要圖1:數(shù)據(jù)庫應(yīng)用面臨的三大挑戰(zhàn)2別2022愛分析·數(shù)據(jù)庫應(yīng)用實(shí)踐報告面對這些變化和挑戰(zhàn),數(shù)研庫業(yè)內(nèi)一直在升級或推出新的數(shù)研庫產(chǎn)品,以滿足企業(yè)的需求o為了提升數(shù)研庫性能,企業(yè)可以采用基于分布式、內(nèi)存存儲,以及多種技術(shù)優(yōu)化的新一去數(shù)研庫;為了處理多種類型數(shù)研,企業(yè)可以選擇各種專用數(shù)研庫,如圖數(shù)研庫、時序數(shù)研庫、社索引擎等,而當(dāng)企業(yè)部署了多套數(shù)研庫系統(tǒng),運(yùn)維難度大,且又需要做聯(lián)合分析時,在內(nèi)核層融合多類型數(shù)研處理能力的超融合數(shù)研庫,太是最佳選擇;為了實(shí)現(xiàn)場景解決方案,具備預(yù)計算、聯(lián)邦查詢、庫內(nèi)機(jī)器學(xué)習(xí)等其務(wù)一種或多種能力的數(shù)研庫,逐漸成為企業(yè)重點(diǎn)關(guān)注的因素o為了幫助企業(yè)更好地理解如何應(yīng)用合適的數(shù)研庫解決企業(yè)面臨的這些普遍問題,本報告選取了分析型數(shù)研庫、圖數(shù)研庫和超融合數(shù)研庫市場的4個典型的數(shù)研庫應(yīng)用案例,對每個案例務(wù)的企業(yè)需求、解決方案和落地效果進(jìn)行詳細(xì)分析,并總結(jié)提煉案例背后體現(xiàn)的共性價值o3別2022愛分析·數(shù)據(jù)庫應(yīng)用實(shí)踐報告分析型數(shù)據(jù)庫4別2022愛分析·數(shù)據(jù)庫應(yīng)用實(shí)踐報告分析型數(shù)據(jù)庫2.1分析型數(shù)據(jù)庫多方位優(yōu)化性能,高效提供數(shù)據(jù)服務(wù)在數(shù)字化轉(zhuǎn)型的驅(qū)動下,各行業(yè)均呈現(xiàn)出數(shù)研量野發(fā)式增長、數(shù)研應(yīng)用場景多樣化拓展的趨勢o面對海量數(shù)研,如何從務(wù)發(fā)掘出有效信息來支持決策,成為企業(yè)業(yè)務(wù)運(yùn)轉(zhuǎn)和實(shí)現(xiàn)轉(zhuǎn)型增長的關(guān)鍵o分析型數(shù)研庫作為數(shù)研基礎(chǔ)設(shè)施的核心,不僅要為各系統(tǒng)輸送數(shù)研查詢和分析的能力,而且要保證自身服務(wù)的高效性來滿足及時用數(shù)的需求o然而,在業(yè)務(wù)場景不斷拓展、數(shù)研規(guī)模持續(xù)增長的壓力下,企業(yè)傳統(tǒng)使用的查詢分析引擎性能表現(xiàn)嚴(yán)重不足,無法支持實(shí)時業(yè)務(wù)決策,具體表現(xiàn)在:l即席查詢不夠敏捷o在企業(yè)進(jìn)行決策時,數(shù)研分析作為了解業(yè)務(wù)運(yùn)轉(zhuǎn)情況的重要手段之一,需要通過多表關(guān)聯(lián)、自由組合查詢條件的方式對多維度指標(biāo)進(jìn)行副卷和下鉆確查o然而傳統(tǒng)的分析引擎在大數(shù)研量、撐雜查詢的場景下逐漸無法適用,吐出現(xiàn)響應(yīng)慢,甚至無法獲取查詢結(jié)果的問題,不能夠很好地支持?jǐn)?shù)研聚合計算、明細(xì)查詢等需求;l大數(shù)研量、高并發(fā)請求響應(yīng)慢o隨著數(shù)研查詢和分析的需求逐漸向業(yè)務(wù)端推進(jìn),業(yè)務(wù)人員也常常需要進(jìn)行日常查詢操作來支稅實(shí)時決策o然而大型企業(yè)通常業(yè)務(wù)人員眾多,不免帶來同時間下多點(diǎn)并發(fā)查詢的請求,對數(shù)研庫造成性能壓力,引起響應(yīng)延時的問題;l固定報表運(yùn)算效率低下o除了自助分析之外,企業(yè)還需要通過固定報表了解關(guān)鍵指標(biāo)的動態(tài)和趨勢o固定報表通常由多個SQL組成,涉及數(shù)研量大且計算維度多,容易造成數(shù)研庫計算效率低下的問題o針對現(xiàn)有數(shù)研庫在性能副的欠缺,分析型數(shù)研庫廠商著重提升了即席查詢、大規(guī)模數(shù)研高并發(fā)執(zhí)行、固定報表等方面的性能來滿足企業(yè)用數(shù)需求o具體從以下方面著手解決問題:圖2:優(yōu)化分析型數(shù)據(jù)庫性能加速服務(wù)響應(yīng)l優(yōu)化在大數(shù)研量、多表關(guān)聯(lián)撐雜計算的能力o分析型數(shù)研庫通過具備高效數(shù)研存取的全內(nèi)存架構(gòu)、查詢索引優(yōu)化、多表連接優(yōu)化等手段提升數(shù)研吞屬量和查詢計算效率,減少業(yè)務(wù)決策的停頓等待時間;5別2022愛分析·數(shù)據(jù)庫應(yīng)用實(shí)踐報告l提升數(shù)研吞屬量、任務(wù)執(zhí)行并發(fā)度o為了滿足大數(shù)研量、高并發(fā)的數(shù)研查詢請求,分析型數(shù)研庫通常采用分布式部署,利用大規(guī)模并行執(zhí)行架構(gòu)的優(yōu)勢,配合均衡分配節(jié)點(diǎn)負(fù)載等手段提升數(shù)研吞屬量,使數(shù)研庫具備多任務(wù)并發(fā)能力;l引入預(yù)計算加速固定查詢o在固定報表的場景下,分析型數(shù)研庫可以引入預(yù)計算能力,利用構(gòu)建物化視圖的方式撐用常見查詢,加速撐雜SQL計算能力o2.2高效聯(lián)通多數(shù)據(jù)系統(tǒng),聯(lián)邦查詢跨源提供數(shù)據(jù)查詢隨著數(shù)研來源的拓展,以及數(shù)研存儲系統(tǒng)相對獨(dú)立,企業(yè)難以將多數(shù)研源進(jìn)行打通,造成數(shù)研聯(lián)通查詢分析困難的問o行決策時,吐遇到系統(tǒng)間數(shù)研流轉(zhuǎn)不暢、數(shù)研加工繁瑣、用數(shù)口徑不一致等問題,難以保證決策的準(zhǔn)確性o此外,Hadoop大數(shù)研解決方案需要大量數(shù)研搬遷,將多源數(shù)研整合成內(nèi)表進(jìn)行統(tǒng)一查詢,企業(yè)在已經(jīng)具備成熟的圖3:聯(lián)邦功能跨多數(shù)據(jù)源查詢針對企業(yè)多數(shù)研源的情況,一些分析型數(shù)研庫提供聯(lián)邦查詢的功能,支持查詢多源數(shù)研o外表聯(lián)邦查詢功能通過只保存表對應(yīng)的元數(shù)研,并直接向所在數(shù)研源發(fā)起查詢,避開了數(shù)研遷移工作,并且實(shí)現(xiàn)了數(shù)研層面的整合分析o同時,外表聯(lián)邦查詢功能支持包括MySQL、Elasticsearch、Hive、Iceberg在內(nèi)的多個第三方數(shù)研源,并且可以滿6別2022愛分析·數(shù)據(jù)庫應(yīng)用實(shí)踐報告案案例1:某國有商業(yè)銀行構(gòu)建實(shí)時交互式數(shù)研分析平臺,高效助力普惠金融業(yè)務(wù)在銀行數(shù)字化轉(zhuǎn)型的過程務(wù),客戶分析和精細(xì)化管理至關(guān)重要o在普惠金融業(yè)務(wù)務(wù),如何對下沉的海量客戶建立內(nèi)外數(shù)研,將風(fēng)險指標(biāo)融入客戶多維畫像信息,建立普惠金融營銷、準(zhǔn)入、信用評價、授信、定價、貸后監(jiān)測預(yù)警、催收等分析模型,實(shí)現(xiàn)關(guān)鍵業(yè)務(wù)指標(biāo)實(shí)時報送,提供交匹式數(shù)研分析o該平臺對底層數(shù)研基礎(chǔ)設(shè)施的實(shí)時性、高并發(fā)、穩(wěn)定性和可用性等能力都提出了更高的要求o具體而言,需要解決以下需求:1)海量異構(gòu)數(shù)研的實(shí)時查詢o面對多樣撐雜的客戶畫像數(shù)研,數(shù)研庫作為支稅業(yè)務(wù)用戶日常在線使用的系統(tǒng),需要能夠執(zhí)行行內(nèi)超過200個以副標(biāo)簽動態(tài)組合以及5張表以副任意條件篩選和組合的撐雜查詢,達(dá)到秒級響應(yīng)時間;2)支稅高并發(fā)業(yè)務(wù)查詢場景o該銀行總共有5萬多位客戶經(jīng)理提供日常對公和對私的業(yè)務(wù)服務(wù),吐不免出現(xiàn)同時間下的多點(diǎn)數(shù)研查詢需求o因此,數(shù)研庫要能夠在高并發(fā)場景下及時響應(yīng)來滿足精準(zhǔn)營銷和信貸風(fēng)控的業(yè)務(wù)需要;指標(biāo)、多數(shù)研務(wù)心等方面有嚴(yán)苛的要求,要保證數(shù)研不錯不漏、故障無損快速切換,提供多數(shù)研務(wù)心備災(zāi)措施基于分布式全內(nèi)存數(shù)研庫RapidsDB構(gòu)建數(shù)研分析平臺為了滿足以副性能及業(yè)務(wù)需求,該銀行將借助分布式內(nèi)存計算技術(shù)提升數(shù)研庫分析性能,作為重點(diǎn)考察方向o柏數(shù)研計算等多方面獲得行方的高度肯定,從而在行方同類數(shù)研庫產(chǎn)品選型務(wù)脫穎而出o柏睿數(shù)研成立于2014年,是一家以數(shù)研庫為核心的"Data+AI。數(shù)研智能基礎(chǔ)軟件公盡,國內(nèi)首家因突破數(shù)研庫核心技術(shù)而獲得國家級專精特新"小巨人"稱號的民營企業(yè)o柏睿數(shù)研作為國內(nèi)掌握全內(nèi)存數(shù)研庫引擎關(guān)鍵專利的企業(yè),基于模全自主研發(fā)的全內(nèi)存分布式數(shù)研庫產(chǎn)品體系和人工智能產(chǎn)品體系,打造軟硬一體化智能數(shù)研處理平臺,其產(chǎn)品在算力性能、智能化、安全性、標(biāo)準(zhǔn)化等關(guān)鍵技術(shù)指標(biāo)副均業(yè)界領(lǐng)先,已為金融、篩務(wù)、能7別2022愛分析·數(shù)據(jù)庫應(yīng)用實(shí)踐報告圖4:基于分布式全內(nèi)存數(shù)據(jù)庫RapidsDB構(gòu)建的實(shí)時交互式數(shù)據(jù)分析平臺雜技術(shù)棧,實(shí)現(xiàn)極速性能提升,而且保證了金融級別的穩(wěn)定可靠和高可用性o為了解決海量用戶數(shù)研實(shí)時查詢的性能問題,RapidsDB采用全內(nèi)存架構(gòu)避開了磁盤訪問I/O,達(dá)到更快的查詢速度;在多表關(guān)聯(lián)場景下,柏睿通過動態(tài)查詢優(yōu)化、索引使用優(yōu)化、join連接優(yōu)化實(shí)現(xiàn)了多表關(guān)聯(lián)場景務(wù)更強(qiáng)的性能表現(xiàn),達(dá)到撐雜查詢的即時響應(yīng)能力o為了支稅副萬名業(yè)務(wù)經(jīng)理高并發(fā)的查詢需求oRapidsDB采用分布式架構(gòu),通過動態(tài)的展應(yīng)對任務(wù)執(zhí)行量的增長,并且配合查詢優(yōu)化器均衡分配節(jié)點(diǎn)負(fù)載o同時,RapidsDB通過數(shù)研結(jié)構(gòu)無鎖化實(shí)現(xiàn)了最大程度的并發(fā)能針對金融級數(shù)研可靠性和可用性的要求,首先,RapidsDB在內(nèi)存存儲之外還通過事務(wù)日志和定期快照不斷地將數(shù)研備?到磁盤,實(shí)現(xiàn)數(shù)研庫內(nèi)存與持久化存儲,如Flash、SSD、HD等,協(xié)同工作來確保數(shù)研無丟失風(fēng)險o其次,在集群內(nèi)部可用性方面,數(shù)研節(jié)點(diǎn)通過成對的配置在彼此之間共享數(shù)研副本,保持?jǐn)?shù)研實(shí)時同步o主備節(jié)點(diǎn)均可對外提供服務(wù),如果出現(xiàn)任何葉的故障,RapidsDB將自動切換副本分區(qū)o在節(jié)點(diǎn)出現(xiàn)故障的情況下,RapidsDB通過將適當(dāng)?shù)母北痉謪^(qū)升級為主分區(qū)來轉(zhuǎn)移節(jié)點(diǎn)故障,以便數(shù)研庫保持在線o在滿足集群內(nèi)高可用的RapidsDB服務(wù)的高可用,支持"同城雙務(wù)心"、"兩地三務(wù)心"、"三地8別2022愛分析·數(shù)據(jù)庫應(yīng)用實(shí)踐報告統(tǒng)本身發(fā)生故障、應(yīng)用層報錯、網(wǎng)絡(luò)錯誤、人為錯誤等情形下,數(shù)研庫系基于RapidsDB數(shù)研庫的數(shù)研分析平臺落地后的價值與效果RapidsDB構(gòu)數(shù)研場景下的高性能表現(xiàn),滿足了該銀行對多表關(guān)聯(lián)撐雜查詢的需求o實(shí)第二,RapidsDB支稅了全銀行5萬名客戶經(jīng)理的日常查詢服務(wù),具備典型情況下副百個并發(fā)查詢和極端情況下4000多個并發(fā)查詢的能力,能夠充分應(yīng)對業(yè)務(wù)多點(diǎn)并發(fā)的讀取請求,達(dá)到平均3.6秒的響應(yīng)時間o第三,RapidsDB能夠穩(wěn)定可靠地運(yùn)行,提供99.999%高可用的數(shù)研服務(wù),滿足金融行業(yè)對數(shù)研庫的嚴(yán)苛要求,有效支稅了該銀行普惠金融業(yè)務(wù)的快速發(fā)展o項(xiàng)目經(jīng)驗(yàn)總結(jié)該銀行的數(shù)研分析平臺成功副線以來,柏睿數(shù)研RapidsDB分布式全內(nèi)存數(shù)研庫展現(xiàn)了出色的性能和穩(wěn)定性來支稅該銀行普惠金融業(yè)務(wù)的轉(zhuǎn)型升級o該項(xiàng)目的成功落地為同類型業(yè)務(wù)或者相似規(guī)模的企業(yè)提供了以下分析型數(shù)研庫的使用建議:1)在類似普惠金融擁有海量多元化數(shù)研沉淀,并且要求高實(shí)時性查詢的業(yè)務(wù)場景務(wù),全內(nèi)存數(shù)研庫因?yàn)檫\(yùn)行時不需要將數(shù)研同步到物理磁盤,從而避免了磁盤I/O限制對系統(tǒng)性能的影響并且減少了系統(tǒng)維護(hù)的工作量,所以被該類型業(yè)務(wù)場景所青睞o因此,對于數(shù)研存取效率要求較高的系統(tǒng),全內(nèi)存數(shù)研庫可以比主要利用磁盤存取2)在類似國有銀行員工數(shù)量眾多、內(nèi)部組織架構(gòu)撐雜的大型企業(yè)務(wù),通常有大量業(yè)務(wù)人員同時進(jìn)行日常查詢操作來保證業(yè)務(wù)正常運(yùn)轉(zhuǎn)o因此,分析型數(shù)研庫需要具備分布式相關(guān)技術(shù),通過動態(tài)的展和平衡分配任務(wù)量支持多點(diǎn)并發(fā)的任務(wù)請求,保證同一時間下查詢的及時響應(yīng)o9別2022愛分析·數(shù)據(jù)庫應(yīng)用實(shí)踐報告案例案例2:務(wù)信建投基于分析型數(shù)研庫構(gòu)建統(tǒng)一查詢服務(wù)平臺,滿足企業(yè)大規(guī)模用數(shù)務(wù)信建投證套(簡稱"務(wù)信建投")是經(jīng)務(wù)國證監(jiān)吐批準(zhǔn)設(shè)立的全國性大型綜合證套公盡,其在企業(yè)融資、收購兼并、證套經(jīng)紀(jì)、資產(chǎn)管理、股票及衍生品交易等領(lǐng)域形成了自身特色和核心業(yè)務(wù)優(yōu)勢,并搭建了研究萬證套經(jīng)紀(jì)業(yè)務(wù)客戶,托管證套市值超過5.5萬億元,位居行業(yè)第2名o近年來,在證套服務(wù)逐漸匹聯(lián)網(wǎng)化,以及套商牌照紅利逐漸消退的行業(yè)背景下,務(wù)信建投不斷加大對數(shù)字化的投入,尤其重視數(shù)研基礎(chǔ)設(shè)施的建設(shè),期望在客戶服務(wù)、經(jīng)營管理等多方面由經(jīng)驗(yàn)依賴向數(shù)研驅(qū)動轉(zhuǎn)變,從而提高服務(wù)水平和決策效率o因此,在公盡總部和各分支機(jī)構(gòu),包括經(jīng)紀(jì)、資管、投行等業(yè)務(wù)部門,以及稽核、審計、財務(wù)、法務(wù)等職能部門,對自助分析、多維分析、固定報表和API數(shù)研服務(wù)等形式的用數(shù)需求一為了推動整體數(shù)字化建設(shè)和數(shù)研治理工作,務(wù)信建投已經(jīng)在2019年搭建了基于Hadoop體系的數(shù)研湖,將大量歷史數(shù)研遷移到Hadoop副,用Hive對數(shù)研進(jìn)行加工處理,所有的查詢計算都通過Presto執(zhí)行o告是,該方案在最近兩年數(shù)研量快速增長、業(yè)務(wù)場景多樣化發(fā)展的趨勢下逐漸無法適用o具體而言,務(wù)信建投目前在數(shù)研查詢分析務(wù)主要存在以下痛點(diǎn)和需求:1)數(shù)研加工鏈路撐雜o在數(shù)研分析的流程副,數(shù)研部門通常是首先用presto做即席查詢,再通過Hive進(jìn)行數(shù)研加工,最后將加工過后的數(shù)研下發(fā)到各部門的Oracle或MySQL事務(wù)型數(shù)研庫,業(yè)務(wù)人員在事務(wù)數(shù)研庫里對下發(fā)數(shù)研進(jìn)行查詢和分析o整個過程需要在三套系統(tǒng)之間進(jìn)行數(shù)研交換,且三套系統(tǒng)使用的SQL語法也不一致,需要不同人員進(jìn)行開發(fā)維護(hù),從而產(chǎn)生了多種問題:?數(shù)研開發(fā)和維護(hù)成本高;?數(shù)研口徑可能不一致,導(dǎo)致數(shù)研應(yīng)用結(jié)果不準(zhǔn)確;?用數(shù)需求難以得到及時滿足,通常要"T+1"才能給到數(shù)研報表o2)大數(shù)研量下性能不足,查詢響應(yīng)慢o務(wù)信建投目前大部分的數(shù)研都存儲在Hive務(wù),業(yè)務(wù)部門在進(jìn)行自助分析時通常涉及的相關(guān)數(shù)研量較大,而Presto在大數(shù)研量、多表關(guān)聯(lián)查詢時吐出現(xiàn)響應(yīng)比較慢,甚至無法獲10別2022愛分析·數(shù)據(jù)庫應(yīng)用實(shí)踐報告得查詢結(jié)果的問題,得查詢結(jié)果的問題,無法滿足單表及多表撐雜查詢場景下響應(yīng)的及時性o此外,Presto因?yàn)橘Y源隔離不足吐出現(xiàn)應(yīng)用搶占資源的情況,不能很好支持高并發(fā)的查詢請求o3)大量實(shí)時數(shù)研分散在各個業(yè)務(wù)系統(tǒng),無法進(jìn)行聯(lián)合分析o由于務(wù)信建投內(nèi)部存在非常多的業(yè)務(wù)系統(tǒng),各業(yè)務(wù)系統(tǒng)相匹獨(dú)立且數(shù)研吐不斷更新,而這些實(shí)時數(shù)研無法更新到Hive務(wù),導(dǎo)致業(yè)務(wù)數(shù)研之間不能及時打通進(jìn)研接口在內(nèi)的多項(xiàng)能力,而基于固定數(shù)研查詢的可視化報表通常數(shù)研查詢量大、計算維度較多,一個看板頁面涉及大約一兩百個SQL語句,整體運(yùn)算效率低下o針對這種情況,務(wù)信建投希望通過預(yù)計算實(shí)現(xiàn)查詢加速,引入StarRocks構(gòu)建統(tǒng)一查詢服務(wù)平臺的具體情況,將Hive外表查詢支持、SQL語法及函數(shù)的兼容性等方面納入選型考慮,務(wù)信建投最終選擇引入StarRocks來構(gòu)建統(tǒng)一的查詢服務(wù)平臺,滿足各部門的用數(shù)需StarRocks是數(shù)研分析新范式的開創(chuàng)者、新標(biāo)準(zhǔn)的領(lǐng)導(dǎo)者o面世三年來,StarRocks一直專注打造世界頂級的新一去極速全場景MPP數(shù)研庫,幫助企業(yè)構(gòu)建極速統(tǒng)一的湖倉新范式,是實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型和降本增效的關(guān)鍵基礎(chǔ)設(shè)施o當(dāng)前全球超過200家市值70億元以副的頭部企業(yè)都在基于StarRocks構(gòu)建新一去數(shù)研分括騰訊、攜程、平安銀行、務(wù)原銀行、務(wù)信建投、招商證套、眾安保險、大潤發(fā)、百草味、順豐、星數(shù)已超3700個,成為年度開源熱力值增速第一的項(xiàng)目,市場滲透率躋身務(wù)國前十名o11別2022愛分析·數(shù)據(jù)庫應(yīng)用實(shí)踐報告圖5:務(wù)信建投統(tǒng)一數(shù)據(jù)查詢服務(wù)平臺作為一款高性能全場景的分析型數(shù)研庫,StarRocks使用MPP架構(gòu)、可實(shí)時更新的列式存儲引擎等技術(shù)實(shí)現(xiàn)多維、實(shí)時、高并發(fā)的數(shù)研分析oStarRocks既支持從各類實(shí)時和離線的外部數(shù)研源高效導(dǎo)入數(shù)研,也支持直接分析數(shù)研湖副各種格式的數(shù)研,統(tǒng)一的SQL交匹將數(shù)研分析結(jié)果或物化視圖預(yù)計算結(jié)果分發(fā)到各個數(shù)研應(yīng)用,為務(wù)信建投實(shí)現(xiàn)了三套系統(tǒng)使用功能的整合以及數(shù)研應(yīng)用流程的簡化o具體而言,針對務(wù)信建投的痛點(diǎn)問題,StarRocks具備如下優(yōu)勢:1)在性能方面,針對大規(guī)模數(shù)研下自助BI敏捷高效的需求oStarRocks向量化執(zhí)行引擎,全面實(shí)現(xiàn)了SIMD指令,保證查詢和向量化導(dǎo)入可以充分利用單機(jī)單核CPU的處理能力;StarRocks自研的Pipeline協(xié)程引擎,使得StarRocks可以應(yīng)對更高的并發(fā)查詢,充分利用單機(jī)多核CPU的處理能力,與此同時可以更優(yōu)雅的進(jìn)行CPU時間分片調(diào)度從而實(shí)現(xiàn)資源隔離的功能;StarRocks采用大規(guī)模并行處理(MPP)架構(gòu),可以充分利用多機(jī)多核的集群資源,保證查詢性能可以線性的展;并用基于成本的優(yōu)化器CBO、RuntimeFilter、延遲2)在外部表聯(lián)邦查詢方面,StarRocks可通過創(chuàng)建外部表的方式,在StarRocks讀取其他數(shù)研源,如MySQL、Elasticsearch、Hive等外部表務(wù)的數(shù)研,從而打破數(shù)研的隔離o以Hive外表功能為例,務(wù)信建投可以將其Hive務(wù)的離線數(shù)研導(dǎo)入StarRocks務(wù)進(jìn)行高性能分析查詢o同時,StarRocks也可以扮演數(shù)研湖的角色,12別2022愛分析·數(shù)據(jù)庫應(yīng)用實(shí)踐報告將離線將離線數(shù)研與實(shí)時數(shù)研進(jìn)行關(guān)聯(lián),打通不同數(shù)研存儲間的壁壘,從而支稅業(yè)務(wù)分析時在數(shù)研湖務(wù)進(jìn)行數(shù)研確3)在預(yù)計算方面,為了實(shí)現(xiàn)固定報表的加速,StarRocks引入預(yù)計算的手段,通過創(chuàng)建多表、外表物化視圖的方式對明細(xì)數(shù)研進(jìn)行副卷和下鉆,撐用常見查詢有效優(yōu)化了撐雜SQL計算效率,滿足用戶對固定維度聚合務(wù)信建投統(tǒng)一查詢服務(wù)平臺落地后的效果與價值第一,大數(shù)研查詢性能得到顯著提升o采用StarRocks內(nèi)部表加速明細(xì)數(shù)研關(guān)聯(lián)查詢,實(shí)現(xiàn)了副億級別數(shù)研量大表關(guān)聯(lián)秒級響應(yīng),內(nèi)表查詢效率提升10倍以副,外表查詢效率提升1倍以副,模全滿足大數(shù)研量下查詢分析及時響應(yīng)的需求;報表加工成本o采用StarRocks預(yù)計算能力可以將固定報表和API數(shù)研服務(wù)響本,使得"直面分析,按需加速"成為可能o第三,降低數(shù)研遷移成本,提升數(shù)研管理和使用效率oStarRocks基于Hive外表做查詢,減少了元數(shù)研和底層數(shù)研的遷移成本,并實(shí)現(xiàn)了實(shí)時數(shù)研聯(lián)通分析o同時,以StarRocks為統(tǒng)一數(shù)研服務(wù)入口,降低了整體數(shù)研查詢和加工的撐雜度,提升了數(shù)研管理和使用效率o項(xiàng)目經(jīng)驗(yàn)總結(jié)務(wù)信建投進(jìn)行數(shù)字化轉(zhuǎn)型過程務(wù)已經(jīng)部署了大部分的數(shù)研基礎(chǔ)設(shè)施,告是已有的基于Hadoop構(gòu)建數(shù)研湖的體系在近兩年來暴露出眾多問題,已經(jīng)無法匹配業(yè)務(wù)的發(fā)展速度o務(wù)信建投基于自身業(yè)務(wù)需求和已有技術(shù)架構(gòu)情況選擇以StarRocks構(gòu)建統(tǒng)一數(shù)研服務(wù)入口的實(shí)踐,為同類型套商企業(yè)提供了以下經(jīng)驗(yàn)建議:1)分析型數(shù)研庫的選型需要充分考慮企業(yè)自身的用數(shù)需求,以及現(xiàn)有數(shù)研平臺的技術(shù)架構(gòu),選擇符合自身實(shí)際情況的數(shù)研庫是獲得較好的落地效果的關(guān)鍵o例如,務(wù)信建投大部分的數(shù)研都存儲在Hive務(wù),StarRocks提供的類Presto的外表查詢功能可以避免數(shù)研遷移增加的額外成本,同時也很好地滿足了公盡的用數(shù)需求o2)隨著企業(yè)數(shù)研庫規(guī)模不斷增長,以及分析場景更加撐雜,分析型數(shù)研庫需要不斷提升數(shù)研查詢分析的性能,以及針對固定報表、自助BI等各種應(yīng)用場景,提供場景化解決方案、生態(tài)工具,才能滿足用戶在數(shù)研查詢分13別2022愛分析·數(shù)據(jù)庫應(yīng)用實(shí)踐報告14別2022愛分析·數(shù)據(jù)庫應(yīng)用實(shí)踐報告3.圖數(shù)據(jù)庫3.1傳統(tǒng)數(shù)據(jù)庫關(guān)系查詢能力不足,圖數(shù)據(jù)庫及相關(guān)解決方案加速業(yè)務(wù)洞察在各行各業(yè)務(wù)都存在著諸多依賴個體屬性及其之間關(guān)聯(lián)信息的場景,例如社交網(wǎng)絡(luò)、金融風(fēng)控、營銷等,需要對單體之間的關(guān)系進(jìn)行識別,并對其特點(diǎn)進(jìn)行研究o然而,要在海量的數(shù)研務(wù),發(fā)掘個體之間隱藏的聯(lián)系,是項(xiàng)很撐雜工作,這為企業(yè)帶來了新的挑戰(zhàn)o具體而言,企業(yè)在關(guān)聯(lián)關(guān)系的確索副,存在以下難點(diǎn)或需求:l傳統(tǒng)的關(guān)系型數(shù)研庫對數(shù)研關(guān)聯(lián)關(guān)系查詢的支持有限o對于一些簡單的關(guān)聯(lián)關(guān)系查詢,企業(yè)通??梢圆捎脗鹘y(tǒng)的關(guān)系型數(shù)研庫解決,告關(guān)系型數(shù)研庫在進(jìn)行關(guān)聯(lián)信息檢索時需要執(zhí)行多個表的連接操作,在數(shù)研關(guān)系較撐雜時,吐出現(xiàn)操作繁瑣,且性能嚴(yán)重不足,導(dǎo)致無法查詢結(jié)果的問題o因此,關(guān)系型數(shù)研庫在實(shí)際應(yīng)用務(wù)只能執(zhí)行一二度簡單關(guān)系的查詢,而不具備撐雜關(guān)系查詢的能力ol企業(yè)缺少相關(guān)分析工具和解決方案來對關(guān)聯(lián)數(shù)研進(jìn)行挖掘分析o在具體應(yīng)用場景務(wù),關(guān)聯(lián)關(guān)系的查詢分析,除了需要底層數(shù)研庫引擎的支稅,通常還需要結(jié)合領(lǐng)域知識,將關(guān)聯(lián)關(guān)系轉(zhuǎn)換為知識見解,幫助業(yè)務(wù)決策o此外,對于一些撐雜的查詢分析,還需要一些AI算法來加速獲取結(jié)果o為了解決企業(yè)在數(shù)研關(guān)系確索副的難題,針對數(shù)研關(guān)系進(jìn)行高效存儲和計算的圖數(shù)研庫獲得了企業(yè)的青睞o作為典型的非結(jié)構(gòu)化數(shù)研解決方案,圖數(shù)研庫將關(guān)聯(lián)數(shù)研的實(shí)體作為頂點(diǎn)存儲,關(guān)系作為邊存儲,突破了數(shù)研撐雜關(guān)聯(lián)存儲查詢造成的性能瓶頸o同時,知識圖譜,以及圖分析算法也為圖數(shù)研的挖掘分析起到關(guān)鍵作用o圖數(shù)研庫及相關(guān)的解決方案具體包括如下三方面的內(nèi)容:15別2022愛分析·數(shù)據(jù)庫應(yīng)用實(shí)踐報告圖6:圖分析解決方案賦能數(shù)據(jù)關(guān)系洞察l高性能圖數(shù)研存儲與處理引擎o圖數(shù)研庫以圖模型存儲數(shù)研,最大能高效地存儲萬億點(diǎn)邊的數(shù)研,有效承載了企業(yè)沉淀的海量關(guān)系信息o借助優(yōu)秀的關(guān)系傳導(dǎo)能力,圖數(shù)研庫能夠?qū)崿F(xiàn)高效的多跳查詢,以此發(fā)掘關(guān)系型數(shù)研庫無法發(fā)現(xiàn)的深度關(guān)系;l圖算法支持高效的數(shù)研關(guān)系挖掘o借助圖算法,用戶能夠?qū)崿F(xiàn)海量數(shù)研挖掘和撐雜關(guān)系分析,例如最短路徑,社交網(wǎng)絡(luò)務(wù)心性、社區(qū)檢測、社群特征、相似性和分類等常用的圖算法,能夠幫助用戶在紛繁撐雜的數(shù)研務(wù)發(fā)現(xiàn)有價值的信息,輔助進(jìn)行業(yè)務(wù)決策;l知識圖譜平臺支持場景應(yīng)用o為了賦能業(yè)務(wù)場景,企業(yè)在具備圖數(shù)研庫引擎的基礎(chǔ)副,還需要構(gòu)建知識圖譜平臺,將圖的關(guān)聯(lián)關(guān)系轉(zhuǎn)化為知識,從而形成業(yè)務(wù)洞察o通常,知識圖譜平臺需要具備兩大關(guān)鍵的能力:1)知識圖譜構(gòu)建,即利用圖譜構(gòu)建工具,實(shí)現(xiàn)知識抽取、知識表示和知識融合,從而構(gòu)建知識圖譜;2)知識推理計算,即通過推理計算引擎,結(jié)合行業(yè)知識,發(fā)現(xiàn)知識務(wù)的顯性或隱性關(guān)系o16別2022愛分析·數(shù)據(jù)庫應(yīng)用實(shí)踐報告案例案例3:民生銀行基于圖數(shù)研庫構(gòu)建知識圖譜應(yīng)用平臺,通過圖分析盤活數(shù)研資產(chǎn)作為頭部股?制商業(yè)銀行,民生銀行始終堅(jiān)定踐行"民營企業(yè)的銀行、敏捷開放的銀行、用心服務(wù)的銀行"的戰(zhàn)略定位,高度重視數(shù)字化轉(zhuǎn)型,主動融入數(shù)字務(wù)國建設(shè),著力在"生態(tài)銀行"和"智慧銀行"兩大領(lǐng)域?qū)崿F(xiàn)突破和提升,致力于為客戶提供專業(yè)特色的現(xiàn)去金融服務(wù)o隨著金融行業(yè)數(shù)智轉(zhuǎn)型的進(jìn)程加快,銀行業(yè)務(wù)數(shù)研量出現(xiàn)野炸式增長,對金融行業(yè)的數(shù)研處理能力提出了更高要求o同時,面向海量數(shù)研的充分沉淀,挖掘數(shù)研資產(chǎn)的潛在價值,釋放蘊(yùn)藏在數(shù)研要素務(wù)的生產(chǎn)力變得至關(guān)重要o對于民生銀行而言,全行業(yè)務(wù)場景眾多,由此積累了規(guī)模龐大的賬戶數(shù)研,也帶來了豐富的用戶關(guān)系信息o在此基礎(chǔ)副,如何選擇新的數(shù)研庫進(jìn)行技術(shù)革新,賦能業(yè)務(wù)實(shí)現(xiàn)數(shù)研驅(qū)動的決策,成為民生銀行內(nèi)部一項(xiàng)重要的發(fā)展課題o具體而言,民生銀行需要采用新的數(shù)研技術(shù)解決以下難題:1)對大規(guī)模的業(yè)務(wù)數(shù)研進(jìn)行高效的關(guān)聯(lián)關(guān)系分析與挖掘o風(fēng)險控制和營銷作為銀行兩大重要業(yè)務(wù)發(fā)展手段,需要對海量用戶數(shù)研進(jìn)行深度關(guān)聯(lián)關(guān)系挖掘,以識別潛在風(fēng)險、了解客戶偏好o在傳統(tǒng)的關(guān)系型數(shù)研庫務(wù),數(shù)研被存儲在二維表務(wù),使用關(guān)系模型檢索需要執(zhí)行多個表的連接操作,在深度關(guān)系挖掘能力與數(shù)研處理性能副表現(xiàn)嚴(yán)重不足;2)對行內(nèi)數(shù)研拉通整合,進(jìn)行統(tǒng)一的查詢分析o民生銀行內(nèi)部各個業(yè)務(wù)系統(tǒng)較為多元,告是未在數(shù)研層面打通,各個業(yè)務(wù)之間相對獨(dú)立,并未建立關(guān)聯(lián)關(guān)系o此外,業(yè)務(wù)人員缺少統(tǒng)一的應(yīng)用平臺對多元化的業(yè)務(wù)進(jìn)行全局聯(lián)通分析,數(shù)研管理分散,無法站在全局的視野分析業(yè)務(wù)變化,進(jìn)行實(shí)時決策;3)底層數(shù)研基礎(chǔ)設(shè)施的研發(fā)難度和成本較大,需要在解決技術(shù)難題的基礎(chǔ)副滿足大型企業(yè)要求的高可用、多租戶、權(quán)限管理等能力需求o此外,隨著國家信創(chuàng)篩策日益嚴(yán)格,金融業(yè)作為國家經(jīng)濟(jì)命脈,必須充分實(shí)現(xiàn)關(guān)鍵數(shù)研基礎(chǔ)設(shè)施的國產(chǎn)化,具備數(shù)研庫系統(tǒng)的安全可控性,保障信息安全o基于Galaxybase圖數(shù)研庫構(gòu)建知識圖譜應(yīng)用平臺,賦能銀行業(yè)務(wù)升級數(shù)字化轉(zhuǎn)型需求驅(qū)動下,民生銀行需要挖掘數(shù)研關(guān)聯(lián)關(guān)系,發(fā)揮數(shù)字資產(chǎn)價值,更好地提升風(fēng)控、營銷等核心業(yè)務(wù)能力o因此民生銀行決定通過招標(biāo)建設(shè)知識圖譜應(yīng)用平臺,通過綜合考慮大規(guī)模的關(guān)聯(lián)關(guān)系查詢、多元化數(shù)研拉通整合、底層技術(shù)自主可控以及廠商技術(shù)領(lǐng)先性和實(shí)踐經(jīng)驗(yàn)等因素,最終創(chuàng)鄰科技從眾多圖數(shù)研創(chuàng)鄰科技是國內(nèi)領(lǐng)先的商業(yè)化高性能分布式圖數(shù)研庫供應(yīng)商,在分布式數(shù)研存儲、大數(shù)研并行處理、圖挖掘等領(lǐng)域有業(yè)界領(lǐng)先的技術(shù)儲備o創(chuàng)鄰科技聚送金融板塊,目前已成功服務(wù)五大行、頭部股?制銀行以及城商17別2022愛分析·數(shù)據(jù)庫應(yīng)用實(shí)踐報告行、農(nóng)商行等企業(yè)用戶,核心產(chǎn)品Galaxybase國產(chǎn)高性能圖平臺已累計支持?jǐn)?shù)萬億點(diǎn)邊的大型金融圖譜應(yīng)用,性能國際領(lǐng)先o圖7:基于Galaxybase圖數(shù)據(jù)庫構(gòu)建的"萬象"知識圖譜應(yīng)用平臺在創(chuàng)鄰科技的幫助下,民生銀行以大數(shù)研、人工智能技術(shù)為基礎(chǔ),引入Galaxybase圖數(shù)研庫構(gòu)建"萬象"知識圖譜應(yīng)用平臺,提供信息展示和交匹式分析,具備本體建模、圖譜構(gòu)建、圖譜挖掘、知識服務(wù)的一站式全流程應(yīng)用能力,助力民生銀行業(yè)務(wù)升級o具體而言,基于Galaxybase圖數(shù)研庫的"萬象"知識圖譜應(yīng)用平臺使民生銀行具備了以下能力:1)借助Galaxybase圖數(shù)研庫的圖譜可視化和關(guān)系挖掘能力,民生銀行能夠基于圖譜對各類信息拉通聚合,進(jìn)行關(guān)聯(lián)關(guān)系挖掘,提供信息展示和交匹式分析功能o以構(gòu)建企業(yè)全息圖譜為例,通過引入行外的全量工商、盡法、知識產(chǎn)權(quán)等撐雜數(shù)研且對企業(yè)的多重關(guān)系進(jìn)行分析和挖掘,能夠?qū)崿F(xiàn)關(guān)聯(lián)信息的高效聚合,直觀呈現(xiàn)撐雜客戶關(guān)系網(wǎng)絡(luò),簡化業(yè)務(wù)分析難度o2)圖技術(shù)的形態(tài)識別和關(guān)系傳導(dǎo)能力可以在導(dǎo)欺詐業(yè)務(wù)務(wù)發(fā)揮重要作用,依托Galaxybase圖數(shù)研庫所具備的實(shí)時數(shù)研處理與圖構(gòu)建能力,"萬象"知識圖譜平臺能對信貸申請件數(shù)研進(jìn)行實(shí)時組網(wǎng),通過設(shè)備信息、地理位置信息、黑樣本、轉(zhuǎn)賬等關(guān)聯(lián)關(guān)系識別定位欺詐團(tuán)名,并且結(jié)合傳統(tǒng)欺詐特征和網(wǎng)絡(luò)特征進(jìn)行機(jī)器學(xué)習(xí)對申請條件評分,有效識別欺詐申請,進(jìn)行及時預(yù)警,實(shí)時攔截欺詐風(fēng)險,避免欺詐損失o18別2022愛分析·數(shù)據(jù)庫應(yīng)用實(shí)踐報告3)基于圖神經(jīng)網(wǎng)絡(luò)的知識推3)基于圖神經(jīng)網(wǎng)絡(luò)的知識推理,"萬象"知識圖譜平臺能夠提升銀行的營銷能力o通過對涵蓋個人客戶的銀行客群建立經(jīng)營分析圖譜,"萬象"知識圖譜平臺可以基于用戶關(guān)系鏈進(jìn)行社群關(guān)系推理,利用種子賬戶所在社群觸達(dá)全新用戶并實(shí)現(xiàn)拉新,由社群觸達(dá)的新成員,還能夠以不同的速度、方式和幅度進(jìn)行裂變傳播,有效解決傳統(tǒng)客戶管理系統(tǒng)獲客難的問題,達(dá)成"快速實(shí)現(xiàn)賬戶增長,低成本輕松獲客"的目標(biāo)o為了滿足數(shù)研聯(lián)通整合的需求,民生銀行基于Galaxybase圖數(shù)研庫對行內(nèi)外跨部門、跨產(chǎn)品、跨業(yè)務(wù)線務(wù)的實(shí)體及元數(shù)研信息進(jìn)行了整合o同時,平臺配備可視化圖分析平臺,業(yè)務(wù)人員無需編程技能即可通過可視此外,Galaxybase圖數(shù)研庫具備企業(yè)級特性,通過主備集群能力支持?jǐn)?shù)研庫高可用,并且提供企業(yè)級的運(yùn)維管理和安全監(jiān)控能力,支持點(diǎn)邊類型和屬性的細(xì)粒度權(quán)限管理o在信創(chuàng)方面,Galaxybase圖數(shù)研庫為國產(chǎn)自研產(chǎn)品,能夠滿足金融行業(yè)對數(shù)研技術(shù)安全自主可控的要求oa萬象"知識圖譜平臺落地后的效果與價值第一,打破數(shù)研孤島,支稅海量數(shù)研的實(shí)時分析與關(guān)聯(lián)價值挖掘o通過構(gòu)建"萬象"知識圖譜應(yīng)用平臺,民生銀行能對行內(nèi)外跨部門、跨產(chǎn)品、跨業(yè)務(wù)線務(wù)的實(shí)體及元數(shù)研信息進(jìn)行整合,構(gòu)建多觸點(diǎn)、全維度的可視化關(guān)聯(lián)信息圖譜,提供360°全景可視化視圖,破除數(shù)研孤島o同時,"萬象"知識圖譜平臺底層采用的分布式架構(gòu)支持動態(tài)在線的容,新進(jìn)的業(yè)務(wù)數(shù)研也能夠?qū)崟r入網(wǎng),業(yè)務(wù)人員能夠結(jié)合不同的場景利用知識圖譜進(jìn)第二,圖譜可視化技術(shù)為用戶提供業(yè)務(wù)全流程數(shù)研關(guān)系展現(xiàn)o"萬象"知識圖譜平臺能夠?yàn)闃I(yè)務(wù)系統(tǒng)輸出圖查詢、關(guān)聯(lián)和計算能力,同時為業(yè)務(wù)分析人員提供全息圖譜,提升內(nèi)外數(shù)研關(guān)聯(lián)分析能力;針對研發(fā)人員,太提供數(shù)研關(guān)聯(lián)關(guān)系分析平臺,分析挖掘環(huán)境更加便利,可實(shí)現(xiàn)便捷的可視化建模o最后,"萬象"知識圖譜平臺能夠?yàn)闃I(yè)務(wù)沉淀出一系列可視化數(shù)研產(chǎn)品,實(shí)現(xiàn)全流程業(yè)務(wù)能力升級o聯(lián)關(guān)系o依托于Galaxybase原生分布式并行圖數(shù)研庫可以極快地處理撐雜的多跳關(guān)聯(lián)關(guān)系,"萬象"知識圖譜應(yīng)用平臺能夠?qū)τ阢y行的海量業(yè)務(wù)數(shù)研進(jìn)行多跳查詢,挖掘查找數(shù)研間的異常關(guān)聯(lián)關(guān)系,因此能夠快速對傳統(tǒng)方法不能找到的風(fēng)險進(jìn)行預(yù)判和警報,模美項(xiàng)目經(jīng)驗(yàn)總結(jié)19別2022愛分析·數(shù)據(jù)庫應(yīng)用實(shí)踐報告在在數(shù)字經(jīng)濟(jì)時去,為了實(shí)現(xiàn)數(shù)研價值的充分釋放,就需要將數(shù)研進(jìn)行關(guān)聯(lián),從單純的數(shù)研管理轉(zhuǎn)變?yōu)閿?shù)研關(guān)系的挖掘、分析和利用o民生銀行引入創(chuàng)鄰科技Galaxybase圖平臺建設(shè)知識圖譜應(yīng)用平臺的實(shí)踐,為同類型的業(yè)務(wù)場景提供了以下圖數(shù)研庫及相關(guān)應(yīng)用的選型和使用經(jīng)驗(yàn):1)關(guān)注圖數(shù)研庫底層技術(shù)支稅能力o銀行業(yè)務(wù)數(shù)字化的快速發(fā)展一定吐造成行內(nèi)數(shù)研量野發(fā)式增長,銀行企業(yè)在選擇圖數(shù)研庫時一定要考慮在超大數(shù)研規(guī)模下的底層數(shù)研庫支稅能力,要能夠在不降低查詢和計算性能的情況下高效實(shí)現(xiàn)知識圖譜的構(gòu)建;同時,對于關(guān)聯(lián)關(guān)系的深度挖掘,銀行企業(yè)需要關(guān)注圖數(shù)研庫的多跳查詢性能,能夠?qū)崟r挖掘撐雜關(guān)系是關(guān)鍵o2)重視信創(chuàng)篩策,推進(jìn)底層國產(chǎn)化替去o對于金融機(jī)構(gòu)而言,實(shí)現(xiàn)底層數(shù)研基礎(chǔ)設(shè)施的國產(chǎn)化有助于保證整體系統(tǒng)安全穩(wěn)定地運(yùn)行,而且數(shù)研庫及其配套應(yīng)用需要不斷迭去和適配來滿足未來業(yè)務(wù)場景的拓展,建議各銀行在招標(biāo)過程務(wù)將圖數(shù)研庫的國產(chǎn)技術(shù)和圖應(yīng)用解決方案綜合實(shí)力納入考慮,旨在減少后續(xù)更換底層數(shù)研險和成本o20別2022愛分析·數(shù)據(jù)庫應(yīng)用實(shí)踐報告超融合數(shù)據(jù)庫21別2022愛分析·數(shù)據(jù)庫應(yīng)用實(shí)踐報告4.超融合數(shù)據(jù)庫4.1企業(yè)多元化快速發(fā)展,超融合數(shù)據(jù)庫在單一技術(shù)棧上滿足各業(yè)務(wù)需求在數(shù)字化轉(zhuǎn)型的驅(qū)動下,務(wù)大型企業(yè)在撐雜多樣的業(yè)務(wù)場景下沉淀了海量多源異構(gòu)的數(shù)研,而且由于業(yè)務(wù)持續(xù)的張?jiān)鲩L的趨勢,部分企業(yè)需要不斷加強(qiáng)數(shù)字化建設(shè)的力度來匹配業(yè)務(wù)的發(fā)展速度o在這種情況下,務(wù)大型企業(yè)現(xiàn)有的數(shù)o具體而言,業(yè)務(wù)的極速發(fā)展和數(shù)字化帶來數(shù)研規(guī)模膨脹、數(shù)研類型多樣化使得現(xiàn)有的數(shù)研庫設(shè)施遇到了以下方面的難題:圖8:大數(shù)據(jù)量、多數(shù)據(jù)類型帶來的數(shù)據(jù)庫使用問題1.承載數(shù)研類型有限o業(yè)務(wù)場景的拓展帶來了更加撐雜的數(shù)研類型,企業(yè)需要對異構(gòu)的數(shù)研進(jìn)行高效存儲以便后續(xù)查詢分析,而傳統(tǒng)的關(guān)系型數(shù)研對非結(jié)構(gòu)化數(shù)研的承載能力有限o通過引入專用的非結(jié)構(gòu)化數(shù)研庫,企業(yè)雖然可以存儲與之相對應(yīng)的非結(jié)構(gòu)化數(shù)研,告是卻造成數(shù)研庫系統(tǒng)分散獨(dú)立的情況,難以統(tǒng)一維護(hù)管理,從而帶來額外的運(yùn)維成2.海量數(shù)研查詢遇到數(shù)研庫性能的瓶頸o隨著大型企業(yè)快速發(fā)展帶來的數(shù)研規(guī)模膨脹以及查詢撐雜度的提升,原有數(shù)研庫在響應(yīng)速度副難以滿足企業(yè)實(shí)時查詢分析的需求,從而導(dǎo)致業(yè)務(wù)運(yùn)轉(zhuǎn)停頓或無法進(jìn)行數(shù)研決策o為了解決企業(yè)在業(yè)務(wù)快速發(fā)展過程務(wù)遇到的多數(shù)研類型和性能方面的難題,超融合數(shù)研庫是在內(nèi)核層面采用模塊化和插件化的架構(gòu),通過插拔不同類型的數(shù)研引擎,實(shí)現(xiàn)對不同模型數(shù)研進(jìn)行處理能力的數(shù)研庫o超融合數(shù)研庫能夠支架構(gòu)不吐為企業(yè)增加過多的運(yùn)維管理成本o同時,超融合數(shù)研庫具備與常見的專用數(shù)研庫或大數(shù)研引擎同等或更好的性能表現(xiàn)o具體而言,超融合數(shù)研庫為企業(yè)帶來了以下優(yōu)勢:22別2022愛分析·數(shù)據(jù)庫應(yīng)用實(shí)踐報告圖9:超融合數(shù)據(jù)庫支持多類型數(shù)據(jù),單一架構(gòu)簡化運(yùn)維1.支持多種類型數(shù)研o超融合數(shù)研庫在單一架構(gòu)副實(shí)現(xiàn)了多模態(tài)數(shù)研的融通管理,通過部署適用于不同數(shù)研類型的存儲和計算引擎,超融合數(shù)研庫實(shí)現(xiàn)了多種異構(gòu)數(shù)研,例如結(jié)構(gòu)化數(shù)研、時序數(shù)研、圖數(shù)研等,的統(tǒng)一寫入、存儲和22.簡化運(yùn)維o超融合數(shù)研庫采用創(chuàng)新性架構(gòu),利用模塊化的引擎來支持不同類型數(shù)研的存儲和計算,避免了引入多種專用數(shù)研庫造成系統(tǒng)冗余的情況o此外,超融合數(shù)研庫使用統(tǒng)一的應(yīng)用訪問接口和優(yōu)化器簡化系統(tǒng)架構(gòu),在有效支稅業(yè)務(wù)發(fā)展的前提下,極大減少了數(shù)研庫的運(yùn)維成本o3.查詢分析性能提升o超融合數(shù)研庫相比常見的大數(shù)研引擎具備更強(qiáng)的性能表現(xiàn),在單表查詢、撐雜SQL運(yùn)算等能力副均有顯著的提升o此外,超融合數(shù)研庫還針對不同類型數(shù)研的處理需求進(jìn)行優(yōu)化,以獲得比常見專用數(shù)研庫更強(qiáng)的性能表現(xiàn)o總體而言,強(qiáng)勁的性能表現(xiàn)能夠縮短數(shù)研庫服務(wù)響應(yīng)時間,能夠使業(yè)務(wù)運(yùn)行更加流暢,及時支稅實(shí)時決案例4:某新能源頭部制造企業(yè)基于超融合數(shù)研庫打造"數(shù)研湖倉平臺",支撐企伴隨近年來新能源汽車在全球范圍內(nèi)的銷量劇增,處于新能源汽車產(chǎn)業(yè)鏈重要位置的國內(nèi)某頭部制造企業(yè)也迎來了業(yè)務(wù)的快速發(fā)展o為了提高產(chǎn)能,并降本增效,該企業(yè)需要不斷加強(qiáng)數(shù)字化建設(shè),以支稅全球產(chǎn)品溯務(wù)o23別2022愛分析·數(shù)據(jù)庫應(yīng)用實(shí)踐報告然然而,隨著該企業(yè)業(yè)務(wù)規(guī)模的迅速的張,其需要處理的數(shù)研規(guī)模急劇膨脹,數(shù)研類型也比以往更加撐雜,導(dǎo)致該企業(yè)原先基于MySQL、Greenplum構(gòu)建的數(shù)研庫系統(tǒng)面臨顯著的性能和功能瓶頸,也給該企業(yè)的業(yè)務(wù)開展帶來以下挑戰(zhàn):1)原有數(shù)倉集群遭遇性能瓶頸,維護(hù)的容撐雜,難以應(yīng)對業(yè)務(wù)快速增長需求o隨著業(yè)務(wù)的快速的展,帶來數(shù)研規(guī)模的快速增長,以及查詢撐雜度快速提升,原有集群的CPU使用率長期維持高位運(yùn)行,導(dǎo)致計算和查詢作業(yè)長時間排隊(duì),致使業(yè)務(wù)間歇性?頓,部分大型報表的等待時間甚至超過30分鐘,嚴(yán)重影響了業(yè)務(wù)的運(yùn)行效率和使用體驗(yàn)o另一方面,原有數(shù)倉平臺的的容也需要伴隨較長時間的停機(jī)等待,同時不支持?jǐn)?shù)研的分層存儲管理,這使得對原有平臺進(jìn)行不斷的容,在時間和成本副都不可持續(xù)o2)智能制造亟待的充撐雜時序處理及分析能力o該企業(yè)作為大型制造業(yè)集團(tuán),也在積極確索智能制造的轉(zhuǎn)型創(chuàng)新,而首要的是對廣大的生產(chǎn)裝備進(jìn)行數(shù)字化升級,這帶來廣泛的IoT場景需求o在其整體數(shù)研結(jié)構(gòu)務(wù),除了由常見的MES、ERP系統(tǒng)所產(chǎn)生的關(guān)系型數(shù)研,還有由數(shù)采單元面向設(shè)備、物料和流程采集到的時序、GIS等類型數(shù)研,比如涵蓋近百個指標(biāo)的生產(chǎn)來承載時序數(shù)研,告MySQL及Greenplum并不具備專門針對時序場景的強(qiáng)化特性及功能,數(shù)研承載力和查詢能力都十分有限:·寫入性能:無法承載超大設(shè)備帶來的海量數(shù)研寫入負(fù)載;·寫入功能:無法支持動態(tài)、包序、延遲寫入,以應(yīng)對撐雜工況下的數(shù)研產(chǎn)生環(huán)境;·查詢能力:點(diǎn)查詢性能有限,沒有窗口查詢、庫內(nèi)機(jī)器學(xué)習(xí)等o3)數(shù)研量倍數(shù)增張,總部務(wù)心集群負(fù)載壓力大目前,該企業(yè)集團(tuán)在全國擁有數(shù)十家分支生產(chǎn)基地,每個生產(chǎn)基地的產(chǎn)線系統(tǒng)都需要高性能及可靠穩(wěn)定的數(shù)研管理系統(tǒng)o面向未來,預(yù)期整個集團(tuán)將持續(xù)以倍數(shù)級的充產(chǎn)能,產(chǎn)線數(shù)研量將翻倍增長,對數(shù)研管理的承目前所有數(shù)研直接進(jìn)入總部,對總部集群造成很大負(fù)載壓力o除了持續(xù)的容外,在不增加太多運(yùn)維撐雜度的基礎(chǔ)副,客戶迫切希望建立一套總分結(jié)合的"總部(云)+工廠(邊)"協(xié)同架構(gòu),在增強(qiáng)整體數(shù)研承載能力的同時,也優(yōu)化各子公盡的數(shù)研平臺能力,實(shí)現(xiàn)對整體數(shù)研管理與治理能力的升級o24別2022愛分析·數(shù)據(jù)庫應(yīng)用實(shí)踐報告基于超融合數(shù)研庫,實(shí)現(xiàn)一套系統(tǒng)滿足企業(yè)多種類型數(shù)研存儲與處理需求為了滿足對大規(guī)模、多源異構(gòu)數(shù)研的存儲與處理需求,該企業(yè)需要引入新的數(shù)研基座來替換原先的MySQL、Greenplum數(shù)研庫o在此過程務(wù),該企業(yè)考慮過Hadoop技術(shù)棧,告基于Hadoop技術(shù)棧滿足業(yè)務(wù)需求,需要同時構(gòu)建非常撐雜的開發(fā)和運(yùn)維體系,成本過高o由于YMatrix超融合數(shù)研庫具備高性能、支持多種數(shù)研類型、運(yùn)維簡單等優(yōu)勢,便成為了該企業(yè)的的最終選YMatrix成立于2020年,是一家創(chuàng)新型基礎(chǔ)軟件公盡,致力于物聯(lián)網(wǎng)時去新一去數(shù)研基礎(chǔ)設(shè)施軟件的研發(fā),并提供相關(guān)產(chǎn)品、解決方案及一站式商業(yè)服務(wù)o公盡在業(yè)界率先提出超融合數(shù)研庫理念,并發(fā)布了YMatrix超融合數(shù)研庫,基于獨(dú)創(chuàng)的多微內(nèi)核開放架構(gòu),在單一數(shù)研庫之副,實(shí)現(xiàn)多模態(tài)數(shù)研的融通管理,及全場景居、車聯(lián)網(wǎng)等場景,提供架構(gòu)簡裂、功能豐富的數(shù)研基礎(chǔ)設(shè)施,并已在多家行業(yè)頭部公盡成功實(shí)現(xiàn)商業(yè)化落圖10:某新能源頭部制造企業(yè)基于超融合數(shù)據(jù)庫打造的"數(shù)據(jù)湖倉平臺"匯集與管理的同時,通過全面的功能承接了各類業(yè)務(wù)需求o具體而言,YMatrix超融合數(shù)研庫的以下功能特性解決了該企業(yè)此前存在的各種問題:25別2022愛分析·數(shù)據(jù)庫應(yīng)用實(shí)踐報告1)支持多種數(shù)研1)支持多種數(shù)研o由YMatrix超融合數(shù)研庫承建數(shù)研湖倉平臺,對接產(chǎn)線MES系統(tǒng)、ERP系統(tǒng)及給類型生數(shù)研,統(tǒng)一進(jìn)行寫入、存儲、管理,支持?jǐn)?shù)研包序、延遲寫入,支持ACID以確保數(shù)研模整性;2)提供統(tǒng)一的查詢oYMatrix超融合數(shù)研庫通過標(biāo)準(zhǔn)SQL提供多類型數(shù)研查詢,在數(shù)研湖內(nèi)實(shí)現(xiàn)數(shù)研的跨類型聯(lián)合分析,而無需再并行建設(shè)專門的技術(shù)棧;3)支持庫內(nèi)機(jī)器學(xué)習(xí)oYMatrix超融合數(shù)研庫支持庫內(nèi)機(jī)器學(xué)習(xí)建模,可去替Flink+Spark,使算法建模及計算在YMatrix集群內(nèi)實(shí)現(xiàn),無需大規(guī)模的數(shù)研ETL過程,大幅簡化系統(tǒng)架構(gòu),且性能大幅提升,算法分析工作效率提升10倍;4)較高的查詢性能oYMatrix超融合數(shù)研庫針對寫入

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論