數(shù)據(jù)倉庫建設(shè)需求_第1頁
數(shù)據(jù)倉庫建設(shè)需求_第2頁
數(shù)據(jù)倉庫建設(shè)需求_第3頁
數(shù)據(jù)倉庫建設(shè)需求_第4頁
數(shù)據(jù)倉庫建設(shè)需求_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)倉庫建設(shè)需求一、項目概況在企業(yè)的數(shù)字化轉(zhuǎn)型浪潮中,數(shù)據(jù)被譽(yù)為“新時代的石油”,而數(shù)據(jù)倉庫作為數(shù)據(jù)管理與分析的核心基礎(chǔ)設(shè)施,在企業(yè)的信息化建設(shè)中扮演著重要的角色。數(shù)據(jù)倉庫是為了便于多維分析和多角度展現(xiàn),而將數(shù)據(jù)按特定的模式進(jìn)行存儲所建立起來的關(guān)系型數(shù)據(jù)庫,它的數(shù)據(jù)基于OLTP源系統(tǒng)。首先,用于支持決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫;其次,對多個異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進(jìn)行了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉庫中的數(shù)據(jù)一般不再修改。數(shù)據(jù)倉庫系統(tǒng)體系結(jié)構(gòu):數(shù)據(jù)源->ETL->數(shù)據(jù)倉庫存儲與管理->OLAP->BI工具。數(shù)據(jù)源數(shù)據(jù)倉庫系統(tǒng)的數(shù)據(jù)源泉,通常包括企業(yè)各類信息,包括存放于RDBMS中的各種業(yè)務(wù)處理數(shù)據(jù)和各類文檔數(shù)據(jù);各類法律法規(guī)、市場信息和競爭對手的信息等等。在互聯(lián)網(wǎng)常見的產(chǎn)品中,一般的數(shù)據(jù)來源還有產(chǎn)品端的數(shù)據(jù),包括訂單類到業(yè)務(wù)類,日志類到用戶行為類,角色類到用戶畫像類和商家屬性類。ETLETL是將業(yè)務(wù)系統(tǒng)的數(shù)據(jù)經(jīng)過抽取、清洗轉(zhuǎn)換之后加載到數(shù)據(jù)倉庫的過程,目的是將企業(yè)中的分散、零亂、標(biāo)準(zhǔn)不統(tǒng)一的數(shù)據(jù)整合到一起,為企業(yè)的決策提供分析的依據(jù)。抽取:抽取前期需要做一些調(diào)研工作,主要包括:弄清數(shù)據(jù)是從哪幾個業(yè)務(wù)系統(tǒng)中來,各個業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫服務(wù)器運(yùn)行什么DBMS。是否存在手工數(shù)據(jù),手工數(shù)據(jù)量有多大。是否存在非結(jié)構(gòu)化的數(shù)據(jù)。需要明白的是,需要為各種類型的數(shù)據(jù)做準(zhǔn)備。因為在市場往前發(fā)展的過程中,會延伸出來很多新的需求和變化。有時候為了臨時支持某些決策和功能的監(jiān)控,必須采用這些原本不在計劃中的數(shù)據(jù)類型。清洗與轉(zhuǎn)換:數(shù)據(jù)清洗的任務(wù)是過濾那些不符合要求的數(shù)據(jù),將過濾的結(jié)果交給業(yè)務(wù)主管部門,確認(rèn)是否過濾掉還是由業(yè)務(wù)單位修正之后再進(jìn)行抽取。清洗的數(shù)據(jù)種類:不完整數(shù)據(jù),錯誤數(shù)據(jù)和重復(fù)數(shù)據(jù)。這種情況在對Log日志數(shù)據(jù)的清洗比較常見。如外賣早期通過數(shù)據(jù)探查發(fā)現(xiàn)了很多記錄的缺失和埋點(diǎn)的錯誤。幸而發(fā)現(xiàn)的早,并沒有造成大量的數(shù)據(jù)缺失和錯誤。數(shù)據(jù)轉(zhuǎn)換的內(nèi)容包括編碼轉(zhuǎn)換(m/f->男/女),字段轉(zhuǎn)換(balance->bal),度量單位的轉(zhuǎn)換(cm->m),數(shù)據(jù)粒度的轉(zhuǎn)換。業(yè)務(wù)系統(tǒng)數(shù)據(jù)存儲非常明細(xì)的數(shù)據(jù),而數(shù)據(jù)倉庫中數(shù)據(jù)是用分析的,不需要非常明細(xì),會將業(yè)務(wù)系統(tǒng)數(shù)據(jù)按照數(shù)據(jù)倉庫粒度進(jìn)行聚合.商務(wù)規(guī)則的計算:不同企業(yè)有不同的業(yè)務(wù)規(guī)則,不同的數(shù)據(jù)指標(biāo),在ETL過程,將這些數(shù)據(jù)計算好之后存儲在數(shù)據(jù)倉庫中,供分析使用(比如KPI)。加載:經(jīng)過前兩步處理后的數(shù)據(jù)可直接加載入數(shù)據(jù)倉庫。數(shù)據(jù)的存儲與管理:數(shù)據(jù)的存儲和管理是整個數(shù)據(jù)倉庫的核心,是關(guān)鍵。數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫,同時也決定了其對外部數(shù)據(jù)的表現(xiàn)形式。從數(shù)據(jù)倉庫的技術(shù)特點(diǎn)著手分析,來決定采用什么產(chǎn)品和技術(shù)來建立數(shù)據(jù)倉庫,然后針對現(xiàn)有各業(yè)務(wù)系統(tǒng)的數(shù)據(jù),進(jìn)行抽取、清理,并有效集成,按照主題進(jìn)行組織。數(shù)據(jù)倉庫按照數(shù)據(jù)的覆蓋范圍可以分為企業(yè)級數(shù)據(jù)倉庫和部門級數(shù)據(jù)倉庫(通常稱為數(shù)據(jù)集市)。OLAP服務(wù)器對需要的數(shù)據(jù)進(jìn)行有效集成,按多維模型予以組織,以便進(jìn)行多角度、多層次的分析,并發(fā)現(xiàn)趨勢。其具體實現(xiàn)可以分為:ROLAP(關(guān)系型在線分析處理)、MOLAP(多維在線分析處理)和HOLAP(混合型線上分析處理)。ROLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放在RDBMS之中;MOLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放于多維數(shù)據(jù)庫中;HOLAP基本數(shù)據(jù)存放于RDBMS之中,聚合數(shù)據(jù)存放于多維數(shù)據(jù)庫中。BI工具主要包括各查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具、報表工具以及各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市的應(yīng)用開發(fā)工具。數(shù)據(jù)分析工具主要針對OLAP服務(wù)器。報表工具、數(shù)據(jù)挖掘工具主要針對數(shù)據(jù)倉庫。我院現(xiàn)有數(shù)字化應(yīng)用系統(tǒng)40個,各個應(yīng)用系統(tǒng)使用對象和用途不同,隨著業(yè)務(wù)融合和管理提升的需要,現(xiàn)有模式存在以下不足:一是系統(tǒng)分散,產(chǎn)生的數(shù)據(jù)分散在各應(yīng)用系統(tǒng),缺乏統(tǒng)一的聚集手段,存在數(shù)據(jù)孤島,導(dǎo)致數(shù)據(jù)的互聯(lián)互通不暢,數(shù)據(jù)資源利用率低。二是系統(tǒng)的融合度不高,數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一,數(shù)據(jù)無法便捷提取,各系統(tǒng)之間集成采用的是一對一接口方式,建設(shè)和維護(hù)成本較高。二、項目目標(biāo)為了打破信息壁壘,推進(jìn)業(yè)務(wù)協(xié)同和數(shù)據(jù)共,通過建立統(tǒng)一的標(biāo)準(zhǔn)規(guī)范、安全保障、運(yùn)行維護(hù)體系,按照遵循“一數(shù)一源,一源多用”的原則,建設(shè)集數(shù)據(jù)匯集,數(shù)據(jù)治理,數(shù)據(jù)共享等功能為一體的數(shù)據(jù)倉庫,使得各應(yīng)用系統(tǒng)既是數(shù)據(jù)的產(chǎn)生和提供者,也是數(shù)據(jù)的使用者,實現(xiàn)我院數(shù)據(jù)資產(chǎn)統(tǒng)一管理、統(tǒng)一存儲和統(tǒng)一共享。數(shù)據(jù)倉庫建設(shè)的基本要求如下:1.數(shù)據(jù)質(zhì)量高:數(shù)據(jù)倉庫是聚合來自不同來源的數(shù)據(jù),因此需要對源數(shù)據(jù)進(jìn)行清洗、整合、標(biāo)準(zhǔn)化等處理,以確保數(shù)據(jù)質(zhì)量高、準(zhǔn)確性好、可信度高。2.數(shù)據(jù)安全性好:數(shù)據(jù)倉庫需要存儲企業(yè)的核心數(shù)據(jù),要確保數(shù)據(jù)安全性,防止數(shù)據(jù)泄漏、數(shù)據(jù)不當(dāng)使用、數(shù)據(jù)被破壞等情況。3.數(shù)據(jù)一致性好:數(shù)據(jù)倉庫需要維護(hù)和管理來自各個數(shù)據(jù)源的數(shù)據(jù),因此需要保證數(shù)據(jù)的一致性、標(biāo)準(zhǔn)化和格式化等。4.數(shù)據(jù)可追溯性:數(shù)據(jù)倉庫需要能夠追溯數(shù)據(jù)的來源和變更,以形成全面的數(shù)據(jù)歷史記錄,方便數(shù)據(jù)分析和數(shù)據(jù)挖掘等。5.數(shù)據(jù)可擴(kuò)展性強(qiáng):企業(yè)的數(shù)據(jù)量和類型會不斷增長和變化,因此數(shù)據(jù)倉庫需要具備高度的可擴(kuò)展性和靈活性,以應(yīng)對未來的業(yè)務(wù)變化和擴(kuò)展需求。6.數(shù)據(jù)查詢性能好:數(shù)據(jù)倉庫的主要目的是支持企業(yè)的數(shù)據(jù)分析和決策,因此需要具備高效的查詢和報告生成功能,以提高數(shù)據(jù)分析的效率。7.數(shù)據(jù)倉庫的維護(hù)成本低:數(shù)據(jù)倉庫需要的硬件和軟件資源相對較高,因此建設(shè)和維護(hù)成本也相對較高,企業(yè)需要在建設(shè)和維護(hù)過程中控制成本,降低數(shù)據(jù)倉庫的成本。三、項目內(nèi)容項目包含主要內(nèi)容:(1)建設(shè)數(shù)據(jù)倉庫基礎(chǔ)軟件平臺1套:建立統(tǒng)一的數(shù)據(jù)匯集和治理平臺,該平臺能實現(xiàn)多源異構(gòu)數(shù)據(jù)(多應(yīng)用系統(tǒng)不同類型數(shù)據(jù)庫)的采集、存儲、清洗、共享和API接口發(fā)布等功能;支持信創(chuàng)環(huán)境部署。(2)項目實施服務(wù):構(gòu)建我院數(shù)據(jù)倉庫底座,包括基礎(chǔ)數(shù)據(jù),業(yè)務(wù)數(shù)據(jù)和歷史數(shù)據(jù)遷移;(3)形成一套數(shù)據(jù)使用和管理規(guī)范,包括數(shù)據(jù)庫設(shè)計規(guī)范、數(shù)據(jù)使用管理規(guī)范、數(shù)據(jù)接口標(biāo)準(zhǔn)規(guī)范、數(shù)據(jù)運(yùn)維管理規(guī)范;(4)配套提供該平臺的運(yùn)行環(huán)境。具體包括:1.建設(shè)一套統(tǒng)一的數(shù)據(jù)匯集和治理平臺技術(shù)側(cè)采用成熟的軟件平臺,建立統(tǒng)一的數(shù)據(jù)匯集和治理平臺,該平臺能實現(xiàn)多源異構(gòu)數(shù)據(jù)(多應(yīng)用系統(tǒng)不同類型數(shù)據(jù)庫)采集、存儲、清洗、共享、融合服務(wù)功能要求。業(yè)務(wù)側(cè)覆蓋全院人力、財務(wù)、科研、資產(chǎn)、檢驗、項目等各業(yè)務(wù)條線指標(biāo)體系。支持指標(biāo)體系存儲、更新、定義。同時支持信創(chuàng)環(huán)境部署和使用。2.建立一套統(tǒng)一的數(shù)據(jù)交換接口服務(wù)平臺支持通過可視化操作,快速生成數(shù)據(jù)發(fā)布API,提供數(shù)據(jù)訪問接口實現(xiàn)數(shù)據(jù)對接;支持自定義SQL模式生成、API分頁配置,支持綁定參數(shù)進(jìn)行動態(tài)篩選。同時支持API測試,API運(yùn)維管理,API授權(quán),API加密調(diào)用等功能。3.形成一套數(shù)據(jù)使用和管理規(guī)范通過項目實施,形成符合我院實際的數(shù)據(jù)庫設(shè)計規(guī)范、數(shù)據(jù)使用管理規(guī)范、數(shù)據(jù)接口標(biāo)準(zhǔn)規(guī)范、數(shù)據(jù)運(yùn)維管理規(guī)范,進(jìn)一步提高數(shù)據(jù)資源使用和管理規(guī)范性。四、功能要求一、軟件部分(1)數(shù)據(jù)倉庫基礎(chǔ)平臺1套模塊子模塊功能功能描述1、數(shù)據(jù)開發(fā)常規(guī)節(jié)點(diǎn)常規(guī)節(jié)點(diǎn):包含數(shù)據(jù)同步、SQL腳本、參數(shù)賦值、條件分支、虛擬節(jié)點(diǎn)、調(diào)用任務(wù)、消息通知節(jié)點(diǎn)。循環(huán)容器循環(huán)容器:包含循環(huán)容器節(jié)點(diǎn)的功能。調(diào)度配置調(diào)度配置:定時ETL的調(diào)度配置功能。任務(wù)運(yùn)維任務(wù)運(yùn)維:包含任務(wù)各階段的任務(wù)數(shù)量,調(diào)度簡介與周期,運(yùn)行記錄日志等運(yùn)行監(jiān)控,自定義調(diào)整硬件資源使用閥值,便于硬件資源利用率優(yōu)化。數(shù)據(jù)轉(zhuǎn)換-基礎(chǔ)算子包數(shù)據(jù)轉(zhuǎn)換-基礎(chǔ)算子包:數(shù)據(jù)轉(zhuǎn)換依托自身Spark引擎強(qiáng)大的能力,保證了數(shù)據(jù)的分析處理性能,此項包含數(shù)據(jù)轉(zhuǎn)換中基礎(chǔ)類型算子。數(shù)據(jù)轉(zhuǎn)換-高級算子包數(shù)據(jù)轉(zhuǎn)換-高級算子包:在數(shù)據(jù)轉(zhuǎn)換-基礎(chǔ)算子包基礎(chǔ)上,增加大量復(fù)雜計算邏輯出算子,使得數(shù)據(jù)轉(zhuǎn)換節(jié)點(diǎn)中可實現(xiàn)復(fù)雜數(shù)據(jù)分析處理過程。2、數(shù)據(jù)源管理基礎(chǔ)數(shù)據(jù)源基礎(chǔ)數(shù)據(jù)源:包含mysql,Oracle,SQLServer,PostgreSQL,DB2,RestAPI,F(xiàn)TP等最用的數(shù)據(jù)源種類。3、B/S運(yùn)維管理平臺系統(tǒng)管理系統(tǒng)管理:包含外觀配置、系統(tǒng)運(yùn)維、系統(tǒng)配置、插件管理、用戶管理、數(shù)據(jù)配置,平臺安全防護(hù)及用戶信息監(jiān)控的綜合門戶。智能運(yùn)維智能運(yùn)維:智能檢測系統(tǒng)存在的問題和風(fēng)險,閾值預(yù)警,為系統(tǒng)穩(wěn)定運(yùn)行提供保障。集團(tuán)權(quán)限控制集團(tuán)權(quán)限控制:支持分配數(shù)據(jù)源連接權(quán)限,任務(wù)設(shè)計權(quán)限以及任務(wù)查看和管理權(quán)限的多個層級分配,借以達(dá)到多部門共用系統(tǒng)且多個管理員分級管理的目的。短信平臺短信平臺:開通短信平臺功能,無縫對接帆軟系統(tǒng)和任務(wù)的短信通知,比如任務(wù)失敗通知、身份驗證、系統(tǒng)消息通知等等,短信費(fèi)用按需收費(fèi)。4、數(shù)據(jù)源管理進(jìn)階數(shù)據(jù)源-大數(shù)據(jù)進(jìn)階數(shù)據(jù)源-大數(shù)據(jù):包含大數(shù)據(jù)場景中常見的數(shù)據(jù)源種類,如數(shù)倉引擎SAPHANA、Hive,Impala,Presto、ClickHouse等。5、數(shù)據(jù)管道管道任務(wù)管道任務(wù):包含讀取方式選擇、讀取起點(diǎn)配置、寫入設(shè)置、資源控制設(shè)置、源端數(shù)據(jù)結(jié)構(gòu)變更設(shè)置、錯數(shù)隊列設(shè)置、預(yù)警通知設(shè)置等功能,實現(xiàn)5分鐘完成兩個數(shù)據(jù)系統(tǒng)間的同構(gòu)/異構(gòu)數(shù)據(jù)實時同步配置,支持多表或者整庫的自動數(shù)據(jù)初始化,斷點(diǎn)續(xù)傳和實時增量同步。數(shù)據(jù)監(jiān)控及補(bǔ)全數(shù)據(jù)監(jiān)控及補(bǔ)全:針對單表能夠及時發(fā)現(xiàn)數(shù)據(jù)差異,并在發(fā)現(xiàn)數(shù)據(jù)差異時,可以快速便捷地處理差異,減少數(shù)據(jù)異常對業(yè)務(wù)的影響時間,保證源側(cè)與目標(biāo)側(cè)數(shù)據(jù)一致,并可在差異處理后分析差異原因。6、數(shù)據(jù)源管理高階數(shù)據(jù)源-指定公有云(API&Webhook)高階數(shù)據(jù)源-指定公有云(API&Webhook):針對指定公有云應(yīng)用的API&Webhook進(jìn)行易用性優(yōu)化定制數(shù)據(jù)源,滿足定時同步和實時同步場景。高階數(shù)據(jù)源-Mysql(Binlog)高階數(shù)據(jù)源-Mysql(Binlog):基于Mysql的Binlog日志解析進(jìn)行數(shù)據(jù)增量抽取,支持?jǐn)?shù)據(jù)本身及其元數(shù)據(jù)(DDL)的增量變化,要求Mysql5.6及以上。高階數(shù)據(jù)源-Oracle(Logminer)高階數(shù)據(jù)源-Oracle(Logminer):基于Oracle的Logminer日志解析進(jìn)行數(shù)據(jù)增量抽取,支持?jǐn)?shù)據(jù)本身及其元數(shù)據(jù)(DDL)的增量變化,要求Oracle版本在9i~19c。高階數(shù)據(jù)源-Oracle(CDC)高階數(shù)據(jù)源-Oracle(CDC):基于Oracle的CDC最小基本日志進(jìn)行數(shù)據(jù)增量抽取,僅支持?jǐn)?shù)據(jù)本身的增量變化,要求Oracle版本在9i~11c。高階數(shù)據(jù)源-Sqlserver(CDC)高階數(shù)據(jù)源-Sqlserver(CDC):基于Sqlserver的CDC最小基本日志進(jìn)行數(shù)據(jù)增量抽取,僅支持?jǐn)?shù)據(jù)本身的增量變化,要求Sqlserver版本在為企業(yè)版(EnterpriseEdition)需要2008及以上版本,標(biāo)準(zhǔn)版(Standard)需要2016SP1及以上版本。高階數(shù)據(jù)源-PostgreSQL(wal2json)高階數(shù)據(jù)源-PostgreSQL(wal2json):基于PostgreSQL的wal2json日志解析進(jìn)行數(shù)據(jù)增量抽取,僅支持?jǐn)?shù)據(jù)本身的增量變化,要求PostgreSQL9.6及以上。高階數(shù)據(jù)源-IBMDB2高階數(shù)據(jù)源-IBMDB2(CDC):基于IBMDB2的CDC最小基本日志進(jìn)行數(shù)據(jù)增量抽取,僅支持?jǐn)?shù)據(jù)本身的增量變化,要求DB2為EnterpriseServerEdition版本。7、數(shù)據(jù)API服務(wù)API數(shù)據(jù)準(zhǔn)備API數(shù)據(jù)準(zhǔn)備:同一API可以從單個數(shù)據(jù)表或者SQL數(shù)據(jù)集中取數(shù),并且在API的基礎(chǔ)數(shù)據(jù)中允許綁定參數(shù)進(jìn)行動態(tài)篩選。API管理API管理:0代碼/低代碼可視化配置提供API的數(shù)據(jù)訂閱服務(wù),包含API地址設(shè)置,參數(shù)綁定,安全設(shè)置等。以及完成API業(yè)務(wù)包的管理動作。API監(jiān)控臺API監(jiān)控臺:對單個API的請求時間,請求地址,響應(yīng)時長,返回碼等進(jìn)行實時記錄和監(jiān)控。二、軟件部分(2)項目實施服務(wù)服務(wù)項具體功能功能描述1、數(shù)據(jù)倉庫規(guī)劃數(shù)據(jù)倉庫調(diào)研、規(guī)劃為加快特檢院數(shù)據(jù)治理體系建設(shè),明確數(shù)據(jù)治理歸口管理部門,加強(qiáng)數(shù)據(jù)標(biāo)準(zhǔn)化元數(shù)據(jù)和主數(shù)據(jù)管理工作,定期評估數(shù)據(jù)治理能力成熟度。加強(qiáng)生產(chǎn)現(xiàn)場、服務(wù)過程等數(shù)據(jù)動態(tài)采集,建立覆蓋全業(yè)務(wù)鏈條的數(shù)據(jù)采集、傳輸和匯聚體系。加快數(shù)據(jù)管理平臺體系建設(shè),創(chuàng)新數(shù)據(jù)融合分析與共享交換機(jī)制。強(qiáng)化業(yè)務(wù)場景數(shù)據(jù)建模,深入挖掘數(shù)據(jù)價值,提升數(shù)據(jù)洞察能力。構(gòu)建符合業(yè)務(wù)需求的標(biāo)準(zhǔn)數(shù)據(jù)模型,并逐漸沉淀特檢院標(biāo)準(zhǔn)數(shù)據(jù)考核模型,數(shù)據(jù)考核模型應(yīng)符合甲方系統(tǒng)規(guī)范,并通過審查。完成數(shù)據(jù)模型設(shè)計說明書。對于關(guān)鍵數(shù)據(jù),需要完成數(shù)據(jù)探查并完成數(shù)據(jù)探查報告,用以輔助數(shù)據(jù)模型開發(fā)。2、元數(shù)據(jù)管理實時存儲構(gòu)建融合流處理等技術(shù),支持特檢院大數(shù)據(jù)的高效儲存和統(tǒng)一管理,為特檢院決策提供實時的數(shù)據(jù)支撐。在數(shù)據(jù)集上同時進(jìn)行離線計算和流式處理,滿足高吞吐大數(shù)據(jù)量和低時延實時處理等多方面的數(shù)據(jù)計算要求。離線存儲構(gòu)建對在線存儲的數(shù)據(jù)進(jìn)行備份,防范可能發(fā)生的數(shù)據(jù)災(zāi)難,又稱備份級的存儲。實現(xiàn)對離線硬盤數(shù)據(jù)的完全控制,防止硬盤數(shù)據(jù)的非法讀寫與修改。實現(xiàn)對預(yù)警硬盤的備份復(fù)制。多引擎計算構(gòu)建集成Hive、Flink、ES等數(shù)據(jù)引擎進(jìn)行并線計算??筛鶕?jù)計算優(yōu)先級進(jìn)行存算資源調(diào)配。存算任務(wù)支持?jǐn)帱c(diǎn)續(xù)傳。運(yùn)維管理構(gòu)建支持可視化運(yùn)維管理界面,運(yùn)維成本低,支持集群資源靈活調(diào)整,資源使用率高。數(shù)據(jù)管控構(gòu)建具備多租戶權(quán)限管理能力,支持Kerberos身份認(rèn)證和數(shù)據(jù)加密,使用Ranger數(shù)據(jù)訪問控制。3、主數(shù)據(jù)管理主數(shù)據(jù)建表方便地管理主數(shù)據(jù)、檢索主數(shù)據(jù),并基于業(yè)務(wù)實際使用情況及用戶反饋,幫助特檢院建立主數(shù)據(jù)對照標(biāo)準(zhǔn)。包含主數(shù)據(jù)標(biāo)準(zhǔn)制定、檢索、多系統(tǒng)多維分析。標(biāo)簽服務(wù)檢索基于數(shù)倉ETL加工好的維表、事實表,圍繞業(yè)務(wù)對象進(jìn)行標(biāo)簽數(shù)據(jù)模型搭建,方便不同類型標(biāo)簽的加工調(diào)用。包含標(biāo)簽建??梢暬?、多種標(biāo)簽開發(fā)模板、支持動態(tài)標(biāo)簽調(diào)參數(shù)據(jù)應(yīng)用構(gòu)建對產(chǎn)出元數(shù)據(jù)標(biāo)簽進(jìn)行分群圈選、畫像洞察等操作,快速驗證數(shù)據(jù)準(zhǔn)確性。

包含分群圈選驗證、多維畫像洞察4、主題域構(gòu)建貼源層構(gòu)建(ODS)建議基于高性能數(shù)據(jù)庫進(jìn)行數(shù)據(jù)倉庫實施,ETL數(shù)據(jù)跑批更新頻率建議為T+0,部分冷數(shù)據(jù)可酌情考慮調(diào)整為T+1。

ODS技術(shù)指標(biāo):源數(shù)據(jù)同步更新,并進(jìn)行去重、標(biāo)準(zhǔn)化、臟數(shù)據(jù)過濾等動作。結(jié)果層構(gòu)建(DW)建議基于高性能數(shù)據(jù)庫進(jìn)行數(shù)據(jù)倉庫實施,ETL數(shù)據(jù)跑批更新頻率建議為T+0,部分冷數(shù)據(jù)可酌情考慮調(diào)整為T+1。

DW技術(shù)指標(biāo):基于ODS進(jìn)行維度構(gòu)建,初步形成面向業(yè)務(wù)主題的結(jié)果表。后續(xù)可結(jié)合維度表進(jìn)行結(jié)果數(shù)據(jù)輸出。集市層構(gòu)建(ADS)建議基于高性能數(shù)據(jù)庫進(jìn)行數(shù)據(jù)倉庫實施,數(shù)據(jù)跑批更新頻率建議為T+1,部分財務(wù)數(shù)據(jù)可酌情考慮調(diào)整為T+7。

DM技術(shù)指標(biāo):嚴(yán)格面向主題場景的結(jié)果表,又名數(shù)據(jù)集市。能夠快速響應(yīng)數(shù)據(jù)查詢訴求。主題域-財務(wù)模型(含ODS、DW、ADS)財務(wù)管理主題基于特檢院OA管理系統(tǒng)全模塊的數(shù)據(jù)進(jìn)行財務(wù)主題分析建設(shè),通過OA系統(tǒng)數(shù)據(jù)中間庫獲取相關(guān)指標(biāo)等數(shù)據(jù),多維度綜合分析特檢院財務(wù)狀況,滿足領(lǐng)導(dǎo)對特檢院財務(wù)指標(biāo)的全貌管理關(guān)注需求,并實現(xiàn)數(shù)據(jù)的溯源。主題域-科研實驗?zāi)P停ê琌DS、DW、ADS)科技管理主題基于內(nèi)控項目管理和LIMS系統(tǒng)板塊的數(shù)據(jù)進(jìn)行科技管理主題分析建設(shè),提煉科研項目,裝備項目進(jìn)度管理,科研成果及成果轉(zhuǎn)化等指標(biāo),按項目,人員,部門等不同

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論