大數據治理、大數據架構、大數據智能平臺、大數據決策平臺方案_第1頁
大數據治理、大數據架構、大數據智能平臺、大數據決策平臺方案_第2頁
大數據治理、大數據架構、大數據智能平臺、大數據決策平臺方案_第3頁
大數據治理、大數據架構、大數據智能平臺、大數據決策平臺方案_第4頁
大數據治理、大數據架構、大數據智能平臺、大數據決策平臺方案_第5頁
已閱讀5頁,還剩62頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數據治理、大數據架構、大數據智能平臺、大數據決策平臺方案整理制作:郎豐利1519制作時間:2023年睿利而行整理制作:郎豐利1519制作時間:2023年睿利而行整理制作:郎豐利1519制作時間:2023年睿利而行2023年一.大數據現狀二.大數據治理方案三.大數據案例解析整理制作:郎豐利1519制作時間:2023年睿利而行整理制作:郎豐利1519制作時間:2023年睿利而行整理制作:郎豐利1519制作時間:2023年睿利而行一.大數據現狀所涉及行業(yè):政府、公安、政法、人社、審計、水務、醫(yī)療、教育、電力、保險、銀行等。沒有數據因為業(yè)務系統(tǒng)沒有對數據加以保存,或者因為行政原因不能開放,即使上了大數據平臺,那也只是有了“殼”而并不能發(fā)揮大數據的作用和價值。數據采集影響源端業(yè)務系統(tǒng)大多數廠商通過各種開源工具從業(yè)務系統(tǒng)抽取數據,侵入式的工具不但影響了源端業(yè)務系統(tǒng)的正常使用,而且穩(wěn)定性極差,經常出現各種丟數據的情況。人員消耗大,服務成本高,不僅沒有發(fā)揮大數據的價值,而且變成一種負擔。缺乏數據治理、不準確、周期長缺乏數據治理,對數據中存在的數據缺失、數據散亂、數據不一致,元數據頻繁變更,元數據類型多樣的問題并沒有真正的處理和解決,即使有了大數據平臺其分析結果也不準確。導致錯誤的決策,大數據分析失去可信度。智能應用并不智能通過對大數據與人工智能的營銷,聲稱可以通過機器學習和深度學習的算法等,開發(fā)各種類型的智能應用,然而這些智能應用因為數據缺失、數據不準確并不能真正的落地,最后變成一個”噱頭”。數據孤島,信息不一致,數據難以整合由于在不同時期、應用不同技術、與不同廠商合作,建設了不同規(guī)模的業(yè)務應用系統(tǒng),導致大量數據孤島問題,系統(tǒng)間信息不一致且難以整合,希望通過數據治理和大數據的建設對數據加以融合,解決數據中存在的各種問題并讓各系統(tǒng)間數據能夠互聯互通。Demo≠結果,可視化≠大數據分析只關注到數據可視化中數據展示的效果,并以Demo和數據展示的效果來作為依據判斷大數據建設的預期效果,忽略了數據采集、數據治理、數據存儲和數據計算的重要性。大數據建設現狀:周期長(問題、協(xié)調……)2018DataGovernance數據缺、散、亂數據不規(guī)整,存在數據缺失、散亂的情況數據多源異構業(yè)務系統(tǒng)眾多,數據往往來自幾十個不同品牌的業(yè)務系統(tǒng)元數據類型多樣元數據類型多樣,缺乏標準統(tǒng)一的元數據存儲

元數據頻繁變更各主題業(yè)務系統(tǒng)間數據變更后無法快速進行數據統(tǒng)一缺乏業(yè)務詞匯標準缺乏貼合行業(yè)的專業(yè)業(yè)務詞匯標準數據不一致由于錄入或其他問題造成的數據不一致情況數據治理:面臨的挑戰(zhàn)一.大數據現狀二.大數據治理方案三.大數據案例解析目錄整理制作:郎豐利1519制作時間:2023年睿利而行整理制作:郎豐利1519制作時間:2023年睿利而行整理制作:郎豐利1519制作時間:2023年睿利而行二.大數據治理方案2.2大數據采集交換平臺2.4大數據資產管理平臺2.3大數據處理平臺2.1大數據整體架構2.5大數據交換平臺2.6大數據接口運維平臺2.7大數據分析挖掘平臺2.8大數據智能平臺

2.9大數據決策平臺

大數據整體架構數據湖是經過治理和整合的數據最佳存放環(huán)節(jié)數據湖架構,實現數據治理與大數據應用開發(fā)的脫藕,可以支持應用的百花齊放數據湖確保數據是用戶的數據,不是應用開發(fā)商的數據多個不同特色的應用開發(fā),可以分別從數據湖獲得各自需要的數據,大大加快應用開發(fā)的速度BillInmon(數據倉庫之父)2015年:事先對數據歸類建模的處理,可能對于大數據的各種離線分析有不足、需要演進,因此數據建模方式也需要演進?;蛟S應該采取措施,把大量的原始數據初步處理后保存下來,為未來不斷應用創(chuàng)新提供數據來源,而這個想法就是數據湖,現在廉價的存儲和大數據技術也提供了這個可能性。二.大數據治理方案2.2大數據采集集成平臺2.4大數據資產管理平臺2.3大數據處理平臺2.1大數據整體架構2.5大數據交換平臺2.6大數據接口運維平臺2.7大數據分析挖掘平臺2.8大數據智能平臺

2.9大數據決策平臺

Oracle數據庫PostgreSQL達夢Dameng浪潮KDBFromother數據庫SQLServerDB2MySql國產數據庫MPP內存數據庫常見數據庫消息隊列文本格式達夢Dameng浪潮KDBDBoneEMCgreenplumgbase8MSaphanaSQLServerKafkatibcoTXTCSVXMLsql人大金倉Kingbase南大通用GbaseBa神州通用HPVerticaDB2PostgreSQLMySql常見數據庫國產數據庫InformixsybaseTo大數據ToNoSqlGemfireFromKafka華為云騰訊云阿里云天翼云Toother數據庫ToCloud

云端數據庫實時交換OracleSQLServerK-DBDB2MySQLPostgreSQLDMCDB中間庫第三方ETL接口文件結構化數據大數據/云源ETL過程目標端用戶實時多表關聯鏡像庫精簡庫數據倉庫數據抓取模塊實時Loader實時單表轉換過濾準實時對源數據庫的首次同步和實時增量跟蹤技術目標數據庫或者云直接裝載源數據庫-接口文件和ETL-目標庫多種通路選擇實現實時和準實時轉換和共享鏡像庫精簡庫數據庫實時交換與共享平臺功能

功能說明數據實時抽取通過源系統(tǒng)端的Agent進程對數據庫Log日志進行實時分析,獲取交易指令,將交易指令和交易數據經過格式轉化生成數據格式;過濾轉化為與生產應用相吻合的指令;再次實時傳輸到目標端系統(tǒng)數據實時轉換復制指定的數據、表、列支持數據集中,即多個相同結構的數據庫中將數據整合到一個庫中,同類的數據項集合放到一個表中支持數據分發(fā)實時存儲和增量變化通知Agent將識別到的實時增量數據發(fā)送到中間數據庫,在此庫中維護一張和生產系統(tǒng)對應的數據表;對數據進行整合、過濾和判斷后通知訂閱方支持ETL實現準實時數據抽取支持增量抽取間隔到每幾秒鐘、幾分鐘、10分鐘生成一個接口文件支持從鏡像庫中獲取數據QETL支持多表關聯同步只復制到多表關聯結果集到目標端支持復雜的sql模式支持多種同步維護模式保持分析日志模式而非sql查詢模式

從生產數據庫中抽取數據,并經過過濾、分析、整合、轉換后,將數據加載到大數據平臺或云平臺中源端數據庫的實時增量跟蹤技術目標端實時復制轉換裝載技術中間過程中的接口文件技術中間過程中的中間庫技術中間過程中的準實時復雜轉換(ETL)技術源數據庫RedoLogArchivedLog日志合成日志分析QUEUE目標數據庫過濾SenderQUEUEYLoaderTransfor第三方ETLETL接口數據文件Receiver大數據/云功能數據庫數據復制與實時技術二.大數據治理方案2.2大數據采集集成平臺2.4大數據資產管理平臺2.3大數據處理平臺2.1大數據整體架構2.5大數據交換平臺2.6大數據接口運維平臺2.7大數據分析挖掘平臺2.8大數據智能平臺

2.9大數據決策平臺

大數據處理平臺定位提供統(tǒng)一查詢服務,支持多數據源數據關聯,支持查詢元數據、血緣和數據統(tǒng)計信息、支持數據全文搜索基于spark,提供簡單的用戶界面實現可視化查詢、多表關聯和交互式轉換集成各種數據存儲平臺,提供各類型的數據采集,支持數據全量、增量采集,支持數據清洗驗證分析234查詢探索采集存儲數據準備提供豐富的監(jiān)控界面,支持儀表盤,支持監(jiān)控流程、服務、作業(yè)健康狀態(tài),支持告警,支持性能監(jiān)控5集中監(jiān)控提供豐富的組件,支持可視化拖拽編排流程、模板,簡化數據流程、作業(yè)的管理,提高數據ETL效率1流程設計為企業(yè)用戶提供數據采集、存儲、計算、調度、探索、監(jiān)控、安全等數據治理相關的一整套數據湖治理解決方案,提供數據分析師準備數據的效率6集成方案

大數據處理平臺:目標效果目標效果-數據治理前呼叫中心CRM系統(tǒng)訂單處理系統(tǒng)HR系統(tǒng)采購系統(tǒng)數據財務報告客戶行為分析企業(yè)績效管理數據數據數據數據數據數據客戶數據服務商數據合作伙伴數據容易產生的問題:數據孤島、數據冗余、編碼不統(tǒng)一、數據不同步、缺乏一致性、訪問繁瑣引入若干第三方應用,或者定制開發(fā)數據分析業(yè)務系統(tǒng)企業(yè)內部企業(yè)外部

大數據處理平臺:目標效果目標效果-數據治理后呼叫中心CRM系統(tǒng)訂單處理系統(tǒng)HR系統(tǒng)采購系統(tǒng)數據財務報告客戶行為分析企業(yè)績效管理數據數據數據數據數據數據客戶數據服務商數據合作伙伴數據數據治理的價值:

數據共享、編碼統(tǒng)一、數據同步、內容豐富、數據干凈、訪問可控單一平臺、標準組件、拖拽可視化操作,支持定制(組件開發(fā)接口支持java,scala,python,groovy,shell多種語言)數據分析業(yè)務系統(tǒng)企業(yè)內部企業(yè)外部數據湖治理平臺原始數據清洗后的數據數據質量報告關聯數據加工數據共享數據標準數據數據資產

大數據處理平臺——數據采集非結構化數據半結構化數據結構化數據網絡數據全量、增量、實時全量、增量、實時數據庫表CSV、XLSJSON、XML日志文檔、圖片音頻、視頻網頁、論壇關系型數據庫文件系統(tǒng)分布式文件系統(tǒng)網絡爬蟲、全量、增量NoSQL數據庫圖數據庫GIS數據庫全量、增量數據存儲界面管理任務進度日志界面監(jiān)控比對配置功能截圖——數據清洗、驗證、轉換、分析功能截圖——數據轉換/脫敏功能截圖——質量分析功能截圖——可視化關聯、交互式分析功能截圖——集中監(jiān)控功能截圖——全文搜索、訪問控制2.2大數據采集集成平臺2.4大數據資產管理平臺2.3大數據處理平臺2.1大數據整體架構2.5大數據交換平臺2.6大數據接口運維平臺2.7大數據分析挖掘平臺2.8大數據智能平臺

2.9大數據決策平臺

二.大數據治理方案數據資產管理系統(tǒng)元數據源OracleMySQLSQLServerPostgreSQL…技術元數據管理元數據業(yè)務元數據手工錄入批量導入自動采集/更新元數據采集血緣分析數據地圖訪問安全數據趨勢數據回滾E-R圖CWM模型標準數據生命周期表結構對比實時性能展示實時會話管理圖形化診斷大數據資產管理系統(tǒng)

數據資產管控——資產視圖數據資產管理2.2大數據采集集成平臺2.4大數據資產管理平臺2.3大數據處理平臺2.1大數據整體架構2.5大數據交換平臺2.6大數據接口運維平臺2.7大數據分析挖掘平臺2.8大數據智能平臺

2.9大數據決策平臺

二.大數據治理方案

數據共享平臺——目標維持現有平臺不變現有平臺數據訪問能平移到中間件。多協(xié)議支持,擴展性強,部署靈活!提供基礎組件,公共組件,業(yè)務組件功能。引入緩存,內存數據庫提升性能基礎數據,字典數據,業(yè)務數據整理篩選業(yè)務無縫水平擴展垂直擴展多樣的監(jiān)控管理手段降低開發(fā)難度,提高開發(fā)效率數據資產訪問控制質量報告變動告警數據結構數據內容數據目錄數據共享主題庫接口管理文檔API服務訪問統(tǒng)計質量報告變動告警數據結構數據內容數據目錄公共庫各平臺、接口統(tǒng)一的接入中間件平臺獲取數據、服務,降低平臺、接口直接與數據庫交互平臺、接口解耦統(tǒng)一管理業(yè)務剝離、遷移緩存、內存數據庫WEB中間件主要業(yè)務功能引入緩存和內存數據庫,降低與關系型數據庫交互次數,數據清理,篩選,提升性能將數據庫一些業(yè)務實現剝離或遷移至中間件平臺,以服務的方式提供出去數據交換.場景1.支持接口發(fā)短信支付接口作業(yè)調度短信服務組件支付接口組件校驗過濾記錄日志作業(yè)調度框架作業(yè)1作業(yè)2作業(yè)N數據庫組件DB統(tǒng)一認證組件郵件組件…WEB中間件數據篩選統(tǒng)計數據存儲緩存(訪問頻率極高,重復性數據)內存數據庫(一天的經營性數據、統(tǒng)計性數據)關系型數據庫(作為備份、大數據量存儲)數據交換.場景2.數據查詢查詢網吧信息記錄日志調用服務校驗過濾緩存組件內存數據庫組件數據庫組件DBRedis服務器12YN345同步緩存同步緩存數據同步(全量、增量)WEB界面緩存動態(tài)管理(方法級別)WEB界面數據庫管理、監(jiān)控123第一次訪問第二次訪問目前直接訪問DISKWEB中間件數據篩選統(tǒng)計數據屬性經營性數據(營業(yè)額數據)活躍性數據(使用頻率很高)數據量不大數據統(tǒng)計內存實時統(tǒng)計每次訪問記錄緩存或內存關系型數據庫定時同步。定時后臺統(tǒng)計Hadoop第三方組件Storm流式計算數據交換系統(tǒng).示例.服務器.接口管理服務器管理組件管理數據交換系統(tǒng).示例.攔截器及監(jiān)控攔截器管理性能監(jiān)控2.2大數據采集集成平臺2.4大數據資產管理平臺

2.3大數據處理平臺2.1大數據整體架構2.5大數據交換平臺2.6大數據接口運維平臺2.7大數據分析挖掘平臺2.8大數據智能平臺

2.9大數據決策平臺

二.大數據治理方案分布式架構應用架構由集中式向分布式演進后,整個調用關系變得復雜??缬蚩逯行南到y(tǒng)一個完整的調用過程可能橫跨多個服務及數據中心。系統(tǒng)指標狀況無法準確知道整體系統(tǒng)性能及運行情況。系統(tǒng)獨立分布式架構由復雜且較大規(guī)模集群構成,各個應用之間相當獨立,可能由不同團隊、不同語言實現。業(yè)務復雜復雜的調用導致系統(tǒng)出問題后難以定位問題。接口運維平臺:應用系統(tǒng)現狀1)根據拓撲可相應計算組件、平臺、物理設備的實時吞吐量;2)包括整體調用的響應時間和各個服務的響應時間等;3)錯誤記錄,根據服務返回統(tǒng)計單位時間異常次數;4)告警功能,提供各種閥值警告功能。核心功能接口運維平臺接口運維平臺AGENT無侵入部署對原服務無影響,資源消耗極低;準確掌握生產一線應用部署情況;提供可追溯的性能數據,量化IT系統(tǒng)服務狀態(tài);從調用鏈全流程性能角度,識別關鍵調用鏈,協(xié)助系統(tǒng)人員持續(xù)性的優(yōu)化。特點、作用2.2大數據采集集成平臺2.4大數據資產管理平臺

2.3大數據處理平臺2.1大數據整體架構2.5大數據交換平臺2.6大數據接口運維平臺2.7大數據分析挖掘平臺

2.8大數據智能平臺

2.9大數據決策平臺

二.大數據治理方案自助統(tǒng)計分析企業(yè)級、公共級大數據智能分析平臺超大數據集上提供亞秒級SQL分析能力、支持互聯網級高并發(fā)訪問的企業(yè)級數據倉庫產品,是以行業(yè)標準的數據倉庫和商業(yè)智能方法論架構DW(DataWarehouse))onHadoop的解決方案為業(yè)務用戶、分析師及工程師提供簡便、快捷的大數據分析服務;自助式敏捷BI:建模的高性能查詢、自助式建模、無需編程、JDBC/ODBC支持、非侵入式部署等突出優(yōu)點的同時數據湖等方面進行了創(chuàng)新自助統(tǒng)計分析功能數據集模塊:該模塊可對數據集進行分類管理,并可對其進行修改刪除操作;主要根據業(yè)務需求構建數據模型,通過選擇拖拽方式操作便捷,并可手動修改定制自助統(tǒng)計分析。超高性能支持ANSISQL查詢標準和自定義SQL查詢內存建立數據模型(數據立方體Cube),建模速度快極低的查詢開銷,支持大規(guī)模并發(fā)查詢場景基于Cube預計算技術,支持超大數據集上的亞秒級查詢響應支持明細數據查詢支持數據流式數據增量構建模型超高性能支持ANSISQL查詢標準和自定義SQL查詢內存建立數據模型(數據立方體Cube),建模速度快極低的查詢開銷,支持大規(guī)模并發(fā)查詢場景基于Cube預計算技術,支持超大數據集上的亞秒級查詢響應支持明細數據查詢支持數據流式數據增量構建模型結果導出支持結果圖和表之間靈活轉換,結果集的旋轉(行列轉置),支持結果導出(PDF、Excel、圖片等)和打印

2.2大數據采集集成平臺2.4大數據資產管理平臺

2.3大數據處理平臺2.1大數據整體架構2.5大數據交換平臺2.6大數據接口運維平臺2.7大數據分析挖掘平臺2.8大數據智能平臺2.9大數據決策平臺

二.大數據治理方案知識圖譜.圖圖是相互連接的事物及其關系的一種結構化表達。信息讀取是順序的過程,要求閱讀者在大腦中將信息串聯形成理解,而圖能夠即時傳達信息,易于揭示復雜的模式.在社交網絡、交通網絡、通訊網絡、資金網絡等展現場景下,都有比較直觀的展現效果圖存儲技術是支持知識圖譜應用的關鍵技術之一。知識圖譜(知識引擎)是多種技術的綜合應用,包括自然語言識別(NLP)、機器學習及圖存儲技術等,其大量知識來源于非結構化數據。知識圖譜的整體使用過程包括知識獲取、知識融合、知識存儲、知識推理、知識應用等步驟,典型應用場景包括搜索引擎、問答系統(tǒng)等知識圖譜-構建過程.知識推理應用知識抽取知識融合知識加工實體抽取關系抽取屬性抽取知識合并實體鏈接實體消歧共指消解知識推理本體構建質量評估第三方知識庫知識圖庫知識圖譜構建過程比如在美國限制向中興通訊出口的消息發(fā)布之后,如果我們有中興通訊的客戶供應商、合作伙伴以及競爭對手的關系圖譜,就能在中興通訊停牌的情況下快速地篩選出受影響的國際國內上市公司從而挖掘投資機會或者進行投資組合風險控制知識圖譜-應用PageRank算法——發(fā)現重要頂點算法原理1)數量假設:在Web圖模型中,如果一個頁面節(jié)點接收到的其他網頁指向的入鏈數量越多,那么這個頁面越重要。2)質量假設:指向頁面A的入鏈質量不同,質量高的頁面會通過鏈接向其他頁面?zhèn)鬟f更多的權重。所以越是質量高的頁面指向頁面A,則頁面A越重要。PageRank算法剛開始賦予每個網頁相同的重要性得分,通過迭代遞歸計算來更新每個頁面節(jié)點的Pag場景:在犯罪團伙通訊網絡中尋找重點人NO.PageRankValue10.0509140520.0573676330.1442252240.2448744950.0812838460.2438724870.0702747980.0357291690.03572916100.035729知識圖譜-應用基于現有的知識圖譜信息,推斷出當前圖譜不存在但實際中存在的真是關系知識圖譜技術可以幫助我們快速構建一個法律知識圖譜,目前還缺乏法律知識圖譜的理論工作。跟其他領域的知識圖譜相比,法律知識圖譜需要考慮法律的邏輯,下面就是一個法律知識圖譜的片段:從上面這個例子可以看出,每一個犯罪行為都有主體、客體、主觀要件和客觀要件,我們就需要從文本中去抽取這些信息,從而形成一個關于犯罪行為的圖譜,而通過對海量判決書的挖掘,可以建立犯罪行為之間的關聯,比如說,防衛(wèi)過當和故意傷害之間有一個關聯,即誤判為的關系。通過這個圖譜,給定一個判決書,可以輔助法官判的一個案件是否有誤判,是否需要補充信息。知識圖譜-應用2.2大數據采集集成平臺2.4大數據資產管理平臺

2.3大數據處理平臺2.1大數據整體架構2.5大數據交換平臺2.6大數據接口運維平臺2.7大數據分析挖掘平臺2.8大數據智能平臺

2.9大數據決策平臺

二.大數據治理方案決策管理系統(tǒng).功能支持功能性解耦支持同步與異步任務支持任務生命周期管理支持任務DAG的設計和表達用無碼圖形設計器建立復雜的工作流程價值:提升人和組織的生產力沉淀標準化,體系化的知識全方位業(yè)務流程化管理,過程透明化提升處理時效提升處理數量減少系統(tǒng)間溝通成本讓管理變得可預期(端到端的業(yè)務流程)數據可追溯,審計無憂大數據決策平臺-示例決策系統(tǒng)流程跟蹤決策系統(tǒng)流程編輯一.大數據現狀與數據治理緣由二.大數據治理方案三.大數據案例解析目錄大數據案例解析-深圳龍崗智慧城區(qū)XX信息化現狀與問題隨著XX智慧城區(qū)項目建設的推進,已經取得較顯著成效,但通過前置機方式從各部門、各系統(tǒng)采集數據時,卻遇到以下諸多問題:

(1)數據不能實時從各系統(tǒng)同步到大數據中心,導致不能實時統(tǒng)計與分析;

(2)前置機由所屬單位進行管理,出現問題不能及時發(fā)現和提醒;

(3)建設智慧城區(qū)項目,前置機無法采集非結構化的海量數據(如交通視頻、安防視頻、物聯網數據等),導致無法實現智能圖像識別、智能運維能等人工智能服務,城市智慧難以充分體現;

(4)前置機實施需要原廠商較多配合和開發(fā)工作,推進、協(xié)調、運維都難度較大。在大數據和人工智能時代,迫切需要利用大數據復制技術、實時流技術、大數據采集與集成技術、人工智能技術等建設龍崗智慧城區(qū)大數據集成與交換平臺,解決傳統(tǒng)前置機采集數據方式的上述諸多問題。某區(qū)政府數據共享交換平臺實現數據采集與交換、數據治理。將現有信息系統(tǒng)與各部門相關的信息資源進行統(tǒng)一采集、清洗、脫敏和標準化。信息資源目錄遵循統(tǒng)一的標準規(guī)范組織管理所有政務信息資源,釆用元數據對信息資源特征進行描述,形成統(tǒng)一規(guī)范的目錄內容,通過對目錄內容的有效組織和管理,形成目錄信息庫,為信息資源的匯聚、共享以及對應用的支撐提供信息資源的發(fā)現定位服務。公共信息資源共享交換平臺門戶和與市級共享交換平臺的對接。門戶實現各類應用的統(tǒng)一入口,統(tǒng)一管理和統(tǒng)一登錄。①構建大數據治理體系,成立數據治理組織結構、治理流程、治理制度等方面,遵循平臺建設先行,將數據治理作為推進平臺建設的重要手段和措施,加快智慧城區(qū)數據資產化進程;②基于迪思杰DataXOne+DataLKOne+大數據平臺,可以快速定制與開發(fā)龍崗智慧城區(qū)大數據集成和交換平臺、大數據中心;③建設龍崗智慧城區(qū)大數據中心,分為區(qū)基礎庫、8+1行業(yè)應用庫、交換和共享庫等,將分散在各個業(yè)務系統(tǒng)數據統(tǒng)一集中,便于各部門、各系統(tǒng)進行數據共享和數據交換;嗯嗯XX智慧城區(qū)大數據治理1期大數據集成與交換平臺方案架構某市衛(wèi)計委區(qū)域醫(yī)療健康大數據實現以患者為中心、以時間為軸線,將多源端病歷數據聚合、形成統(tǒng)一標準病歷,支持分級診療與雙向轉診等業(yè)務,并且大數據還可以挖掘價值,實現人工智能時代的智慧醫(yī)療XX市衛(wèi)計委在項目前期充分調研和學習了國內各地醫(yī)療大數據項目。在以下幾個方面有了明確的認識專業(yè)的數據治理在項目中的重要性衛(wèi)計委在近兩年完成的大數據項目中發(fā)現,在項目建設初期普遍關注大數據的上層應用,忽視數據治理的重要性。當項目上線以后才發(fā)現因為數據采集工具的選擇不當,數據質量不達標等問題導致的上層應用的擱置和新業(yè)務無法拓展的問題比比皆是。因此在與XX市衛(wèi)計委溝通的過程中,衛(wèi)計委對數據的采集方式,數據質量和大數據平臺的存儲方面提出了高標準、嚴要求。

是專業(yè)的數據治理公司衛(wèi)計委了解到市面上做大數據項目的公司在數據采集方面普遍采用不支持ddl,低效的jdbc/odbc技術。而的EnhancedETL在關系型數據采集領域性能優(yōu)越。并且有完整的數據治理體系,不是簡單進行數據加工存儲后提供給上層應用就竣工了。的數據治理不僅要保證數據質量,還對數據進行血統(tǒng)分析、生命周期的管理。真正的將數據作為資產進行歸置和管理。從架構層面,迪思杰提供了高標準的大數據平臺建設的三層架構。DataXone集成了數據庫實時復制技術EnhancedETL,也集成了

開發(fā)的先進爬蟲技術,還有大數據技術中標準的Flume、Sqoop

等。對外提供支持非結構化數據實時采集服務,無需開發(fā)就能快速完成文件、目錄、網絡日志數據采集功能,支持二次開發(fā)插件滿足定制數據采集功能。采用關系型數據庫實時復制轉換技術(EnhancedETL),在采集數據庫數據時擁有實時優(yōu)勢(延遲1-5秒鐘)、高性能優(yōu)勢(每小時單個數據庫數百GB)、實時數據轉換優(yōu)勢、源生產端低干擾優(yōu)勢。方案采用數據湖,就能夠支持不同大數據應用開發(fā)商從數據湖調取數據,避免為了特定應用四處采集數據的被動局面。數據湖架構達到了高靈活度,低延時,開放的目的。真正將數據治理與上層應用進行剝離,為后期的專業(yè)數據治理,專業(yè)應用開發(fā)提供了可能。案例——某省會城市衛(wèi)計委醫(yī)療大數據方案優(yōu)勢為什么選擇?某券商數據集成案例地市1-oracle地市2-oracle地市n-oracle數據倉庫-oracle…業(yè)務1-oracle業(yè)務2-oracle業(yè)務n-oracle…EnhancedETLQETL

案例介紹湖北某券商客戶使用EnhancedETL將各地市的數據集中復制匯聚集成到數據倉庫,然后使用QETL對數據實時導出并進行組合運算,將轉換后的數據集實時同步到各業(yè)務庫。案例功能特點源端為組合視圖,目標端直接同步的結果集為表中;目標數據涉及多個用戶下的多張表,QETL只關注客戶所需數據,最小化同步范圍,節(jié)省系統(tǒng)資源;只跟蹤業(yè)務所需字段,避免了敏感字段數據的向下傳遞;某行業(yè)某塊業(yè)務所需的數據,業(yè)務上僅需要通過一條SQL從多張分別擁有百萬和幾億條的數據表中提取所需結果,該結果返回僅有幾十條數據,傳統(tǒng)的推送方式要么達不到實時要求,要么占用較大資源,現通過QETL實時的推送所需的幾十條數據的結果集,簡化了同步方式、大大提高了同步效率,深受客戶好評,并將大量推廣應用。某省交警大數據應急指揮平臺XX交警大數據應急指揮平臺結構化描述行人結構化車輛結構化騎行結構化車輛實時布控無/套牌分析GIS應用(同行分析/頻繁過車分析)XX交警大數據應急指揮平臺數據集成源端無干擾采集:基于日志解析的數據庫實時復制采集多源異構數據支持:支持DB2、Oracle、S

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論