現(xiàn)代化實時數(shù)據(jù)倉庫在金融領域的應用實踐 2023-連林江_第1頁
現(xiàn)代化實時數(shù)據(jù)倉庫在金融領域的應用實踐 2023-連林江_第2頁
現(xiàn)代化實時數(shù)據(jù)倉庫在金融領域的應用實踐 2023-連林江_第3頁
現(xiàn)代化實時數(shù)據(jù)倉庫在金融領域的應用實踐 2023-連林江_第4頁
現(xiàn)代化實時數(shù)據(jù)倉庫在金融領域的應用實踐 2023-連林江_第5頁
已閱讀5頁,還剩61頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

現(xiàn)代化實時數(shù)據(jù)倉庫在金融領域的應用實踐飛輪科技COO/連林江?碩士畢業(yè)于北京航空航天大學?國內(nèi)最早一批分布式系統(tǒng)工程師,在基礎架構和云計算領域擁有10余年的技術、產(chǎn)品和商業(yè)化經(jīng)驗?前百度智能云副總裁,大數(shù)據(jù)、云存儲、視頻云等部門總經(jīng)理,從零到一開拓數(shù)十款云產(chǎn)品及數(shù)十億營收?聯(lián)合創(chuàng)立北京飛輪數(shù)據(jù)科技有限公司并擔任COO,成立兩年以來獲得IDG資本、紅衫中國、襄禾資本等頂級VC的近10億元融資,創(chuàng)下近年來開源基礎軟件領域的新紀錄?主導研發(fā)的現(xiàn)代化實時數(shù)倉SelectDB在全球知名性能測試榜中位列第一;?實時正在重構數(shù)據(jù)技術棧?走向現(xiàn)代化的實時數(shù)據(jù)倉庫?實時數(shù)據(jù)倉庫在金融領域的應用實踐實時正在重構數(shù)據(jù)技術棧!更多業(yè)務場景更多業(yè)務場景?標簽畫像從批量到實時實時正在改變?nèi)藗兲幚頂?shù)據(jù)的方式數(shù)據(jù)隨著時間的推移而價值降低業(yè)務驅動數(shù)倉架構的變革傳統(tǒng)數(shù)倉批量ETL/報表一體化湖倉并行多個開源大數(shù)據(jù)組件的融合Hive/Spark/Impala/Druid…離線數(shù)據(jù)倉庫大數(shù)據(jù)平臺走向現(xiàn)代化的數(shù)據(jù)倉庫第二代第三代第一代第二代第三代現(xiàn)代化數(shù)據(jù)倉庫的三大趨勢實時化實時化業(yè)務需求從批量分析到實時分析統(tǒng)一化統(tǒng)一化數(shù)據(jù)架構OneSizeFitAllAnalytics云原生化云原生化運行環(huán)境從分布式到云原生化關鍵詞關鍵詞實時分析的關鍵挑戰(zhàn)實時數(shù)據(jù)實時分析數(shù)據(jù)庫實時分析數(shù)據(jù)應用實時數(shù)據(jù)實時分析數(shù)據(jù)庫數(shù)據(jù)延遲和查詢延遲是衡量實時分析的兩個核心指標組件統(tǒng)一化組件統(tǒng)一化數(shù)據(jù)集成與處理數(shù)據(jù)同步過去會選擇多個組件應對面向不同分析場景過去會選擇多個組件應對面向不同分析場景ElasticsearchS3/OSS如何在一套系統(tǒng)滿足多個場景的分析需求存算分離存儲卸載到低成本的存儲系統(tǒng)計算彈性數(shù)據(jù)共享計算負載隔離存算分離存儲卸載到低成本的存儲系統(tǒng)計算彈性數(shù)據(jù)共享計算負載隔離云原生云原生現(xiàn)代化實時數(shù)據(jù)倉庫SelectDB基于ApacheDoris構建的現(xiàn)代化實時數(shù)據(jù)倉庫訊云。部署在物理機/虛擬機、K8s或者公有云/私有云上。多種查詢負載上都擁有極速性能?多種查詢負載上都擁有極速性能?高并發(fā)點查詢(單節(jié)點30000+QPS)?大寬表查詢(2022.10ClickBenchNo.1)?增量ELT(比Spark更實時,比Flink更易用)支持大規(guī)模實時數(shù)據(jù)上的極速查詢數(shù)據(jù)的實時導入與實時存儲?秒級的數(shù)據(jù)實時更新(主鍵表)與追加?毫秒級輕量化表模式修改?數(shù)據(jù)庫CDC/Kafka流式數(shù)據(jù)同步?豐富的半結構化數(shù)據(jù)類型支持極致的分析性能向量化處理,減少虛函數(shù)調用和cachemiss節(jié)點間并行和節(jié)點內(nèi)并行,發(fā)揮多機多核性能自動設置并行度,不需要手動調整參數(shù)強一致的單表物化視圖,支持通用聚合函數(shù)UPDATEt1高效的數(shù)據(jù)更新Upsert條件更新條件刪除部分列更新分區(qū)覆蓋DELETEFROMt1單一系統(tǒng)可以應對更多場景的挑戰(zhàn)更開放的湖倉一體方案可擴展的數(shù)據(jù)源連接框架和豐富的數(shù)據(jù)源支持,查詢性能較Trino/Presto提升3-10倍SelectDBElasticsearch更高性價比的日志檢索分析平臺5倍寫入吞吐提升.利用CPU向量化指令,提升數(shù)據(jù)解析、構建索引5倍寫入吞吐提升的性能.簡化去掉正排等索引結構,降低構建索引開銷80%存儲成本降低.簡化去掉正排等索引結構,減少倒排索引數(shù)據(jù)量80%存儲成本降低30%.列式存儲與ZSTD壓縮算法,提供5-10倍壓縮比.冷熱分層,降低冷數(shù)據(jù)存儲成本60%..基于資源隊列的隔離機制,解決負載間相互影響穩(wěn)定性提升.異常查詢Kill機制,避免單個查詢影響整個集群.中間數(shù)據(jù)落盤,支持大查詢內(nèi)存不足運行失敗共享存儲與本地緩存?共享存儲與本地緩存?共享存儲系統(tǒng)擁有全部數(shù)據(jù)?數(shù)據(jù)的自動和手動緩存控制?伸縮節(jié)點,緩存的預熱與遷移 Cache SharedStorageCacheCacheCache計算節(jié)點彈性擴縮容?手動擴縮容?分時擴縮容?集群自動啟停固定計算節(jié)點彈性計算節(jié)點計算節(jié)點 共享存儲系統(tǒng)計算節(jié)點計算節(jié)點計算節(jié)點計算節(jié)點計算節(jié)點存算分離架構下的彈性計算多計算集群多計算集群?元數(shù)據(jù)和數(shù)據(jù)共享,數(shù)據(jù)強一致?多個計算集群都可以讀寫?計算負載隔離:導入與查詢、在線與離線等查詢集群計算節(jié)點 共享存儲系統(tǒng)導入集群計算節(jié)點計算節(jié)點計算節(jié)點計算節(jié)點計算節(jié)點支持全表或者分區(qū)級別的數(shù)據(jù)備份恢復服務高可用、數(shù)據(jù)高可靠PROPERTIES("backup_timestamp"="2022-04-08-15-52-29");精細化的多租戶資源隔離方案支持SSL/TLS安全傳輸跨集群數(shù)據(jù)復制交互式探索分析對交互式探索分析對TB和PB數(shù)據(jù)進行快速的即席查詢(Ad-hocQueries)日志管理與分析主要應用場景實時報表與實時決策實時報表與實時決策面向內(nèi)部和外部的實時報表與儀表盤,面向自動化程序的實時決策用戶行為與畫像分析用戶行為與畫像分析混合云和多云部署混合云和多云部署無論是混合部署(公有云、私有化部署)還是在多個公共云上部署,統(tǒng)一體驗,一切皆簡化現(xiàn)代化實時數(shù)據(jù)倉庫在金融領域的應用實踐標簽模型OLT模型活動評估累計指標事件中心活動主題客服主題風控主題標簽模型OLT模型活動評估累計指標事件中心活動主題客服主題風控主題銀行產(chǎn)品生命周期交易事件法人組織APP事件數(shù)據(jù)源快貸數(shù)據(jù)線下數(shù)據(jù)儲蓄卡數(shù)據(jù)外部數(shù)據(jù)金融業(yè)務數(shù)據(jù)應用架構圖投放投放客戶生命周期客戶生命周期信用卡數(shù)據(jù)數(shù)據(jù)應用場景豐富期數(shù)據(jù)應用場景豐富期數(shù)據(jù)集成能力金融業(yè)務對于實時數(shù)據(jù)平臺的需求數(shù)據(jù)服務穩(wěn)定可靠數(shù)據(jù)存儲多樣結構化/半結構化多樣結構化/半結構化多樣全基于SelectDB的解決方案SELECTDB作業(yè)調度管理元數(shù)據(jù)管理作業(yè)調度管理元數(shù)據(jù)管理某城商行實時數(shù)據(jù)倉庫數(shù)據(jù)集成與處理離線初始化KakfaKakfa前期痛點前期痛點?數(shù)據(jù)時效性T+1,無當日最新實時數(shù)據(jù);?底層技術棧復雜、歷史架構過于臃腫、維護成本高,查詢效率低下,無法滿足快速靈活的查詢需求;改造收益?支持分析師實時對當日數(shù)據(jù)進行提數(shù)、全量實時抽取,從原先分鐘級響應提升至秒級響應,報表提速超過10倍;?服務“千人千面”、客戶CRM、風控分析等多個場景,流水查詢業(yè)務中百萬QPS下達到1.5秒響應,助力打造特色科技型銀行;升級標簽計算和存儲?升級標簽計算和存儲?數(shù)據(jù)存儲:離線標簽、實時標簽、OneID、事件的存儲與計算統(tǒng)一,節(jié)約存儲與計算資源,減少數(shù)據(jù)傳輸與耗時,提高用戶體驗,100w客群生成時間提速5倍;?技術棧精簡:從早期架構的Spark/Impala/Hbase/Nebula等多個組件的方案,精簡為單一數(shù)據(jù)倉庫的方案,極大減少維護成本某在線保險公司CDP平臺數(shù)據(jù)應用業(yè)務數(shù)據(jù)數(shù)據(jù)倉庫風控運營監(jiān)測即席分析案件溯源消息中間件離線文件原始數(shù)據(jù)Table1Table2庫表同步按小時/天粒度聚合數(shù)據(jù)高度聚合數(shù)據(jù)打寬Aggregate模型Topic1數(shù)據(jù)應用業(yè)務數(shù)據(jù)數(shù)據(jù)倉庫風控運營監(jiān)測即席分析案件溯源消息中間件離線文件原始數(shù)據(jù)Table1Table2庫表同步按小時/天粒度聚合數(shù)據(jù)高度聚合數(shù)據(jù)打寬Aggregate模型Topic1Duplicate模型Topic2數(shù)據(jù)清洗聯(lián)邦分析批量加工Kafka某國有大行風控反欺詐平臺數(shù)據(jù)采集數(shù)據(jù)采集OnlineOnline-ProcessPg-source Pg-sourceKafka-ETL&Java-UDFsinkOffline-ProcessKafka-ETL1000w+1000w+支持客戶規(guī)模10000+覆蓋支行網(wǎng)點1000+在線統(tǒng)計分析產(chǎn)品數(shù)支持10000+筆工單的數(shù)據(jù)追蹤、詳情分析。支持動態(tài)檢測近百種不同類別的告警規(guī)則,實現(xiàn)系統(tǒng)級別預警提醒。某國有大行風控反欺詐平臺反欺詐風控平臺業(yè)務業(yè)務效果業(yè)務效果?核心報表數(shù)據(jù)實時性從1-2天延遲驟減至5s內(nèi)。?80%即席分析可在2s內(nèi)返回結果,95%的即席分析可在5s內(nèi)返回結果。?受益于ApacheDoris極致的存儲壓縮比,存儲成本降低70%。大數(shù)據(jù)產(chǎn)品體系大數(shù)據(jù)產(chǎn)品體系多個組件帶來沉重的運維壓力和資源浪費某人壽保險一體化數(shù)據(jù)門戶指標/標簽指標/標簽API

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論