




已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
曙光海量結構化數(shù)據(jù)分析平臺解決方案曙光信息產(chǎn)業(yè)(北京)有限公司2012-05導言在數(shù)據(jù)爆炸的今天,從海量結構化數(shù)據(jù)中提取并挖掘出有用的信息逐漸成為眾多行業(yè)的新的應用熱點。而海量數(shù)據(jù)的分析中呈現(xiàn)出的高并發(fā)加載數(shù)據(jù),海量存儲,低并發(fā)查詢,但每次查詢的規(guī)模都非常高的特點。使得如何將數(shù)據(jù)庫操作有效并行化成為海量數(shù)據(jù)分析首要需要解決的問題。雖然目前流行的Hadoop的map-reduce并行計算框架在很多互聯(lián)網(wǎng)企業(yè)中得到了廣泛的應用,但卻由于其不支持SQL語句,使得難以與現(xiàn)有的基于SQL的關系型數(shù)據(jù)庫的應用場景進行結合。曙光在海量數(shù)據(jù)分析和挖掘領域積累了多年的經(jīng)驗,和計算所智能中心合作研發(fā)出專門針對海量關系型數(shù)據(jù)庫應用特點的關系型數(shù)據(jù)庫系統(tǒng)DRAC,為海量數(shù)據(jù)分析系統(tǒng)提供高性能,高可擴展性的并行數(shù)據(jù)庫系統(tǒng),并且已成功部署在多個國家大型項目中。其底層采用無共享(shared-nothing)的oracle數(shù)據(jù)庫節(jié)點作為數(shù)據(jù)節(jié)點,具有較好的擴展性和系統(tǒng)可靠性。DRAC軟件將用戶的操作透明地轉化成對底層數(shù)據(jù)庫的操作,而對用戶呈現(xiàn)為單一的數(shù)據(jù)庫系統(tǒng)。DRAC系統(tǒng)可根據(jù)數(shù)據(jù)的訪問頻度和重要性實施多級存儲的方案,以降低整個系統(tǒng)的成本,提高系統(tǒng)的性價比。技術特點曙光集群并行數(shù)據(jù)庫DRAC(Dawnings Real Application Cluster)是一種無共享(shared- nothing)結構的并行數(shù)據(jù)庫管理系統(tǒng)。DRAC原是專為分析網(wǎng)絡監(jiān)控數(shù)據(jù)設計的并行數(shù)據(jù)庫系統(tǒng),現(xiàn)已部署在國家某大型項目、某市大型項目等多個系統(tǒng)中。它具有如下技術特點: DRAC采取目前主流的集群設計方法,具有性價比高、擴展性好等諸多優(yōu)點。 它直接將任意查詢分解成操作于分區(qū)數(shù)據(jù)的子查詢和匯總中間結果的后處理查詢,用成熟的DBMS來實現(xiàn)兩種查詢的執(zhí)行,從而避免了一般的分布式查詢處理器為了通用而引入的復雜性。配合針對特定應用的分區(qū)策略,DRAC的方法能保證查詢執(zhí)行的效率。 大任務全并行處理。DRAC采用單機數(shù)據(jù)庫作為基本數(shù)據(jù)處理單元,將數(shù)據(jù)并行地寫入這些單元數(shù)據(jù)庫,查詢時并行地從各個數(shù)據(jù)庫中讀取和處理這些數(shù)據(jù)。這種完全并行的處理極大地提高了系統(tǒng)存儲數(shù)據(jù)的能力并縮短單個查詢的完成時間。DDL操作也在各數(shù)據(jù)庫節(jié)點上并行地執(zhí)行。 DRAC對外提供單一系統(tǒng)映像,用戶使用類似ODBC或JDBC的接口提交SQL語句。這些操作被服務節(jié)點自動地并行執(zhí)行。 DRAC采取了功能分離的設計思路,像加載、查詢等功能均可按需要配置,滿足在線擴展的高可用要求。 和Oracle RAC等并行數(shù)據(jù)庫不同,DRAC不需要光纖交換機和較高端的盤陣,硬件成本低。配合靈活部署和簡易管理的工具,DRAC在大規(guī)模部署時有較高的性能價格比。系統(tǒng)架構下圖給出了一種典型的DRAC配置。系統(tǒng)中的節(jié)點分為兩大類:存儲數(shù)據(jù)的數(shù)據(jù)庫節(jié)點和提供并行數(shù)據(jù)管理功能的服務節(jié)點。后者包括:加載服務、查詢服務、數(shù)據(jù)復制和數(shù)據(jù)定義服務。所有類型的節(jié)點個數(shù)均可根據(jù)容量和性能的需要而靈活配置。數(shù)據(jù)庫節(jié)點是帶獨立存儲系統(tǒng)(本地硬盤或磁盤陣列)的商品化服務器。節(jié)點上安裝單機版的Oracle數(shù)據(jù)庫管理系統(tǒng)。按照數(shù)據(jù)劃分策略,每個數(shù)據(jù)庫節(jié)點保存全部的復制數(shù)據(jù)和分片數(shù)據(jù)表的一部分。每個數(shù)據(jù)庫節(jié)點上數(shù)據(jù)均可使用Oracle的索引、分區(qū)等特性。數(shù)據(jù)庫的功能被分成加載、查詢、數(shù)據(jù)復制、數(shù)據(jù)定義等服務,每種服務部署在單獨的物理節(jié)點上。任一服務節(jié)點均建立到所有的數(shù)據(jù)庫連接。加載節(jié)點啟動若干個加載線程,線程將一批數(shù)據(jù)寫入某一數(shù)據(jù)庫節(jié)點。由于海量數(shù)據(jù)分布存儲在各數(shù)據(jù)庫節(jié)點上,查詢服務首先并行地在處理各數(shù)據(jù)庫節(jié)點上的局部數(shù)據(jù)得到中間結果,然后將中間結果匯總成最終結果。復制數(shù)據(jù)是指將一個表的數(shù)據(jù)同時存儲一組數(shù)據(jù)庫節(jié)點上,以此避免兩個表的連接操作。數(shù)據(jù)復制服務專用于處理這部分數(shù)據(jù)的操作。它通過分布式事務在有關節(jié)點上同時執(zhí)行事務操作,保證復制前后數(shù)據(jù)都是一致的。 數(shù)據(jù)定義服務用于維護系統(tǒng)的元數(shù)據(jù),它并行地執(zhí)行表結構、表空間和其它數(shù)據(jù)庫模式改變等元數(shù)據(jù)操作。采用這種服務分離的設計,用戶可以靈活地配置各種服務的個數(shù),以達到整個體統(tǒng)資源的最佳利用。DRAC集群數(shù)據(jù)庫系統(tǒng)結構無共享架構DRAC采取Shared-Nothing的架構,即所有存儲數(shù)據(jù)的數(shù)據(jù)庫節(jié)點除互聯(lián)網(wǎng)絡外,不共享任何資源。除此之外,并行數(shù)據(jù)庫還有Shared-Memory和Shared-Disk兩種架構。學術界普遍認為,Shared-Nothing架構有很強的擴展性。另外,DRAC不需要存儲網(wǎng)絡設施,也不依賴于昂貴的高端盤陣。這樣可以很好降低用戶的硬件成本,在大規(guī)模部署時有很高的性價比。Shared-Memory結構是多個處理器通過內(nèi)存總線與多個共享內(nèi)存相連接,再通過I/O總線共享多個存儲設備。Shared-Memory 結構是典型的向上擴展類型,即在單節(jié)點上加入更多的處理器、內(nèi)存、磁盤和網(wǎng)卡。多家廠商的產(chǎn)品已經(jīng)證明,在常規(guī)商務負載環(huán)境下,SMP 服務器能夠提供 10 倍于單處理器系統(tǒng)的向上擴展能力。然而,隨著 CPU 個數(shù)增多,共享的內(nèi)存帶寬成為瓶頸,同時多處理器競爭降低了系統(tǒng)總線的利用率,因此難以擴展到大規(guī)模。Shared-Disk結構中每個節(jié)點有自己的內(nèi)存,共享磁盤。每個節(jié)點都可以讀取和修改所有數(shù)據(jù)。通過分布式的并發(fā)控制機制來保證數(shù)據(jù)一致性。隨著節(jié)點數(shù)增多,并發(fā)開銷增大,因此商用 Shared-Disk構建的實用數(shù)據(jù)庫系統(tǒng)一般只有 6-8個節(jié)點。Shared-Nothing 結構屬于多處理單元多數(shù)據(jù)單元結構。Shared-Nothing 環(huán)境下,每個處理器有自己的內(nèi)存和磁盤存儲設備,所有處理器通過節(jié)點間互連網(wǎng)絡進行連接,對于節(jié)點間通信少、返回結果集少的應用(如 數(shù)據(jù)倉庫或DSS),具有良好的擴展性。可達數(shù)千個節(jié)點。在DRAC中,單元數(shù)據(jù)庫除了采用單機Oracle之外,還可以采用Shared-Disk的并行數(shù)據(jù)庫,如Oracle RAC。這是一種融合了Shared-Disk和Shared-Nothing結構的系統(tǒng),可以擴展到更大的規(guī)模。Shared-Nothing架構下,數(shù)據(jù)庫節(jié)點如果失效將導致數(shù)據(jù)不可訪問。DRAC提供了雙寫的策略,對于要求高的數(shù)據(jù)存儲在兩個節(jié)點上。只要有一個節(jié)點存在,數(shù)據(jù)仍然及時可用。關鍵技術DRAC是一套完整的并行數(shù)據(jù)庫系統(tǒng),除上述特征外,下面再給出并行加載、并行查詢和數(shù)據(jù)雙寫等關鍵技術。l 并行加載提高系統(tǒng)加載能力的關鍵是提高單機加載能力和充分利用系統(tǒng)資源。DRAC的并行加載技術包括如下層面上的設計。1)單線程直接路徑加載。加載線程使用預處理過程將被寫數(shù)據(jù)的格式告知數(shù)據(jù)庫,然后接受客戶端的一大批記錄,以直接路徑加載的方式一次性將數(shù)據(jù)寫入數(shù)據(jù)庫。這是Oracle提供的最快的在線數(shù)據(jù)加載方法。2)單機多線程同時加載。每個加載節(jié)點都維護一個線程,當有請求到達時,即分配一個線程向某一個數(shù)據(jù)庫節(jié)點加載。這樣能充分利用加載節(jié)點的帶寬和計算資源,提高其利用率。3)多數(shù)據(jù)庫并行加載。每個加載節(jié)點的多個線程可以同時向多個數(shù)據(jù)庫并行加載。當加載節(jié)點較多的時候,可以充分利用數(shù)據(jù)庫的加載能力,使系統(tǒng)的加載性能達到最大。上述三種設計的考慮使DRAC能提供很高的加載速度和近似線性的加載擴展比。數(shù)據(jù)均衡是Shared-Nothing架構的并行數(shù)據(jù)庫要解決的一個重要問題。解決數(shù)據(jù)均衡的關鍵是避免某個節(jié)點上的數(shù)據(jù)過多。出現(xiàn)這種情況,將導致該節(jié)點上的查詢?nèi)蝿胀瓿傻刈钔?,因為并行任務的完成時間取決于最慢的操作,所以會導致查詢擴展性嚴重下降。DRAC每次都選擇當前加載量最小的節(jié)點進行加載,保持當前的數(shù)據(jù)均衡。如果某個數(shù)據(jù)庫節(jié)點失效后重新啟動,導致一段時間內(nèi)加載量過小,后續(xù)就會出現(xiàn)短期內(nèi)加載過多的情況。針對面向流數(shù)據(jù)應用,DRAC采取周期性計數(shù)的方法。當超出一個周期后,計數(shù)歸零。在上述情況發(fā)生時,上個周期數(shù)據(jù)量少不會影響到一個周期的數(shù)據(jù)平衡。l 并行查詢流數(shù)據(jù)管理中,具有流特征的數(shù)據(jù)表因為隨時間而增長,往往變得很大。海量的數(shù)據(jù)表分布存儲在不同的數(shù)據(jù)節(jié)點上,這是DRAC的并行查詢的基礎。如圖所示,查詢服務器上也部署一個數(shù)據(jù)庫,用于保存中間結果。查詢服務將來自客戶端的SQL分解成數(shù)據(jù)庫節(jié)點上本地數(shù)據(jù)子查詢和綜合子查詢的后處理查詢。子查詢在各個數(shù)據(jù)庫節(jié)點處理原始數(shù)據(jù),各節(jié)點的中間結果匯總到查詢節(jié)點后執(zhí)行后處理查詢,即可得到用戶最終的結果。基于分布表和復制表的并行查詢處理當中間結果集較小時,該方法有很好的擴展性。兩個分布表之間的關聯(lián)操作采用節(jié)點間數(shù)據(jù)重分布來實現(xiàn)。為了實現(xiàn)查詢的魯棒性,查詢服務實現(xiàn)了客戶端超時和服務器資源回收機制。確保在客戶端異常后,不對系統(tǒng)產(chǎn)生影響。另外客戶端可以主動取消查詢。l 數(shù)據(jù)雙寫對于要求數(shù)據(jù)可靠性和可用性要求很高的用戶,DRAC提供數(shù)據(jù)雙寫功能。如圖所示,每個數(shù)據(jù)庫節(jié)點上創(chuàng)建兩個數(shù)據(jù)庫,如d1和d2是同一物理機上的兩個數(shù)據(jù)庫。節(jié)點之間的數(shù)據(jù)庫做完全鏡象,數(shù)據(jù)在寫入的時間同時保存在鏡象的兩個數(shù)據(jù)庫中。圖中給出了交錯的鏡象關系,除任一數(shù)據(jù)庫節(jié)點失效后數(shù)據(jù)仍可用外,上面或下面所有數(shù)據(jù)庫節(jié)點損壞,系統(tǒng)中的數(shù)據(jù)仍然可用。DRAC的數(shù)據(jù)雙寫高可用DRAC采用多種方式提高系統(tǒng)的可用性,完全可以提供7*24小時無間斷運行。按離用戶的遠近,DRAC的高可用性包括如下層面。高可用的負載均衡機制。DRAC標準情況下配置兩個負載均衡器,當其中一個不可用時,客戶端接口庫自動使用另一個,因此負載均衡器是高可用的。高可用的服務。DRAC每種服務(加載、查詢、復制引擎)都可以配置在多個物理服務器上,只要還有一個可用,這種服務就是可用的。高可用數(shù)據(jù)庫。DRAC系統(tǒng)配置多個互相獨立的數(shù)據(jù)庫節(jié)點。當某個數(shù)據(jù)庫出現(xiàn)故障時,這種故障分臨時性故障、節(jié)點宕機和數(shù)據(jù)損壞三種情況。如果是臨時性的故障或節(jié)點宕機,正在進行的查詢不能獲得這部分數(shù)據(jù)的結果,但其余節(jié)點上的計算結果會返回給用戶并提示“結果集不完整”。當節(jié)點宕機時,這種狀態(tài)要持續(xù)到機器重新啟動為止。啟動雙寫機制后,即使數(shù)據(jù)庫失效,數(shù)據(jù)也不會丟失,并且隨時可用。擴展性DRAC管理的系統(tǒng)中,只要增加數(shù)據(jù)庫節(jié)點,系統(tǒng)的容量可隨即增加。與此同時,所有數(shù)據(jù)庫的處理能力近似為整個系統(tǒng)的處理能力,也隨之擴展。當系統(tǒng)規(guī)模擴大時,系統(tǒng)的性能表現(xiàn),即擴展性是并行系統(tǒng)的重要特征。達到所有數(shù)據(jù)庫的寫速度之前,DRAC數(shù)據(jù)加載的性能和加載節(jié)點的個數(shù)呈近線懷的增長。大部分的查詢則隨數(shù)據(jù)庫節(jié)點個數(shù)的增加,也呈近線性的結果。根據(jù)應用的實際需求,用于加載和查詢等任務的服務器可以方便地增加和刪除,但系統(tǒng)總的處理能力主要受數(shù)據(jù)庫節(jié)點能力的限制。所有節(jié)點均可在不中斷業(yè)務的情況下進行。軟件也可以實現(xiàn)在線升級。DRAC在生產(chǎn)系統(tǒng)的部署中超過18個數(shù)據(jù)庫節(jié)點,處理的數(shù)據(jù)量超過400TB。統(tǒng)備份恢復DRAC高可用性的介紹中已經(jīng)從4個層面上介紹了在部分設備出現(xiàn)故障的時候系統(tǒng)如何保證對外服務的連續(xù)可用性。在未發(fā)生數(shù)據(jù)丟失的情況下只需替換故障設備,重新加入系統(tǒng),即可恢復故障。為了防范出現(xiàn)數(shù)據(jù)丟失的嚴重故障,DRAC提供備份工具dmbk,它分別從各數(shù)據(jù)庫節(jié)點導出需要的數(shù)據(jù),經(jīng)過壓縮后存儲在備份介質(zhì)上。當需要時,它從備份介質(zhì)上讀出數(shù)據(jù),解壓縮后導入原數(shù)據(jù)庫。簡易管理DRAC的各種服務及數(shù)據(jù)庫節(jié)點均是“邏輯節(jié)點”,它們可以部署在任何的物理節(jié)點上,因此針對特定的系統(tǒng)結構,只需指明“邏輯節(jié)點”和“物理節(jié)點”的映射關系,即可用工具簡易完成包括底層數(shù)據(jù)庫在內(nèi)的整個的系統(tǒng)部署。它可以部署在包括單個節(jié)點在內(nèi)的任意數(shù)量機器
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- RNA干擾PRL - 3基因對人前列腺癌PC - 3細胞生物學行為影響的深度剖析
- 租金自動調(diào)整機制說明二五年2月份合同附件
- 2025年智能建筑系統(tǒng)集成與節(jié)能降耗在數(shù)據(jù)中心節(jié)能減排中的應用研究報告
- 實腰梁壓型板項目投資可行性研究分析報告(2024-2030版)
- 2020-2025年中國大麥茶行業(yè)發(fā)展趨勢及投資前景預測報告
- 2025年中國智能手機處理器行業(yè)發(fā)展?jié)摿︻A測及投資戰(zhàn)略研究報告
- 2025-2030年中國圓棒砂光機項目投資可行性研究分析報告
- 2024年全球及中國高倍數(shù)泡沫滅火劑行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 中國健美滑輪行業(yè)市場發(fā)展前景及發(fā)展趨勢與投資戰(zhàn)略研究報告(2024-2030)
- 2018-2024年中國兒童奶市場深度調(diào)研分析及投資前景研究預測報告
- 2025年河北省中考二模道德與法治試題(啟光卷含答案)
- 材料力學知到智慧樹期末考試答案題庫2025年遼寧工程技術大學
- 敦煌文化介紹課件
- 2025貴州中考:歷史必考知識點
- 肝硬化門靜脈高壓癥食管、胃底靜脈曲張破裂出血診治專家共識2025解讀
- 2025年重癥醫(yī)學科ICU護理標準化建設計劃
- 公司掛名法人免責協(xié)議書
- 2025年南通市通大全過程工程咨詢有限公司招聘筆試參考題庫附帶答案詳解
- 玉石國際貿(mào)易買賣合同8篇
- GB 45549-2025石墨和螢石單位產(chǎn)品能源消耗限額
- 建筑合同變更補充協(xié)議
評論
0/150
提交評論