版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、新時代, 新元素, 新基礎(chǔ)平臺如何用新元素打造新一代數(shù)據(jù)庫基礎(chǔ)平臺PART 04軟硬一體化CONTENTS第1代架構(gòu) Mainframe 大型機巔峰時期,全球財富500強企業(yè)中的71%是IBM大機用戶。關(guān)鍵特點: RAS (Reliability, Availability, Serviceability 高可靠性、高可用性、高可維護性)第2代架構(gòu) 小型機+集中存儲,那是一個明星DBA輩出的時代小型機小型機要像了解自己的 老婆一樣了解自 己的數(shù)據(jù)庫。Lock、Latch、Pin、Mutex 統(tǒng)統(tǒng)不在話下第2.5代架構(gòu) X86服務(wù)器+集中存儲X86X86X86崛起第3代架構(gòu) 全X86分布式架構(gòu)X
2、86服務(wù)器-計算節(jié)點互聯(lián)網(wǎng)絡(luò)X86服務(wù)器-存儲節(jié)點/備份節(jié)點分層架構(gòu)X86服務(wù)器-計算存儲融合節(jié)點互聯(lián)網(wǎng)絡(luò)超融合分布式條件被滿足: 高速網(wǎng)絡(luò)、快速硬盤第3代架構(gòu) 全X86分布式架構(gòu)LockPinMu復(fù)雜SQL拆分簡單 SQLMySQL當(dāng)時在阿里B2DBA團隊,4保姆式服務(wù)面向少量的集中式分布式粗獷式服務(wù)器面向大量服務(wù)器把數(shù)據(jù)庫當(dāng)存儲用Latch不會當(dāng)廚子的裁縫做不了好司機腳本化自動化 從依靠個人的能力到借助監(jiān)控平臺運維平備份有texRSQL和大量的運維腳本臺效性eviewB,我所在的Oracle DBA團隊,十幾個人管理了50+套庫,鄰座的 個人,管理了300+套庫阿里巴巴研究員 張瑞,面向未
3、來的數(shù)據(jù)庫體系 架構(gòu)的思考Scale Out未來是分布式的數(shù)據(jù)存儲的每一次技術(shù)進步,都離不開行業(yè)標桿企業(yè)的模范帶頭作用中國移動的這個歷史 性大單,也將預(yù)示著 分布式存儲的未來已 來集中式架構(gòu) vs 分布式架構(gòu)集中式架構(gòu)分布式架構(gòu)業(yè)務(wù)支撐能力經(jīng)濟性 自主性/安全性 靈活性/兼容性 擴展性/伸縮性 可用性、一致性和可靠性可用性 一致性/可靠性 運維復(fù)雜度和故障恢復(fù)能力維護性 業(yè)務(wù)恢復(fù) 阿里巴巴B2B offer表:1 Oracle 拆為64個sas mysql ,收縮到 32 個ssd 集群,收縮到 8 個flash卡上平臺畫像-分布式平臺包含哪些要素?多X86SSD快X86 vs 小機HDD v
4、s SSD vs SCMRDMA vs TCP/IPiSER vs NMVeFDocker+K8S好面向失敗的可靠性設(shè)計Scale out省CacheFPGA、ASIC掛一漏萬,也許你認為分庫分表中間件非常值得講,但是本次并未涉及多,這些要素已經(jīng)在大規(guī)模使用X86SSD多-X86,當(dāng)下機房里的王者U2L趨勢:價格:巨大優(yōu)勢性能:Intel在2005年發(fā)布x86架構(gòu)的64位CPU, 已經(jīng)有14年的歷史,摩爾定律,Tick-Tock可靠性:本身可靠性提升;架構(gòu)可靠性架構(gòu)開放供貨周期,2周小機整個價值網(wǎng) 在衰落,X86整 個價值網(wǎng)在崛起多-ARM?華為鯤鵬,搭載在泰山服務(wù)器上飛騰CPU ( PK體系
5、,飛騰CPU & 麒麟操作系統(tǒng))借助于國產(chǎn)自主可 控之勢,未來可期多-SSD的世界熱鬧非凡,西數(shù)(WD)收購史多-SSD,至2023年,SSD出貨量將趕上HDD近線硬盤2017:2259萬片2018:2152萬片 -4.7%2019:1900萬片 -11.7%高性能HDDSSD2017:1597萬片2018:2410萬片+50.9%2019:2900萬片+20.3強% 力增長2017:4240萬片2018:5252萬片+23.9%2019:5460萬片 +4%穩(wěn)中有進快速下滑多-SSD,不是我不明白,只是這世界變化快SSD生態(tài)位技術(shù)演化“熱”數(shù)據(jù)市場“溫”數(shù)據(jù)市場“冷”數(shù)據(jù)市場容量和價格Mul
6、ti-Level Cell3D NANDTSV硅穿孔技術(shù)SLC=MLC=TLC=QLC,TLC主流2D=3D,2D幾乎消失SATA SSD= NVMe SSDPCIe Flash卡逐漸被淘汰從64層=72層=96層(產(chǎn)能爬坡)=144 層(ing)=2023年512層冷數(shù)據(jù)(近線數(shù)據(jù))市場依然在大容量HDD手中2019 年 PCIe 4.0 的發(fā)展,也將加快由 SATA 轉(zhuǎn)向 NVMe快X86 vs 小機HDD vs SSD vs SCMRDMA vs TCP/IP(iSER=NVMe over Fabric)iSER vs NVMeFDocker+K8S擔(dān)心性能不夠是整個 IT界的集體人格快
7、-X86 vs 小機英特爾2005年發(fā)布64位CPU,2010年,發(fā)布 Nehalem-EX架構(gòu),至強7500處理器,媲美同 時期小機能力摩爾定律,1965年,18個月,價格不變,容量 翻倍,性能翻倍Tick-Tock,即一年升級工藝制程,下一年升級 核心架構(gòu),如此循環(huán)往復(fù)的迭代策略是半導(dǎo)體 巨頭英特爾為整個行業(yè)定下的規(guī)矩X86高級特性:虛擬化、智能節(jié)點、睿頻加速、超線程Intel 9200系列,56核心,2個die,膠水粘結(jié)快 -HDD vs SSD vs SCM200rw:40000/16000rw:300000/100000150M/s500M/s3.2GB/sIOPS吞吐 延遲6毫秒1
8、10微秒77微秒HDDSATA SSDNVMe SSD非連續(xù)創(chuàng)新連續(xù)創(chuàng)新快-SCM,3D XPoint2層cache多復(fù)雜?快 -Optane,SCM(storage class memory)3D Xpoint技術(shù),非傳統(tǒng)的NAND顆粒極低的延遲 10微妙,NVMe SSD一般為70-80微妙極高的DWPD,一般可達到30,一般NVMe SSD的DWPD在1-3之間,一百萬次的擦寫周期均衡的讀寫性能,非常適合做寫緩沖,打造極致穩(wěn)定性能我們說傲騰比 NVMe SSD還快 時,是在說什么?Optane為數(shù)據(jù)庫redo寫入賦能Optane結(jié)合NVMeoF 是一個極好的組合,我 們在2017年就投入
9、了 對Optane的研究ExadataX8M結(jié)合Optane對redo寫的優(yōu)化Optane支持原子寫,Exadata下的日志寫入結(jié)合原子寫可以不需要 等待寫入確認ACK,整體寫延遲降低8倍快-Optane持續(xù)穩(wěn)定的性能表現(xiàn)(抖動方差小)沒有傳統(tǒng)的垃圾回收副作用(空盤和全盤擦寫2遍后性能差距不明顯)在分布式系統(tǒng)中與nvme over fabric結(jié)合表現(xiàn)好混合讀寫性能穩(wěn)定,在Queue Depth為16時就能達到性能極限,相比其他傳統(tǒng)顆粒需要在128個QD才 能達到性能極限。千分之二的差異快-普通的NAND顆粒表現(xiàn)基于普通flash顆粒的SSD的空盤和滿盤出現(xiàn)明顯的性能差異,同時傳統(tǒng)flash顆
10、粒 的抖動在5w iops上下百分之十四的差異快- Optane,4K block size 在同隊深度下的性能表現(xiàn)在Queue Depth為16時就能達到性能極限,同時延遲變化大,相比其他傳統(tǒng) 顆粒需要在128個QD才能達到性能極限Optane與Oracle In-Memory Option的結(jié)合PM-LDRAM:Local DRAM代表CPU插槽本地內(nèi)存的性能,用來和Optane DC PM對比PM-RDRAM:Remote DRAM即跨CPU插槽的非NUMA優(yōu)化內(nèi)存訪問,同樣用于對比PM-Optane:Optane持久化內(nèi)存,PMEM模式快-最快的傳輸協(xié)議RDMA不需要經(jīng)過OS的網(wǎng)絡(luò)協(xié)議
11、???最快的傳輸協(xié)議RDMA主機內(nèi)數(shù)據(jù)處理的時延從幾十微秒降低到幾微秒,同時不占用CPU零拷貝:減少數(shù)據(jù)拷貝次數(shù)。由于沒有將數(shù)據(jù)拷貝到內(nèi)核態(tài)并處理數(shù)據(jù)包頭部的過程,傳輸延遲 會顯著減小。Kernel Bypass:不需要內(nèi)核參與InfiniBand網(wǎng)絡(luò)的采用高帶寬(40G/56G/100G)、低時延(幾百納秒)和無丟包特性Protocol Offload快-最快的傳輸協(xié)議RDMA56Gb實際帶寬是40Gb 實際帶寬的接近兩倍(54.3/32)基于InfiniBand的RDMA 2000年發(fā)布規(guī)范,屬于原生RDMA,低延遲、高帶寬、低CPU 消耗,技術(shù)成熟基于TCP/IP的RDMA稱作iWARP
12、,在 2007年形成標準,性能差,對網(wǎng)絡(luò)要求低基于Ethernet的RDMA稱作RoCE,在2010年發(fā)布協(xié)議,網(wǎng)絡(luò)融合大趨勢,未來主流(v2),目前在加速成熟中RoCE基于以太,未來具備 大規(guī)模部署的可能性,現(xiàn)狀: 交換機、主機、網(wǎng)卡,配置 都還比較復(fù)雜,坑也比較多快 -iSCSI 和 iSER,iSER vs NVMe over Fabric什么是iSER?iSER:iSCSI Extensions for RDMA非常好的性能、極低的延遲和CPU使 用率什么是iSCSI?iSCSI是一種存儲設(shè)備遠程映射技術(shù), 它可以將一個遠程服務(wù)器上的存儲設(shè) 備映射到本地,并呈現(xiàn)為一個塊設(shè)備這種映射方式
13、基于是基于SCSI協(xié)議 的,SCSI協(xié)議是計算機與外圍設(shè)備(例如硬盤、光盤等)通信的協(xié)議。iSCSI則是通過TCP協(xié)議對SCSI進行 封裝的一種協(xié)議,也就是通過以太網(wǎng) 傳輸SCSI協(xié)議的內(nèi)容快 -iSCSI 和 iSER,iSER vs NVMe over FabriciSER仍然是基于SCSI這個存儲協(xié)議進行擴展的在協(xié)議棧的組織上受限于SCSI協(xié)議的限制,例如隊列的數(shù)量、深度等在性能達到幾十萬IOPS的時候會有較大的協(xié)議開銷,類似于Oracle Latch爭用NVMe:專門為閃存類存儲設(shè)計的協(xié)議,主要用于通過PCIe總線與電腦連接的非 易失性閃存設(shè)備iSER =NVMe over Fabri
14、c單個通道從20Wiops(iSER) 到 協(xié)議層無限制(NVMe over Fabric)快-Docker+K8S,整合,整合,還是整合Docker統(tǒng)統(tǒng)解決掉虛擬化的缺陷:計算密度難以提高,資源開銷大IO衰減尤其嚴重迭代成本高,還是以O(shè)S的視角構(gòu)建系統(tǒng),導(dǎo)致業(yè)務(wù)開發(fā)成本較高快-Docker,想說愛你并不容易數(shù)據(jù)庫如何運行在Docker中?IBM發(fā)表的文章An Updated Performance Comparison of Vritual Mahchines and LinuxContainers給了我們很多啟 發(fā),相比KVM,Oracle inDocker執(zhí)行次數(shù)提高了2.47倍, 運行
15、時間減少了55.25%如何管理大規(guī)模的Docker?就像虛擬化和OpenStack的關(guān)系, 我們需要容器化時代的 “OpenStack”快- 站在巨人(Google)的肩膀上,我們找到了答案:Kubernetes以調(diào)度策略為例,我們需要:識別不同級別的存儲服務(wù)(QoS),例如主庫調(diào)度到NVMe SSD節(jié)點,備庫調(diào)度到SATA 節(jié)點識別業(yè)務(wù)需要的非親緣性,比如,在資源都滿足的前提下,主庫和備庫不能調(diào)度到統(tǒng)一物 理節(jié)點Kubernetes對持久化應(yīng)用的支持還剛剛起步,右圖是基于 Kubernetes 構(gòu)建的持 久化服務(wù) ,發(fā)現(xiàn)還沒有基于Oracle和MySQL等數(shù)據(jù)庫的服務(wù),我們在這一塊 走在了前
16、面:快- K8S+Docker,實例高可用我們共模擬了四次故障,例如 kill、重啟節(jié)點之類,平均下來都可以在 35秒 內(nèi)恢復(fù)訪問(消耗時間與 AWSAurora和阿里云 PolarDB持平)快- K8S+Docker,讀庫水平擴展通過我們的平臺一鍵式添加1個備庫, 可以看到讀壓力較平均的分散到4個備庫中:好面向失敗的可靠性設(shè)計Scale Out好-面向失敗的可靠性設(shè)計根據(jù) ITIC 2016年的數(shù)據(jù)顯示,Dell x86服務(wù)器的可用性如下:其中52%的服務(wù)器可用性達到了“5個9”,即99.999%,全年意外宕機時間約為5.26分鐘其中41%的服務(wù)器可用性為“4個9”,即99.99%,全年意外
17、宕機時間約為52.56分鐘其中7%的服務(wù)器可用性為“3個9”,即99.9%,全年意外宕機時間約為8.76小時通過計算加權(quán)平均數(shù)可以得出,Dell x86服務(wù)器的平均可用性大約為99.988%,全年意外宕機 時間約為63分鐘分布式系統(tǒng),服務(wù)器數(shù) 量眾多,節(jié)點down機 是一件高頻發(fā)生的事好-面向失敗的可靠性設(shè)計好-面向失敗的可靠性設(shè)計以沃趣科技的QData Standard一體機為例,我們通過自身的監(jiān)控管理平臺QData Control,對200多個客戶現(xiàn)場的7億多條數(shù)據(jù)進行了統(tǒng)計和分析,得出得結(jié)論是: 一體機的可用性為“6個9”,即全年意外宕機時間31秒(只需要一個計算節(jié)點上 的數(shù)據(jù)庫服務(wù)可用,即認為集群是可用的)。不過實際數(shù)據(jù)跟理論值有點差異,提供給大家:一套標準的QData Standard由2個計算節(jié)點和3個存儲節(jié)點組成,只有在2個計算節(jié)點同時宕機或者2個存儲節(jié)點同時宕機的情況下,才會導(dǎo)致整體數(shù)據(jù)庫服務(wù)不可 用,通過基本的概率計算可
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年股東之間權(quán)益分配協(xié)議3篇
- 2025年度SSL協(xié)議安全風(fēng)險評估與管理合同3篇
- 2024食品供應(yīng)鏈副食品供應(yīng)專項協(xié)議版B版
- 2024版工程吊裝安全協(xié)議3篇
- 2024有限責(zé)任公司發(fā)起人關(guān)于環(huán)境保護與社會責(zé)任協(xié)議3篇
- 動物學(xué)實驗知到智慧樹章節(jié)測試課后答案2024年秋泰山學(xué)院
- 2025年度農(nóng)產(chǎn)品冷鏈物流鋪貨及追溯系統(tǒng)建設(shè)合同3篇
- 商業(yè)池塘租賃合同
- 乳品加工砌體施工合同
- 信息系統(tǒng)定制開發(fā)協(xié)議
- DZ∕T 0054-2014 定向鉆探技術(shù)規(guī)程(正式版)
- 中班語言活動《我長大了》課件
- 如何玩轉(zhuǎn)抖音本地生活
- 超星爾雅學(xué)習(xí)通《中華傳統(tǒng)文化之戲曲瑰寶(中國戲曲音樂學(xué)會)》2024章節(jié)測試答案
- TB 10012-2019 鐵路工程地質(zhì)勘察規(guī)范
- 肺結(jié)節(jié)診治指南
- 2024年濟南歷城區(qū)九年級中考化學(xué)一??荚囋囶}(含答案)
- 2024年山東能源集團大方綠塘煤礦有限公司招聘筆試參考題庫含答案解析
- GB/T 19923-2024城市污水再生利用工業(yè)用水水質(zhì)
- 成都銀行貸款合同
- 2024年生開心果市場需求分析報告
評論
0/150
提交評論