版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
HCDCE152--1.00李鋒/WX640152016-7-20劉立燦/180730新開發(fā)華為分布式存儲(chǔ)解決方案本節(jié)重點(diǎn)介紹FusionStorage的概念,應(yīng)用場(chǎng)景,兼容性及邏輯架構(gòu)等基本內(nèi)容。作為課程的引入,讓學(xué)員對(duì)FusionStorage產(chǎn)品有初步整體的了解和認(rèn)識(shí),為深入學(xué)習(xí)理解和使用該產(chǎn)品打下基礎(chǔ)學(xué)完本課程后,您將能夠:描述華為FusionStorage產(chǎn)品及主要應(yīng)用場(chǎng)景掌握FusionStorage產(chǎn)品兼容性,License授權(quán)等信息掌握并描述FusionStorage邏輯架構(gòu)了解FusionStorage災(zāi)備方案FusionStorage產(chǎn)品整體介紹FusionStorage基礎(chǔ)概念及關(guān)鍵原理FusionStorage組件功能及相互關(guān)系FusionStorageIO流程分析FusionStorage主要功能特性FusionStorage跨服務(wù)器、機(jī)柜或機(jī)房數(shù)據(jù)可靠性認(rèn)識(shí)ServerSAN概念由多個(gè)獨(dú)立服務(wù)器自帶的存儲(chǔ)組成一個(gè)存儲(chǔ)資源池,同時(shí)融合了計(jì)算和存儲(chǔ)資源特征專有設(shè)備變通用設(shè)備計(jì)算與存儲(chǔ)線性擴(kuò)展簡(jiǎn)單管理、低TCO華為ServerSAN產(chǎn)品FusionStorage分布式塊存儲(chǔ)軟件將通用X86服務(wù)器的本地HDD、SSD等介質(zhì)通過分布式技術(shù)組織成大規(guī)模存儲(chǔ)資源池對(duì)非虛擬化環(huán)境的上層應(yīng)用和虛擬機(jī)提供工業(yè)界標(biāo)準(zhǔn)的SCSI和iSCSI接口開放的API計(jì)算存儲(chǔ)存儲(chǔ)計(jì)算計(jì)算計(jì)算存儲(chǔ)存儲(chǔ)ControllerControllerControllerControllerPCIePCIePCIePCIe傳統(tǒng)SAN架構(gòu)HDDSAN/NASHDDSAN/NASServerVMVMVMVMFC/IPNetworkFC/IPNetworkServerVMVMVMVMCacheCacheHDDSSDHDDSSDHDDSSD……HDDSSDHDDSSDHDDSSD硬盤框硬盤框
控制器控制器控制器控制器
控制器
控制器
控制器控制器孤立的存儲(chǔ)資源存儲(chǔ)設(shè)備只能擴(kuò)展容量機(jī)頭瓶頸:雙控~16控,且無法線性擴(kuò)展Cache瓶頸:通常為GB網(wǎng)絡(luò)瓶頸:10GE、8GFC分布式ServerSAN架構(gòu)共享式的存儲(chǔ)資源池性能與容量橫向擴(kuò)展Server本地存儲(chǔ)ServerServerServerVMVMVMVMVMVMInfiniBand/10GENetworkServer1VBSServer2VBSServerNVBS存儲(chǔ)服務(wù)器OSDOSDOSD……存儲(chǔ)服務(wù)器OSDOSDOSD……存儲(chǔ)服務(wù)器OSDOSDOSD……CacheCacheCacheVMVMVMVMVMVM分布式控制器,可線性擴(kuò)展至4096節(jié)點(diǎn)分布式Cache,擴(kuò)展至TB級(jí)P2P無阻塞高速IB網(wǎng)絡(luò),56GInfiniBandRDMA存儲(chǔ)發(fā)展趨勢(shì):分布式存儲(chǔ)快速增長(zhǎng)現(xiàn)在ServerSAN:
由多個(gè)獨(dú)立服務(wù)器自帶的存儲(chǔ)組成一個(gè)存儲(chǔ)資源池,同時(shí)融合了計(jì)算和存儲(chǔ)資源專有設(shè)備變通用設(shè)備計(jì)算與存儲(chǔ)線性擴(kuò)展簡(jiǎn)單管理、低TCO華為FusionStorage兩大主要應(yīng)用場(chǎng)景FusionStorageSCSI/iSCSI物理部署虛擬化平臺(tái)OpenStack查詢檢索財(cái)務(wù)報(bào)表數(shù)據(jù)分析HANA公有云VDI開發(fā)測(cè)試私有云CRMERP市場(chǎng)營(yíng)銷分布式Cache…分布式Cachex86服務(wù)器DHT環(huán)強(qiáng)一致性算法x86服務(wù)器高速網(wǎng)絡(luò)IB/GE/10GE云資源池?cái)?shù)據(jù)庫(kù)及關(guān)鍵應(yīng)用華為FusionStorage方案選擇參考核心系統(tǒng)塊/文件一體化海量文件/備份/歸檔典型場(chǎng)景產(chǎn)品選擇云資源池和OLAP數(shù)據(jù)庫(kù)分布式存儲(chǔ)FusionStorage產(chǎn)品約束1、暫無對(duì)象和文件存儲(chǔ)2、三節(jié)點(diǎn)起步,建議100TB以上規(guī)模StorageOceanStor9000StorageOceanStor18000OceanStorV3FusionStorage已有版本信息
(2013to2016)2013-Q32014-Q22016-Q1FusionStorage3.0FusionStorage3.02FusionStorage3.30FusionStorage已有版本升級(jí)FusionStorage標(biāo)準(zhǔn)版標(biāo)準(zhǔn)版到高級(jí)版升級(jí)包FusionStorage高級(jí)版FusionStorage3.0標(biāo)準(zhǔn)版FusionStorage3.02標(biāo)準(zhǔn)版FusionStorage3.0高級(jí)版FusionStorage3.02高級(jí)版FusionStorage3.30標(biāo)準(zhǔn)版FusionStorage3.30高級(jí)版銷售版本升級(jí)發(fā)布版本升級(jí)注意:銷售版本的升級(jí)需要購(gòu)買相應(yīng)的版本升級(jí)包如果需要跳多級(jí),則需要購(gòu)買多個(gè)相應(yīng)的升級(jí)包在有有效的軟件升級(jí)與支持服務(wù)下,客戶可以免費(fèi)按上面的升級(jí)路徑升級(jí)發(fā)布版本(Release)FusionStorage
兼容性---硬件&軟件硬件兼容性主要包括:服務(wù)器HDD盤,SSD盤,PCIESSD卡/盤RAID卡,以太網(wǎng)卡,Infiniband卡軟件兼容性主要包括:虛擬化平臺(tái)操作系統(tǒng)數(shù)據(jù)庫(kù)軟件FusionStorage
技術(shù)規(guī)格參數(shù)集群指標(biāo)規(guī)格卷規(guī)格指標(biāo)規(guī)格單集群存儲(chǔ)服務(wù)器數(shù)量4,096個(gè)集群最大卷數(shù)量1,280,000個(gè)單集群硬盤數(shù)量49,152個(gè)單資源池最大卷數(shù)量65,000個(gè)單集群支持的計(jì)算節(jié)點(diǎn)數(shù)量10,240個(gè)卷容量64MB~256TB單集群最大資源池?cái)?shù)量128個(gè)卷最大共享主機(jī)數(shù)量128個(gè)資源池規(guī)格指標(biāo)規(guī)格每個(gè)主機(jī)最大掛載卷數(shù)量512個(gè)單資源池的硬盤數(shù)量?jī)筛北荆℉DD或SSD):12個(gè)~96個(gè)三副本(HDD或SSD):12個(gè)~2,048個(gè)共享卷最大數(shù)量20,000個(gè)單資源池的存儲(chǔ)服務(wù)器數(shù)量?jī)筛北荆℉DD或SSD):3個(gè)~16個(gè)三副本(HDD或SSD):3個(gè)~256個(gè)單個(gè)卷最大快照數(shù)量無限制,快照總數(shù)不超過1,280,000個(gè)單資源池的機(jī)柜數(shù)量非跨機(jī)柜數(shù)據(jù)安全:1個(gè)~12個(gè)跨機(jī)柜數(shù)據(jù)安全:3個(gè)~12個(gè)單個(gè)卷最大鏈接克隆數(shù)量2,048個(gè)單個(gè)服務(wù)器最多可劃分的資源池?cái)?shù)量3個(gè)同步復(fù)制卷的最大數(shù)量4,096個(gè)iSCSI接口協(xié)議指標(biāo)規(guī)格同步復(fù)制卷的最大容量2TBiSCSICHAP用戶最大數(shù)量1,024個(gè)每個(gè)主機(jī)支持的同步復(fù)制卷的總?cè)萘?4TBiSCSI卷最大擴(kuò)容容量256TBFusionStorage邏輯架構(gòu)FSM(FusionStorageManager):FusionStorage管理模塊,提供告警、監(jiān)控、日志、配置等操作維護(hù)功能。一般情況下FSM主備節(jié)點(diǎn)部署FSA(FusionStorageAgent):代理進(jìn)程,部署在各節(jié)點(diǎn)上,實(shí)現(xiàn)各節(jié)點(diǎn)與FSM通信。FSA包含MDC、VBS和OSD三種不同的進(jìn)程。根據(jù)系統(tǒng)不同配置要求,分別在不同的節(jié)點(diǎn)上啟用不同的進(jìn)程組合來完成特定的功能FusionStorage邏輯架構(gòu)(續(xù))MDC(MetaDataController):元數(shù)據(jù)控制,實(shí)現(xiàn)對(duì)分布式集群的狀態(tài)控制,以及控制數(shù)據(jù)分布式規(guī)則、數(shù)據(jù)重建規(guī)則等。MDC默認(rèn)部署在3個(gè)節(jié)點(diǎn)的ZK(Zookeeper)盤上,形成MDC集群VBS(VirtualBlockSystem):虛擬塊存儲(chǔ)管理組件,負(fù)責(zé)卷元數(shù)據(jù)的管理,提供分布式集群接入點(diǎn)服務(wù),使計(jì)算資源能夠通過VBS訪問分布式存儲(chǔ)資源。每個(gè)節(jié)點(diǎn)上默認(rèn)部署一個(gè)VBS進(jìn)程,形成VBS集群。節(jié)點(diǎn)上也可以通過部署多個(gè)VBS來提升IO性能OSD(ObjectStorageDevice):對(duì)象存儲(chǔ)設(shè)備服務(wù),執(zhí)行具體的I/O操作。在每個(gè)服務(wù)器上部署多個(gè)OSD進(jìn)程,一塊磁盤默認(rèn)對(duì)應(yīng)部署一個(gè)OSD進(jìn)程。在SSD卡作主存時(shí),為了充分發(fā)揮SSD卡的性能,可以在1張SSD卡上部署多個(gè)OSD進(jìn)程進(jìn)行管理,例如2.4TB的SSD卡可以部署6個(gè)OSD進(jìn)程,每個(gè)OSD進(jìn)程負(fù)責(zé)管理400GBFusionStorage部署方式融合部署指的是將VBS和OSD部署在同一臺(tái)服務(wù)器中虛擬化應(yīng)用推薦采用融合部署的方式部署分離部署指的是將VBS和OSD分別部署在不同的服務(wù)器中高性能數(shù)據(jù)庫(kù)應(yīng)用則推薦采用分離部署的方式FusionStorage備份方案云資源池下的備份方案VM1虛擬化平臺(tái)生產(chǎn)站點(diǎn)eBackupVM2FusionStoragePool全量快照增量快照支持NBU等通用備份軟件數(shù)據(jù)庫(kù)場(chǎng)景下的備份方案生產(chǎn)站點(diǎn)NBUFusionStoragePoolFusionStorage容災(zāi)方案云資源池下的容災(zāi)方案VM1FusionSphere虛擬化平臺(tái)生產(chǎn)站點(diǎn)容災(zāi)站點(diǎn)基于主機(jī)IO復(fù)制容災(zāi)管理軟件VRGVM2VRG容災(zāi)管理軟件VM1′VRGVM2′VRGFusionSphere虛擬化平臺(tái)FusionStoragePoolFusionStoragePool數(shù)據(jù)庫(kù)場(chǎng)景下的容災(zāi)方案生產(chǎn)站點(diǎn)FusionStoragePool備份站點(diǎn)FusionStoragePoolDataGuard/GoldenGateFusionStorage產(chǎn)品整體介紹FusionStorage基礎(chǔ)概念及關(guān)鍵原理FusionStorage組件功能及相互關(guān)系FusionStorageIO流程分析FusionStorage主要功能特性FusionStorage跨服務(wù)器、機(jī)柜或機(jī)房數(shù)據(jù)可靠性基礎(chǔ)概念(1)DHT:DistributedHashTable,F(xiàn)usionStorage中指數(shù)據(jù)路由算法Partition:代表了一塊數(shù)據(jù)分區(qū),DHT環(huán)上的固定Hash段代表的數(shù)據(jù)區(qū)Key-Value:底層磁盤上的數(shù)據(jù)組織成Key-Value的形式,每個(gè)Value代表一個(gè)塊存儲(chǔ)空間P1P2P3P4P5P6Pn…分區(qū)物理節(jié)點(diǎn)DHTKey1Key2Key3Key4…KeynHash尋址映射物理空間Disk1Disk2DisknValue1Value2Value3Value4…Valuen基礎(chǔ)概念(1)DHT:DistributedHashTable,F(xiàn)usionStorage中指數(shù)據(jù)路由算法Partition:代表了一塊數(shù)據(jù)分區(qū),DHT環(huán)上的固定Hash段代表的數(shù)據(jù)區(qū)Key-Value:底層磁盤上的數(shù)據(jù)組織成Key-Value的形式,每個(gè)Value代表一個(gè)塊存儲(chǔ)空間Volume:應(yīng)用卷,代表了應(yīng)用看到的一個(gè)LBA連續(xù)編址資源池Volume1Volume2VolumemVirtualBlockServicenetwork122P1P2P3P4P5P6Pn…DHT基礎(chǔ)概念(2)資源池:FusionStorage中一組分區(qū)構(gòu)成的存儲(chǔ)池,對(duì)應(yīng)到DHT環(huán)Volume:應(yīng)用卷,代表了應(yīng)用看到的一個(gè)LBA連續(xù)編址…DiskP1P2PyDiskDiskDiskDiskDiskVolume1Volume2Volume3P1P2Px資源池1Volume10Volume11Server1Server2Server3資源池2基礎(chǔ)概念(3)數(shù)據(jù)副本:FusionStorage采用數(shù)據(jù)多副本備份機(jī)制來保證數(shù)據(jù)的可靠性,即同一份數(shù)據(jù)可以復(fù)制保存為2~3個(gè)副本Disk1P1P2’Disk2Disk3Disk6Disk4Disk5Server1Server2Server3P3P4’P5P6’P7P8’P13P14’P15P16’P17P18’P19P20’P1’P3’P5’P7’P9P10P11P12P13’P15’P17’P19’P21P22P23P24P4’P8’P16’P20’P21P22P23P24P9P10P2’P6’P14’P18’P11P12P9’P10’P11’P12’P2P6P14P18P21’P22’P23’P24’P4P8P16P20FusionStorage數(shù)據(jù)路由原理FusionStorage數(shù)據(jù)路由采取分層處理方式:VBS通過計(jì)算確定數(shù)據(jù)存放在哪個(gè)服務(wù)器的哪塊硬盤上OSD通過計(jì)算確定數(shù)據(jù)存放在硬盤的具體位置P1P2P3P4P5P6Pn…HashspaceDisk3Generatekey1(LUN1,LBA1),DataKey1=(LUN1,LBA1),Data…K1K2K3K4K5…MetadataregionDataregionHash(Key1)DiskDisk1Disk2Disk3DiskNPartitionP1P2P3PnQueryroutingtableVBSOSOSDFusionStorage產(chǎn)品整體介紹FusionStorage基礎(chǔ)概念及關(guān)鍵原理FusionStorage組件功能及相互關(guān)系FusionStorageIO流程分析FusionStorage主要功能特性FusionStorage跨服務(wù)器、機(jī)柜或機(jī)房數(shù)據(jù)可靠性FusionStorageVBS模塊及處理流程VBS模塊作為FusionStorage系統(tǒng)存儲(chǔ)功能的接入側(cè),負(fù)責(zé)完成兩大類業(yè)務(wù):卷和快照的管理功能IO的接入和處理SCSIInitiatorCLIENTVBMVBPAGENTVSCBlockDriverDeviceManagerKERNELVBS_CLIHeartBeatDATANETMDCOSDOSDOSDSCSITargetVBM模塊負(fù)責(zé)完成卷和快照的管理功能:創(chuàng)建卷、掛載卷、卸載卷、查詢卷、刪除卷、創(chuàng)建快照、刪除快照、基于快照創(chuàng)建卷等FusionStorageOSD模塊及處理流程FusionStorage存儲(chǔ)池管理的每個(gè)物理磁盤對(duì)應(yīng)一個(gè)OSD進(jìn)程,OSD負(fù)責(zé):磁盤的管理IO的復(fù)制IO數(shù)據(jù)的Cache處理FusionStorageOSD模塊磁盤數(shù)據(jù)分區(qū)磁盤的每一個(gè)1M空間都固定的分配給一個(gè)key,一定數(shù)量連續(xù)的key組成一個(gè)chunkChunk:一個(gè)Partition的存儲(chǔ)空間由1個(gè)或多個(gè)Chunk構(gòu)成裸盤方式VDB結(jié)構(gòu)...系統(tǒng)保留區(qū)1MBMetadata4MBKey區(qū)Value區(qū)Chunk1ChunkNKey區(qū)Value區(qū)VDB(Key-ValueDB)...系統(tǒng)保留區(qū)1MBMetadata4MBKey區(qū)Value區(qū)Chunk1ChunkNKey區(qū)Value區(qū)VersionInformationConfigurationPartitionInformationChunkInformationStatInformationKey1FreeFlagKeyNFreeFlag…Value1Value2ValueN…VDBNameVersionReserveKeySizeValueSizeChunkSizeDiskSizeReserveUsedSpaceKeyNumPartitionNumberPartitionOffsetChunkNumberChunkOffsetReservePartitionIDChunkNumberReserve1..MChunkIDPartitionIDBeginOffsetEndOffsetReserve1..KFusionStorageMDC模塊功能MDC(MetadataController)是一個(gè)高可靠集群,通過HA(HighAvailability)機(jī)制保證整個(gè)系統(tǒng)的高可用性和高可靠性:通過ZooKeeper集群,實(shí)現(xiàn)元數(shù)據(jù)(如Topology、OSDView、PartitionView、VBSView等)的可靠保存通過Partition分配算法,實(shí)現(xiàn)數(shù)據(jù)多份副本的RAID可靠性通過與OSD、VBS間的消息交互,實(shí)現(xiàn)對(duì)OSD、VBS節(jié)點(diǎn)的狀態(tài)變化的獲取與通知通過與Agent間的消息交互,實(shí)現(xiàn)系統(tǒng)的擴(kuò)減容、狀態(tài)查詢、維護(hù)等通過心跳檢測(cè)機(jī)制,實(shí)現(xiàn)對(duì)OSD、VBS的狀態(tài)監(jiān)控Zookeeper(簡(jiǎn)稱ZK)分布式服務(wù)框架主要用來解決分布式應(yīng)用中經(jīng)常遇到的,如:統(tǒng)一命名服務(wù)、狀態(tài)同步服務(wù)、集群管理、分布式應(yīng)用配置項(xiàng)的管理等,ZK主要工作包括三項(xiàng):MDC主備管理:MDC采用一主兩備部署模式;在MDC模塊進(jìn)程啟動(dòng)后,各個(gè)MDC進(jìn)程會(huì)向ZK注冊(cè)選主,先注冊(cè)的為主MDC;運(yùn)行過程中,ZK記錄MDC主備信息,并通過心跳機(jī)制監(jiān)控MDC主備健康狀況,一旦主MDC進(jìn)程故障,會(huì)觸發(fā)MDC重先選主數(shù)據(jù)存儲(chǔ):在MDC運(yùn)行過程中,會(huì)生成各種控制視圖信息,包括目標(biāo)視圖、中間視圖、IO視圖信息等,這些信息的保存、更新、查詢、刪除操作都通過ZK提供的接口實(shí)現(xiàn)數(shù)據(jù)同步:數(shù)據(jù)更新到主ZK,由主ZK自動(dòng)同步到兩個(gè)備ZK,保證主備ZK數(shù)據(jù)實(shí)時(shí)同步。一旦ZK發(fā)生主備切換,業(yè)務(wù)不受影響FusionStorage視圖IOView:partition主和osd節(jié)點(diǎn)的映射關(guān)系PartitionView:partition主備對(duì)應(yīng)的osd關(guān)系,ioview是partitionview的子集MDC通過心跳感知OSD的狀態(tài);OSD每秒上報(bào)給MDC特定的消息(比如:OSD容量等),當(dāng)MDC連續(xù)在特定的時(shí)間內(nèi)(當(dāng)前系統(tǒng)為5s)沒有接收到OSD的心跳信息,則MDC認(rèn)為該OSD已經(jīng)出故障(比如:OSD進(jìn)程消失或OSD跟MDC間網(wǎng)絡(luò)中斷等),MDC則會(huì)發(fā)送消息告知該OSD需要退出,MDC更新系統(tǒng)的OSD視圖并給每臺(tái)OSD發(fā)送視圖變更通知,OSD根據(jù)新收到的視圖,來決定后續(xù)的操作對(duì)象多副本復(fù)制取決于MDC的視圖;兩副本情況下,當(dāng)client發(fā)送一個(gè)寫請(qǐng)求到達(dá)該OSD的時(shí)候,該OSD將根據(jù)視圖的信息,將該寫請(qǐng)求復(fù)制一份到該P(yáng)artition的備OSD。多副本情況下,則會(huì)復(fù)制發(fā)送多個(gè)寫請(qǐng)求到多個(gè)備OSD上OSDViewIOViewPartitionViewOSDIDOSDStatusPartitonIDOSD主PartitonIDOSD主OSDStatusOSD備OSDStatusOSD備OSDStatus視圖管理FusionStorage主要模塊交互關(guān)系系統(tǒng)啟動(dòng)時(shí),MDC與ZK互動(dòng)決定主MDC。主MDC與其它MDC相互監(jiān)控心跳,主MDC決定某MDC故障后接替者。其它MDC發(fā)現(xiàn)主MDC故障又與ZK互動(dòng)升任主MDCOSD啟動(dòng)時(shí)向MDC查詢歸屬M(fèi)DC,向歸屬M(fèi)DC報(bào)告狀態(tài),歸屬M(fèi)DC把狀態(tài)變化發(fā)送給VBS。當(dāng)歸屬M(fèi)DC故障,主MDC指定一個(gè)MDC接管,最多兩個(gè)池歸屬同一個(gè)MDCVBS啟動(dòng)時(shí)查詢主MDC,向主MDC注冊(cè)(主MDC維護(hù)了一個(gè)活動(dòng)VBS的列表,主MDC同步VBS列表到其它MDC,以便MDC能將OSD的狀態(tài)變化通知到VBS),向MDC確認(rèn)自己是否為leader;VBS從主MDC獲取IOView,主VBS向OSD獲取元數(shù)據(jù),其它VBS向主VBS獲取元數(shù)據(jù)ZK盤ZK盤ZK盤zookeeperMDCzookeeperzookeepMDC(Leader)OSDVBS(Leader)
VBS報(bào)告/通知狀態(tài)MDC獲取元數(shù)據(jù)獲取IOView同步元數(shù)據(jù)MDC集群VBS集群MDCOSD資源池OSDOSD通知狀態(tài)變化OSDOSDOSDOSDOSDOSD資源池OSDOSDOSDOSDOSDOSDOSDOSDOSD歸屬通知狀態(tài)變化獲取IOViewFusionStorage彈性擴(kuò)展FusionStorage的分布式架構(gòu)具有良好的可擴(kuò)展性,支持超大容量的存儲(chǔ)擴(kuò)容存儲(chǔ)節(jié)點(diǎn)后不需要做大量的數(shù)據(jù)搬遷,系統(tǒng)可快速達(dá)到負(fù)載均衡狀態(tài)支持靈活擴(kuò)容計(jì)算節(jié)點(diǎn)、硬盤、存儲(chǔ)節(jié)點(diǎn),或者同時(shí)進(jìn)行擴(kuò)容機(jī)頭、存儲(chǔ)帶寬和Cache都均勻分布到各個(gè)節(jié)點(diǎn)上,系統(tǒng)IOPS、吞吐量和Cache隨著節(jié)點(diǎn)擴(kuò)容線性增加AppAppAppAppAppApp計(jì)算網(wǎng)絡(luò)(10GE)Server2Server3Server1Server4待擴(kuò)容加入節(jié)點(diǎn)1Server5待擴(kuò)容加入節(jié)點(diǎn)2FusionStorage分布式一體化存儲(chǔ)CacheSSDHDDCacheSSDHDDCacheSSDHDDFusionStorage快速數(shù)據(jù)重建FusionStorage中的每個(gè)硬盤都保存了多個(gè)DHT分區(qū)(Partition),這些分區(qū)的副本按照策略分散在系統(tǒng)中的其他節(jié)點(diǎn)。當(dāng)FusionStorage檢測(cè)到硬盤或者節(jié)點(diǎn)硬件發(fā)生故障時(shí),自動(dòng)在后臺(tái)啟動(dòng)數(shù)據(jù)修復(fù)由于分區(qū)的副本被分散到多個(gè)不同的存儲(chǔ)節(jié)點(diǎn)上,數(shù)據(jù)修復(fù)時(shí),將會(huì)在不同的節(jié)點(diǎn)上同時(shí)啟動(dòng)數(shù)據(jù)重建,每個(gè)節(jié)點(diǎn)上只需重建一小部分?jǐn)?shù)據(jù),多個(gè)節(jié)點(diǎn)并行工作,有效避免單個(gè)節(jié)點(diǎn)重建大量數(shù)據(jù)所產(chǎn)生的性能瓶頸,對(duì)上層業(yè)務(wù)的影響做到最小化數(shù)據(jù)分片存儲(chǔ)硬件故障故障自動(dòng)檢測(cè)自動(dòng)重建數(shù)據(jù)副本多節(jié)點(diǎn)并行恢復(fù)FusionStorageCache寫機(jī)制OSD在收到VBS發(fā)送的寫IO操作時(shí),會(huì)將寫IO緩存在SSDcache后完成本節(jié)點(diǎn)寫操作OSD會(huì)周期將緩存在SSDcache中的寫IO數(shù)據(jù)批量寫入到硬盤,寫Cache有一個(gè)水位值,未到刷盤周期超過設(shè)定水位值也會(huì)將Cache中數(shù)據(jù)寫入到硬盤中FusionStorage支持大塊直通,按缺省配置大于256KB的塊直接落盤不寫Cache,這個(gè)配置可以修改FusionStorageCache讀機(jī)制FusionStorage的讀緩存采用分層機(jī)制,第一層為內(nèi)存cache,內(nèi)存cache采用LRU機(jī)制緩存數(shù)據(jù)第二層為SSDcache,SSDcache采用熱點(diǎn)讀機(jī)制,系統(tǒng)會(huì)統(tǒng)計(jì)每個(gè)讀取的數(shù)據(jù),并統(tǒng)計(jì)熱點(diǎn)訪問因子,當(dāng)達(dá)到閾值時(shí),系統(tǒng)會(huì)自動(dòng)緩存數(shù)據(jù)到SSD中,同時(shí)會(huì)將長(zhǎng)時(shí)間未被訪問的數(shù)據(jù)移出SSDFusionStorage預(yù)讀機(jī)制,統(tǒng)計(jì)讀數(shù)據(jù)的相關(guān)性,讀取某塊數(shù)據(jù)時(shí)自動(dòng)將相關(guān)性高的塊讀出并緩存到SSD中FusionStorage分布式CacheFusionStorage集群內(nèi)各服務(wù)器節(jié)點(diǎn)的緩存和帶寬都均勻分布到各個(gè)服務(wù)器節(jié)點(diǎn)上,不存在獨(dú)立存儲(chǔ)系統(tǒng)中大量磁盤共享計(jì)算設(shè)備和存儲(chǔ)設(shè)備之間有限帶寬的問題FusionStorage支持將服務(wù)器部分內(nèi)存用作讀緩存,NVDIMM和SSD用作寫緩存,數(shù)據(jù)緩存均勻分布到各個(gè)節(jié)點(diǎn)上,所有服務(wù)器的緩存總?cè)萘窟h(yuǎn)大于采用外置獨(dú)立存儲(chǔ)的方案。即使采用大容量低成本的SATA硬盤,F(xiàn)usionStorage仍然可以發(fā)揮很高的IO性能,整體性能提升1~3倍FusionStorage支持SSD用作數(shù)據(jù)緩存,除具備通常的寫緩存外,增加熱點(diǎn)數(shù)據(jù)統(tǒng)計(jì)和緩存功能,加上其大容量的優(yōu)勢(shì),進(jìn)一步提升了系統(tǒng)性能Cache共享,水平任意擴(kuò)展主機(jī)APP1主機(jī)APP2存儲(chǔ)SRV1>存儲(chǔ)SRV2存儲(chǔ)SRV3>存儲(chǔ)SRV1存儲(chǔ)SRV2存儲(chǔ)SRV3存儲(chǔ)SRV4主機(jī)APP1主機(jī)APP2Cache資源池Cache資源池FusionStorage:分布式Cache資源池9.6TB7.2TBFusionStorage
SSD存儲(chǔ)與Infiniband網(wǎng)絡(luò)SSD存儲(chǔ)介質(zhì):通過在存儲(chǔ)節(jié)點(diǎn)上配置SSD盤或PCI-ESSD卡,F(xiàn)usionStorage可以將存儲(chǔ)節(jié)點(diǎn)上的SSD組成1個(gè)虛擬存儲(chǔ)資源池,為應(yīng)用提供高性能讀寫能力Infiniband高速網(wǎng)絡(luò):56GbpsFDRInfiniBand,節(jié)點(diǎn)間超高速互聯(lián)標(biāo)準(zhǔn)成熟多級(jí)胖樹組網(wǎng),平滑容量擴(kuò)容近似無阻塞通信網(wǎng)絡(luò),數(shù)據(jù)交換無瓶頸納秒級(jí)通信時(shí)延,計(jì)算存儲(chǔ)信息及時(shí)傳遞無損網(wǎng)絡(luò)QOS,數(shù)據(jù)傳送無丟失主備端口多平面通信,提高傳輸可靠性FusionStorage掉電保護(hù)系統(tǒng)運(yùn)行過程中可能會(huì)出現(xiàn)服務(wù)器突然掉電的情況,F(xiàn)usionStorage使用保電介質(zhì)來保存元數(shù)據(jù)和緩存數(shù)據(jù),以防掉電而丟失FusionStorage支持的保電介質(zhì)為NVDIMM內(nèi)存條或SSD。程序運(yùn)行過程中會(huì)把元數(shù)據(jù)和緩存數(shù)據(jù)寫入保電介質(zhì)中,節(jié)點(diǎn)異常掉電并重啟后,系統(tǒng)自動(dòng)恢復(fù)保電介質(zhì)中的元數(shù)據(jù)和緩存數(shù)據(jù)NVDIMM內(nèi)存SSD硬盤PCIeSSD卡FusionStorage產(chǎn)品整體介紹FusionStorage基礎(chǔ)概念及關(guān)鍵原理FusionStorage組件功能及相互關(guān)系FusionStorageIO流程分析FusionStorage主要功能特性FusionStorage跨服務(wù)器、機(jī)柜或機(jī)房數(shù)據(jù)可靠性FusionStorage讀IO流程APP下發(fā)讀IO請(qǐng)求到OS,OS轉(zhuǎn)發(fā)該IO請(qǐng)求到本服務(wù)器的VBS模塊;VBS根據(jù)讀IO信息中的LUN和LBA信息,通過數(shù)據(jù)路由機(jī)制確定數(shù)據(jù)所在的PrimaryOSD;如果此時(shí)PrimaryOSD故障,VBS會(huì)選擇secondaryOSD讀取所需數(shù)據(jù)PrimaryOSD接收到讀IO請(qǐng)求后,按照Cache機(jī)制中的“Readcache機(jī)制”獲取到讀IO所需數(shù)據(jù),并返回讀IO成功給VBSOSDSSDHDDVBSAPPServerServerPrimaryFusionStorage寫IO流程OSDSSDHDDOSDSSDHDDVBSAPPServerServerServersyncsyncasyncasyncsyncPrimarySecondaryAPP下發(fā)寫IO請(qǐng)求到OS,OS轉(zhuǎn)發(fā)該IO請(qǐng)求到本服務(wù)器的VBS模塊;VBS根據(jù)寫IO信息中的LUN和LBA信息,通過數(shù)據(jù)路由機(jī)制確定數(shù)據(jù)所在的PrimaryOSDPrimaryOSD接收到寫IO請(qǐng)求后,同時(shí)以同步方式寫入到本服務(wù)器SSDcache以及數(shù)據(jù)副本所在其他服務(wù)器的secondaryOSD,secondaryOSD也會(huì)同步寫入本服務(wù)器SSDcache。PrimaryOSD接收到兩個(gè)都寫成功后,返回寫IO成功給VBS;同時(shí),SSDcache中的數(shù)據(jù)會(huì)異步刷入到硬盤VBS返回寫IO成功,如果是3副本場(chǎng)景,primaryOSD會(huì)同時(shí)同步寫IO操作到secondaryOSD和thirdOSDFusionStorage數(shù)據(jù)處理過程虛擬磁盤offset(1020K)+len(8k)
VBS
OSD-client0121020k4k000100000000000100010000KEY1KEY2key=KEY1,offset=1020k,len=4kkey=KEY2,offset=0k,len=4kDHTkeypartitionioview路由目標(biāo):主osd
OSD(主)DHTkeypartitionptview路由目標(biāo):備osd
OSD(備)SNAPkey管理key寫的位置以及快照key處理CACHEAIO-DMDISKio調(diào)度,讀命中,io排序,寫緩存等處理io提交以及磁盤故障錯(cuò)誤管理|----treeid-------|---blockid-------|---bid--|---sid--|FusionStorage產(chǎn)品整體介紹FusionStorage基礎(chǔ)概念及關(guān)鍵原理FusionStorage組件功能及相互關(guān)系FusionStorageIO流程分析FusionStorage主要功能特性FusionStorage跨服務(wù)器、機(jī)柜或機(jī)房數(shù)據(jù)可靠性FusionStorage分布式存儲(chǔ)軟件總體框架存儲(chǔ)接口層SCSI驅(qū)動(dòng)/iSCSI存儲(chǔ)服務(wù)層分布式鏈接克隆分布式快照分布式精簡(jiǎn)配置分布式Cache備份容災(zāi)存儲(chǔ)引擎層集群狀態(tài)控制集群故障自愈強(qiáng)一致性復(fù)制協(xié)議分布式數(shù)據(jù)路由并行數(shù)據(jù)重建存儲(chǔ)管理FusionStorage塊存儲(chǔ)功能-
SCSI/iSCSI塊接口FusionStorage通過VBS以SCSI或iSCSI方式提供塊接口:SCSI方式:安裝VBS的物理部署、FusionSphere或KVM等采用SCSI方式iSCSI方式:安裝VBS以外的虛擬機(jī)或主機(jī)提供存儲(chǔ)訪問,VMware、MSSQLServer集群采用iSCSI模式CVM硬件介質(zhì)VMWARE-ESXiVBSOSDVMVMiSCSI-InitiatorVMFSiSCSI-TargetVM硬件介質(zhì)UVP/KVMVBSOSDVMSCSIFusionStorage精簡(jiǎn)配置功能2TB2TB2TB300GB600GB900GB傳統(tǒng)配置自動(dòng)精簡(jiǎn)配置時(shí)間相比傳統(tǒng)方式分配物理存儲(chǔ)資源,精簡(jiǎn)配置可顯著提高存儲(chǔ)空間利用率FusionStorage天然支持自動(dòng)精簡(jiǎn)配置,和傳統(tǒng)SAN相比不會(huì)帶來性能下降FusionStorage快照功能FusionStorage快照機(jī)制,將用戶卷數(shù)據(jù)在某個(gè)時(shí)間點(diǎn)的狀態(tài)保存下來,可用作導(dǎo)出數(shù)據(jù)、恢復(fù)數(shù)據(jù)之用FusionStorage快照數(shù)據(jù)在存儲(chǔ)時(shí)采用ROW(Redirect-On-Write)機(jī)制,快照不會(huì)引起原卷性能下降無限次快照:快照元數(shù)據(jù)分布式存儲(chǔ),水平擴(kuò)展,無集中式瓶頸,理論上可支持無限次快照卷恢復(fù)速度快:無需數(shù)據(jù)搬遷,從快照恢復(fù)卷1S內(nèi)完成(傳統(tǒng)SAN在幾小時(shí)級(jí)別)第一次快照123
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024美金結(jié)算支付合同范本6篇
- 2025年度拆除工程合同糾紛調(diào)解協(xié)議范本4篇
- 二零二五年度生物科技產(chǎn)業(yè)園廠址租賃及研發(fā)合作框架協(xié)議2篇
- 與消防隊(duì)合作協(xié)議 2篇
- 2024跨境商業(yè)交易商議與協(xié)議制作詳解版
- 2025年度老舊廠房拆遷安置房購(gòu)置合同4篇
- 2025年度礦產(chǎn)資源測(cè)繪勞務(wù)分包合同(新版)4篇
- 2024年獨(dú)家品牌代理協(xié)議
- 2025年度產(chǎn)業(yè)園租賃與運(yùn)營(yíng)一體化合同4篇
- 2024年03月浙江杭銀理財(cái)崗位招考筆試歷年參考題庫(kù)附帶答案詳解
- 巖土工程勘察課件0巖土工程勘察
- 《腎上腺腫瘤》課件
- 2024-2030年中國(guó)典當(dāng)行業(yè)發(fā)展前景預(yù)測(cè)及融資策略分析報(bào)告
- 《乘用車越野性能主觀評(píng)價(jià)方法》
- 幼師個(gè)人成長(zhǎng)發(fā)展規(guī)劃
- 2024-2025學(xué)年北師大版高二上學(xué)期期末英語試題及解答參考
- 動(dòng)物醫(yī)學(xué)類專業(yè)生涯發(fā)展展示
- 批發(fā)面包采購(gòu)合同范本
- 乘風(fēng)化麟 蛇我其誰 2025XX集團(tuán)年終總結(jié)暨頒獎(jiǎng)盛典
- 2024年大數(shù)據(jù)分析公司與中國(guó)政府合作協(xié)議
- 一年級(jí)數(shù)學(xué)(上)計(jì)算題專項(xiàng)練習(xí)匯編
評(píng)論
0/150
提交評(píng)論