一名金融行業(yè)存儲管理人員關(guān)于核心存儲選型的心路歷程_第1頁
一名金融行業(yè)存儲管理人員關(guān)于核心存儲選型的心路歷程_第2頁
一名金融行業(yè)存儲管理人員關(guān)于核心存儲選型的心路歷程_第3頁
一名金融行業(yè)存儲管理人員關(guān)于核心存儲選型的心路歷程_第4頁
一名金融行業(yè)存儲管理人員關(guān)于核心存儲選型的心路歷程_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

一名金融行業(yè)存儲管理人員關(guān)于核心存儲選型的心路歷程

作為一名金融科技人員,在公司內(nèi)承擔(dān)存儲管理的相關(guān)工作,2020年,行內(nèi)核心存儲面臨更新?lián)Q代,作為存儲的管理人員,我開始著手負(fù)責(zé)新存儲的采購工作,整體采購工作持續(xù)4個月,中間經(jīng)歷了種種,此時整理留下文字,算是對本次采購工作的總結(jié),也希望自己能夠在總結(jié)中發(fā)現(xiàn)新的問題,思考,解決,提升,創(chuàng)新。背景交代我公司是金融行業(yè),對數(shù)據(jù)的完整性要求較高;根據(jù)國家政策有一定的設(shè)備國產(chǎn)化比例要求;公司數(shù)據(jù)集中存儲;在科技獨立的初期,因為數(shù)據(jù)規(guī)模較小,因此所有數(shù)據(jù)均存儲在同一套集中塊存儲上;公司有自己獨立的數(shù)據(jù)中心,供電,承重,制冷等因素都是需要考慮的。公司科技獨立5年,數(shù)據(jù)量與日俱增,初期設(shè)計的100T數(shù)據(jù)量已經(jīng)不滿足業(yè)務(wù)擴展需求,且在多次擴容過程中,因為部分決策性失誤,導(dǎo)致原本的數(shù)據(jù)鏡像已經(jīng)無法實現(xiàn),鏡像存儲容量缺失嚴(yán)重,雖然有備份機制保障數(shù)據(jù)容災(zāi),但是在集中存儲故障的情況下,恢復(fù)數(shù)據(jù)的工作將會非常困難,遠(yuǎn)遠(yuǎn)達(dá)不到行業(yè)標(biāo)準(zhǔn)的RPO,RTO要求,且當(dāng)前存儲在經(jīng)歷5年的使用后已經(jīng)達(dá)到該設(shè)備的生命末期(eol:endoflive),存儲廠商無法提供擴容服務(wù),2-4年后無法提供維保服務(wù)(eosl:endofservicelive),因此行內(nèi)迫切需求更換核心主存儲,解決當(dāng)前面臨的困境。破題思路:目前解決存儲空間不足的問題是首當(dāng)其沖的問題;其次數(shù)據(jù)的完整性,安全性要提升上來,達(dá)到行業(yè)監(jiān)管要求;再次要有計劃的調(diào)整存儲層次,根據(jù)數(shù)據(jù)的密級,安全性要求,完整性要求等將存儲規(guī)劃成不同的層次,針對不同層次的存儲選用不同的容災(zāi)等級。針對以上的目標(biāo),我對當(dāng)前的存儲架構(gòu),存儲性能等進(jìn)行深入分析,并確定我的思考方向,以及要確認(rèn)的問題:1、

當(dāng)前存儲架構(gòu);

2、

當(dāng)前存儲性能;

3、

當(dāng)前新采購存儲在未來架構(gòu)中的層次;

4、

風(fēng)火水電等基礎(chǔ)設(shè)施因素的影響;

5、

已被使用的當(dāng)前存儲的技術(shù)特性在未來采購新存儲時是否需要延續(xù)使用;

6、

新采購存儲與當(dāng)前存儲的更替工作需要采用怎樣的技術(shù)手段,以及在實施過程中可能面臨的問題;

7、

新采購存儲性價比問題;

8、

當(dāng)前公司資源(可以忽略)。對癥下藥分析當(dāng)前存儲架構(gòu)原理及與業(yè)務(wù)匹配性,考慮是否沿用當(dāng)前架構(gòu):對于金融企業(yè)而言,一般架構(gòu)制定實施后,短時間內(nèi)很難有所變化,我公司當(dāng)前架構(gòu)僅僅運行了5年,所以我基本不考慮變更架構(gòu)的問題,那么就沿用當(dāng)前架構(gòu),我公司當(dāng)前存儲是某國外知名存儲廠商E的兩臺中端集中式存儲,并且在存儲前端接駁了存儲虛擬化網(wǎng)關(guān),在存儲網(wǎng)關(guān)上將兩臺中端存儲提供的volume做了鏡像,保證數(shù)據(jù)進(jìn)來后一式兩份,避免存儲的單點冗余。

那么我新采購存儲一定也是集中式存儲(并非分布式存儲不能考慮,但是其中的難度及風(fēng)險是我所不想承擔(dān)的,同時我也闡述,我們當(dāng)前的架構(gòu)不打算變更,而且我也沒有那個能力),但是關(guān)于虛擬化存儲網(wǎng)關(guān)是否要去除,我還是有一絲想法,個人認(rèn)為目前市場上存儲的走向是一定程度的去虛擬化網(wǎng)關(guān)設(shè)備,為什么這么說呢?1、

作為存儲市場的龍頭廠商E公司在2015年推出了SRDF/Metro這樣的技術(shù),解決存儲容災(zāi)問題。

2、

而且我們在實際使用中,也發(fā)現(xiàn)存儲網(wǎng)關(guān)會在故障解決中增加解決的復(fù)雜度。

3、

采購部署時會提升建設(shè)成本,后續(xù)更換,升級都面臨著較難的技術(shù)問題,而且其維護(hù)成本也是存在的。

4、

大容量閃存存儲使用后,存儲網(wǎng)關(guān)會成為性能瓶頸。

5、

存儲網(wǎng)關(guān)也是用超過5年,其生命周期(eol)也將走到終點。但是在最終采購實施時,我沒有將存儲網(wǎng)關(guān)去除,主要也是因為以下原因:1、

個人第一次主持存儲更換工作,底氣不足,技術(shù)能夠不夠全面,無法將所有問題解決。

2、

我公司目前所有數(shù)據(jù)均在這個核心存儲上,風(fēng)險過高。

3、

目前使用的存儲網(wǎng)關(guān)性能暫時可以支撐業(yè)務(wù)穩(wěn)定運行。

4、

目前使用的存儲網(wǎng)關(guān)性穩(wěn)定性較好,維護(hù)人員有一定的運維能力。分析當(dāng)前存儲性能與業(yè)務(wù)發(fā)展的匹配程度:對于存儲性能,我們考察的指標(biāo)一般有三個,IOPS、ThroughPut(MBPS)、ReportTime,其中IOPS、ThroughPut兩個指標(biāo)是需要結(jié)合其他技術(shù)特性進(jìn)行測試的,比如業(yè)務(wù)是讀比較多,還是寫比較多,是大塊讀寫比較多,還是小塊讀寫比較多(大塊一般指單個塊不小于128KB),是順序讀寫,還是隨機讀寫等等,但是對于業(yè)務(wù)來講,ReportTime這個屬性基本比較單一,對于普通業(yè)務(wù)ReportTime應(yīng)不高于20MS,對于核心業(yè)務(wù)應(yīng)該低于10MS,甚至有的業(yè)務(wù)要求應(yīng)低于100NS。除此之外還有存儲的CPU,內(nèi)存使用情況等基本數(shù)據(jù),前后端口的隊列深度,緩存命中率等等,各位也可以看看,僅作為參考指標(biāo)。對于我公司的業(yè)務(wù)需求,我主要考察了幾個線上業(yè)務(wù)的性能情況,然后結(jié)合當(dāng)前存儲的性能情況,進(jìn)行經(jīng)驗的推測后,定出了幾個指標(biāo),用于后續(xù)的存儲測試:1、

公司線上業(yè)務(wù)A目前壓力測試中單業(yè)務(wù)交易響應(yīng)時間為380MS,監(jiān)管要求該業(yè)務(wù)的ReportTime是300MS以下,該業(yè)務(wù)的單筆交易的需要途經(jīng)10個存儲讀寫相關(guān)的環(huán)節(jié),目前行內(nèi)的存儲平均響應(yīng)時間在17MS,那么如果能夠進(jìn)入10MS以下的響應(yīng)時間,則可以節(jié)省70MS的時間,再從程序優(yōu)化及數(shù)據(jù)庫優(yōu)化兩方面下手處理則可以很容易進(jìn)入300MS以下。因此第一個指標(biāo),集中存儲測試時,隨機讀寫的平均響應(yīng)延遲應(yīng)該在10MS以下。2、

查看公司業(yè)務(wù)高峰期(早上9點-11點,下午14點-15點,晚間19點30分-21點40分三個時段)的平均IOPS,同時查看峰值的量,經(jīng)過15天的連續(xù)監(jiān)測(基本包涵公司所有的特殊業(yè)務(wù)發(fā)生可能產(chǎn)生存儲壓力的情況),公司的存儲IOPS可達(dá)到8萬的峰值,6萬的平均值,而操作系統(tǒng)的塊大小設(shè)置一般為4KB,因此測試的第二個指標(biāo),個人設(shè)置為測試在塊大小為4KB時,隨機讀寫的平均IOPS都要超過10萬。3、

查看公司的業(yè)務(wù)系統(tǒng),一般讀操作相對大一些,在存儲IO中讀占比在60以上,則測試時,選擇隨機讀寫混合模式下,讀IO占70%,寫IO占30%。4、

公司的業(yè)務(wù)系統(tǒng)中,傳輸大文件的系統(tǒng)較少,一般主要是讀寫小于100KB的小文件,那么小文件的隨機讀寫占比較高,大文件的順序讀寫占比較低,但是也要加入到測試中,主要測試的還是小文件的隨機讀寫。大文件的數(shù)據(jù)讀寫,測試指標(biāo)定為128KB大文件的順序讀寫,其IOPS大于8萬,4KB小文件的隨機讀寫,其IOPS大約10萬,高于15萬最好。5、

在虛擬化網(wǎng)關(guān)的性能監(jiān)測過程中,可以看到業(yè)務(wù)高峰期的ThroughPut,其寫帶寬在330MB/S,讀帶寬在800MB/S,那么測試過程中的數(shù)據(jù)寫帶寬至少應(yīng)該在660MB/S,讀帶寬在1600MB/S。為什么這樣設(shè)計測試,我是這樣考慮的,現(xiàn)在市場上閃存存儲占據(jù)市場主流,即使使用性能最差的QLC閃存盤,其性能也在HDD機械硬盤的10倍以上,考慮到各種因素,存儲系統(tǒng)技術(shù)的發(fā)展不足以跟進(jìn)磁盤技術(shù)發(fā)展,那么至少兩倍應(yīng)該是可以的。6、

關(guān)于隊列深度,查找資料后,得到這樣一個建議值,我則按照這個建議值設(shè)定自己的測試指標(biāo),測試時,該指標(biāo)范圍為0-100,屬于較為健康,當(dāng)該指標(biāo)超過500時,說明測試的模擬場景可能存在問題,并發(fā)IO劇烈,需要查看模擬的場景是否合理,測試環(huán)境的存儲搭建或者配置可能存在問題,或者存儲穩(wěn)定性存在問題,當(dāng)該指標(biāo)超過1000時,那么這個存儲基本不會選用,無論是因為模擬場景的問題,還是存儲搭建的問題,這都說明廠商或者配合測試的技術(shù)人員或者設(shè)備存在問題。分析當(dāng)前存儲在架構(gòu)中的層次,以及被替換后所承擔(dān)角色:前面提到當(dāng)前存儲為我行所有業(yè)務(wù)共同使用的唯一兩臺塊存儲,因此核心業(yè)務(wù)也都在這兩臺存儲中,那么新購存儲一定要能夠承擔(dān)本行核心業(yè)務(wù)發(fā)展的重任,而結(jié)合市場因素等,基本存儲的定位應(yīng)該在各存儲廠商推出的中高端存儲(要求冗余性,安全性,穩(wěn)定性都相對較高,可以很好的應(yīng)用于主流容災(zāi)方案中,并且支持閃存盤的使用)。對于存儲的層次分類,個人借鑒一些同行前輩的分享,認(rèn)為存儲按其使用場景大致分為三類,分別為在線存儲、近線存儲、離線存儲。在線存儲:處于可供用戶實時讀取和訪問的工作狀態(tài)下的存儲,一般使用中端或者高端的塊存儲設(shè)備,性能較高,價格昂貴。近線存儲:處于可供用戶快速讀取和訪問的工作狀態(tài)下的存儲,一般使用低端的塊或者文件存儲,性能較差,價格相對便宜。離線存儲:處于用戶不能直接讀取和訪問的工作狀態(tài)下的存儲,一般使用虛擬帶庫,磁帶庫,光盤陣列等等,價錢便宜的多,現(xiàn)在部分公司也考慮云上存儲,這與公司所在行業(yè)的監(jiān)管規(guī)則和公司政策相關(guān)。目前我公司只有在線存儲這一類存儲,但是公司產(chǎn)生的數(shù)據(jù)已經(jīng)出現(xiàn)這三種狀態(tài),支撐業(yè)務(wù)運行的實時數(shù)據(jù)、實時業(yè)務(wù)日志,這類需要存儲在在線存儲上;已經(jīng)產(chǎn)生的報表數(shù)據(jù),并非用于業(yè)務(wù)運行,但是需要每月向監(jiān)管部門上報,或者市場相關(guān)部門進(jìn)行數(shù)據(jù)統(tǒng)計、調(diào)研時需要使用的,須定期進(jìn)行查閱的數(shù)據(jù),則應(yīng)存儲在近線存儲上;每年年終結(jié)算完畢產(chǎn)生的報表數(shù)據(jù),超過5年以上的歷史數(shù)據(jù),密級為機密及以上,按照監(jiān)管要求需要保存15年以上,但是平時不使用的電子文件數(shù)據(jù)則需要存儲于離線存儲上。鑒于此種狀況,我考慮目前使用的存儲拆開使用,分別作為主中心及災(zāi)備中心的進(jìn)線存儲使用,后期補充離線存儲,因為目前我們使用的存儲畢竟采購時屬于當(dāng)時市場的中高端產(chǎn)品,而且就其使用性價比,還是用于近線存儲這一層次比較合適。分析風(fēng)火水電等因素影響:對于風(fēng)火水電的考慮,這個主要看公司的實際情況,很多公司的數(shù)據(jù)中心是將基礎(chǔ)設(shè)施外包出去的,或者租賃的別的公司的機房,這部分基本不用考慮,只需要提出需求,讓承包方或者出租方提供就可以,但是我們公司的機房是自己建設(shè)的,所以這一部分內(nèi)容需要我們自己評測。說是評測,其實內(nèi)容也相對較少,我們主要考慮3個方面:電力因素,包括工業(yè)連接器,運行電壓,運行電流,負(fù)載功率,這里需要注意一點工業(yè)連接器,因為各存儲廠商提供的工業(yè)連接器頭是不同規(guī)格的,所以一定要提前說明參數(shù),避免設(shè)備到了,無法安裝的情況,我們這次采購就因為工業(yè)連接器問題拖延了3個工作日。

制冷量的問題,也是需要考慮的,我們的機房也出現(xiàn)局部熱點問題,當(dāng)然這不僅僅是新購存儲的問題,但是如果機房的制冷資源有限的情況下,還是需要考慮在上架新設(shè)備前,調(diào)整好制冷量。

承力架承重問題,一臺存儲滿配可以達(dá)到將近1噸,承力架的承力能力也需要考慮下,一般老機房會產(chǎn)生這樣的問題,新機房基本都不存在這樣的問題。分析當(dāng)前存儲的存儲特性,以及后續(xù)采購存儲是否需要這些特性:關(guān)于存儲特性,個人認(rèn)為包括2個方面,一個是總體架構(gòu)對其承擔(dān)角色的要求的特性,在公司整體架構(gòu)中,在線存儲必須具備數(shù)據(jù)容災(zāi)(包括同城容災(zāi),異地容災(zāi))的特性;一個是存儲本身保障數(shù)據(jù)安全的特性,比如高可用性、可擴展及靈活性、數(shù)據(jù)保障功能等。目前我公司是通過存儲網(wǎng)關(guān)實現(xiàn)雙中心存儲雙活,那么新購存儲只要與存儲網(wǎng)關(guān)兼容,就可以承擔(dān)起數(shù)據(jù)容災(zāi)的功能。當(dāng)然我也考慮后續(xù)如果去網(wǎng)關(guān)的話,存儲是否具備數(shù)據(jù)容災(zāi)功能,這里我決定是需要有這項功能的,如果是通過其他綁定軟件實現(xiàn),或者其他硬件實現(xiàn),那么如果后續(xù)變更操作不困難的情況下,我們可以前期不購買這個功能軟件或者硬件,在后期實現(xiàn)了去網(wǎng)關(guān)后,再次追加購買這個軟件或者硬件。

對于數(shù)據(jù)容災(zāi)的功能特性,我制定了存儲網(wǎng)關(guān)兼容性測試、存儲雙活功能性測試、異構(gòu)存儲在線鏡像及數(shù)據(jù)復(fù)制功能測試。關(guān)于存儲本身保障數(shù)據(jù)安全的特性,我這邊著重測試了存儲數(shù)據(jù)快照功能測試、引擎冗余、供電電源模塊、電池模塊、磁盤陣列等級、前后端口冗余、非計劃性斷電等業(yè)務(wù)場景。同時針對以后新購存儲被替換后的使用情況,我們也進(jìn)行了數(shù)據(jù)去重測試,數(shù)據(jù)壓縮測試,eNAS功能測試,這樣可以在該存儲在被例舊使用的時候能夠承擔(dān)其他角色。分析新舊存儲更替的遷移方案,關(guān)注方案風(fēng)險:因為是存儲的新舊更替,而且我公司目前只有兩臺存儲,這兩臺存儲又綁定所有業(yè)務(wù),所以數(shù)據(jù)的遷移風(fēng)險是必須要考慮的,而且決定著這次采購工作的成敗,一旦影響業(yè)務(wù),出現(xiàn)數(shù)據(jù)丟失,這絕對是我公司無法忍受的。目前公司涉及100余套業(yè)務(wù)系統(tǒng),而24小時在線業(yè)務(wù)也涉及20套之多,整體數(shù)據(jù)量也在幾百TB,窗口期實在無法協(xié)調(diào),只能使用較為保險的在線遷移方案。在與廠家溝通交流過程中,各個廠商給出了多套遷移方案,部分涉及到業(yè)務(wù)割接,必定影響到當(dāng)前系統(tǒng)的運行,但是可以通過按照系統(tǒng)范圍進(jìn)行遞進(jìn)遷移的方式,但就算如此,我考察我公司的系統(tǒng)架構(gòu)以及系統(tǒng)數(shù)據(jù)存儲的實際情況后,還是覺得不夠穩(wěn)妥。好在我們之前使用的存儲網(wǎng)關(guān)可以實現(xiàn)異構(gòu)存儲的數(shù)據(jù)復(fù)制,我們就以此為切入點,做相應(yīng)的實施方案,經(jīng)過多次權(quán)衡考察分析后,將遷移方案逐步完善,最后形成一套風(fēng)險最小,安全性最高的在線遷移策略。這個遷移方案我認(rèn)為是需要在你確認(rèn)存儲采購之前去做的,而不是存儲采購才做,否則可能產(chǎn)生其他變數(shù)。分析新存儲采購的性價比,以及監(jiān)管政策:對于存儲性價比,個人從網(wǎng)站,供應(yīng)商那里做了一些了解,同等檔次產(chǎn)品基本都是國外產(chǎn)品相對昂貴些,國內(nèi)產(chǎn)品相對低廉一些,這個基本沒有什么可說的,但是國外起步早些,產(chǎn)品的安全性、穩(wěn)定性經(jīng)過了市場的檢驗,國內(nèi)的產(chǎn)品起步晚些,最近10年才正式開始嶄露頭角,但并不是說國內(nèi)產(chǎn)品不好,我們也重點對國內(nèi)產(chǎn)品進(jìn)行了相關(guān)的測試,其性能對比國外產(chǎn)品,個人認(rèn)為有過之而無不及,測試報告中各項指標(biāo)遠(yuǎn)高于國外產(chǎn)品。再次我國設(shè)備國產(chǎn)化戰(zhàn)略的持續(xù)推進(jìn),已經(jīng)讓企業(yè)更加關(guān)注國內(nèi)廠商,同時使用國內(nèi)產(chǎn)品,我們本次雖然沒有采購國內(nèi)產(chǎn)品,但是對國內(nèi)產(chǎn)品已經(jīng)有了一個全新的認(rèn)識,后續(xù)的存儲采購中,我們將重點關(guān)注國內(nèi)存儲產(chǎn)品,個人認(rèn)為未來的5到10年內(nèi),國產(chǎn)存儲將逐步應(yīng)用于各企業(yè)的關(guān)鍵業(yè)務(wù)系統(tǒng)中,承擔(dān)重要角色。我們公司所在行業(yè)的監(jiān)管機構(gòu)也在逐步推進(jìn)設(shè)備國產(chǎn)化的深度,我們與國內(nèi)廠商的合作必將日益加深。分析公司資源:對于公司資源,這里也簡單說下,主要是兩部分,一部分是當(dāng)前配合存儲上線所需要的光線交換機資源等,另一部分則是商務(wù)資源,這個主要是領(lǐng)導(dǎo)的人脈資源,這個在你的項目推進(jìn)中非常重要,往往你個人無法解決的問題,領(lǐng)導(dǎo)可以很輕松的解決,學(xué)會尊重領(lǐng)導(dǎo),借助領(lǐng)導(dǎo)的資源非常重要,至少在我本次的工作中,領(lǐng)導(dǎo)給予我個人很大的幫助,對該項目的完成進(jìn)度起到了極大的促進(jìn)作用??偨Y(jié)在本次的項目中,我雖然承擔(dān)著負(fù)責(zé)人的角色,但是我做的遠(yuǎn)遠(yuǎn)不夠,很多問題考慮的不夠周到,后續(xù)的實施過程中仍然遇到了問題,但是好在順利解決了,在這次采購存儲項目中我學(xué)到了以下幾點:1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論