高性能計(jì)算系統(tǒng)設(shè)計(jì)方案.doc_第1頁
高性能計(jì)算系統(tǒng)設(shè)計(jì)方案.doc_第2頁
高性能計(jì)算系統(tǒng)設(shè)計(jì)方案.doc_第3頁
高性能計(jì)算系統(tǒng)設(shè)計(jì)方案.doc_第4頁
高性能計(jì)算系統(tǒng)設(shè)計(jì)方案.doc_第5頁
已閱讀5頁,還剩36頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

高性能計(jì)算系統(tǒng)方案設(shè)計(jì)第1章 需求分析1.1 高性能計(jì)算的和大規(guī)模數(shù)據(jù)處理的應(yīng)用高性能計(jì)算作為一種先進(jìn)的科研手段,在國內(nèi)的應(yīng)用發(fā)展很快,得到了普遍的重視,近年來國家投入逐年加大。高性能計(jì)算的應(yīng)用條件已經(jīng)成熟,表現(xiàn)在:u 價(jià)格相對(duì)低廉的高性能機(jī)群系統(tǒng)為高性能計(jì)算應(yīng)用提供了物質(zhì)基礎(chǔ);u 高性能計(jì)算應(yīng)用的技術(shù)門檻逐漸降低;u 國家鼓勵(lì)相關(guān)單位做高性能計(jì)算的研究,相關(guān)投入不斷加大;u 很多高校的科研人員使用高性能計(jì)算手段,取得了很好的成果。1.1.1 計(jì)算機(jī)架構(gòu)由于各學(xué)科高性能計(jì)算應(yīng)用軟件種類繁多,各種軟件的應(yīng)用特點(diǎn)也各不相同,對(duì)計(jì)算資源的需求存在差別,方案的設(shè)計(jì)需要充分考慮到實(shí)際應(yīng)用的特點(diǎn)。作為高性能計(jì)算基礎(chǔ)設(shè)施的核心,現(xiàn)代高性能計(jì)算機(jī)的發(fā)展從20世紀(jì)70年代的向量計(jì)算機(jī)開始,也已經(jīng)有了30年的發(fā)展歷程。先后出現(xiàn)了向量機(jī)、多處理器并行向量機(jī)、MPP大規(guī)模并行處理機(jī)、SMP對(duì)稱多處理機(jī)、DSM分布式共享存儲(chǔ)計(jì)算機(jī)、Constellation星群系統(tǒng)、Cluster集群系統(tǒng)、混和系統(tǒng)等多種主體的架構(gòu),并分別在不同的時(shí)期占據(jù)著應(yīng)用的主流。開放的Cluster集群系統(tǒng)具有較多的優(yōu)勢(shì),已經(jīng)占據(jù)了目前高性能計(jì)算機(jī)的主流位置,在TOP500中占據(jù)了約80%的份額,在中小規(guī)模的高性能計(jì)算系統(tǒng)中更是占據(jù)統(tǒng)治地位。1.1.2 軟件的并行特點(diǎn)按照應(yīng)用程序是否為并行程序,可以分為如下幾類:u 串行程序程序運(yùn)行中只有一個(gè)進(jìn)程或線程。串行程序不能利用高性能計(jì)算機(jī)多個(gè)處理器的并行特點(diǎn),但可以同時(shí)運(yùn)行程序的多個(gè)任務(wù)或算例。u 共享內(nèi)存并行程序程序運(yùn)行中可以有多個(gè)進(jìn)程或多個(gè)線程,可以使用多個(gè)處理器進(jìn)行并行計(jì)算。但這種并行程序不能在分布式內(nèi)存的機(jī)群系統(tǒng)上運(yùn)行。u 消息傳遞并行程序消息傳遞式并行程序可以在所有架構(gòu)的計(jì)算機(jī)上運(yùn)行,可以同時(shí)使用數(shù)目很多的處理器,以加速程序的運(yùn)行。在高性能集群系統(tǒng)上,各種程序都可以運(yùn)行,可以使用集群系統(tǒng)的一個(gè)CPU,一個(gè)節(jié)點(diǎn)或多個(gè)節(jié)點(diǎn)。1.1.3 互連網(wǎng)絡(luò)高性能計(jì)算系統(tǒng)的互連網(wǎng)絡(luò)包括計(jì)算網(wǎng)絡(luò),數(shù)據(jù)IO網(wǎng)絡(luò),管理監(jiān)控網(wǎng)絡(luò)等。對(duì)于并行程序來說,進(jìn)程之間的通信量也有著顯著差別。對(duì)于進(jìn)程間通信量較小的程序來說,使用高性價(jià)比的千兆以太網(wǎng)就可以滿足需求。對(duì)于通信密集型的并行程序,多個(gè)進(jìn)程之間數(shù)據(jù)交換頻繁,對(duì)互連網(wǎng)絡(luò)的性能要求很高,要求具有較高的帶寬和很低的延遲,千兆以太網(wǎng)就不能很好滿足要求,需要使用高速網(wǎng)絡(luò),如Infiniband,其單向帶寬達(dá)到20Gb,延遲小于2微秒。 從2010 TOP500 排行榜中我們可以看到,千兆以太網(wǎng)和Infiniband網(wǎng)成為高性能計(jì)算機(jī)網(wǎng)絡(luò)互聯(lián)的主流,尤其從性能份額上來說,Infiniband網(wǎng)更是占據(jù)了絕大部分的份額,所以在國際主流的較大系統(tǒng)中,Infiniband計(jì)算網(wǎng)逐漸成為主流。高性能網(wǎng)絡(luò)的基本性能如下我們可以看到,對(duì)于千兆以太網(wǎng),帶寬達(dá)到112MB/s,延時(shí)非常高,達(dá)到47.57us。而使用萬兆以太網(wǎng),雖然帶寬和延時(shí)均有顯著提高,但是與Infiniband網(wǎng)相比,還是有較大差距。萬兆以太網(wǎng)使用TCP/IP協(xié)議,帶寬達(dá)到770MB,延時(shí)約為12us,使用Iwarp的RDMA協(xié)議,性能有一定提升,帶寬達(dá)到1046MB/s,延時(shí)達(dá)到7.68us。對(duì)于Infiniband網(wǎng),DDR和QDR的帶寬有較大差距,但是延時(shí)比較接近,分別為1.6us 和1.3us。值得注意的是,QDR的IP over IB的性能有了大幅的提升。1.1.4 操作系統(tǒng)高性能計(jì)算的操作系統(tǒng)由最初的Unix操作系統(tǒng)為主,目前隨著集群架構(gòu)的逐漸廣泛和Linux操作系統(tǒng)的逐漸成熟,Linux操作系統(tǒng)逐漸成為高性能計(jì)算機(jī)的主流,占到80%以上的市場(chǎng)份額。為了使得集群系統(tǒng)有較好的兼容性,可以配置多種操作系統(tǒng),如Linux(Redhat,Suse),Windows HPC server等.第2章 系統(tǒng)方案設(shè)計(jì)2.1 方案總體設(shè)計(jì)2.1.1 系統(tǒng)配置表序號(hào)名稱技術(shù)規(guī)格單位數(shù)量1硬件部分1.1計(jì)算子系統(tǒng)刀片平臺(tái)TC4600標(biāo)準(zhǔn)19英寸5U機(jī)架式刀片機(jī)箱、可以支持14個(gè)計(jì)算刀片;1*管理模塊,集成遠(yuǎn)程KVM和遠(yuǎn)程虛擬媒體;2*千兆網(wǎng)絡(luò)交換模塊,提供6個(gè)RJ45千兆接口;4*冗余熱插拔散熱模塊;4*2000W電源(3+1冗余熱拔插);臺(tái)5計(jì)算刀片CB60-G15帶FDR計(jì)算刀片2*IntelXeonE5-2660 八核處器(2.2GHz);8*8GBDDR31333MHz;1*300G 2.5寸10000轉(zhuǎn)SAS硬盤;1*56GbInfiniband接口;2*1000M以太網(wǎng)接口; 片63管理/登錄節(jié)點(diǎn)曙光I620r-G102U機(jī)架式;2IntelXeonE5-2660 八核處器(2.2GHz);84GBDDR31333MHz;1300G 2.5寸10000轉(zhuǎn)SAS硬盤;156GbInfiniband接口;21000M以太網(wǎng)接口; 1*冗余電源;1*超薄DVD-RW;1*上架導(dǎo)軌;臺(tái)21.2存儲(chǔ)子系統(tǒng)存儲(chǔ)系統(tǒng)曙光DS600-G10雙控FC3U ,16盤位,雙控制器,4個(gè)8Gb/s FC+8個(gè)1Gb ISCSI主機(jī)通道,雙鋰電池,2*2GB Cache;冗余電源;含4個(gè)SFP(8Gb);Cache容量可升級(jí)為2*16GB;600G 15000轉(zhuǎn) 6Gb SAS硬盤*16塊套11.3網(wǎng)絡(luò)子系統(tǒng)計(jì)算網(wǎng)絡(luò)IB 交換機(jī)FDR Infiniband交換機(jī),36 端口臺(tái)2Infiniband線纜MX MC2207310-005 56GB QSFP FDR 5M IB光纜根65管理網(wǎng)絡(luò)千兆交換機(jī) 48端口交換機(jī),10/100/1000baseT銅接口臺(tái)2防火墻集群安全模塊TLFW-1000T 龍芯防火墻標(biāo)配6個(gè)千兆電口,1U機(jī)架。并發(fā)連接數(shù)120萬,吞吐量1G,支持SSL VPN隧道數(shù)300配合Nikey智能密鑰*10:曙光精心打造的USB Key解決方案,內(nèi)置8位國產(chǎn)安全芯片,自主開發(fā)COS。硬件實(shí)現(xiàn)數(shù)字簽名,私鑰永不出Key。臺(tái)11.4機(jī)柜子系統(tǒng)機(jī)柜系統(tǒng)曙光天潮標(biāo)準(zhǔn)機(jī)柜標(biāo)配2個(gè)PDU、雙側(cè)門,無電源箱,無監(jiān)控液晶觸摸一體機(jī)個(gè)3曙光天潮標(biāo)準(zhǔn)電源箱380V無監(jiān)控電源箱個(gè)1監(jiān)控系統(tǒng)曙光智能機(jī)柜監(jiān)控系統(tǒng)支持四臺(tái)機(jī)柜溫濕度遠(yuǎn)程監(jiān)控套1曙光集群監(jiān)控中心監(jiān)控液晶觸摸一體機(jī),含LCD、觸摸屏、監(jiān)控主機(jī)各1套,安裝在機(jī)柜前面板門上套1控制臺(tái)曙光集群控制臺(tái)1U手動(dòng)伸縮控制臺(tái)(曙光17”液晶顯示器、鼠標(biāo)、鍵盤、8口切換器等)套1視頻切換系統(tǒng)SKVMSKVM IV Over IP(包含鍵盤鼠標(biāo))臺(tái)1CIMKVM節(jié)點(diǎn)控制模塊個(gè)72軟件部分操作系統(tǒng)LinuxSuSELinux企業(yè)版套1集群管理系統(tǒng)曙光GridView 2.5GridView HPC版,支持系統(tǒng)部署、系統(tǒng)監(jiān)控、集群管理、數(shù)據(jù)報(bào)表、統(tǒng)一告警、作業(yè)調(diào)度。basic portal,包含serial 和 mpi,支持互動(dòng)作業(yè),作業(yè)故障自動(dòng)切換重啟,文件傳輸,查看修改文件操作。套65Gridview ClusQuota 集群配額系統(tǒng),可支持用戶機(jī)時(shí)配額管理,充值計(jì)費(fèi)管理,用戶信用管理等功能。(可選)套1應(yīng)用門戶系統(tǒng)曙光Gridview Clusportal 系統(tǒng)包含F(xiàn)luent軟件作業(yè)調(diào)度套1應(yīng)用開發(fā)環(huán)境編譯器GNU編譯器,支持C/C+Fortran77/90Intel 編譯器,支持C/C+ Fortran套1數(shù)學(xué)庫MKL,BLAS、LAPACK、ScaLAPACK、FFTW套1MPI并行環(huán)境OpenMPI(支持Infiniband和以太網(wǎng)的MPI環(huán)境)套1MPICH2(支持千兆以太網(wǎng)的MPI環(huán)境)套12.1.2 系統(tǒng)拓?fù)鋱D2.1.3 系統(tǒng)方案說明u 計(jì)算系統(tǒng)CPU整體峰值性能達(dá)到17.7萬億次,可以擴(kuò)展到500萬億次;u 主要產(chǎn)品都采用了冗余設(shè)計(jì)(電源、風(fēng)扇等),存儲(chǔ)系統(tǒng)采用冗余設(shè)計(jì),系統(tǒng)的可靠性有較高保證;u 系統(tǒng)功耗(不含空調(diào)制冷系統(tǒng))不超過為,150千瓦,電費(fèi)可按此核算;u 曙光公司將為用戶提供完善的服務(wù),包括安裝調(diào)試、系統(tǒng)優(yōu)化、用戶培訓(xùn)等,這些都不單獨(dú)收費(fèi),用戶不必考慮這些方面的費(fèi)用;u 曙光公司提供5年免費(fèi)上門服務(wù),極大降低了用戶的運(yùn)行維護(hù)費(fèi)用;u 曙光公司是領(lǐng)先的專業(yè)高性能機(jī)算機(jī)及方案提供商,擁有較多的成功案例,包括百萬億次超級(jí)機(jī)算機(jī)的成功案例,產(chǎn)品的可靠性和穩(wěn)定性得到了充分驗(yàn)證。2.1.4 需求相應(yīng)分析l 先進(jìn)性本系統(tǒng)中,我們使用的刀片集群架構(gòu),為目前高性能發(fā)展的先進(jìn)趨勢(shì)。使用的最新一代Intel E5-2600處理器,為目前性能最高的X86處理器。使用的FDR網(wǎng)絡(luò),也為目前最為先進(jìn)的網(wǎng)絡(luò)技術(shù)。同時(shí),系統(tǒng)中使用的并行文件系統(tǒng)、自動(dòng)功耗管理系統(tǒng)和HPC應(yīng)用WEB potal,均代表著HPC的先進(jìn)的發(fā)展方向。l 高可靠、高可用需求系統(tǒng)采用刀片服務(wù)器,冗余電源,雙控制器存儲(chǔ)系統(tǒng)、高級(jí)別RAID系統(tǒng),以及關(guān)鍵節(jié)點(diǎn)的HA雙機(jī),同時(shí),高效管理監(jiān)控系統(tǒng)也是保證系統(tǒng)高可靠、高可用的保證。l 適合用戶應(yīng)用軟件需求用戶應(yīng)用軟件眾多,用戶眾多,對(duì)計(jì)算需求大,系統(tǒng)共配置101TFLOPS的計(jì)算能力。針對(duì)部分應(yīng)用對(duì)節(jié)點(diǎn)間網(wǎng)絡(luò)需求高,配置了高帶寬,低延時(shí)的FDR Infiniband網(wǎng)。帶寬達(dá)到56Gbps,延時(shí)小于1us。同時(shí),海量計(jì)算時(shí)的IO并發(fā)讀寫量巨大,對(duì)存儲(chǔ)的容量和性能需求驚人,系統(tǒng)配置了并行存儲(chǔ)系統(tǒng),能夠?qū)崿F(xiàn)所有存儲(chǔ)的統(tǒng)一地址和并發(fā)讀寫。l 易使用需求系統(tǒng)配置了HPC WEB Portal,可以有效降低用戶使用難度。同時(shí),針對(duì)系統(tǒng)和應(yīng)用的專業(yè)培訓(xùn),也能提高使用人員的使用水平。針對(duì)應(yīng)用軟件的安裝調(diào)試也大大降低了用戶的使用難度。l 可擴(kuò)展性需求集群的架構(gòu)可以保證計(jì)算系統(tǒng)的良好擴(kuò)展,同時(shí),并行存儲(chǔ)的架構(gòu)也實(shí)現(xiàn)對(duì)存儲(chǔ)系統(tǒng)的擴(kuò)展。l 易管理維護(hù)需求配置高效管理系統(tǒng),支持監(jiān)控、告警、管理、報(bào)表等多項(xiàng)功能,解決管理員的后顧之憂,同時(shí),對(duì)管理員的培訓(xùn)和對(duì)系統(tǒng)的運(yùn)維支持,也能有效提高系統(tǒng)的管理水平。l 節(jié)能環(huán)保需求配置了刀片系統(tǒng)和高效節(jié)能系統(tǒng),支持空載節(jié)點(diǎn)的自動(dòng)待機(jī),能夠有效降低能耗,幫助用戶節(jié)省運(yùn)維成本。2.2 計(jì)算系統(tǒng)2.2.1 刀片集群系統(tǒng)共配置63個(gè)雙路8核刀片服務(wù)器,主頻2.2Ghz,雙精度峰值接近17萬億次。目前,開放的集群(Cluster)系統(tǒng)具有較多的優(yōu)勢(shì),已經(jīng)占據(jù)了目前高性能計(jì)算機(jī)的主流位置,在TOP500中占據(jù)了80%以上的份額,在中小規(guī)模的高性能計(jì)算系統(tǒng)中更是占據(jù)統(tǒng)治地位。刀片式集群系統(tǒng)在計(jì)算密度、功耗散熱、運(yùn)營成本、維護(hù)成本、可靠性等方面,都明顯優(yōu)于其它系統(tǒng),且為系統(tǒng)的擴(kuò)容升級(jí)提供了良好的基礎(chǔ),刀片系統(tǒng)的優(yōu)勢(shì)主要體現(xiàn)在以下幾個(gè)方面。n 計(jì)算密度更高提高計(jì)算密度是刀片服務(wù)器發(fā)展的主要?jiǎng)恿χ?。?duì)于大規(guī)模并行計(jì)算機(jī)來說,提高計(jì)算密度尤其重要,刀片式集群系統(tǒng)有效提高了計(jì)算密度。n 機(jī)房要求降低大規(guī)模高性能計(jì)算機(jī)將對(duì)機(jī)房空間提出較高的要求,并且要為系統(tǒng)的擴(kuò)容升級(jí)留下空間。刀片式集群系統(tǒng)實(shí)現(xiàn)了較高的計(jì)算密度,并且有效降低了系統(tǒng)功耗,對(duì)系統(tǒng)空調(diào)等散熱系統(tǒng)的要求也相對(duì)降低。n 功耗散熱降低刀片服務(wù)器的功耗部件較少。刀片柜中的電源將由多個(gè)刀片共享,所以會(huì)使用高效率電源,減小了系統(tǒng)功耗,同時(shí)產(chǎn)生的熱量減少,減少了冷卻系統(tǒng)的耗電量。節(jié)能的設(shè)計(jì)體現(xiàn)在曙光刀片服務(wù)器的各個(gè)層面:1)根據(jù)實(shí)時(shí)功耗確定工作電源個(gè)數(shù),使電源工作在最佳效率曲線上。2)修改計(jì)算刀片操作系統(tǒng)內(nèi)核,實(shí)現(xiàn)節(jié)能3)多計(jì)算刀片任務(wù)調(diào)整調(diào)度n 布線簡(jiǎn)單在機(jī)架式服務(wù)器構(gòu)成的集群系統(tǒng)中,系統(tǒng)布線是一個(gè)很大的問題。系統(tǒng)的線纜可能包括高性能計(jì)算網(wǎng)絡(luò)(Infiniband,以太網(wǎng)等)、數(shù)據(jù)網(wǎng)絡(luò)、管理網(wǎng)絡(luò)、監(jiān)控網(wǎng)絡(luò)、電源網(wǎng)絡(luò)、KVM網(wǎng)絡(luò)等,這些線纜需要連接到每一個(gè)計(jì)算單元。尤其是在高密度、計(jì)算單元數(shù)目又比較多的情況下,系統(tǒng)布線是令設(shè)計(jì)人員頭疼的問題。刀片式集群系統(tǒng)可以大大減少系統(tǒng)布線的數(shù)量。多個(gè)刀片服務(wù)器可以共用冗余電源,內(nèi)置的交換機(jī)將高速網(wǎng)絡(luò)(Infiniband等)、數(shù)據(jù)網(wǎng)絡(luò)、管理網(wǎng)絡(luò)、KVM網(wǎng)絡(luò)集成在一起,只需要對(duì)刀片柜進(jìn)行布線,刀片柜內(nèi)部的計(jì)算刀片通過背板連接,無需布線。根據(jù)計(jì)算,使用刀片式集群,可以節(jié)省85%以上的系統(tǒng)布線。n 可靠性提高曙光刀片服務(wù)器采用無源背板進(jìn)行系統(tǒng)互連,與傳統(tǒng)的線纜連接方式相比,把可靠性提高到了一個(gè)數(shù)量級(jí)以上。刀片系統(tǒng)采取模塊化、冗余、熱插拔設(shè)計(jì),進(jìn)一步提高了系統(tǒng)的可靠性。n 管理方便曙光刀片服務(wù)器管理監(jiān)控高度集成:通過統(tǒng)一的監(jiān)控界面,監(jiān)控所有刀片資源,包括機(jī)箱電源、風(fēng)扇、計(jì)算刀片、背板、交換機(jī)。管理系統(tǒng)整合目前兩大監(jiān)控技術(shù),即IPMI以及KVM (Over IP),真正實(shí)現(xiàn)監(jiān)視控制一體化。同時(shí),為實(shí)現(xiàn)方便快捷的刀片服務(wù)器管理,通過優(yōu)化的管理軟硬件設(shè)計(jì),改善可管理性,增強(qiáng)部署和可服務(wù)性,這些將降低總的所有權(quán)成本。2.2.2 Intel E5-2600處理器性能優(yōu)勢(shì)2012年3月,Intel Xeon 處理器E5-2600發(fā)布,E5-2600處理器相比上代雙路服務(wù)器Xeon5600系列處理器在處理器架構(gòu)上進(jìn)行了重大調(diào)整,從而帶來最高達(dá)到77%的性能提升。E5-2600相比上代5600處理器,在處理器核心數(shù)、流水線長度、內(nèi)存帶寬等多個(gè)方面都對(duì)做出了重大提升,所以導(dǎo)致了性能的巨大飛躍。對(duì)于最能衡量高性能計(jì)算處理能力的spec cpu2006 fp性能,相比上一代處理器,最多高達(dá)77%的性能提升。對(duì)于眾多高性能計(jì)算應(yīng)用,相比上代處理器,基本都超過50%以上的性能提升。通過調(diào)整流水線的長度和增加CPU核心數(shù),相比上代處理器,linpack性能最多超過100%的性能提升。2.2.3 GPGPU計(jì)算節(jié)點(diǎn)系統(tǒng)共配置4臺(tái)GPGPU節(jié)點(diǎn),該GPGPU節(jié)點(diǎn)配置4塊NVDIA C2075 GPU卡,共提供單精度峰值16TFLOPS,雙精度峰值8TFLOPS。GPGPU計(jì)算是指利用圖形卡來進(jìn)行一般意義上的計(jì)算,而不是傳統(tǒng)意義上的圖形繪制。時(shí)至今日,GPU已發(fā)展成為一種高度并行化、多線程、多核的處理器,具有杰出的計(jì)算功率和極高的存儲(chǔ)器帶寬,如圖所示。CPU 和GPU的每秒浮點(diǎn)運(yùn)算次數(shù)和存儲(chǔ)器帶寬CPU 和GPU之間浮點(diǎn)功能之所以存在這樣的差異,原因就在于GPU專為計(jì)算密集型、高度并行化的計(jì)算而設(shè)計(jì),上圖顯示的正是這種情況,因而,GPU的設(shè)計(jì)能使更多晶體管用于數(shù)據(jù)處理,而非數(shù)據(jù)緩存和流控制,如圖所示。GPU中的更多晶體管用于數(shù)據(jù)處理目前,已經(jīng)有非常多的高性能應(yīng)用完成了在GPU系統(tǒng)上的移植。2.3 網(wǎng)絡(luò)系統(tǒng)本方案的網(wǎng)絡(luò)系統(tǒng)的設(shè)計(jì)從性能和可靠兩個(gè)原則出發(fā),采用2套網(wǎng)絡(luò)。網(wǎng)絡(luò)配置都考慮了擴(kuò)展余量,以便系統(tǒng)擴(kuò)充。網(wǎng)絡(luò)方案設(shè)計(jì)充分考慮到了計(jì)算節(jié)點(diǎn)、存儲(chǔ)節(jié)點(diǎn)、網(wǎng)絡(luò)交換機(jī)的性能參數(shù),在保證了系統(tǒng)穩(wěn)定的前提下,使每臺(tái)設(shè)備都能得到最大限度的利用。2.3.1 千兆管理網(wǎng)絡(luò)配置1臺(tái)高端千兆交換機(jī),配合刀片機(jī)箱的管理模塊,連成千兆管理網(wǎng)絡(luò)。該交換機(jī)1U高,48個(gè)千兆端口,實(shí)現(xiàn)系統(tǒng)中所有節(jié)點(diǎn)的聯(lián)通。千兆管理網(wǎng)絡(luò)用于系統(tǒng)管理控制、系統(tǒng)監(jiān)控、作業(yè)的遞交、作業(yè)監(jiān)控管理等方面的數(shù)據(jù)通訊。2.3.2 Infiniband高速網(wǎng)系統(tǒng)配置2臺(tái)36端口 Infiniband FDR交換機(jī),共同組成56GbpsFDR全線速網(wǎng)絡(luò)。單向56Gb的FDR Infiniband 網(wǎng)絡(luò)相比,相比上代單向40Gb的QDR Infiniband 網(wǎng)絡(luò),性能得到了非常大的提升。這得益于三方面:1 FDR 網(wǎng)絡(luò)傳輸性能的提高,傳輸性能從QDR 的40Gb增加到FDR的56Gb。2 FDR 網(wǎng)絡(luò)編碼效率的提升,編碼效率從QDR 的 8/10 提高到 FDR 的 64/66。3 PCI-E 3.0 編碼效率的提升,編碼效率從 PCI-E 2.0的 8/10 提高到 PCI-E 3.0的 128/130。綜合起來,QDR網(wǎng)絡(luò)由于編碼效率的影響,帶寬僅能達(dá)到Bandwidth(QDR)=40Gbps*0.8*0.8/8=3.2GBps而FDR的帶寬可達(dá)到Bandwidth(QDR)=56Gbps*(64/66)*(128/130)/8=6.6GBps實(shí)際達(dá)到一倍以上的性能提升對(duì)于網(wǎng)絡(luò)密集型的高性能應(yīng)用,F(xiàn)DR網(wǎng)絡(luò)帶來的性能提升也是非常明顯,如下圖所示的分子動(dòng)力學(xué)應(yīng)用NAMD,網(wǎng)絡(luò)設(shè)備升級(jí)成FDR后,性能和擴(kuò)展性都得到大幅提升。2.4 存儲(chǔ)系統(tǒng)2.4.1 高性能集群存儲(chǔ)的需求特點(diǎn)高性能計(jì)算集群在多個(gè)節(jié)點(diǎn)進(jìn)行大規(guī)模并行計(jì)算的同時(shí),需要進(jìn)行大量文件及數(shù)據(jù)訪問,對(duì)于系統(tǒng)的存儲(chǔ)性能也提出非常高的要求,系統(tǒng)對(duì)存儲(chǔ)要求主要?dú)w結(jié)為以下幾點(diǎn)。n 全局文件的統(tǒng)一印象;高性能集群相比其它應(yīng)用而言,一個(gè)顯著的特點(diǎn)為保證參與計(jì)算的所有節(jié)點(diǎn)具有統(tǒng)一的文件印象,也就是說,在任何一個(gè)節(jié)點(diǎn)、對(duì)某一個(gè)文件的讀寫、修改都會(huì)在其它節(jié)點(diǎn)生效,實(shí)現(xiàn)這一個(gè)功能,往往需要通過網(wǎng)絡(luò)文件系統(tǒng)來實(shí)現(xiàn),較為傳統(tǒng)的為nfs系統(tǒng),當(dāng)前,由于集群規(guī)模的增大和訪問性能的要求逐漸提高,并行文件系統(tǒng)在中大規(guī)模的高性能集群中使用越來越廣泛。n 全局文件的高速訪問;對(duì)于某些規(guī)模較大集群,或者某些高IO應(yīng)用集群,由于對(duì)存儲(chǔ)的訪問量很大,對(duì)共享存儲(chǔ)的訪問性能也提出了較高要求。通常,我們需要通過提高磁盤陣列的性能、存儲(chǔ)介質(zhì)的性能、磁盤陣列訪問接口的性能和IO節(jié)點(diǎn)的網(wǎng)絡(luò)性能來提高存儲(chǔ)的訪問性能。對(duì)于更高IO需求的系統(tǒng),可以通過并行存儲(chǔ)系統(tǒng)來實(shí)現(xiàn)海量文件的并發(fā)讀寫。n 存儲(chǔ)系統(tǒng)的大容量;由于高性能集群的規(guī)模巨大、數(shù)據(jù)處理能力驚人,高性能集群集中存儲(chǔ)的容量也往往非常驚人,動(dòng)輒達(dá)到數(shù)十TB,在某些對(duì)海量存儲(chǔ)需求的系統(tǒng)中,存儲(chǔ)往往達(dá)到上百TB,甚至PB量級(jí)。n 存儲(chǔ)系統(tǒng)的高可靠性;高性能集群承擔(dān)著重要的科研任務(wù),用戶的數(shù)據(jù)具有極高的價(jià)值,同時(shí),存儲(chǔ)為全局系統(tǒng),一旦出現(xiàn)故障,將導(dǎo)致整個(gè)系統(tǒng)的不可用。所以在存儲(chǔ)系統(tǒng)中,無論IO節(jié)點(diǎn)、存儲(chǔ)交換機(jī)、還是存儲(chǔ)磁盤陣列,存儲(chǔ)介質(zhì),每個(gè)環(huán)節(jié)都要盡可能的保證高可靠性和高可用性??梢酝ㄟ^冗余電源、高級(jí)別raid、雙機(jī)熱備、數(shù)據(jù)備份等各種手段保證存儲(chǔ)系統(tǒng)的高可靠性。2.4.2 Parastor200并行存儲(chǔ)系統(tǒng)系統(tǒng)配置曙光Parastor200并行存儲(chǔ)系統(tǒng),裸容量達(dá)到192TB,可用容量96T。曙光parastor200并行存儲(chǔ)系統(tǒng)采用多副本、全冗余技術(shù),支持單一存儲(chǔ)命名空間、支持容量海量擴(kuò)展,性能線性擴(kuò)展,能夠滿足高性能計(jì)算中心海量文件并發(fā)讀寫需求。n Parastor200并行存儲(chǔ)技術(shù)特點(diǎn)1. 集群化并行存儲(chǔ)架構(gòu),數(shù)據(jù)分布存儲(chǔ),并發(fā)讀寫2. 容量、性能線性增長,資源配額和性能質(zhì)量保證,統(tǒng)一調(diào)度分配存儲(chǔ)空間3. 全局目錄、單一系統(tǒng)映像,虛擬存儲(chǔ)池,精簡(jiǎn)配置4. 資產(chǎn)生命周期管理、帶寬分配管理、記賬計(jì)費(fèi),存儲(chǔ)空間租賃與管理5. 多企業(yè)、個(gè)人用戶,多訪問協(xié)議:CTDB、CIFS、FTP、RESP、SOAP6. 多副本、全冗余架構(gòu),保證系統(tǒng)的可靠性與可用性n Parastor200 系統(tǒng)組成1. 管理控制器 - 提供命令行和圖形界面兩種接口 - 內(nèi)嵌并行存儲(chǔ)管理系統(tǒng),對(duì)軟硬件進(jìn)行一體化監(jiān)控管理 2. 索引控制器 - 管理存儲(chǔ)系統(tǒng)中所有元數(shù)據(jù)和命名空間 - 支持多副本,Active-Active運(yùn)行方式3. 數(shù)據(jù)控制器 - 提供數(shù)據(jù)存儲(chǔ)空間,48TB裸容量 - 支持多副本容錯(cuò),自動(dòng)處理磁盤失效4. 應(yīng)用服務(wù)器 - 向上應(yīng)用提供數(shù)據(jù)訪問接口 - 支持多種Linux內(nèi)核n Parastor 200體系架構(gòu)n Parastor200 統(tǒng)一管理界面2.4.3 DBstor 備份系統(tǒng)系統(tǒng)配置DBstor 備份系統(tǒng) 20TB,保證系統(tǒng)關(guān)鍵數(shù)據(jù)的安全。DBstor 支持重復(fù)數(shù)據(jù)刪除的SmartDisk技術(shù),能有效備份數(shù)據(jù)的同時(shí),大大節(jié)省存儲(chǔ)空間。曙光DBstor 備份系統(tǒng)具有如下特點(diǎn):1) 為關(guān)鍵數(shù)據(jù)提供高速、基于備份時(shí)間點(diǎn)的恢復(fù)DBstor利用全線速的雙千兆數(shù)據(jù)傳輸鏈路、高速磁盤控制器組并行接收/發(fā)送應(yīng)用服務(wù)器的備份/恢復(fù)數(shù)據(jù),保障數(shù)據(jù)備份/恢復(fù)的高效;在備份時(shí),DBstor鎖定應(yīng)用服務(wù)器特定時(shí)間點(diǎn)的數(shù)據(jù)影像,并對(duì)影像做數(shù)據(jù)一致性對(duì)比校驗(yàn),保證備份集的絕對(duì)可用性,從而最終保證DBstor基于時(shí)間點(diǎn)恢復(fù)的可靠性2) 高速、高效、大容量的虛擬磁帶庫(VTL)功能DBstor采用獨(dú)特的磁盤介質(zhì)管理方式,在文件系統(tǒng)之上創(chuàng)建虛擬磁帶庫(VTL),保證備份數(shù)據(jù)在邏輯上保持連續(xù),避免頻繁磁盤尋道帶來的時(shí)間損耗,最大限度的利用磁盤組的并行讀寫能力,從而提高備份與恢復(fù)速度;為充分利用DBstor的硬件性能,用戶可以根據(jù)實(shí)際情況定義虛擬磁帶庫的控制器數(shù)據(jù)、槽位、容量等,為支持更多客戶端并行的備份提供策略保障;DBstor支持10TB和20TB兩種VTL備份容量、滿足絕大部分關(guān)鍵數(shù)據(jù)備份場(chǎng)合的空間需求3) SmartDisk技術(shù)與重復(fù)數(shù)據(jù)刪除技術(shù)的有機(jī)結(jié)合DBstor支持VTL的同時(shí),提供另外一種性價(jià)比更高的介質(zhì)管理技術(shù)SmartDisk,SmartDisk不等同于文件系統(tǒng)的磁盤管理技術(shù),SmartDisk以網(wǎng)絡(luò)服務(wù)的形式為DBstor提供磁盤存儲(chǔ)空間,并帶有高效的去重功能,可以實(shí)現(xiàn)高達(dá)數(shù)倍的存儲(chǔ)空間壓縮比;這樣既發(fā)揮磁盤存儲(chǔ)的高性能和高可用,又充分利用了存儲(chǔ)空間,可以大大節(jié)省客戶的投資4) 備份策略的自動(dòng)化管理備份自動(dòng)化:用戶可以根據(jù)自身的實(shí)際情況,定義自動(dòng)執(zhí)行的備份策略和日程表,備份策略一旦制定,就可以按照規(guī)定動(dòng)作在無人職守的情況化,自動(dòng)完成備份任務(wù);5) 報(bào)表生成自動(dòng)化每天的備份任務(wù)執(zhí)行情況,DBstor會(huì)自動(dòng)形成報(bào)表,詳細(xì)描述所有備份任務(wù)的招待情況,系統(tǒng)管理員可以選擇合適的方式進(jìn)行通知,比如經(jīng)由Windows信使, SNMP,自動(dòng)發(fā)送至管理人員的郵箱等6) 全面的Vmware集成主機(jī)的虛擬化使用日益廣泛,DBstor對(duì)典型的虛擬化環(huán)境Vmware提供了全方位的支持,用戶既可以通過DBstor對(duì)應(yīng)的client調(diào)用VCB來對(duì)虛擬機(jī)進(jìn)行備份,也可以直接在虛擬機(jī)上對(duì)應(yīng)用數(shù)據(jù)進(jìn)行備份,給虛擬機(jī)的備份提供靈活的選擇7) 配置管理易用性統(tǒng)一用戶圖形管理界面; 數(shù)據(jù)庫備份不需要編輯腳本,純圖形操作;在做設(shè)備檢測(cè)時(shí),會(huì)自動(dòng)發(fā)現(xiàn)和配置存儲(chǔ)設(shè)備,并集中管理所有業(yè)務(wù)服務(wù)器進(jìn)行全自動(dòng)備份8) 完善的介質(zhì)控制功能當(dāng)備份數(shù)據(jù)過期時(shí),備份介質(zhì)會(huì)自動(dòng)回收以釋放存儲(chǔ)空間;對(duì)全備份及增量備份會(huì)自動(dòng)合并,以產(chǎn)生新的全備份,并可以按照策略對(duì)數(shù)據(jù)格式轉(zhuǎn)換和加密9) 獨(dú)特的備份管理方式可以根據(jù)備份任務(wù)多少靈活配置驅(qū)動(dòng)器數(shù)及磁帶數(shù),DBstor支持自動(dòng)數(shù)據(jù)庫數(shù)據(jù)導(dǎo)出并自動(dòng)進(jìn)行備份;對(duì)備份介質(zhì)和其中內(nèi)容進(jìn)行自動(dòng)分組管理;根據(jù)需要對(duì)所備份的數(shù)據(jù)進(jìn)行自動(dòng)恢復(fù),且可以實(shí)現(xiàn)對(duì)不同時(shí)間的備份內(nèi)容有選擇的進(jìn)行恢復(fù)10) 多應(yīng)用及異構(gòu)操作系統(tǒng)支持DBstor支持多種操作系統(tǒng)客戶端,對(duì)操作系統(tǒng)可以做到一鍵式的備份與恢復(fù),支持Windows,linux,AIX等多平臺(tái)客戶端;對(duì)常見的數(shù)據(jù)庫,如ORACLE,SYBASE,SQL SERVER等可實(shí)現(xiàn)在線的數(shù)據(jù)庫備份,配合日志的備份,可以將數(shù)據(jù)庫恢復(fù)到最新時(shí)間點(diǎn)11) 優(yōu)異的硬件性能高性能的處理器和緩存以及RAID控制器,對(duì)于光纖SAN網(wǎng)絡(luò),單臺(tái)服務(wù)器的備份效率可以達(dá)到200GB/小時(shí);數(shù)據(jù)庫RAC在線備份效率可以達(dá)到200GB/小時(shí)2.5 管理調(diào)度系統(tǒng)2.5.1 管理/登陸節(jié)點(diǎn)系統(tǒng)配置2臺(tái)曙光天闊I620R-G雙路服務(wù)器,作為管理/登陸節(jié)點(diǎn),實(shí)現(xiàn)雙機(jī)互備。管理節(jié)點(diǎn)主要用于運(yùn)行集群管理軟件,Infiniband opensm服務(wù),作業(yè)調(diào)度服務(wù)、時(shí)間同步服務(wù)器等系統(tǒng)級(jí)服務(wù)進(jìn)程,管理節(jié)點(diǎn)對(duì)性能要求不高,但對(duì)可靠性要求很高。登錄節(jié)點(diǎn)主要用于用戶程序編譯、算例準(zhǔn)備,文件上傳下載,作業(yè)提交控制等用戶交互作業(yè)。登錄節(jié)點(diǎn)的負(fù)載根據(jù)用戶的數(shù)量和操作有較大變化。由于登錄節(jié)點(diǎn)可能存在用戶的非法操作而導(dǎo)致系統(tǒng)宕機(jī),所以只要預(yù)算允許的前提下,登錄節(jié)點(diǎn)和管理節(jié)點(diǎn)分開的方案能提高整個(gè)系統(tǒng)的可靠性。2.5.2 KVM系統(tǒng)KVM系統(tǒng)用于視頻切換,可以通過一套視頻輸出設(shè)備(顯示器,鍵盤,鼠標(biāo))實(shí)現(xiàn)對(duì)集群中所有的節(jié)點(diǎn)的視頻切換和鍵盤鼠標(biāo)輸入操作。曙光SKVM over IP(Super Key Video Mouse)系統(tǒng)是大型機(jī)群管理、部署、維護(hù)和監(jiān)控不可或缺的設(shè)備,與傳統(tǒng)的集線器式的8口或16口的KVM切換器相比,基于CIM/USTS的曙光SKVM系統(tǒng)有著不可替代的優(yōu)點(diǎn)。SKVM采用普通網(wǎng)線傳輸,采用菊花鏈?zhǔn)竭B接,由CIM和USTS組成,每個(gè)USTS可以擴(kuò)展999個(gè)節(jié)點(diǎn),由于采用了信號(hào)轉(zhuǎn)換技術(shù)管理員可以在300m外進(jìn)行KVM信號(hào)的切換,極大的方便了管理員的工作,并且在這距離上無需專門的傳輸線,采用普通的網(wǎng)線即可。為實(shí)現(xiàn)機(jī)群設(shè)備的監(jiān)控管理,曙光SKVM系統(tǒng), 可從單一控制臺(tái)(鍵盤/屏幕/鼠標(biāo))操作管理多臺(tái)服務(wù)器。單個(gè)USTS使用獨(dú)創(chuàng)的通信技術(shù), 控制多達(dá)999臺(tái)服務(wù)器, 不需傳統(tǒng)的KVM切換器及難以管理的電纜線,支持所有服務(wù)器管理高挑戰(zhàn)性的需求。2.5.3 GridView集群管理調(diào)度系統(tǒng)構(gòu)建一套大規(guī)模高性能集群系統(tǒng)涉及到三個(gè)層面的內(nèi)容:最底層的是硬件平臺(tái),它是完成任務(wù)的最基礎(chǔ)設(shè)施;其次是OS平臺(tái),包括節(jié)點(diǎn)機(jī)的操作系統(tǒng)以及集群操作系統(tǒng);最后是應(yīng)用環(huán)境平臺(tái),包括并行開發(fā)環(huán)境以及編譯環(huán)境。高效率的集群系統(tǒng)需要幾個(gè)層面的緊密耦合、協(xié)調(diào)工作。曙光TC4000的注重效率的設(shè)計(jì)思路貫穿到每一個(gè)細(xì)節(jié),在每個(gè)層面上都做到性能最優(yōu)。尤其是OS平臺(tái)以及應(yīng)用環(huán)境平臺(tái)。曙光GridView大型機(jī)監(jiān)控管理系統(tǒng)繼承曙光DCMM2、DCAS等監(jiān)控管理產(chǎn)品的主要功能和技術(shù)特色,并增加多項(xiàng)優(yōu)秀功能開發(fā)而成的機(jī)群監(jiān)控管理系統(tǒng)產(chǎn)品。GridView提供統(tǒng)一的集中式監(jiān)控平臺(tái),具備可擴(kuò)展性、集成性、可靠性和易用性,提供對(duì)各種商用、自己研發(fā)的管理工具的集成接口,從而滿足同時(shí)對(duì)各不同廠家大型機(jī)的環(huán)境、硬件、軟件等各方面進(jìn)行監(jiān)控的需求。集群監(jiān)控功能列表狀態(tài)監(jiān)測(cè)n 對(duì)服務(wù)器、網(wǎng)絡(luò)設(shè)備、存儲(chǔ)設(shè)備等各種設(shè)備的運(yùn)行狀態(tài)進(jìn)行實(shí)時(shí)監(jiān)測(cè);圖 1.1 系統(tǒng)整體實(shí)時(shí)統(tǒng)計(jì)信息n 對(duì)各種應(yīng)用程序的運(yùn)行狀態(tài)進(jìn)行監(jiān)測(cè);n 對(duì)運(yùn)行大型機(jī)的機(jī)房環(huán)境及設(shè)備運(yùn)行環(huán)境進(jìn)行實(shí)時(shí)監(jiān)測(cè);圖 1.2實(shí)時(shí)狀態(tài)監(jiān)測(cè)拓?fù)滹@示n 支持機(jī)柜方式的物理拓?fù)浞绞剑丛O(shè)備實(shí)際位置和相應(yīng)尺寸顯示,使管理員對(duì)整個(gè)系統(tǒng)一目了然;圖 1.3物理機(jī)柜視圖告警管理n 實(shí)時(shí)告警圖形顯示及列表查詢;n 歷史告警列表查詢及統(tǒng)計(jì)分析;圖 1.4告警查詢n 通過多級(jí)告警分析,定位最終告警原因;圖 1.5告警分析報(bào)表分析Gridview有豐富的報(bào)表功能,這在很多同類的監(jiān)控產(chǎn)品中是不多見的。n 支持小時(shí)報(bào)、日?qǐng)?bào)、月報(bào)、年報(bào)等多個(gè)時(shí)間段的報(bào)表生成;n 關(guān)聯(lián)報(bào)表,可以把多個(gè)設(shè)備的指標(biāo)在一個(gè)報(bào)表中生成并進(jìn)行多設(shè)備對(duì)比分析;也可以把一個(gè)設(shè)備的多個(gè)指標(biāo)在一個(gè)報(bào)表中生成,從而進(jìn)行多指標(biāo)之間的關(guān)聯(lián)分析;n 報(bào)表可以導(dǎo)出成Pdf和Exel文件,方便用戶查看。圖 1.6報(bào)表接口規(guī)范n 采用標(biāo)準(zhǔn)接口,易于多套異構(gòu)系統(tǒng)的整合和統(tǒng)一監(jiān)控;集群管理功能列表n 管理授權(quán) 負(fù)責(zé)管理過程的授權(quán)控制,只有將管理節(jié)點(diǎn)的公鑰部署到被管理節(jié)點(diǎn),才能執(zhí)行各種集群管理操作。n 用戶管理 負(fù)責(zé)管理集群系統(tǒng)中的用戶與組群,允許集群系統(tǒng)管理員查看集群系統(tǒng)中用戶與組的配置,并且可以完成對(duì)集群系統(tǒng)的用戶和組的增加,刪除,修改等功能。n 進(jìn)程管理 顯示集群中運(yùn)行的進(jìn)程信息,在選定的節(jié)點(diǎn)組上運(yùn)行特定進(jìn)程,以及殺死特定進(jìn)程,保存當(dāng)前運(yùn)行的進(jìn)程信息等。n 服務(wù)管理 顯示集群中運(yùn)行的服務(wù)信息,在選定的節(jié)點(diǎn)組上啟動(dòng)、停止、禁用指定的系統(tǒng)服務(wù)n 文件管理 集群由少到幾個(gè)節(jié)點(diǎn)多到上百個(gè)節(jié)點(diǎn)組成,而管理集群中的文件則變成相當(dāng)復(fù)雜的任務(wù)。DCMS的集群文件瀏覽器Spreader是用于集群文件管理的工具,界面風(fēng)格猶如微機(jī)Windows下Explorer,操作方便、直觀。n 網(wǎng)絡(luò)配置 支持集群網(wǎng)絡(luò)管理中最常見的幾種工作:維護(hù)系統(tǒng)hosts表,以及設(shè)置網(wǎng)絡(luò)設(shè)備的IP地址。n 并行終端 可在多節(jié)點(diǎn)并發(fā)執(zhí)行命令,并提供SSH終端對(duì)直接登陸至被管理節(jié)點(diǎn)執(zhí)行各種操作。n 關(guān)機(jī)管理 快速的對(duì)選定節(jié)點(diǎn)或整個(gè)集群進(jìn)行關(guān)機(jī)/重啟/開進(jìn)操作。集群用戶和組管理集群用戶組管理器(User and Group Manager)是管理集群系統(tǒng)中的用戶與組群的一個(gè)工具,負(fù)責(zé)完成集群系統(tǒng)的用戶和組的管理工作,集群系統(tǒng)管理員可以通過它查看集群系統(tǒng)中用戶與組的配置,以及完成對(duì)集群系統(tǒng)中的用戶和組的增加,刪除,修改等操作。圖2.1集群用戶管理界面組成進(jìn)程管理n 顯示所選服務(wù)節(jié)點(diǎn)上的進(jìn)程信息,包括進(jìn)程名,運(yùn)行參數(shù),進(jìn)程依賴關(guān)系,CPU使用率,運(yùn)行時(shí)間,虛擬內(nèi)存大小等重要參數(shù),并且支持中文信息的顯示。n 終止若干個(gè)節(jié)點(diǎn)上(可以是運(yùn)行Linux或Windows 2000 系列操作系統(tǒng)的節(jié)點(diǎn))的某個(gè)進(jìn)程。對(duì)于運(yùn)行Linux操作系統(tǒng)的節(jié)點(diǎn),還可以向進(jìn)程發(fā)送特定的信號(hào),包括Terminate, Hangup, Interrupt等常見的信號(hào)。 圖 2.2進(jìn)程列表集群系統(tǒng)hosts表hosts表最初的作用是提供從域名到IP地址的轉(zhuǎn)換,其作用類似現(xiàn)在的DNS系統(tǒng)。它出現(xiàn)于internet發(fā)展的初期,當(dāng)時(shí)連到internet上的機(jī)器并不多,每臺(tái)機(jī)器都維護(hù)一個(gè)hosts文件以提供域名到IP地址的轉(zhuǎn)換。隨著internet的發(fā)展,聯(lián)網(wǎng)機(jī)器的數(shù)目增多,域名IP的變化也越來越頻繁,每臺(tái)聯(lián)網(wǎng)機(jī)器都維護(hù)一個(gè)hosts數(shù)據(jù)表的做法越來越不實(shí)際,于是就出現(xiàn)了DNS系統(tǒng)。雖然在功能上DNS已經(jīng)完全取代了hosts表,但hosts表仍然被廣泛的使用,因?yàn)樗峁┮环N方便的名稱到IP的轉(zhuǎn)換。如讀者對(duì)hosts表的歷史信息感興趣可參考RFC952。Linux及Unix系統(tǒng)和Windows系統(tǒng)都提供hosts表功能,雖然在單機(jī)上手工直接修改系統(tǒng)的hosts表并不麻煩,但是在集群環(huán)境中,特別是大型集群或異構(gòu)集群,逐一修改維護(hù)集群中所有節(jié)點(diǎn)的hosts表是一件很繁重的工作。使用DCMS集群管理系統(tǒng)的hosts表管理模塊可以很輕松的維護(hù)管理整個(gè)集群的hosts表。圖 2.3 Hosts表管理IP管理IP管理模塊提供設(shè)置修改節(jié)點(diǎn)網(wǎng)絡(luò)設(shè)備IP地址及其它參數(shù)的功能, IP管理模塊的大部分功能都同時(shí)支持Linux(Unix)系統(tǒng)及Windows系統(tǒng)。通過IP管理模塊,系統(tǒng)管理員能夠很方便的修改集群系統(tǒng)中各個(gè)Linux節(jié)點(diǎn)的IP地址信息。圖 2.4 IP管理集群文件瀏覽器集群由少到幾個(gè)節(jié)點(diǎn)多到上百個(gè)節(jié)點(diǎn)組成,而瀏覽集群中的文件則變成相當(dāng)復(fù)雜的任務(wù)。集群文件瀏覽器是用于集群文件瀏覽的工具,它可在集群內(nèi)完成文件目錄的瀏覽,新建,修改文件目錄名,刪除以及編輯文本文件等功能。集群并行命令集群并行命令終端可同時(shí)對(duì)多個(gè)被管理節(jié)點(diǎn)執(zhí)行相同的命令,并整理各節(jié)點(diǎn)執(zhí)行結(jié)果返回至客戶端,方便管理員對(duì)多個(gè)節(jié)點(diǎn)的并發(fā)管理,另外本系統(tǒng)還整合了通過SSH來登錄被管理節(jié)點(diǎn)的客戶端工具,管理員可直接登錄至被管理節(jié)點(diǎn),執(zhí)行各種操作。系統(tǒng)部署 集群系統(tǒng)的安裝主要是指在各個(gè)結(jié)點(diǎn)上安裝操作系統(tǒng)、文件系統(tǒng)、并行程序運(yùn)行庫、作業(yè)管理軟件和系統(tǒng)管理軟件等。它是集群系統(tǒng)投入應(yīng)用的前提,所以集群系統(tǒng)的安裝是一件非常重要的任務(wù)。系統(tǒng)主要功能特色:n 采用P2P技術(shù)對(duì)多節(jié)點(diǎn)同時(shí)快速部署,極大提高工作效率;n 支持樣板機(jī)模式,針對(duì)不同的節(jié)點(diǎn)分發(fā)不同的系統(tǒng)鏡像,在一個(gè)機(jī)群內(nèi)支持部署多種不同的系統(tǒng)軟件;n 采用B/S架構(gòu),安裝后節(jié)點(diǎn)信息直接存儲(chǔ)在管理系統(tǒng)的數(shù)據(jù)庫中,方便管理配置。n 安裝過程中很少需要手動(dòng)干預(yù),唯一的干預(yù)是在部署的初始階段根據(jù)提示為節(jié)點(diǎn)輸入節(jié)點(diǎn)名稱。n 安裝完成的系統(tǒng)最終的ip地址和主機(jī)名為用戶安裝時(shí)指定,能自動(dòng)適應(yīng)更大硬盤,各節(jié)點(diǎn)的軟硬件配置不必完全相同。n 支持多種Linux系統(tǒng),如Redhat Linux, Turbo Linux, Debian GNU/Linux,SUSE等.n 同時(shí)支持64位和32位cpu和操作系統(tǒng)圖3.1 集群部署2.5.4 Gridview Clusportal 應(yīng)用門戶模塊 高性能集群用戶的煩惱1 作業(yè)腳本很難寫,Linux命令很難學(xué)。 大部分的使用計(jì)算機(jī)的用戶均習(xí)慣windows的封閉提問操作和圖形界面的操作,對(duì)于基于Linux命令行操作和基于命令行操作的作業(yè)調(diào)度系統(tǒng),往往難以習(xí)慣,導(dǎo)致用戶常常感覺自己無法適應(yīng)高性能計(jì)算作業(yè)的工作模式,需要長時(shí)間的培訓(xùn)和摸索才能逐漸掌握這一過程。2為什么我的作業(yè)等了3天了,還在排隊(duì),別人的作業(yè)都算了好幾回了? 由于用戶往往無法正確的了解現(xiàn)有系統(tǒng)資源,自己可訪問的權(quán)限和資源;而基于命令行的作業(yè)調(diào)度系統(tǒng)開放式操作又常常讓用戶無法準(zhǔn)確的去根據(jù)自己可訪問的資源去申請(qǐng)資源,導(dǎo)致用戶在申請(qǐng)資源時(shí)常常申請(qǐng)錯(cuò)誤,這樣用戶的作業(yè)就長時(shí)間處于排隊(duì)狀態(tài)了。3為什么我的作業(yè)等了2天才開始算,可是只用10幾秒就錯(cuò)誤退出了? 由于命令行操作的開放式操作,導(dǎo)致用戶往往在撰寫作業(yè)腳本或者算例文件時(shí),很容易出現(xiàn)一些細(xì)微的錯(cuò)誤,導(dǎo)致很不容易排到開始計(jì)算,往往一開始就錯(cuò)誤退出了。 Clusportal 主要功能n 錯(cuò)誤檢查功能p 對(duì)所有的申請(qǐng)的資源會(huì)設(shè)置最大值,并檢查配額,隊(duì)列設(shè)置,用戶設(shè)置等資源限制p 對(duì)應(yīng)用的輸入文件進(jìn)行檢查p 自動(dòng)轉(zhuǎn)化輸入文件UNIX格式n 功能齊全,與其它產(chǎn)品無縫融合p 支持文件上傳下載p 可視化作業(yè)p 文件格式轉(zhuǎn)化p 自動(dòng)checkpoint/restart.文件上傳下載功能可視化互動(dòng)作業(yè) n 通用性高、操作簡(jiǎn)單p 一個(gè)portal頁面開放接口眾多,達(dá)到30個(gè),可以滿足用戶的各種作業(yè)需求。p 默認(rèn)值設(shè)置合理,90%的作業(yè),用戶只需修改5個(gè)以內(nèi)的選項(xiàng)。p Portal種類多,超過30個(gè),幾乎包含所有高性能應(yīng)用,同時(shí)可定制。p 具有2個(gè)基礎(chǔ)版portal,可以適用于所有串行程序,多線程程序、MPI程序。p 根據(jù)用戶輸入記憶,提高工作效率n 性能更高p 開啟了進(jìn)程綁定、共享內(nèi)存通信等運(yùn)行優(yōu)化選項(xiàng),提高作業(yè)運(yùn)行效率。n Clusportal 主要種類p basic(基礎(chǔ)) portal包含serial 和 mpi,支持互動(dòng)作業(yè),作業(yè)故障自動(dòng)切換重啟,文件傳輸,查看修改文件操作。p CAE portal包含Ansys,F(xiàn)luent,Abiqus,CFX,Nastran,F(xiàn)ecko,James,Comsol共7個(gè)Portal。p Qchem(量子化學(xué)) Portal包含vasp,Gaussian,siesta,CPMD,abinit,PWSCF共5個(gè)Portal。p MD(分子動(dòng)力學(xué)) Portal包含Namd,Gromacs,lammps,charmm,amber共5個(gè)portal。p BIO(生命科學(xué))Portal包含mpiblast,dock共2個(gè)portal.2.5.5 Gridview Clusquota 集群配額模塊產(chǎn)品概述Sugon ClusQuota 1.2.0 集群計(jì)費(fèi)業(yè)務(wù)系統(tǒng),可實(shí)現(xiàn)計(jì)算資源的量化計(jì)費(fèi)和用戶配額制,對(duì)各種計(jì)算資源(CPU、內(nèi)存、商業(yè)軟件License等)進(jìn)行有效的統(tǒng)籌、分析和調(diào)度。Sugon ClusQuota 1.2.0 通過預(yù)充值和實(shí)時(shí)計(jì)費(fèi)方式,集群管理員可及時(shí)掌握用戶對(duì)計(jì)算資源的使用情況,并為外部計(jì)費(fèi)和內(nèi)部核算提供有力保證。產(chǎn)品特色 靈活的用戶配額制度傳統(tǒng)高性能集群的資源的分配方式比較粗放,用戶缺乏合理的引導(dǎo)、約束機(jī)制,導(dǎo)致計(jì)算資源的分配不均衡。ClusQuota 1.2.0采用統(tǒng)一的量化手段描述資源的數(shù)量,在高性能集群中引入配額策略,對(duì)用戶的可用資源進(jìn)行預(yù)分配和實(shí)時(shí)計(jì)費(fèi),并可靈活控制用戶配額的有效期限,精確地記錄和控制用戶資源使用量,從而實(shí)現(xiàn)精細(xì)粒度的資源記賬和配額統(tǒng)籌。 直觀的資源配額查詢ClusQuota 1.2.0的“余額查詢”功能為集群用戶提供了直觀的配額信息,包括每個(gè)用戶當(dāng)前可用的機(jī)時(shí)配額,以及目前由于正運(yùn)行的作業(yè)而凍結(jié)的配額數(shù)量。ClusQuota 1.2.0可實(shí)現(xiàn)先充值、后使用(機(jī)時(shí))的功能,在用戶提交作業(yè)時(shí)即從計(jì)費(fèi)系統(tǒng)中做預(yù)授權(quán),作業(yè)結(jié)束后根據(jù)實(shí)際使用情況結(jié)算,有效避免超額占用機(jī)時(shí)。 完善的賬號(hào)管理功能ClusQuota 1.2.0可以將多套集群都納入進(jìn)來作為一個(gè)整體管理,提供全局統(tǒng)一的用戶配額策略。ClusQuota 1.2.0提供完善的計(jì)費(fèi)賬號(hào)管理功能,可根據(jù)需要,自由設(shè)定每個(gè)計(jì)費(fèi)賬號(hào)所對(duì)應(yīng)的集群用戶,以及相應(yīng)可訪問的集群資源。ClusQuota 1.2.0既可以實(shí)現(xiàn)一個(gè)集群用戶對(duì)應(yīng)一個(gè)計(jì)費(fèi)賬號(hào),專項(xiàng)專用,也可以實(shí)現(xiàn)多個(gè)集群用戶共同使用一個(gè)計(jì)費(fèi)賬號(hào),適于多個(gè)研究組共享計(jì)算資源。 詳盡的作業(yè)統(tǒng)計(jì)功能ClusQuota 1.2.0提供了詳細(xì)的作業(yè)統(tǒng)計(jì)列表,包括每個(gè)作業(yè)的用戶、所屬集群、所屬隊(duì)列、節(jié)點(diǎn)類型、并行規(guī)模、實(shí)際消費(fèi)機(jī)時(shí)等信息。集群管理員根據(jù)作業(yè)記錄,可以對(duì)計(jì)算資源的使用情況實(shí)現(xiàn)全局的、綜合的、動(dòng)態(tài)的、精細(xì)粒度的統(tǒng)計(jì),并通過分析找出影響系統(tǒng)性能的資源瓶頸。 詳細(xì)的充值明細(xì)記錄ClusQuota 1.2.0針對(duì)每個(gè)計(jì)費(fèi)賬號(hào)提供了詳細(xì)的充值明細(xì)記錄,任何一次充值操作均有據(jù)可查,方便集群管理員隨時(shí)核對(duì)記錄。 詳細(xì)的支出明細(xì)記錄ClusQuota 1.2.0針對(duì)每個(gè)計(jì)費(fèi)賬號(hào)提供了詳細(xì)的支出明細(xì)記錄,每一次作業(yè)計(jì)費(fèi)均記錄在案,為配額計(jì)費(fèi)和內(nèi)部核算提供有力保證。ClusQuota 1.2.0使集群管理員對(duì)系統(tǒng)的整體運(yùn)行狀態(tài)一目了然,能夠?qū)崟r(shí)動(dòng)態(tài)地跟蹤、反映用戶對(duì)高性能計(jì)算機(jī)資源的使用情況,并能及時(shí)實(shí)施資源使用控制策略。 靈活多樣的自定義費(fèi)率ClusQuota 1.2.0可靈活設(shè)置費(fèi)率,針對(duì)不同的計(jì)算資源(節(jié)點(diǎn)、隊(duì)列、CPU速度等)實(shí)現(xiàn)區(qū)別計(jì)費(fèi)。 2.6 集群基礎(chǔ)軟件環(huán)境2.6.1 編譯環(huán)境 GNU C/C+、GNU Fortran編譯器GNU CC(GNU Compiler Collection)是一個(gè)編譯器套件,是GNU推出的功能強(qiáng)大、性能優(yōu)越的多平臺(tái)編譯器,是GNU的代表作品之一。gcc是可以在多種硬件平臺(tái)上編譯出可執(zhí)行程序的超級(jí)編譯器,其執(zhí)行效率與一般的編譯器相比平均效率要高20%30%。它不僅能夠編譯C、Objective C和C+程序,而且還能編譯Fortran、Pascal等語言寫的程序。單就編譯器而言,它是目前公認(rèn)編譯最快、效率最高的編譯器。 Intel編譯器Intel 編譯器(Intel Compiler)是由美國Intel公司開發(fā),包括C/C+編譯器和Fortran編譯器適用于 Linux、Microsoft Windows 和 Mac OS X 操作系統(tǒng)。 Intel 編譯器的C語言編譯器為icc,C+編譯器為icpc,Fortran編譯器為ifort,支持Fortran 77,Fortran90/95標(biāo)準(zhǔn).Intel 編譯器支持 IA-32、Intel 64、Itanium 2、Intel Atom 處理器和某些非 Intel 的兼容處理器(例如某些 AMD 處理器),開發(fā)人員應(yīng)當(dāng)檢查系統(tǒng)需求。適用于 IA-32 和 Intel 64 的 Intel C+ 編譯器的主要特點(diǎn)是自動(dòng)向量化器,它能夠生成 SSE、SSE2 和 SSE3 的 SIMD 指令及其適用于 Intel 無線 MMX 和 MMX 2 的嵌入式變種。 Intel 編譯器 進(jìn)一步支持 OpenMP 3.0 和適用于對(duì)稱多處理的自動(dòng)并行化。借助于 Cluster OpenMP 的附加能力,編譯器還可為分布存儲(chǔ)多處理根據(jù) OpenMP 指示自動(dòng)生成消息傳遞接口調(diào)用。 Intel 編譯器可以對(duì)程序進(jìn)行眾多編譯優(yōu)化,最大限度地利用Intel處理器及其它一些處理器的優(yōu)化指令,使得程序性能獲得巨大的性能提升,隨著處理器的不斷更新,Intel編譯器也不斷的加入一些新的優(yōu)化指令,目前Intel編譯器的最新版本為12. PGI編譯器PGI 編譯器(PGI Compiler)是由波蘭PGI公司開發(fā),包括C/C+編譯器和Fortran編譯器適用于 Linux和Microsoft Windows。 PGI 編譯器的C語言編譯器為pgcc,C+編譯器為pgCC,Fortran77編譯器為pgf77,Fortran90編譯器為pgf90.PGI 編譯器支持 AMD處理器和Intel處理器,可程序可以進(jìn)行各種級(jí)別的編譯器優(yōu)化,包括內(nèi)聯(lián)函數(shù)、循環(huán)展開、向量化以及SSE2、SSE3等指令優(yōu)化。 PGI 編譯器 進(jìn)一步支持 OpenMP 3.0 和適用于對(duì)稱多處理的自動(dòng)并行化,支持按照OPENMP標(biāo)準(zhǔn)編寫的程序的編譯,滿足單節(jié)點(diǎn)內(nèi)程序的并行移植。PGI編譯器能夠有效簡(jiǎn)化GPGPU程序的開發(fā)難度,其特有的accelerate模塊能夠使得GPGPU的程序的編寫類似于OPENMP,大大簡(jiǎn)化GPGPU程序的移植難度。 圖

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論