信息技術(shù) 高性能計(jì)算系統(tǒng) 管理監(jiān)控平臺(tái)技術(shù)要求_第1頁(yè)
信息技術(shù) 高性能計(jì)算系統(tǒng) 管理監(jiān)控平臺(tái)技術(shù)要求_第2頁(yè)
信息技術(shù) 高性能計(jì)算系統(tǒng) 管理監(jiān)控平臺(tái)技術(shù)要求_第3頁(yè)
信息技術(shù) 高性能計(jì)算系統(tǒng) 管理監(jiān)控平臺(tái)技術(shù)要求_第4頁(yè)
信息技術(shù) 高性能計(jì)算系統(tǒng) 管理監(jiān)控平臺(tái)技術(shù)要求_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

ICS35.180

CCSL63

中華人民共和國(guó)國(guó)家標(biāo)準(zhǔn)

GB/TXXXXX—XXXX

信息技術(shù)高性能計(jì)算系統(tǒng)管理監(jiān)控平臺(tái)

技術(shù)要求

Informationtechnology—Highperformancecomputingsystem–Technical

requirementformanagementandmonitorplatform

(征求意見(jiàn)稿)

在提交反饋意見(jiàn)時(shí),請(qǐng)將您知道的相關(guān)專(zhuān)利連同支持性文件一并附上

XXXX-XX-XX發(fā)布XXXX-XX-XX實(shí)施

國(guó)家市場(chǎng)監(jiān)督管理總局

發(fā)布

國(guó)家標(biāo)準(zhǔn)化技術(shù)委員會(huì)

GB/TXXXXX—XXXX

前??言

本文件按照GB/T1.1-2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起

草。

請(qǐng)注意本文件的某些內(nèi)容可能涉及專(zhuān)利。本文件的發(fā)布機(jī)構(gòu)不承擔(dān)識(shí)別專(zhuān)利的責(zé)任。

本標(biāo)準(zhǔn)由全國(guó)信息技術(shù)標(biāo)準(zhǔn)化技術(shù)委員會(huì)歸口。

本標(biāo)準(zhǔn)主要起草單位:

本標(biāo)準(zhǔn)主要起草人:

II

GB/TXXXXX—XXXX

信息技術(shù)高性能計(jì)算系統(tǒng)管理監(jiān)控平臺(tái)技術(shù)要求

1范圍

本文件規(guī)定了高性能計(jì)算系統(tǒng)的管理監(jiān)控平臺(tái)的技術(shù)要求,包括管理監(jiān)控平臺(tái)對(duì)高性能計(jì)算系統(tǒng)管

理的功能、性能要求。

本文件適用于高性能計(jì)算系統(tǒng)管理監(jiān)控平臺(tái)的設(shè)計(jì)和開(kāi)發(fā)。

2規(guī)范性引用文件

下列文件中的內(nèi)容通過(guò)文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,

僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本

文件。

SJ/T11647信息技術(shù)盤(pán)陣列接口要求

3術(shù)語(yǔ)、定義和縮略語(yǔ)

3.1術(shù)語(yǔ)和定義

下列術(shù)語(yǔ)和定義適用于本文件。

3.1.1

高性能計(jì)算機(jī)highperformancecomputer

由成百上千、上萬(wàn)個(gè)處理器單元、加速處理器單元、存儲(chǔ)單元,通過(guò)高速網(wǎng)絡(luò)互聯(lián)并行工作,組成

的具有超強(qiáng)計(jì)算能力的超級(jí)計(jì)算機(jī),廣義上泛指解決大型復(fù)雜任務(wù)的計(jì)算工具。

3.1.2

高性能計(jì)算系統(tǒng)highperformancecomputingsystem

高性能計(jì)算機(jī)上加載操作系統(tǒng)、并行編譯環(huán)境、并行文件系統(tǒng)、科學(xué)計(jì)算應(yīng)用,構(gòu)建用于處理

科學(xué)計(jì)算信息的系統(tǒng)。

3.1.3

高性能計(jì)算系統(tǒng)管理監(jiān)控平臺(tái)managementandmonitoringplatformforthehighperformance

computingsystem

高性能計(jì)算系統(tǒng)管理監(jiān)控平臺(tái)是對(duì)組成高性能計(jì)算系統(tǒng)的硬件、系統(tǒng)環(huán)境、應(yīng)用及作業(yè)的運(yùn)行狀態(tài)

進(jìn)行監(jiān)控、報(bào)警、管理和調(diào)度的軟件,是高性能計(jì)算系統(tǒng)的運(yùn)行維護(hù)軟件。

3.2縮略語(yǔ)

下列縮略語(yǔ)適用于本文件。

HPC:高性能計(jì)算(HighPerformanceComputing)

1

GB/TXXXXX—XXXX

CPU:中央處理單元(器)(CentralprocessingUnit)

IO:輸入輸出系統(tǒng)(inputoutput)

OS:操作系統(tǒng)(OperationSystem))

PCE:并行編譯環(huán)境(ParallelCompilerEnvironment)

PFS:并行文件系統(tǒng)(ParallelFileSystem)

RAID:廉價(jià)(或獨(dú)立)磁盤(pán)冗余陣列(RedundantArrayofInexpensive(orIndependent)Drive)

SNMP:簡(jiǎn)單網(wǎng)絡(luò)管理協(xié)議(SimpleNetworkmanagementProtocol)

SSH:安全外殼協(xié)議(Secureshelly)

4概述

4.1高性能計(jì)算系統(tǒng)

由高性能計(jì)算機(jī)上加載操作系統(tǒng)、并行編譯環(huán)境、并行文件系統(tǒng)、科學(xué)計(jì)算應(yīng)用構(gòu)成。圖1為高性

能計(jì)算系統(tǒng)示意圖。

圖1.高性能計(jì)算系統(tǒng)示意圖

4.2高性能計(jì)算系統(tǒng)管理監(jiān)控平臺(tái)功能模塊

高性能計(jì)算系統(tǒng)管理監(jiān)控平臺(tái)功能模塊包括資源管理、監(jiān)控管理、報(bào)警管理、系統(tǒng)管理、作業(yè)管理、

記賬系統(tǒng)、應(yīng)用管理幾個(gè)功能模塊。圖1為高性能計(jì)算系統(tǒng)管理監(jiān)控平臺(tái)功能模塊組成示意圖。

2

GB/TXXXXX—XXXX

圖2.高性能計(jì)算系統(tǒng)管理監(jiān)控平臺(tái)功能模塊組成示意圖

5功能要求

5.1一般要求

應(yīng)滿(mǎn)足以下要求:

應(yīng)具有對(duì)異構(gòu)軟硬件資源進(jìn)行統(tǒng)一監(jiān)控報(bào)警能力;

應(yīng)具有對(duì)HPC系統(tǒng)上進(jìn)行串行、并行、批處理作業(yè)的作業(yè)管理調(diào)度能力;

應(yīng)具有對(duì)HPC系統(tǒng)進(jìn)行系統(tǒng)部署、應(yīng)用部署和系統(tǒng)管理的能力;

應(yīng)具有支持動(dòng)態(tài)添加監(jiān)控項(xiàng)、支持在線(xiàn)功能升級(jí);

應(yīng)具有動(dòng)態(tài)擴(kuò)展計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)單元的能力;

應(yīng)提供標(biāo)準(zhǔn)的SNMP訪(fǎng)問(wèn)和傳輸接口,以利于被其他運(yùn)維系統(tǒng)的集成。

5.2監(jiān)控

5.2.1統(tǒng)一監(jiān)控

對(duì)計(jì)算單元、存儲(chǔ)單元、網(wǎng)絡(luò)單元等所有部件統(tǒng)一呈現(xiàn),以機(jī)柜為單位呈現(xiàn)各部件的物理位置、名

稱(chēng)、識(shí)別ID、狀態(tài)以及呈現(xiàn)HPC系統(tǒng)的整體的計(jì)算、內(nèi)存、IO能力和使用狀態(tài)、拓?fù)浣Y(jié)構(gòu)。對(duì)機(jī)柜和機(jī)

柜內(nèi)的各個(gè)設(shè)備按照當(dāng)前運(yùn)行狀態(tài)實(shí)時(shí)地用相應(yīng)顏色來(lái)表示。

5.2.2硬件監(jiān)控

應(yīng)具備以下功能:

a)對(duì)計(jì)算單元、存儲(chǔ)單元、網(wǎng)絡(luò)單元監(jiān)控如下靜態(tài)信息:設(shè)備名稱(chēng)、IP地址、操作系統(tǒng)類(lèi)型和版

本號(hào)、CPU型號(hào)、主頻、緩存大小、內(nèi)存大小、內(nèi)存頻率、磁盤(pán)ID、類(lèi)型、接口、轉(zhuǎn)速、RAID

級(jí)別、空間大小、IO設(shè)備型號(hào)、設(shè)備名稱(chēng)、廠(chǎng)商、端口數(shù)量、協(xié)議類(lèi)型、帶寬等信息。(包括

但不限于以上靜態(tài)信息,監(jiān)控項(xiàng)可以動(dòng)態(tài)添加);

b)對(duì)計(jì)算單元、存儲(chǔ)單元、網(wǎng)絡(luò)單元監(jiān)控如下動(dòng)態(tài)信息:設(shè)備狀態(tài)、CPU利用率、物理內(nèi)存占用

率、網(wǎng)絡(luò)流出字節(jié)/流入字節(jié)、數(shù)據(jù)包丟包率、磁盤(pán)IOPS、讀寫(xiě)帶寬、CPU溫度、散熱風(fēng)扇的轉(zhuǎn)

速、電源供電等信息。(包括但不限于以上靜態(tài)信息,監(jiān)控項(xiàng)可以動(dòng)態(tài)添加)。

5.2.3應(yīng)用監(jiān)控

3

GB/TXXXXX—XXXX

HPC系統(tǒng)上運(yùn)行應(yīng)用的版本等靜態(tài)信息以及進(jìn)程的狀態(tài)、啟動(dòng)時(shí)間、運(yùn)行時(shí)間、用戶(hù)數(shù)、連接數(shù)等

狀態(tài)信息。

5.2.4隊(duì)列和作業(yè)監(jiān)控

應(yīng)具備以下隊(duì)列和作業(yè)的監(jiān)控功能:

a)監(jiān)控各隊(duì)列調(diào)度策略;

b)監(jiān)控各隊(duì)列資源使用狀態(tài);

c)監(jiān)控各隊(duì)列作業(yè)數(shù)量和運(yùn)行狀態(tài)(等待、運(yùn)行、完成、掛起);

d)監(jiān)控作業(yè)的優(yōu)先級(jí)高低;

e)監(jiān)控作業(yè)運(yùn)行時(shí)狀態(tài)和運(yùn)行結(jié)果。

5.3報(bào)警

應(yīng)具備以下報(bào)警功能:

a)實(shí)時(shí)告警:

1)硬件:對(duì)機(jī)柜電源、計(jì)算單元、網(wǎng)絡(luò)單元、存儲(chǔ)單元的運(yùn)行狀態(tài)的檢測(cè)告警;

2)應(yīng)用程序:對(duì)各種應(yīng)用軟件的運(yùn)行狀態(tài)進(jìn)行檢測(cè)告警,同時(shí)包括操作系統(tǒng)的運(yùn)行狀態(tài)

告警。

b)..歷史告警:支持對(duì)歷史告警的查詢(xún)(按類(lèi)別、時(shí)間、自定義方式)、統(tǒng)計(jì)功能,并可給出

統(tǒng)計(jì)分布圖。

c)告警設(shè)置:

1)提供對(duì)告警的閾值的單詞、批量設(shè)定功能;

2)可對(duì)告警級(jí)別進(jìn)行設(shè)定和調(diào)整;

3)支持單詞、批量地對(duì)告警信息進(jìn)行取消和確認(rèn)的操作;

4)提供告警過(guò)濾功能,即根據(jù)條件呈現(xiàn)告警;

5)提供告警處理建議的編輯功能,當(dāng)再次發(fā)生同類(lèi)告警,系統(tǒng)直接給出處理建議;

6)支持用戶(hù)自定義告警設(shè)置。

d)告警歸并:對(duì)系統(tǒng)關(guān)聯(lián)告警進(jìn)行歸并處理,合成一類(lèi)告警程序。

e)提供短信、郵件以及屏幕閃爍、彈出提示窗口等告警形式。

5.4調(diào)度

具備以下調(diào)度功能:

a)提供基于優(yōu)先級(jí)、先進(jìn)先出、作業(yè)回填的作業(yè)調(diào)度策略,以及獨(dú)占資源的調(diào)度策略;

b)提供作業(yè)投放、停止、刪除的操作,可刪除隊(duì)列中已投放的作業(yè),無(wú)論其是排隊(duì)中還是已運(yùn)行;

c)智能負(fù)載功能:根據(jù)節(jié)點(diǎn)運(yùn)行狀態(tài)和作業(yè)排隊(duì)情況,動(dòng)態(tài)調(diào)整系統(tǒng)計(jì)算資源可用處理器顆數(shù),

降低電力消耗;

d)一鍵式作業(yè)調(diào)度:提供復(fù)雜應(yīng)用工作流,將作業(yè)的前中后處理各環(huán)節(jié)形成調(diào)度作業(yè)一鍵提交,

直接生成可讀的圖片或數(shù)據(jù)。即將作業(yè)的算例生成、作業(yè)提交、作業(yè)調(diào)度、作業(yè)運(yùn)行過(guò)程監(jiān)控、

作業(yè)結(jié)果處理的前中后處理形成可一鍵提交的作業(yè)。

5.5管理

4

GB/TXXXXX—XXXX

5.5.1系統(tǒng)部署

應(yīng)具備如下功能:

a)操作系統(tǒng)自動(dòng)鏡像恢復(fù)的功能,包括系統(tǒng)批量鏡像恢復(fù)功能;

b)對(duì)計(jì)算單元操作系統(tǒng)的遠(yuǎn)程單機(jī)、批量部署功能,包括對(duì)原有設(shè)備的恢復(fù)和新增設(shè)備的部署;

c)對(duì)計(jì)算單元系統(tǒng)的單機(jī)、批量更新功能。

5.5.2應(yīng)用部署

應(yīng)具備如下功能:

a)對(duì)計(jì)算節(jié)點(diǎn)應(yīng)用軟件單機(jī)、批量上載、安裝的功能;

b)對(duì)計(jì)算節(jié)點(diǎn)應(yīng)用程序配置文件的單機(jī)、批量更新功能;

c)對(duì)應(yīng)用程序的自動(dòng)重啟功能。

5.5.3系統(tǒng)管理

應(yīng)具備如下功能:

a)對(duì)計(jì)算單元單機(jī)、批量腳本的執(zhí)行功能;

b)對(duì)計(jì)算節(jié)點(diǎn)的操作系統(tǒng)批量更改用戶(hù)名和口令的功能;

c)能按照物理的機(jī)架拜訪(fǎng)位置布局,提供添加、修改和刪除機(jī)柜、計(jì)算單元、網(wǎng)絡(luò)單元、存儲(chǔ)單

元的操作。

5.5.4遠(yuǎn)程管理

應(yīng)具備如下功能:

a)對(duì)于計(jì)算單元設(shè)備,應(yīng)提供遠(yuǎn)程單機(jī)、批量開(kāi)機(jī)、關(guān)機(jī)、重啟功能;

b)提供遠(yuǎn)程文件上傳下載和SSH登錄的功能;

c)對(duì)存儲(chǔ)單元和網(wǎng)絡(luò)單元,提供遠(yuǎn)程管理功能,以對(duì)其進(jìn)行配置更改和故障維護(hù)。

5.5.5應(yīng)用模板

應(yīng)具備如下功能:

a)提供HPC應(yīng)用領(lǐng)域常用應(yīng)用的應(yīng)用模板,模板中有關(guān)于應(yīng)用運(yùn)行的建議參數(shù)及配置;

b)支持用戶(hù)通過(guò)自定義方式定義模板。

5.5.6報(bào)表管理

具備以下數(shù)據(jù)統(tǒng)計(jì)功能:

a)計(jì)算節(jié)點(diǎn)的CPU使用率月度趨勢(shì)報(bào)表;

b)計(jì)算節(jié)點(diǎn)內(nèi)存利用率月度趨勢(shì)報(bào)表;

c)磁盤(pán)空間使用量報(bào)表;

d)應(yīng)支持自定義報(bào)表,對(duì)監(jiān)控?cái)?shù)據(jù)進(jìn)行分類(lèi)統(tǒng)計(jì)與報(bào)表生成。

6性能要求

管理監(jiān)控平臺(tái)應(yīng)滿(mǎn)足如下性能要求:

a)支持系統(tǒng)CPU處理器數(shù)量應(yīng)達(dá)到千顆級(jí)以上,CPU核數(shù)應(yīng)達(dá)萬(wàn)級(jí)核心以上,實(shí)現(xiàn)用戶(hù)單一映像

的登錄;

5

GB/TXXXXX—XXXX

b)系統(tǒng)告警級(jí)別可配置,對(duì)于關(guān)鍵監(jiān)控指標(biāo)的延遲不大于1min;

c)系統(tǒng)運(yùn)行監(jiān)控項(xiàng)的數(shù)據(jù)采集周期可配置,最小采集周期可達(dá)秒級(jí);

d)告警信息、報(bào)表所需數(shù)據(jù)的存儲(chǔ)時(shí)間至少1年,性能數(shù)據(jù)的存儲(chǔ)時(shí)間至少三個(gè)月;

e)平均故障間隔時(shí)間大于6個(gè)月;

f)軟件運(yùn)行占單顆CPU資源占用率不大于2%;

g)頁(yè)面的響應(yīng)時(shí)間小于5s。

_________________________________

6

GB/TXXXXX—XXXX

目??次

前言.....................................................................................................................................................................II

1范圍...................................................................................................................................................................1

2規(guī)范性引用文件...............................................................................................................................................1

3術(shù)語(yǔ)、定義和縮略語(yǔ).......................................................................................................................................1

4概述...................................................................................................................................................................2

5功能要求...........................................................................................................................................................3

6性能要求...........................................................................................................................................................5

I

GB/TXXXXX—XXXX

信息技術(shù)高性能計(jì)算系統(tǒng)管理監(jiān)控平臺(tái)技術(shù)要求

1范圍

本文件規(guī)定了高性能計(jì)算系統(tǒng)的管理監(jiān)控平臺(tái)的技術(shù)要求,包括管理監(jiān)控平臺(tái)對(duì)高性能計(jì)算系統(tǒng)管

理的功能、性能要求。

本文件適用于高性能計(jì)算系統(tǒng)管理監(jiān)控平臺(tái)的設(shè)計(jì)和開(kāi)發(fā)。

2規(guī)范性引用文件

下列文件中的內(nèi)容通過(guò)文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,

僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本

文件。

SJ/T11647信息技術(shù)盤(pán)陣列接口要求

3術(shù)語(yǔ)、定義和縮略語(yǔ)

3.1術(shù)語(yǔ)和定義

下列術(shù)語(yǔ)和定義適用于本文件。

3.1.1

高性能計(jì)算機(jī)highperformancecomputer

由成百上千、上萬(wàn)個(gè)處理器單元、加速處理器單元、存儲(chǔ)單元,通過(guò)高速網(wǎng)絡(luò)互聯(lián)并行工作,組成

的具有超強(qiáng)計(jì)算能力的超級(jí)計(jì)算機(jī),廣義上泛指解決大型復(fù)雜任務(wù)的計(jì)算工具。

3.1.2

高性能計(jì)算系統(tǒng)highperformancecomputingsystem

高性能計(jì)算機(jī)上加載操作系統(tǒng)、并行編譯環(huán)境、并行文件系統(tǒng)、科學(xué)計(jì)算應(yīng)用,構(gòu)建用于處理

科學(xué)計(jì)算信息的系統(tǒng)。

3.1.3

高性能計(jì)算系統(tǒng)管理監(jiān)控平臺(tái)managementandmonitoringplatformforthehighperformance

computingsystem

高性能計(jì)算系統(tǒng)管理監(jiān)控平臺(tái)是對(duì)組成高性能計(jì)算系統(tǒng)的硬件、系統(tǒng)環(huán)境、應(yīng)用及作業(yè)的運(yùn)行狀態(tài)

進(jìn)行監(jiān)控、報(bào)警、管理和調(diào)度的軟件,是高性能計(jì)算系統(tǒng)的運(yùn)行維護(hù)軟件。

3.2縮略語(yǔ)

下列縮略語(yǔ)適用于本文件。

HPC:高性能計(jì)算(HighPerformanceComputing)

1

GB/TXXXXX—XXXX

CPU:中央處理單元(器)(CentralprocessingUnit)

IO:輸入輸出系統(tǒng)(inputoutput)

OS:操作系統(tǒng)(OperationSystem))

PCE:并行編譯環(huán)境(ParallelCompilerEnvironment)

PFS:并行文件系統(tǒng)(ParallelFileSystem)

RAID:廉價(jià)(或獨(dú)立)磁盤(pán)冗余陣列(RedundantArrayofInexpensive(orIndependent)Drive)

SNMP:簡(jiǎn)單網(wǎng)絡(luò)管理協(xié)議(SimpleNetworkmanagementProtocol)

SSH:安全外殼協(xié)議(Secureshelly)

4概述

4.1高性能計(jì)算系統(tǒng)

由高性能計(jì)算機(jī)上加載操作系統(tǒng)、并行編譯環(huán)境、并行文件系統(tǒng)、科學(xué)計(jì)算應(yīng)用構(gòu)成。圖1為高性

能計(jì)算系統(tǒng)示意圖。

圖1.高性能計(jì)算系統(tǒng)示意圖

4.2高性能計(jì)算系統(tǒng)管理監(jiān)控平臺(tái)功能模塊

高性能計(jì)算系統(tǒng)管理監(jiān)控平臺(tái)功能模塊包括資源管理、監(jiān)控管理、報(bào)警管理、系統(tǒng)管理、作業(yè)管理、

記賬系統(tǒng)、應(yīng)用管理幾個(gè)功能模塊。圖1為高性能

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論