版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
金融數(shù)據(jù)中心人工智能算力建設(shè)指引北京金融科技產(chǎn)業(yè)聯(lián)盟20238版權(quán)聲明本白皮書版權(quán)屬于北京金融科技產(chǎn)業(yè)聯(lián)盟,并受法律保護。編制委員會編委會成員:王長江 聶麗琴 張海燕編寫組成員:趙春華王妍娟葛金磊張浩然吳仲陽宋 虎余學山白 陽符海芳李書建黃志鵬徐 旭陸碧波薛 亮譚 翔馬慶杰李 潔郭 亮王 月吳 剛郭江波吳戰(zhàn)立雷昭燕袁 智王偉鋒李 培彭 晉李俊奎楊海悌俞穎熙程歸鵬張貫忠李鴻鵬宋飛玄凌博鄭鵬飛黎世勇王云鳳編審:黃本濤周豫齊王妍娟張浩然參編單位:北京金融科技產(chǎn)業(yè)聯(lián)盟秘書處北京國家金融科技認證中心有限公司中國工商銀行股份有限公司華為技術(shù)有限公司中國信息通信研究院騰訊云計算(北京)新華三技術(shù)有限公司螞蟻科技集團股份有限公司超聚變數(shù)字技術(shù)有限公司北京百度網(wǎng)訊科技有限公司前 言對人工智能算力建設(shè)指出方向。2021年底,中國人民銀行發(fā)布(2022—2025人工智能算力數(shù)據(jù)中心是以數(shù)據(jù)中心為基礎(chǔ)的人工智能基AIAI本報告闡述了國內(nèi)外人工智能算力建設(shè)情況,梳理了當前金關(guān)鍵詞:人工智能、AI算力、人工智能算力數(shù)據(jù)中心、AI使能軟件、AI開發(fā)框架目 錄第一章發(fā)背景研究目標 1一、發(fā)背景 1(一)家政及“十四”規(guī)求 1(二)融科展的基支撐 4(三)內(nèi)外當前AI算力設(shè)情況 4二、研目標 9第二章面的挑和難點 10一、整看 10(一)據(jù)中心AI算力發(fā)不均衡 10(二)據(jù)中心AI計算能不足 10(三)據(jù)中心AI算力連和協(xié)力不強 10(四)據(jù)中心AI算力調(diào)不靈活 11二、分看 11(一)據(jù)中址問題(L0層) 11(二)耗及問題(L112(三)AI力底與周邊備及的問題(L2層) 12(四)持不務(wù)場景的AI應(yīng)用題(L3層) 13第三章建設(shè)指引 14一、人智能數(shù)據(jù)中架構(gòu) 14(一)體架構(gòu) 14(二)層布局 15二、基基礎(chǔ)層(L0-L1) 20三、硬基礎(chǔ)施層(L2) 20(一)AI20(二)AI務(wù)器 21(三)AI算子統(tǒng) 22四、軟基礎(chǔ)層(L3) 22(一)片使件 22(二)AI發(fā)框架 23(三)能軟件 23第四章建設(shè)協(xié)同 30一、整原則 30二、傳算力型算力同 30(一)力產(chǎn)征 30(二)力協(xié)設(shè) 32三、數(shù)中心與邊緣力協(xié)同 37四、算與網(wǎng)同 39(一)域算絡(luò)架構(gòu) 40(二)域算絡(luò)關(guān)鍵術(shù) 43(三)據(jù)中力網(wǎng)絡(luò)鍵技術(shù) 44(四)力網(wǎng)同關(guān)鍵術(shù) 46(五)力網(wǎng)字化能力 47第五章運維和能管理 49一、運管理 49(一)員組織 49(二)常運護 50二、節(jié)管理 50第六章成功案和未望 53一、成案例 53(一)商銀于高性網(wǎng)絡(luò)高算力群探索 53(二)蟻集團AI算力端協(xié)同實踐 54(三)商銀于衛(wèi)星感的AI力服務(wù)村金踐 56二、未展望 57(一)AI力的設(shè)需求速提升 57(二)AI力的融價值斷凸顯 58參考文獻 60第一章發(fā)展背景和研究目標一、發(fā)展背景(一)國家政策及“十四五”規(guī)劃要求其中算力包括AIAI1相關(guān)部委發(fā)布的人工智能及算力相關(guān)政策。表1人工智能及算力相關(guān)政策時間內(nèi)容2017年3月20172017年7月2017年12月工業(yè)和信息化部印發(fā)《促進新一代人工智能產(chǎn)業(yè)發(fā)展三(2018—20202020智能在推動戰(zhàn)略性新興產(chǎn)業(yè)總體突破、推進供給側(cè)結(jié)構(gòu)重大作用和具體目標。時間內(nèi)容2018年3月國務(wù)院總理李克強在十三屆全國人大一次會議作政府工作報告時表示,要加強新一代人工智能研發(fā)應(yīng)用,在醫(yī)2018年5月2018年12月5G設(shè)”。2019年3月20192019年7月中央政治局會議,強調(diào)要加快推進信息網(wǎng)絡(luò)等新型基礎(chǔ)設(shè)施建設(shè)。2020年3月中共中央政治局常務(wù)委員會召開會議再次強調(diào)“新基建”,要求加強人工智能等新型基礎(chǔ)設(shè)施建設(shè)。2020年4月2020年7月體系建設(shè)指南》,指導人工智能標準化工作有序開展。2020年10月科技部印發(fā)《國家新一代人工智能創(chuàng)新發(fā)展試驗區(qū)建設(shè)(202020年11月20201117時間內(nèi)容2021年3月國務(wù)院發(fā)布《中華人民共和國國民經(jīng)濟和社會發(fā)展第十2035工智能作為重要的科技攻關(guān)領(lǐng)域,重點投入前沿基礎(chǔ)理2021年5月源局聯(lián)合印發(fā)《全國一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系算(節(jié)點”)。201920210221—2021),規(guī)定了人工智能算法在金融領(lǐng)域通過解決信息不對稱問題彌合數(shù)據(jù)信息差,通過個性化的千人千面提供普惠金融服務(wù),從而實現(xiàn)業(yè)務(wù)的增長、風險成本的降低、運營成本的改善。(二)金融科技發(fā)展的基礎(chǔ)支撐202112(2022—2025“推動金融科技在實體經(jīng)濟的沃土中落地生根。大數(shù)據(jù)、云計算、升?!比斯ぶ悄茏鳛榻鹑跈C構(gòu)數(shù)字化轉(zhuǎn)型的重要手段,助力金融行(2022—2025(三)國內(nèi)外當前AI算力建設(shè)情況國內(nèi)外算力規(guī)模發(fā)展2020313EFlops,AI107EFlops,超算(9EFlops模將以超過50的速度增長,到2025年整體規(guī)模將達到3300EFlops4326份額。智能算力201632020AI猛。《2020全球計算力指數(shù)評估報告》顯示“全球計算力水平top5金融業(yè)務(wù)應(yīng)用系統(tǒng)需求2020IDC數(shù)AI24.9來自金融行業(yè),人工智能作為金1EFlops:百億億次,F(xiàn)lops指的是每秒浮點運算次數(shù),E代表的是一百京,一個EFLOPS(exaFLOPS)等于每秒一百京(=10^18)次的浮點運算。CRM人工智能應(yīng)用對算力最大的挑戰(zhàn)來自數(shù)據(jù)中心的模型訓練。具有海量參數(shù)的模型訓練幾乎完全依賴于核心數(shù)據(jù)中心的算力2020Turing-NLG,175;OpenAIGPT-31750GPT-2100AI國內(nèi)金融業(yè)AI典型業(yè)務(wù)場景2AI表2AI算力金融行業(yè)應(yīng)用的典型業(yè)務(wù)場景場景名稱描述智慧網(wǎng)點術(shù)提供服務(wù)。數(shù)字員工場景:模擬人工完成圖像識別、關(guān)鍵信息提取、數(shù)據(jù)錄入、報生成為分析合規(guī)、結(jié)果策等。技術(shù):光學識別技術(shù) OCR(Optical Recognition)、RPA(RoboticProcessAutomation)技術(shù)、數(shù)字人、NLP(NaturalLanguageProcessing)技術(shù)、圖像分類。智能客服場景:廣泛應(yīng)用于各類金融機構(gòu),提供24小時不間斷問答服務(wù)。技術(shù):依托自然語言理解、語音識別、RPA、知識圖譜、NLP等技術(shù)提供智能交互服務(wù)。量化交易量化交易有很多種,包括跨平臺搬磚、趨勢交易、對沖智能身份識別等。場景名稱描述智能投研技術(shù):的發(fā)展趨勢判斷與風險預(yù)測。智能投顧場景:通過一系列智能算法綜合評估用戶的風險偏好、投資目標、財務(wù)狀況等基本信息,并結(jié)合現(xiàn)代投資組合理論為用戶提供自動化、個性化的理財方案。其實質(zhì)是利用機器模擬理財顧問的個人經(jīng)驗。(選擇)、投資組合構(gòu)建和動態(tài)優(yōu)化等。智能營銷技術(shù):依托推薦引擎和機器學習技術(shù),通過分析用戶數(shù)知識圖譜和自然語言處理等技術(shù)建立客戶畫像,實現(xiàn)精準的營銷定位與需求挖掘。智能風控技術(shù):依托機器學習和知識圖譜等技術(shù),通過數(shù)據(jù)驅(qū)動風險管理與運營優(yōu)化。智能反欺詐場景:主要集中在支付和金融賬戶登錄等場景。光學識別等。二、研究目標本課題的研究目標分為兩方面。一是基于當前金融機構(gòu)積極探索和建設(shè)新型人工智能業(yè)務(wù)中心建設(shè)人工智能算力基礎(chǔ)設(shè)施提供指引與參考。二是范金融數(shù)據(jù)中心人工智能算力基礎(chǔ)設(shè)施建設(shè)。第二章面臨的挑戰(zhàn)和難點一、整體看(一)數(shù)據(jù)中心AI算力發(fā)展不均衡AI(二)數(shù)據(jù)中心AI計算能力不足開發(fā)的AIAI(三)數(shù)據(jù)中心AI算力連接和協(xié)同能力不強在全產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型的大形勢下,新興技術(shù)應(yīng)用成為算力提AIAI部署、算力對接等都是本課題研究的重點。(四)數(shù)據(jù)中心AI算力調(diào)度不靈活工智能算力數(shù)據(jù)中心的調(diào)度協(xié)同水平。二、分層看2(一)數(shù)據(jù)中心選址問題(L0層)PUE32人工智能算力數(shù)據(jù)中心分層布局詳見第三章第二部分人工智能算力數(shù)據(jù)中心架構(gòu)。3PowerUsageEffectiveness的簡寫,是評價數(shù)據(jù)中心能源效率的指標,是數(shù)據(jù)中心消耗的所有能源與IT負載消耗的能源的比值。PUE=數(shù)據(jù)中心總能耗/IT設(shè)備能耗,其中數(shù)據(jù)中心總能耗包括IT設(shè)備能耗和制冷、配電等系統(tǒng)的能耗,其值大于1,越接近1表明非IT設(shè)備耗能越少,即能效水平越好。(二)能耗及供電問題(L1層)人工智能算力數(shù)據(jù)中心遠遠高于一般數(shù)據(jù)中心對于電力能AI接,需要經(jīng)驗豐富的公司執(zhí)行。(三)AI算力底座與周邊設(shè)備及網(wǎng)絡(luò)的問題(L2層)HPC(HighPerformance、ProcessingUnit,圖形處理單元)隨著性能的提升,功耗也在顯ITAI(AI數(shù)據(jù)中心面臨能耗AI克“數(shù)據(jù)上不來,算力下不去”的難題。(四)支持不同業(yè)務(wù)場景的AI應(yīng)用問題(L3層)AI框架及主流框架紛繁多樣,金融機構(gòu)需要時間提升對框架AI就加大了AI第三章建設(shè)指引AI4AI3AIAIAIAIAI力等。三是AIAIAI一、人工智能算力數(shù)據(jù)中心架構(gòu)力數(shù)據(jù)中心是當前人工智能快速發(fā)展和應(yīng)用所依托的新型算力基礎(chǔ)設(shè)施。(一)總體架構(gòu)人工智能算力數(shù)據(jù)中心借鑒了超級計算中心和云計算數(shù)據(jù)中心大規(guī)模并行計算和數(shù)據(jù)處理的技術(shù)架構(gòu),但以人工智能專用芯片為計算算力底座。人工智能算力數(shù)據(jù)中心由基建基礎(chǔ)設(shè)施、硬件基礎(chǔ)設(shè)施、軟件基礎(chǔ)設(shè)施及行業(yè)應(yīng)用等組成。為了能高效、清晰地對人工智能算力數(shù)據(jù)中心建設(shè)展開研究,軟件基礎(chǔ)設(shè)施行業(yè)應(yīng)用51軟件基礎(chǔ)設(shè)施行業(yè)應(yīng)用基建基礎(chǔ)設(shè)施硬件基礎(chǔ)設(shè)施人工智能算力數(shù)據(jù)中心圖1 工智算數(shù)據(jù)中基建基礎(chǔ)設(shè)施硬件基礎(chǔ)設(shè)施人工智能算力數(shù)據(jù)中心土建層(L0),包括地基和建筑體。基礎(chǔ)設(shè)施層(L1),包括IT運行環(huán)境、風火水電及運維管理。AI臺和數(shù)據(jù)。金融行業(yè)應(yīng)用。L0和L1相關(guān)度較大,統(tǒng)稱為基建基礎(chǔ)設(shè)施層。(二)分層布局人工智能算力數(shù)據(jù)中心分層布局如圖2所示,其中與人工智能算力建設(shè)相關(guān)的部分包括基建、硬件及軟件基礎(chǔ)設(shè)施3層。智能風控量化交易智能營銷智能客服智能投顧智能識別金融行業(yè)應(yīng)用L4智能風控量化交易智能營銷智能客服智能投顧智能識別金融行業(yè)應(yīng)用金融市場:AI與數(shù)據(jù)要素流動行業(yè)算法:AI與金融業(yè)務(wù)融合軟件基礎(chǔ)設(shè)施人工智能算力數(shù)據(jù)中心使能軟件數(shù)據(jù)管理金融市場:AI與數(shù)據(jù)要素流動行業(yè)算法:AI與金融業(yè)務(wù)融合軟件基礎(chǔ)設(shè)施人工智能算力數(shù)據(jù)中心使能軟件數(shù)據(jù)管理模型開發(fā)自動學習預(yù)置算法智能診斷數(shù)據(jù)標注大規(guī)模AI訓練云邊端部署L3基礎(chǔ)軟件AI系統(tǒng)軟件 基礎(chǔ)軟件AI系統(tǒng)軟件 芯片使能AI開發(fā)框架云平臺 資源云化算力調(diào)度多租戶隔離彈性共享云邊端協(xié)同AI計算子系統(tǒng)FPGAASIC網(wǎng)絡(luò)子系統(tǒng)存儲子系統(tǒng)硬件基礎(chǔ)設(shè)施AI計算子系統(tǒng)FPGAASIC網(wǎng)絡(luò)子系統(tǒng)存儲子系統(tǒng)硬件基礎(chǔ)設(shè)施GPUTPUNPU風火水電運維管理IT運行環(huán)境基建基礎(chǔ)設(shè)施L1風火水電運維管理IT運行環(huán)境基建基礎(chǔ)設(shè)施機房土建規(guī)劃設(shè)計L0機房土建規(guī)劃設(shè)計圖2人工智能算力數(shù)據(jù)中心分層布局基建基礎(chǔ)設(shè)施層(L0-L1)基建基礎(chǔ)設(shè)施層包括人工智能算力數(shù)據(jù)中心規(guī)劃設(shè)計和為風水火電、IT硬件基礎(chǔ)設(shè)施層(L2)硬件基礎(chǔ)設(shè)施層是人工智能算力數(shù)據(jù)中心的核心基礎(chǔ),由AI計算子系統(tǒng)、存儲子系統(tǒng)、網(wǎng)絡(luò)互聯(lián)子系統(tǒng)組成,如圖3所示。硬件基礎(chǔ)設(shè)施網(wǎng)絡(luò)互聯(lián)子系統(tǒng)硬件基礎(chǔ)設(shè)施網(wǎng)絡(luò)互聯(lián)子系統(tǒng)存儲節(jié)點AIAINPU集群基礎(chǔ)單元AI服務(wù)器存儲子系統(tǒng)AI計算子系統(tǒng)供電制冷數(shù)據(jù)中心交換機數(shù)據(jù)中心交換機數(shù)據(jù)中心交換機ASICFPGAGPU圖3硬件基礎(chǔ)設(shè)施架構(gòu)圖AI芯片。依據(jù)承擔的功能,AI芯片可劃分為訓練和推理芯片。訓練芯片涉及海量數(shù)據(jù)和大規(guī)模計算,對算法、精度、GPU、NPU(NeuralnetworkProcessingUnit)、FPGA(FieldProgrammableGateArray)、ASIC(ApplicationSpecificIntergratedCircuits)等是AI芯片行業(yè)的主流技術(shù)路線。AI計算子系統(tǒng)。AI計算子系統(tǒng)一般由高密度、集成化AI服務(wù)器均搭載AI存儲子系統(tǒng)。存儲子系統(tǒng)提供高性能、高可靠、高擴展性和易備份的分布式存儲。存儲子系統(tǒng)部署存儲節(jié)點,提供對象存儲、塊存儲等存儲服務(wù),為人工智能訓練平臺提供高吞吐,大帶寬的樣本原始數(shù)據(jù)。網(wǎng)絡(luò)互聯(lián)子系統(tǒng)。網(wǎng)絡(luò)互聯(lián)子系統(tǒng)為整個AI硬件基礎(chǔ)設(shè)施層各子系統(tǒng)間提供互聯(lián)互通支撐。軟件基礎(chǔ)設(shè)施層(L3)軟件基礎(chǔ)設(shè)施層包含基礎(chǔ)軟件、AI使能4軟件、行業(yè)算法和預(yù)置算法大規(guī)模AI訓練數(shù)據(jù)標注使能軟件預(yù)置算法大規(guī)模AI訓練數(shù)據(jù)標注使能軟件模型開發(fā) 自動學習數(shù)據(jù)管理智能診斷AI市場:AI與數(shù)據(jù)要素流動行業(yè)算法:AI與行業(yè)業(yè)務(wù)融合軟件基礎(chǔ)設(shè)施芯片使能軟件芯片使能軟件AI開發(fā)框架資源云化算力調(diào)度多租戶隔離彈性共享云邊端協(xié)同基礎(chǔ)軟件AI系統(tǒng)軟件基礎(chǔ)軟件AI系統(tǒng)軟件云平臺基礎(chǔ)軟件AI(算子GPUNPUAI4Enbl芯片使能軟件的代表分別是CUDA(ComputeUnifiedDeviceArchitecture,計算統(tǒng)一設(shè)備架構(gòu))CANN(ComputeArcitctrerNeralnewoks。AIAI開發(fā)環(huán)境。主流AI開發(fā)框架包括MindSpore、TensorFlow、PyTorchPaddlePaddle云平臺。基礎(chǔ)軟件中還包括云平臺,對計算、存儲及網(wǎng)絡(luò)資源進行統(tǒng)一調(diào)度和管理,提供統(tǒng)一的算力支持。使能軟件人工智能應(yīng)用支撐,需要對大規(guī)模算力資源進行管理和調(diào)度。使能軟件基于硬件基礎(chǔ)設(shè)施的組網(wǎng)特點實現(xiàn)對算力資源的模人工智能計算場景,并能夠提供豐富的人工智能場景應(yīng)用和API用部署。軟件API服務(wù)主要包括提供智能語音語言類和計算機視覺產(chǎn)業(yè)側(cè)使能軟件包括華為的modelArtsAIstudio、第四范式的sageEE、寒武紀的CAIP算力平臺、新華三的傲飛AMPHAAWSsageMakerAI行業(yè)算法通過行業(yè)知識的積累,預(yù)置各樣經(jīng)驗,從而更快、AIAI二、基建基礎(chǔ)設(shè)施層(L0-L1)GB501744.1.1、和附錄A中選址相關(guān)技術(shù)要求和使用需求外,還應(yīng)符合JR/T02657.2規(guī)劃及布局的基本要求。GB50174513AJR/T02657.37.11三、硬件基礎(chǔ)設(shè)施層(L2)(一)AI芯片AI芯片架構(gòu)應(yīng)采用適合的AIAI應(yīng)支持高速互聯(lián)技術(shù)。應(yīng)支持高度集成化、模塊化和冗余設(shè)計。AI加速芯片加速單元。FP32FP16TF3220TOPS或FP1664TFLOPS或FP16280TFLOPS,TF32128TFOPS。推理卡應(yīng)具備INT8250TOPS。應(yīng)支持內(nèi)存、算力等資源的切分和良好的隔離。PCIEOAMCPU據(jù)傳輸。AI(二)AI服務(wù)器AIAIAI務(wù)器,根據(jù)功能又可分為AIAI通用型AI服務(wù)器AICPU+AIAIMLUGPUNPUAI8GPU型服務(wù)器根據(jù)GPUGPU4U4GPU2U模組型AI服務(wù)器AIAI于數(shù)據(jù)中心的AI(三)AI計算子系統(tǒng)能力,并進行橫向和縱向擴展。大數(shù)據(jù)量交換傳輸?shù)男枨?。架。支持集群通過高速通信協(xié)議進行橫向和縱向擴展。存儲子系統(tǒng)應(yīng)滿足高效AI算力子系統(tǒng)的要求。網(wǎng)卡配置應(yīng)滿足AIROCE5及TCP網(wǎng)絡(luò)等的需求。四、軟件基礎(chǔ)設(shè)施層(L3)(一)芯片使能軟件提供基于C和Python語言的算子開發(fā)接口,使用戶具有自5ROC(RDMAvrCnvgdEhrntInfniBanddeoition(IB)RDMA。定義算子開發(fā)的能力,如英偉達CUDA、寒武紀bang Python、華為CANN等。具備容器鏡像部署能力,方便開發(fā)生產(chǎn)環(huán)境的快速部署。AI產(chǎn)品可以使用k8s進行算力資源的運維管理,并提供AI產(chǎn)品主要指標的監(jiān)測能力。工具,加速深度學習模型的開發(fā)流程。(二)AI開發(fā)框架開發(fā)框架兼容能力AI框架。宜支持 MindSpore、TensorFlow、PyTorch、PaddlePaddle、Horvod等至少1種深度學習或分布式框架。宜支持麒麟、CentOS1主流機器學習和深度學習支撐能力NLP持resne50yooV5NLP宜支持bertTrasfrmrtacotron2waveRNNFlySpeech等神經(jīng)網(wǎng)絡(luò)。(三)使能軟件數(shù)據(jù)接入數(shù)據(jù)接入是人工智能開發(fā)平臺的基礎(chǔ)環(huán)節(jié),根據(jù)項目需求,環(huán)節(jié)。主要功能包括:支持接入不同類型的數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)(如數(shù)據(jù)庫表)和非結(jié)構(gòu)化數(shù)據(jù)(如文本、圖像、視頻及音頻等格式)。支持本地數(shù)據(jù)接入、各類接口協(xié)議接入等數(shù)據(jù)接入方式。支持接入數(shù)據(jù)的參數(shù)配置。數(shù)據(jù)預(yù)處理經(jīng)過清洗、轉(zhuǎn)換等操作,數(shù)據(jù)預(yù)處理部分可以解決數(shù)據(jù)可能(將數(shù)據(jù)加(、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)增強。數(shù)據(jù)標注(及音頻等隊標注和智能標注模式。數(shù)據(jù)管理環(huán)節(jié)。主要功能包括:支持創(chuàng)建、刪除、修改、查看及導出等數(shù)據(jù)集操作。注信息、標簽等。數(shù)據(jù)分析功能包括:化的數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)的特征分析。特征工程模型開發(fā)AIJupyterLab建模等,也可幫助用戶完成模型腳本在線編輯。主要功能包括:(庫及深度學習預(yù)訓練模型??梢暬5取DP陀柧氈С謫螜C、分布式訓練。GPU、國產(chǎn)化等多種異構(gòu)計算加速芯片。訓練過程中模型精度等關(guān)鍵指標可視化跟蹤。模型評估AI有指導意義。主要功能包括:針對待評估模型生成評估報告。常用模型如圖像分類、目標檢測等的評估指標。模型指標的歷史版本評估結(jié)果比較。評估指標的可視化呈現(xiàn),如精度、資源占用等指標。模型管理源消耗。主要功能包括:本操作。ONNX、TensorFlow、PyTorch式。支持不同模型格式的轉(zhuǎn)化。模型部署模型部署是按照一定的編排規(guī)則,將模型部署到生產(chǎn)環(huán)境中,對外提供智能服務(wù)。根據(jù)具體業(yè)務(wù)需求,可將模型部署在云端、邊緣側(cè)或終端側(cè)等不同位置。利用云計算平臺提供的基礎(chǔ)功能,可實現(xiàn)AI模型的平滑升級、灰度測試、根據(jù)業(yè)務(wù)流量彈性伸縮模型實例等功能。主要功能包括:支持容器鏡像部署方式。REST、gRPC支持部署為批量推理服務(wù)。AB模型推理模型推理是對用戶調(diào)用模型服務(wù)接口返回執(zhí)行結(jié)果的過程,是發(fā)揮模型價值的環(huán)節(jié)。平臺應(yīng)分配相應(yīng)的計算資源,運行模型并輸出結(jié)果。主要功能包括:宜支持 TensorFlow、PyTorch、MindSpore、PaddlePaddle中兩種以上框架訓練所得模型的高性能推理部署。負載均衡等。接口格式等。功率等。資源管理AIAI能包括:GPU、國產(chǎn)加速卡等。支持多種類型存儲資源,如對象存儲、塊存儲、文件存儲等。CPUGPUCPUGPU存數(shù)量等。支持各類資源的使用情況展示、監(jiān)控和告警。支持各類資源的使用計量計費。第四章建設(shè)協(xié)同一、整體原則IT金融數(shù)據(jù)中心業(yè)務(wù)保持穩(wěn)定運行是在建設(shè)協(xié)同中實現(xiàn)金融人工智能算力數(shù)據(jù)中心建設(shè)。異構(gòu)兼容。在建設(shè)協(xié)同過程中應(yīng)充分考慮金融業(yè)IT基礎(chǔ)設(shè)施架構(gòu)的多樣性,構(gòu)建異構(gòu)兼容生態(tài),實現(xiàn)一體化的調(diào)度能力。結(jié)合實際場景尋求最佳架構(gòu)實踐,發(fā)揮異構(gòu)兼容的特點,協(xié)同合作共同支撐業(yè)務(wù)發(fā)展。端邊云協(xié)同。邊緣計算發(fā)展驅(qū)動算力去中心化,釋放云數(shù)據(jù)應(yīng)用在邊緣場景創(chuàng)新。二、傳統(tǒng)算力與新型算力協(xié)同(一)算力產(chǎn)品特征算力分類推理算力的AI終端上攝像頭、無人機和機器人等設(shè)備上。AIAI用于數(shù)據(jù)中心和智能邊緣。AIAIX86或ARMAI訓練算力AIAI點,適用于通用服務(wù)器。AIAIAIAITCO規(guī)模、高性能AI算力密度AI高算力、普通算力。算力形態(tài)常見的AI芯片根據(jù)形態(tài)分為GPU、NPU、FPGA、ASIC等。(二)算力協(xié)同建設(shè)資源池化算力協(xié)同資源池化算力協(xié)同租戶隔離算力調(diào)度訓練框架統(tǒng)一調(diào)度、統(tǒng)一管理算力分類AIAI訓練卡AI集群單元推理加速AI推理卡推理加速AI推理卡推理服務(wù)器算力密度高密度算力普通算力算力形態(tài)NPUASICFPGAGPU傳統(tǒng)TCP/IP網(wǎng)絡(luò)高性能網(wǎng)絡(luò)(IB/RoCE)傳統(tǒng)TCP/IP網(wǎng)絡(luò)高性能網(wǎng)絡(luò)(IB/RoCE)圖5算力協(xié)同示意圖AI算力設(shè)備可直接部署的建議用于推理和訓練的芯片和加速卡通??芍苯硬渴鹪谕ㄓ梅?U—4U2kW—3kW部署,可在傳統(tǒng)數(shù)據(jù)中心直接使用。AI算力對數(shù)據(jù)中心的改造或新建建議目前機房多采用風冷散熱方式。在使用AI集群時,所承載AI訓練作業(yè)的計算復(fù)雜度和計算量較大,對應(yīng)的制冷系統(tǒng)應(yīng)滿足(簡稱混合液冷和全液CPUNPUGPU處CPUNPUGPUCDU+67一次側(cè)二次側(cè)冷塔/冷機一次管道CDU二次側(cè)管路液冷機柜液冷服務(wù)器工質(zhì)圖6 CDU+二側(cè)路示意圖圖7浸沒式液冷示意圖液冷新技術(shù)與普通空調(diào)管路的區(qū)別如表3所示。表3液冷系統(tǒng)二次側(cè)管路與普通空調(diào)管路的區(qū)別項目液冷二次側(cè)管路普通空調(diào)管路標準化《數(shù)據(jù)中心溫水冷板式間接液(T/CIE000液冷數(shù)據(jù)中心設(shè)計規(guī)范》(T/CIE091—2020)排他性。有國家標準,有明確的標準要求。質(zhì)量影響0.1mm料不兼容會導致金屬材料發(fā)生電化學腐蝕,非金屬材料產(chǎn)生老化腐蝕,長期作用下導致服務(wù)器漏液。?兼容性只影響空調(diào)系統(tǒng)務(wù)器,不會導致高價值質(zhì)量管理體系質(zhì)量管理需要細化到原材藝參數(shù)、裝制程的端到端過程管理。原材料和部件需要和液冷系統(tǒng)進行長期材料兼容性測兼容性。項目液冷二次側(cè)管路普通空調(diào)管路試。供應(yīng)商資質(zhì)檢測能力,尤其是工廠化的 力。一般無專業(yè)的焊接、表面處理及檢測設(shè)備要求。交付模式工廠化生產(chǎn)(工裝夾具焊接+體系化表面處理+超聲波清洗+潔凈車間)+現(xiàn)場拼裝(現(xiàn)場?,F(xiàn)場焊接+現(xiàn)場表面處理+現(xiàn)場清洗+粉塵環(huán)境。雜質(zhì)容忍度≤0.1mm(10倍普通管路要求)≤1mm材料兼容要求高,25乙二+去子水+緩釋劑要求低,普通自來水+阻垢劑。質(zhì)量追溯穩(wěn)定則加工質(zhì)量穩(wěn)定,可追溯性好??啃院蜐崈舳荣|(zhì)量驗收,可人力保障質(zhì)量,焊接質(zhì)量依賴人工技術(shù)水平和責任心,沖洗環(huán)節(jié)依賴注打壓泄露測試,可追溯性差。各改造流程說明、責任主體等相關(guān)信息見表4。表4改造流程說明序號流程名稱流程說明輸入輸出1首次工勘組織一線服務(wù)進行工勘。機房改造需求整機工勘報告2是否可改造組織整機工勘報告評審,給出是否可以進行改造的結(jié)論。整機工勘報告是否可評審結(jié)論3是否由能基承接組織評審,確認承接主體。可改造結(jié)論確認承接主體4按能基改造標準流程執(zhí)行按能基改造標準流程執(zhí)行。確認承接主體能基能基本完成機房改造5總集采購CDU+二次側(cè)管路組織總集溝通機房改造CDU+二次側(cè)管路采購。確認承接主體是總集總集確認采購CDU+二次側(cè)管路6采購自有編碼CDU總集采購CDU??偧_認采購CDUCDU發(fā)貨7采購?fù)扑]第三方二次側(cè)管路供應(yīng)商的方案推薦第三方二次側(cè)管路供應(yīng)商的方案,供應(yīng)商協(xié)助總集采購二次側(cè)管路規(guī)格參數(shù)??偧_認采購二次側(cè)管路確定采購二次側(cè)管路方案8第三方二次側(cè)管路供應(yīng)商工勘、設(shè)計和報價第三方二次側(cè)管路供應(yīng)商對機房管路部署進行工勘、設(shè)計和報價。確定采購二次側(cè)管路方案給總集輸出工勘、設(shè)計和報價序號流程名稱流程說明輸入輸出9二次側(cè)管路預(yù)制加工第三方二次側(cè)管路供應(yīng)商啟動二次側(cè)管路預(yù)制加工。給總集輸出工勘、設(shè)計和報價完成預(yù)制加工10廠驗是否通過在預(yù)制加工過程,開展質(zhì)量督導,發(fā)現(xiàn)不合格及時要求供應(yīng)返工返修。啟動預(yù)制加工質(zhì)量驗收報告11現(xiàn)場交付安裝工廠完成二次側(cè)管路預(yù)制加工后運到現(xiàn)場進行交付安裝。完成預(yù)制加工完成現(xiàn)場安裝施工12驗收是否通過在現(xiàn)場安裝過程,對現(xiàn)場安裝完成質(zhì)量督導,發(fā)現(xiàn)不合格及時要求供應(yīng)返工返修,啟動現(xiàn)場安裝施工質(zhì)量驗收報告三、數(shù)據(jù)中心算力與邊緣算力協(xié)同5G同體系建設(shè)。邊邊邊緣側(cè)分析處理邊緣側(cè)存儲分行本地存儲結(jié)構(gòu)數(shù)據(jù) 非結(jié)化據(jù)海)音視頻攝像頭普通傳感器端業(yè)務(wù)系統(tǒng)、新技術(shù)平臺控制決策 挖掘/歸檔云圖8端邊云協(xié)同體系......業(yè)務(wù)場景客戶行為檢測網(wǎng)點服務(wù)質(zhì)檢運營管理智能廣告直播電商客戶營銷......業(yè)務(wù)場景客戶行為檢測網(wǎng)點服務(wù)質(zhì)檢運營管理智能廣告直播電商客戶營銷遠程服務(wù)要客識別客戶盡職調(diào)查押品遠程監(jiān)控信貸管理安全運維協(xié)應(yīng)用安全同計算框架安裝部署運行監(jiān)測運維操作資源安全技術(shù)協(xié)同云計算大數(shù)據(jù)物聯(lián)網(wǎng)生物別 人工能音視頻區(qū)塊鏈數(shù)據(jù)協(xié)同數(shù)據(jù)布局數(shù)據(jù)處理數(shù)據(jù)分析數(shù)據(jù)決策資源協(xié)同設(shè)備計算存儲網(wǎng)絡(luò)圖9協(xié)同計算框架示意圖技術(shù)協(xié)同。以數(shù)據(jù)中心算力進行訓練、邊緣算力進行推理為AI模型訓練和推理的閉環(huán)。資源協(xié)同。邊緣側(cè)對邊緣終端設(shè)備進行本地管理,數(shù)據(jù)中心應(yīng)建設(shè)集中管理平臺,對邊緣節(jié)點和終端實現(xiàn)統(tǒng)一管理和調(diào)度。邊緣資源管理應(yīng)具備根據(jù)業(yè)務(wù)場景需要進行資源編排調(diào)度部署CPUGPUTPUFPGANPU應(yīng)具備如WIFI、藍牙、5G數(shù)據(jù)協(xié)同。應(yīng)建設(shè)金融業(yè)數(shù)據(jù)協(xié)同框架,針對低價值、非核進行數(shù)據(jù)分析、數(shù)據(jù)價值挖掘等進一步利用。協(xié)同安全。應(yīng)根據(jù)金融業(yè)網(wǎng)絡(luò)系統(tǒng)安全管理規(guī)范,結(jié)合端邊在端側(cè),采用端側(cè)物聯(lián)網(wǎng)安全體系滿足對終端安全的要求。四、算力與網(wǎng)絡(luò)協(xié)同國家樞紐節(jié)點建設(shè)布局。AIAI價值的網(wǎng)絡(luò)服務(wù),成為金融機構(gòu)網(wǎng)絡(luò)建設(shè)的關(guān)鍵考量因素。(一)廣域算力網(wǎng)絡(luò)架構(gòu)邊緣計算服務(wù)群組云計算平臺大數(shù)據(jù)平臺生物特征識別平臺決策指令下發(fā)設(shè)備生命周期管理監(jiān)控運維數(shù)據(jù)認證隱私保護業(yè)務(wù)對接邊緣計算服務(wù)群組云計算平臺大數(shù)據(jù)平臺生物特征識別平臺決策指令下發(fā)設(shè)備生命周期管理監(jiān)控運維數(shù)據(jù)認證隱私保護業(yè)務(wù)對接日志中心大數(shù)據(jù)分析鏡像倉庫數(shù)據(jù)湖虹膜識別邊緣引擎人臉識別邊緣引擎邊緣計算前置數(shù)據(jù)存儲設(shè)備接入設(shè)備認證機器學習平臺算數(shù)算模模法據(jù)法型型框標構(gòu)訓運架注建練營用戶管理邊緣配置管理全局數(shù)據(jù)分析用戶管理邊緣配置管理全局數(shù)據(jù)分析數(shù)據(jù)可視化邊緣應(yīng)用部署業(yè)務(wù)編排端側(cè)采集……側(cè)端節(jié)能端側(cè)采集……側(cè)端節(jié)能一體機采算一體音視頻攝像頭傳感器邊緣計算數(shù)據(jù)處理邊緣存儲終端管理邊緣分析處理輕量AI推理資源隔離圖10 主場景架構(gòu)建示意圖人工智能算力數(shù)據(jù)中心間互聯(lián)廣域網(wǎng)絡(luò)建議采用分層架構(gòu),核心層負責數(shù)據(jù)高速轉(zhuǎn)發(fā)、接入層提供算力數(shù)據(jù)中心接入POP6網(wǎng)關(guān)。數(shù)據(jù)中心間的數(shù)據(jù)及算力平臺的互訪跳數(shù)一致性。POP接入點建議采用雙設(shè)備高可用接入,數(shù)據(jù)中心通POPIPv6SRv6AI(用率、線路類型等)進行路徑自動發(fā)現(xiàn),按需選擇。的潮汐規(guī)律、業(yè)務(wù)節(jié)假日突發(fā)等場景,提供彈性帶寬調(diào)整。況下,可保障最高業(yè)務(wù)等級相關(guān)算力傳輸?shù)膸挕IMTU參數(shù)需求。廣域網(wǎng)應(yīng)具備智能鏈路負載分擔能力,提供基于網(wǎng)絡(luò)AI流并發(fā)的均勻哈希模式。分支邊緣算力互聯(lián)5G無線接入能力。6PP(PoitfPrne,pppopInternet(PSTN余多路徑能力,實現(xiàn)算力協(xié)同、數(shù)據(jù)回傳的高可用。量采用扁平化架構(gòu),減少數(shù)據(jù)回傳,算力協(xié)同的轉(zhuǎn)發(fā)跳數(shù)。第三方算力協(xié)同互聯(lián)廣域網(wǎng)針對第三方接入應(yīng)提供專用的互聯(lián)接入網(wǎng)關(guān),不建議與機構(gòu)自有的互聯(lián)接入網(wǎng)關(guān)共同部署,以提供差分服務(wù)、業(yè)務(wù)隔離能力,減小故障域影響和風險。第三方互聯(lián)應(yīng)定制統(tǒng)一、標準化的對接模型,包括但QoS護策略等。POPVPN發(fā),與企業(yè)自有業(yè)務(wù)數(shù)據(jù)進行安全隔離。問、合規(guī)策略、異常行為、惡意攻擊進行防護。任務(wù)運行以黑盒狀態(tài)處理數(shù)據(jù),實現(xiàn)數(shù)據(jù)安全。業(yè)務(wù)場景包括第三方支付、授信、對賬和查詢等。AI算力物聯(lián)終端連接AI算,應(yīng)提供海量物聯(lián)終端接入能力,支持廣域數(shù)據(jù)回傳。IPIPv6回傳能力。建議金融業(yè)建設(shè)統(tǒng)一的專用物聯(lián)網(wǎng)絡(luò),可以是物理專VPNOverlayfull-mesh聯(lián)組網(wǎng)模型。(二)廣域算力網(wǎng)絡(luò)關(guān)鍵技術(shù)維等能力,對應(yīng)的網(wǎng)絡(luò)關(guān)鍵技術(shù)要求如下。支持基于SRv6TEPolicy技術(shù)和SDN架構(gòu)的流量路徑編排、自動質(zhì)量調(diào)優(yōu)能力SRv6SRIPv6節(jié)點壓入途經(jīng)節(jié)點信息,實現(xiàn)快速路徑編程。SRv6的快速路徑編程能力,實現(xiàn)流量動態(tài)調(diào)優(yōu)的目標。支持基于SDN、iFIT和Telemetry的智能運維能力iFIT過TelemetrySDNTelemetryAI定位和閉環(huán)、算力數(shù)據(jù)流量預(yù)測等能力。支持基于APN6、網(wǎng)絡(luò)切片、QoS的算力感知和調(diào)度能力網(wǎng)絡(luò)支持對算力業(yè)務(wù)標識APN6字段的識別,并基于APN6SLA據(jù)與算力網(wǎng)絡(luò)的協(xié)同映射。SRv6供給和差異化調(diào)度。業(yè)務(wù)標識協(xié)同能力VLANVXLANIPv4五元組、IPv6五元組、DSCP、APN6等。廣域網(wǎng)加密能力在IPv4及IPv6要支持未來3至5應(yīng)用場景。(三)數(shù)據(jù)中心算力網(wǎng)絡(luò)關(guān)鍵技術(shù)TCP/IPInfiniBandInfiniBand直以來其應(yīng)用范圍關(guān)注于如何實現(xiàn)系統(tǒng)內(nèi)部不同部件之間的高速2007,InfiniBandRDMA7技術(shù)與以太網(wǎng)出現(xiàn)技InfiniBandiWARPRoCEv211所示。以太網(wǎng)802.3u 802.3z 以太網(wǎng)
802.3ba
25G/50GEthernetConsortium
802.3by
bs100Mbps100Mbps1Gbps 10Gbps40/100Gbps 25/100Gbps 25/100Gbps400GbpsIETF IBTARDMA融合iWARPRoCEv1IBTASDRIBTAQDRIBTAFDRIBTAHDRInfiniBand10Gbps40Gbps56Gbps200GbpsRoCEv2IBTA19951998
2000
2003
2006
2007
2010
2011
2014
2017圖11數(shù)據(jù)中心算力網(wǎng)絡(luò)關(guān)鍵技術(shù)演進圖7RDMA(遠程直接數(shù)據(jù)存取)就是為了解決網(wǎng)絡(luò)傳輸中服務(wù)器端數(shù)據(jù)處理的延遲而產(chǎn)生的,無需使用CPU,就可以從一個主機或服務(wù)器的內(nèi)存直接訪問另一主機或服務(wù)器的內(nèi)存。GPU的要求。巨大發(fā)展將引領(lǐng)數(shù)據(jù)中心基礎(chǔ)設(shè)施的變革,如以太網(wǎng)帶寬從10Gbps400GbpsRoCEv2RoCEv2式計算領(lǐng)域、人工智能領(lǐng)域為金融業(yè)務(wù)賦能。(四)算力網(wǎng)絡(luò)協(xié)同關(guān)鍵技術(shù)AI云網(wǎng)協(xié)同方案通過對數(shù)據(jù)中心網(wǎng)絡(luò)(DCN)算力業(yè)務(wù)進行區(qū)分篩選,并將標識映射到骨干網(wǎng)(DCI),再利用骨干網(wǎng)調(diào)優(yōu)能DCI網(wǎng)絡(luò)。針對算力業(yè)務(wù)的調(diào)優(yōu)能力,保障業(yè)務(wù)SLA。DCN與DCI網(wǎng)絡(luò)傳遞。從現(xiàn)有技術(shù)體系能力及網(wǎng)絡(luò)演進趨勢來看,可通過DSCP標記、VXLANSRv6APN6DSCPDCIACL/策略路由DSCPremarkSRv6DCNDCI人工方式實現(xiàn)DCNDCIXLANSRv6。DCIVXLANSRv6SRv6VPN和VXLANVPNDCNDCIDCNDCIVPNAPN6DCIAPN6SRv6SRv6APN6SLADCNDCI算力業(yè)務(wù)的自動銜接,且粒度更細。(五)算力網(wǎng)絡(luò)數(shù)字化能力AI智能化水平。主要功能包括:康狀態(tài)。支持對AI以及AI系統(tǒng)組件路徑的可視追蹤。支持對AI應(yīng)用的網(wǎng)絡(luò)SLA監(jiān)測,感知應(yīng)用質(zhì)量。支持針對不同類型的AI應(yīng)用提供差異化的網(wǎng)絡(luò)SLA保障。支持網(wǎng)絡(luò)故障快速定位溯源、故障根因推導。支持基于AI度,保障AI算力的高效使用。第五章運維和節(jié)能管理一、運維管理IT3(一)人員組織數(shù)據(jù)中心在企業(yè)IT在人員的組織架構(gòu)設(shè)計上,數(shù)據(jù)中心分可為3大塊,每個部分再細分,建設(shè)完善的運維系統(tǒng),如表5所示。表5數(shù)據(jù)中心運維人員組織結(jié)構(gòu)數(shù)據(jù)中心運維組日常運維管理(IT管理)網(wǎng)絡(luò)運維服務(wù)器運維應(yīng)用軟件運維存儲運維云
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年鄉(xiāng)鎮(zhèn)發(fā)改委年度工作總結(jié)及工作謀劃
- 2024年農(nóng)業(yè)農(nóng)村局工作總結(jié)
- 稅收征收工作總結(jié)報告
- 有機硅納米技術(shù)進展-洞察分析
- 醫(yī)學影像處理技術(shù)-洞察分析
- 細胞培養(yǎng)與再生醫(yī)學-洞察分析
- 項目定位策略研究-洞察分析
- 舞臺視覺特效-第2篇-洞察分析
- 細胞液疾病關(guān)聯(lián)-洞察分析
- 網(wǎng)絡(luò)輿論引導策略-第1篇-洞察分析
- 手術(shù)室發(fā)生地震應(yīng)急預(yù)案演練
- 配合、協(xié)調(diào)、服務(wù)方案
- 市政工程監(jiān)理大綱
- 2023-2024學年廣東省廣州市黃埔區(qū)六年級(上)期末數(shù)學試卷(A卷)
- 初中數(shù)學新課程標準(2024年版)
- 期末測試卷(一)2024-2025學年 人教版PEP英語五年級上冊(含答案含聽力原文無聽力音頻)
- 2023-2024學年廣東省深圳市南山區(qū)八年級(上)期末英語試卷
- 漢服娃衣創(chuàng)意設(shè)計與制作智慧樹知到期末考試答案章節(jié)答案2024年四川文化產(chǎn)業(yè)職業(yè)學院
- 廣東省中山市2023-2024學年四年級上學期期末數(shù)學試卷
- 8款-組織架構(gòu)圖(可編輯)
- 人民法院涉訴信訪案件終結(jié)辦法
評論
0/150
提交評論