![2024ChatGPT對GPU算力的需求測算分析_第1頁](http://file4.renrendoc.com/view15/M01/04/32/wKhkGWeTfqeABaE_AABonuSp4dc191.jpg)
![2024ChatGPT對GPU算力的需求測算分析_第2頁](http://file4.renrendoc.com/view15/M01/04/32/wKhkGWeTfqeABaE_AABonuSp4dc1912.jpg)
![2024ChatGPT對GPU算力的需求測算分析_第3頁](http://file4.renrendoc.com/view15/M01/04/32/wKhkGWeTfqeABaE_AABonuSp4dc1913.jpg)
![2024ChatGPT對GPU算力的需求測算分析_第4頁](http://file4.renrendoc.com/view15/M01/04/32/wKhkGWeTfqeABaE_AABonuSp4dc1914.jpg)
![2024ChatGPT對GPU算力的需求測算分析_第5頁](http://file4.renrendoc.com/view15/M01/04/32/wKhkGWeTfqeABaE_AABonuSp4dc1915.jpg)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
做LLM模型的企業(yè)數量:5(BAT、華為、字節(jié)服務器單價:15萬美元(DGXStation每臺服務器搭載GPU數量GPU單價:1萬美元日常算力利用率:30%(依據經驗A100單卡算力服務器單價:15萬美元一個LLM所需服務器數量1億用戶帶來國內服務器市場規(guī)模:3.39GPU單價:1萬美元服務器單價:15萬美元一個LLM所需服務器數量1億用戶帶來國內服務器市場規(guī)模:3.39GPU單價:1萬美元一個LLM模型所需GPU數量1億用戶帶來國內GPU總市場規(guī)模:2.13谷歌+LLM所需服務器數量A100單卡算力遠期總算力需求:5.4E+11谷歌+LLM所需GPU數量
每臺服務器搭載GPU數量每臺服務器搭載GPU數量一個LLM模型所需GPU數量1億用戶所需服務器數量:2669(DGX算力利用率1億用戶所需GPU數量資料來源:Raconteur,OpenAI:LanguageModelsareFew-ShotLearners,NVIDIA官網,AI計算GPB產品在P32NVIDIA0P6400的P2單精度計算性能實現超越10芯片,但是在INT8整數計算性能方面卻低于0;海光推出的U實現了P4雙精度浮點計算,但是其性能為A0的0%左右,大概相當于其4年前水平。因此,從高精度浮點計算能力來看,國內GP產品與國外產品的計算性能仍或有一代以上差距。長期來看,國產CU、GPU、I芯片廠商受益于龐大的國內市場,疊加國內信創(chuàng)市場帶來國產化需求增量,我們預期國內AI芯片的國產化比例將顯著提升,借此機會進行產品升級,逐漸達到國際先進水平,突破封鎖。國內企業(yè):1)芯片:龍芯中科(國內PCCP龍頭,自主研發(fā)GPGPU產品)、海光信息(國內服務器CP龍頭,推出深度計算處理器)、景嘉微(國內圖形渲染GPU龍頭)、寒武紀(國內ASIC芯片龍頭)、瀾起科技(國內服務器內存接口芯片龍頭);2)PCB:勝宏科技、興森科技、滬電股份;3)先進封裝:通富微電、甬矽電子、長電科技、長川科技等。 (億元人民幣AI資料來源:WindCONTENTS機器可以分析數據,并針對不同用例需求找到相應的規(guī)律,且在不斷迭代,變得越來越聰明,這種機器被稱為“分析式人工智能”(AnalyticalAI),或者傳統(tǒng)AI。機器并非如之前那樣僅分析已有的數據,而是創(chuàng)造了全新的東西,這一新型的AI2015-2020年,用于訓練這些模型的計算量增加了6
資料來源:《生成式AI:充滿創(chuàng)造力的新世界》——預訓練模型是一種遷移學習的應用,對句子每一個成員的上下文進行相關的表示,通過隱式的方式完成了語法語義知識的學習。預訓練模型通過微調的方式具備很強的擴展性,每次擴展到新場景時,只需要針對這個場景的特定標注數據進行定向的學習,便可以快速應用。09年,eAI推出15億參數的GP2,能夠生成連貫的文本段落,做到初步的閱讀理解、機器翻譯等。緊接著,英偉達推出83億參數的eanLM,谷歌推出10億參數的T,微軟推出0億參數的圖靈nNLG。20211月,谷歌推出的SwitchTransformer模型以高達1.6萬億的參數量打破了GPT-3作為最大AI2020年10月,資料來源:XavierAmatriain,陳巍談芯@知 資料來源:《LargeLanguageModels:ANewMoore'sLaw?》——JulienSimon@Hugging雖然聊天機器人的核心功能是模仿人類談話者,但GPT是多功能的。例如,它可以編寫和調試計算機程序,創(chuàng)作音樂、電視劇、童話故inuChatGPT背后的公司為OpenAI,成立于2015年,由特斯拉CEO埃隆馬斯克、PayPal聯合創(chuàng)始人彼得蒂爾、Linkedin創(chuàng)始人里德2023年2月,OpenAI開始接受美國客戶注冊一項名為ChatGPTPlus的高級服務,每月收費20美元;此外,OpenAI 資料來源:《TheGPT-3languagemodel,revolutionorevolution?》——Hello 在算力方面,GPT-3.5在微軟AzureAI超算基礎設施(由V100GPU組成的高帶寬集群)3640PF-days(即每最新的GPT3.5在訓練中使用了微軟專門建設的AI計算系統(tǒng),由1萬個英偉達V100GPU組成的高性能網絡集群,總算力消耗約3640PF-采購一片英偉達頂級U成本為萬元,U服務器成本通常超過萬元。對于tGP而言,支撐其算力基礎設施至少需要上萬顆英偉達U2資料來源:做AI6個問題,用專業(yè)視角帶你全方位了解ChatGPT》——甲子光年微
資料來源:《AI算力的阿喀琉斯之踵:內存墻》——AmirGholami@OneFlowCV,NLP15Transformer7502投入上:公司EO阿爾特曼在推特上回答馬斯克的問題時表示,在用戶與haGPT的每次交互中,nAI花費的計算成本為“個位數美haGP創(chuàng)造價值上:AK認為,I工具的發(fā)展將不斷提高生產力,到00年,人工智能或將知識工作者的生產力提高4倍以上,將軟件工程師的效率提高0這些模型不僅在參數量上達到了千億級別,而且數據集規(guī)模也高達TB級別,想要完成這些大模型的訓練,就至少需要投入超過資料來源:XavierAmatriain,陳巍談芯@
資料來源:《6個問題,用專業(yè)視角帶你全方位了解ChatGPT》——甲子光年微信公眾號注:1、清華大學和阿里達摩院等合作提出;2、上海人工智能實驗室聯合商湯科技、香港中文大學、上海交通大學9發(fā)布;3、Pflops-day1020運算。*3E+11*6=3.14E+233.14E+23FLOPS3640PF·資料來源:OpenAI:LanguageModelsareFew-ShotLearners:附錄D,中信證券研究部,注:為簡單起見,本測算方法忽略了Attention計算的算力消耗,該部分占總算力消耗的10%假設1:ChatGPT使用的數據集與GPT-3175B假設1:ChatGPT使用的數據集與GPT-3175BGPUGPU19.5TFLOPS/s(A100FP32)19.5TFLOPS/s(A100FP32)GPUGPU2個月/37723張A100GPU資料來源:OpenAI:LanguageModelsareFew-ShotLearners,NVIDIA300300詞數=用戶訪問詞數*認10)*每個回答包含9.066(訓練
1501506(訓練
150002(推理150002(推理
資料來源:SimilarWeb GoogleBing百度 資料來源:SimilarWeb資料來源:SimilarWeb,OpenAI:LanguageModelsareFew-ShotLearnersCONTENTS2.12.1GPUGPUCPUCPUGPU
OnChip)中,共享
NVIDIAGeforce系列AMDRadeon系列IntelHD系列ImaginationPowerVR系列高通Adreon系列AMDMali系列資料來源:中信證券研究 資料來源:《CUDA編程手冊系列第一章:CUDA簡介》——英偉達技術博資料來源:《GPU與資料來源:《GPU與GPGPU—夕陽嘆資料來源:PreofessionalCUDA?CGPGPU(general-purposeGPU,通用計算圖形處理器)CUDA是一種將GPU作為數據并行計算設備的軟硬件體系。在CUDA的架構中,不再像過去GPU架構那樣將通用計算映射到圖形API中,對于開發(fā)者來說,CUDA的開發(fā)門檻大大降低了。U并不是一個獨立運行的計算平臺,而是需要與PU協(xié)同工作,可以看成是PU的協(xié)處理器。與PU通過Pe總線連接在一起來PP+P根據VerifiedMarketResearch數據,2020年,全球GPU市場規(guī)模為254.1億美元(約1717.2億人民幣)。隨著需求的不%據VerifiedMarketResearch數據,2020年中國大陸的獨立GPU市場規(guī)模為47.39億美元,預計2027年將超過345.57億
NVIDIAINTELAMD 資料來源:VerifiedMarketResearch(含預測),中信證券研究 資料來源:JonPeddieResearch,中信證券研究根據WSS數據,02年全球人工智能芯片市場規(guī)模約為5億美元。隨著人工智能技術日趨成熟,數字化基礎設施不斷完善,人工智20未來,隨著自動駕駛級別的不斷提高,對于AI芯片的需求正不斷增長。L2和L3+級汽車都會用AI芯片來取代分立的MCU據I數據,02年,中國加速卡出貨量超過萬片,其中英偉達占據超過0市場份額,此外其他市場參與者還包括A、百度、寒武紀、燧原科技、新華三、華為、tl和賽靈思等。20年的采購主要集中在搭載0、S、0和4的加速服務器上,此外英偉達的、、和tlas系列
資料來源:WSTS(含預測),中信證券研究 資料來源:WSTS(含預測),中信證券研究IDC報告顯示,2021年中國加速服務器市場規(guī)模達到53.9億美元(約350.3億人民幣),同比+68.6%;預計到2026根據IDC數據,021年,GPU服務器以91.9的份額占國內加速服務器市場的主導地位;PU、ASIC和FPA等非PU加速服務器占比8.1。IDC預計2024年中國PU服務器市場規(guī)模將達到64億美元。從行業(yè)的角度看,互聯網依然是最大的采購行業(yè),占整體加速服務器市場近60%的份額;2021年,用于推理工作負載的加速服務器占比已經達到57.6,預計到202年將超過60。資料來源:IDC(含預測),中信證券研究部注:這里統(tǒng)計的AI服務器包括高性能計 資料來源:IDC,中信證券研究市場研究機構VerifiedMarketResearch預測,到2025年,中國GPGPU芯片板卡的市場規(guī)模將達到458億元,是2019年按行業(yè)來分,到025年,預計互聯網及云數據中心需求為228億元,安防與政府數據中心為142億元,行業(yè)AI應用為億元,高性能計算為28億元。按應用場景來分,到2025年,預計人工智能推理/人工智能訓練/高性能計算需求分別為286/144/28億元,占比分別為 資料來源:VerifiedMarketArkInvest的數據,2021年,90%根據IDC數據,2020年的GPGPU采購主要集中在搭載V100、V100S、A100和T4的加速服務器上,此外Nvidia的A10、A30、A40和Atlas系列加速卡在部分領域已經開始使用。2021年,中國加速卡出貨量超過80萬片,其中英偉達占據超根據天數智芯數據,英偉達在2021年的中國的云端AI訓練芯片市場份額達到90%。其中,某一款產品占整個市場的FP32 資料來源:智東 資料來源:英偉達官網,中信證券研究CONTENTS3.13.1壁壘一——對于每個小片的結果可以由一組線程負責,其中每個線程對應小片中的一個元素。AB的列小片一一載入共享內存,在共享內存上對其做矩陣相乘,然后疊加在原有結果上。2000×20002000次并行運行。資料來源:MatthesAlexander&WideraRene&ZenkerErik&WorpitzBenjamin&Huebl,Axel&BussmannMichael(2017Tuningandoptimizationforavarietyofmany-corearchitectureschangingasinglelineofimplementationcodeusingtheAlpaka 資料來源:《CUDA輕松入門編程(一):CUDAC編程及GPU基本知識》——科技猛獸@極市網 訓練是指通過大數據訓練出一個復雜的神經網絡模型,通過大量標記過的數據來訓練相應的系統(tǒng)得到模型,使其能夠適應特定的功能。訓練需要較高的計算性能、能夠處理海量的數據、具有一定的通用性,以便完成各種各樣的學習任務(大數據分析淘寶推薦“你可能感)。推理是指利用訓練好的模型,使用新數據推理出各種結論。借助神經網絡模型進行運算,利用輸入的新數據來一次性獲得正確結論的過程()。 推理對精度的要求沒有那么高,可以用低精度,如,也可以用 資料來源:《NVIDIADEEPLEARNINGINSTITUTE》——英偉達AI 資料來源:《LowerNumericalPrecisionDeepLearningInferenceandTraining》——Intel注:FP32來表達一個數字,對于要求精度更低的機器學習等一些應用來說,半精度6位浮點數就可以,甚至8位浮點數就已經夠用了。I計算模型規(guī)模的持續(xù)擴大,導致模型訓面對算力的挑戰(zhàn),降低精度是一把利器。資料來源:《一起實踐神經網絡INT8量化系列教程》——老潘的博客
資料來源:《AI算力的阿喀琉斯之踵:內存墻》——AmirGholami@OneFlowCV,NLP15倍,紅線上的是Transformer7502在低比特表達中(如6、I6、8、I8、I4等),I8因兼顧效率和精度,而被廣泛采用。一方面,I8的運行速度是/I6的兩倍,并且相比8,能被更多的硬件設備支持。另一方面,I8的量化范圍(-127)比I4(-7)或其它更低的比特(比特)資料來源:英偉達—developer.nvidia. 資料來源:《利用NVIDIATensorRT量化感知訓練實現INT8推理的FP32精度》——英偉達技術博客對于浮點計算來說,CPU可以同時支持不同精度的浮點運算,但在GPU一般在GPU里支持單精度運算的單精度ALU(算術邏輯單元)稱之為FP32core,而把用作雙精度運算的雙精度ALU稱之為DPunit或者FP64core 資料來源:英偉達,《GPGPU芯片設計原理與實踐》——陳巍談芯@
資料來源:智東西微信公眾 3.23.2壁壘二——CUDAGPUCUDA(ComputeUnifiedDeviceArchitecture,統(tǒng)一計算設備架構)NVIDIA于2007(GPU)上的通用計算開發(fā)的并行計算平臺和編程模型。CUDAGPU的強大性能顯著加速計算應用。CUDA指令集架構(ISA)GPU內部的并行計算引擎。CUDAGPU視為一個并行數據計算的設備,對所進行的計算進行分配和管理,無需將其映射到圖形API(OpenGL和Direct3D)中運行。CUDA時,開發(fā)者使用主流語言(C、C++、Fortran、PythonMATLAB)進行編程,并通過擴展程序以幾個基本關鍵字的形式來表示并NVIDIACUDAGPU加速應用所需的一切。CUDAGPUCUDA運行環(huán)境。CUDAGPU。資料來源:《Nvidia并行計算架構CUDA分析(一)——CUDA簡介》——club111@阿里 資料來源:英偉達開發(fā)者社 與任何新平臺一樣,CUDA的成功依賴于CUDA生態(tài)系統(tǒng)可用的工具、庫、應用程序和合作伙伴。CUDA支持Windows、Linux、MacOSCUDACOpenCLCUDAFortran語言。無論使用何種語言或接口,指令最終都會被驅動程PTX(ParallelThreadExecution,并行線程執(zhí)行,CUDA架構中的指令集,類似于匯編語言)代碼,交由GPU計算。 資料來源:《CUDAnewfeaturesandbeyond》——
CUDA11功能揭曉》——PramodRamarao@OpenCL最初由蘋果公司開發(fā),擁有其商標權。2008KhronosGroup(OpenCL)一的編程環(huán)境,便于軟件開發(fā)人員為高性能計算服務器、桌面計算系統(tǒng)、手持設備編寫高效輕便的代碼,只要按照標準實現了驅動的硬件,使用在OpenCL中,首先需要一個主機處理器(Host),一般是CPU。而其他的硬件處理器(多核CPU/GPU/DSP等)被抽象成OpenCL設備(Device)。每個設備包含多個計算單元(ComputeUnit),每個計算單元又包含多個處理單元(ProcessingElement)。在執(zhí)行中,主要的流HostDevice端,DeviceHost端進行同步。OpenCLOpenCLOpenCLOpenCL資料來源:《移動端算法優(yōu)化》——高性能計算學院@知乎專 資料來源:《移動端算法優(yōu)化》——高性能計算學院@知乎專 開發(fā)者友好程度:CUDA在這方面顯然受更多開發(fā)者青睞。原因在于其統(tǒng)一的開發(fā)套件(CUDAToolkit,NVIDIAGPUComputingSDK以及NSight等等)、豐富的庫(cuFFT,cuBLAS,cuSPARSE,cuRAND,NPP,Thrust)以及NVCC(NVIDIA的CUDA編譯器)所具備的PTX代碼生成、跨平臺性和通用性:OpenCL支持包括ATI,NVIDIAIntelARM在內的多類處理器,CPU、顯卡、FPGA、DSP等等都可能可以用OpenCL開發(fā);并能支持運行在CPU的并行代碼,同時還獨有Task-ParallelExecutionMode,能夠更好的支持異構計算。這一點是僅僅支持數據級并行資料來源:IntelAMD收購賽靈思后,公司擁有AMDCPU+AMDGPU+FPGAXilinxSmartNIC。除了硬件外,AMD的RadeonOpenCompute(ROCm)混合CPU-InteloneAPI是一個跨行業(yè)、開放、標準統(tǒng)一、簡化的編程模型,旨在促進社區(qū)和行業(yè)合作、簡化跨多架構的開發(fā)過程、解決跨體系及供應商代碼重CPU、GPU、FPGA、專用加速器的開發(fā)者提供統(tǒng)一的開發(fā)體驗。包括了oneAPI標準組件如直接編程工具、含有一系列性能庫的基于API的Intelone壁仞目前兼容主流的U生態(tài)(CUDA),與客戶現有的基礎設施做到高度的兼容,方便客戶的遷移。也推出了自主的BIRENSUA軟件平臺和編程模型,該平臺構建在R0系列產品的底層硬件之上,由驅動層、編程平臺、框架層、應用解決方案構成,支持各類應用場景。海光DCU協(xié)處理器全面兼容ROCmGPU計算生態(tài),由于ROCm和CUDA在生態(tài)、編程環(huán)境等方面具有高度的相似性,CUDA用戶可以以較低代價后NVIDIA。另一方面,CUDA畢竟是NVIDIA的專屬軟件棧,包含了許多NVIDIAGPU硬件的專有特性,這部分在其他廠商的芯片上并不能得到體現。資料來源:AMD官 資料來源:壁仞科技發(fā)布CONTENTS智能計算機是一種專用算力,它們在推理或訓練等智能計算方面的確表現出色,但由于AI推理或訓練一般僅用到單精度甚至半精度計算、英偉達新推出的H100芯片搭載Transformer引擎,使用每層統(tǒng)計分析來確定模型每一層的最佳精度(FP16FP8),在保持模型精度的同9倍的訓練吞吐量,性能提升6倍。高性能計算是一種通用算力,設計目標是提供完備、復雜的計算能力,在高精度計算上能力更強。超級計算機主要測試的是雙精度浮點運算能力()。對比單精度(位,)、半精度(位,)以及整數類型(如I8、I)等,4.14.1應用場景一——AI訓練,是指通過大數據訓練出一個復雜的神經網絡模型,即用大量標記過的數據來“訓練”相應的系統(tǒng),使之可以適應特定的功能。訓推理,是指利用訓練好的模型,使用新數據推理出各種結論。即GPGP:以英偉達為主,MD維計算及大規(guī)模并行計算架構契合深度學習的需要。在深度學習上游訓練端(主要用在云計算數據中心里),GPU是當仁不讓的第一選擇。GPU:英偉達從18年開始通過T4芯片等布局推理端到邊緣計算。深度學習下游推理端則更重視低功耗和低延遲,對算力的要求較低,在市場蛋糕變大的同時,逐步形成GPU向推理端滲透,與SC和FPG共同繁榮發(fā)展的格局。C:以谷歌的TPU為代表,包括英特爾、寒武紀、亞馬遜、華為等公司均在自行研發(fā)。針對特定框架進行深度優(yōu)化定制。但開發(fā)周期較長,通用性較低。比特幣挖礦目前使用SC專門定制化礦機。C:下游推理端更接近邊緣設備,需求也更加細分,英偉達的LA,寒武紀的PU、地平線的旭日和征程系列、華為昇騰系列等逐步面市,將依靠特定優(yōu)化和效能優(yōu)勢,未來在深度學習領域分一杯羹。PGA:依靠可編程性及電路級別的通用性,適用于開發(fā)周期較短的T產品、傳感器數據預處理工作以及小型開發(fā)試錯升級迭代階段等。但較成熟的量產設備多采用SC。因為CPU是圖靈完備的,可以自主運行,因此,存在基于多核CPU組成的CPU芯片是同構并行的。但是,GPU、FPGA、DSA、ASIC等 靈活
資料來源:《資料來源:《WhatisFPGA—HowDoesitWorkanditsUses》——Lattice資料來源:《BittWareNallatech520NNetworkAccelerationCard》——Nallatech優(yōu)點:1突破馮諾依曼結構,可直接實現算法,沒有指令譯碼和解讀的過程,功效能耗比是CPU的10倍以上、GPU的3倍,處理速度和效率要高于GPU。2.可編譯,靈活性很高,開發(fā)周期短。FPGA具有可編輯性,用戶可以根據自身需求實現芯片功能的轉換。基于FPGA靈缺點:1.價格較高,規(guī)模量產后的單價更是遠高于ASIC。目前FPGA的造價相比GPU更為高昂,如果規(guī)模量產后,其不像ASIC可以分攤固定成本,存在單個芯片的編譯成本,所以單價遠高于ASIC。2計算能力和峰值性能不如GPU3.靈活性占優(yōu)的同時犧牲了速度與能耗。效率和功耗上劣于專用芯片ASIC。4.FPGA的語言技術門檻較高。目前FPGA的設置要求用戶用硬件描述語言對其進行編程,需要專業(yè)的硬FPGA應用于硬件平臺加速、數據中心和云端深度學習預測。FPGA資料來源:Jouppi資料來源:JouppietalTenLessonsFromThreeGenerationsShapedGoogle'sTPUv4i,ISCA,優(yōu)點:.性能上的優(yōu)勢非常明顯,具有最高的功效能耗比。ASI是專業(yè)芯片,相比和PG沒有多余的面積或架構設計,可以實現最快的通信效率與計算速度,實現最低的能耗。.下游需求促進人工智能芯片專用化。隨著人工智能的發(fā)展和下游智能終端的普及,I芯片需求大幅上升,而出于對信息隱私保護和云端計算需要聯網的考慮,完全依賴云端是不現實的,需要有要有本地的軟硬件基礎平缺點:1.造價昂貴,需要保證量產才能降低成本。2.一種算法只能應對一種應用;一顆AI芯片只能單一地解決一種問題;而算法在不斷資料來源:《我看英偉達資料來源:《我看英偉達H100GPU》——呂堅平@英偉達H100以“非同步執(zhí)行”(AsynchronousExecution)提升通用計算效率。因AI算法的多樣性及快速演進,非同步執(zhí)行技術方向的終極目標 4.24.2應用場景二——高性能計算 資料來源:《高性能計算與AI大融合,如何顛覆科學計算》Jack 資料來源:《高性能計算與AI大融合,如何顛覆科學計算》Jack資料來源:AMD資料來源:AMD資料來源:《高性能計算與AI大融合,如何顛覆科學計算》Jack如今日常所用的MacBook的性能,比19931FLOPS(EFLOPS)的超級計算機處理性能,大概需要5,000,000個臺式機。2022年6月的數據顯示,全球排名前10的超級計算機當中,有5個來自美國,有2個來自中國(分別位于無錫和廣州),其余3個來自芬蘭、日本和年,全球最快超級計算機O榜單中,近%的機器(包括排在前名中的臺)均采用了NVIDI技術。資料來源:《高性能計算與資料來源:《高性能計算與AI大融合,如何顛覆科學計算》Jack兩者使用的數據精度也不同,在科學仿真等高性能計算場景下通常使用64比特浮點數據(FP64),而在AI計算場景下會使用16比特浮點數據分析方法得到的模型和其他的模型一起可以被用到計算中去;計算產生的數據和其他來源的數據一起可以被用于AIAIAI在高性能計算中的應用,包括幫助研究人員在現階段算力規(guī)模重點包括基礎算力、智能算力和超算算力三部分,分別提供基礎通用計算、人工智能計算和科學工程計算2021年,我國算力核心產業(yè)規(guī)模達1.5萬億,關聯產業(yè)規(guī)模超過8萬億。截至202年6月底,我國在用數據中心機架總規(guī)模超過590萬標準機架,服務器規(guī)模近2000萬臺,算力總規(guī)模超過150EFLOPS,位于全球第2。中國美國歐洲日本其他數據來源:中國信息通信研究 數據來源:中國信息通信研究院 數據來源:數據來源:HyperionResearch資料來源:芯八哥@根據HyperionResearch報告,IT行業(yè)的擴張與虛擬化的進步,以及對混合高性能計算解決方案的需求增長推動著全球超CPU及GPU為代表的芯片占據主要的成本。在高性能計算服務器中,芯片成本占比高達51%,按照超算中GPU價值量占根據信通院發(fā)布的《中國算力發(fā)展白皮書》,2020年中國超算算力總規(guī)模約為2EFlops(換算成FP32),
市場規(guī)模(億規(guī)模 -
CPU、GPU內存、硬盤其他機器學習服務 推理服務 高性能服務 基礎服務過往來看,美國已經對中國超算多次限制。21年中國“天河二號”項目相關的4家中國機構被美國列入“實體清單”;019年,海光、22根據澎湃在2011但勝在超算芯片完全自主設計。在2016年,采用SW26010的“神威太湖之光”正式亮相,成為全球首個100P級超算,并連續(xù)4資料來源:澎湃 資料來源:《神威太湖之光簡介》——4.2.64.2.6超級計算——清華大學01年0月斥資超過0萬美元購買了兩臺英偉達I超級計算機,每臺由四顆0芯片驅動。同月,中國科學院計算技術研究所在10花費了近10萬美元購買了8個A100GPU板卡,單價為8.7萬元/片。A100價格昂貴,大部分高??蒲袡C構還是比較追求性價比的,但是通過使用多個中低端芯片來復制高端A100芯片的處理能力4.2.74.2.7超級計算——阿里云:基于NVIDIAA100打造的gn7GPU系列云服務器,該產品主要面向AI訓練和高性能計算應用,可提供新一代GPU計算實例。相百度智能云:基于NVIDIAA100打造的云服務器以及裸金屬服務器產品,最高將搭載8NVIDIAA100GPU,主要面向AI訓練/推理、高性能計算應用、科學計算等場景?;贏100TF32新技術,百度新一代GPU云服務器提供20V100FP32云服務器的計算能力。騰訊云:搭載NVIDIAA100的GPU云服務器GT4,適用于深度學習訓練、推理、高性能計算、數據分析、視頻分析等領域,可提供更高資料來源:百度智能云官 資料來源:騰訊云官4.34.3據我們測算,201年中國GGU市場規(guī)模為4.8億元,其中人工智能推理/人工智能訓練/高性能計算分別為9.5471/.1億元,本次主要受到影響的是人工智能訓練高性能計算應用,合計約56億元的市場。短期來看,選擇英偉達和MD的還沒有被禁止的中低性能G芯片。對于云端計算,算力既可以通過產品升級得以提升,也可以通過增加計算卡的數量進行提升,因此短期內可以通過使用多個算力較低的CU、GU和IC芯片來復制高端GU芯片的處理長期來看,選擇國產GU進行替代。雖然芯片是算力的主要來源和最根本的物質基礎,但是算力的生產、聚合、調度和釋放是一個完整過程,需要復雜系統(tǒng)的軟硬件生態(tài)共同配合,才能實現“有效算力”。因此短期內可能會因為無法兼容在人工智能領域廣泛使用的A架構而遭遇替換困難,但是長期來看,國產CU、通用U、I芯片將獲得前所未有的發(fā)展機會,通過軟硬件技術提升,逐步實現高端G領域的國產化替代。以往通常采用中低端計算芯片,例如NVIDIATeslaT4、P4、T40等產品,暫時沒有被禁售的風險。但是,長久來看,FPGA和但是,因為AI訓練并不是必須要高精度浮點運算,目前NVIDIA的H100的FP8運算的計算在速度和精度上取得平衡,基本上和FP16/BF16短期來看,可用英偉達和D的還沒有被禁止的、以及國產廠商的中高計算性能CP、PU、SIC芯片。對于云端計算,算力既可以通過產品升級得以提升,也可以通過增加計算卡的數量進行提升,因此短期內可以通過使用多個中低端芯片來復制高端GP芯片的處理能力,基本可以滿足云端訓練要求。4.3.24.3.2云推理:ASIC和FPGA加速替代除了Nvidia、Google、Xilinx(AMD)、Altera(Intel)等傳統(tǒng)芯片大廠涉足云端推理芯片以外,Wavecomputing、Groq競爭態(tài)勢中U依然占大頭,但隨著I的發(fā)展,G的低延遲、低功耗、可編程性(適用于傳感器數據預處理工作以及小型開發(fā)試錯)SI()。禁售的風險。但是,長久來看,FPGA和ASIC的優(yōu)勢逐漸凸顯,國產FPGA和ASIC資料來源:英偉達官 資料來源:寒武紀官CONTENTS華一號”以及摩爾線程的MTTS2000采用12nm制程。對比已經進入4nmH100還有較大差距。思元天垓2.5D2.5D2.5D資料來源:
資料來源:各公司官網,中信證券研究 渲染GPU約80%仍是GPGPU部分,20%則是固定渲染部分(fixedfunction)。圖形GPU因為經過了十幾年的演化進程,流水線長,實現起來復雜,渲染GPU在技術層面來相對復雜,但是好處在于有很多業(yè)界成熟的標準的API,如OpenGL、OpenGLES、DirectX、Vulkan等,核心是打通驅動程而GPGPU領域幾乎是被英偉達一手打造的CUDA生態(tài)所壟斷。易于編程和性能的巨大飛躍是CUDA平臺被廣泛采用的關鍵原因之一。CUDA平臺資料來源:英偉達,奔跑的小蘑菇@ 據集微網報道,GPU的IP主要涉及三大類,一是模擬IP,包括PCIe、Displayport和HDMI等等,這方面國內廠商占有率較低;二是根據集微網報道,相對而言,Imagination資料來源:中信證券研究部繪 資料來源:Imagination官 加速計算GPU領域,國內壁仞科技發(fā)布的BR100產品,在FP32單精度計算性能實現超越NVIDIAA100芯片,但是不支持FP64雙精度計算;天數智芯推出的天垓100的FP32單精度計算性能實現超越A100芯片,但是在INT8整數計算性能方面卻低于A100;海光推出的DCUZ100實現了FP64雙精度浮但是,GPU的表現不僅體現在硬件上,軟件層面對于生態(tài)的布局尤其重要,目前國內企業(yè)多采用OpenCL進行自主生態(tài)建設,但這是需要大量的時間進行。對比AD從2013年開始建設U生態(tài)近0年時間后才推出用于通用計算的OCm開放式軟件平臺,我們認為國內廠商在軟件和生態(tài)層面與英偉達CUD生態(tài)的差距相較于硬件更為明顯。支持計算:OpenCL1.1DirectX計算:OpenCL1.2計算:OpenCL3.0DirectX力顯存昇騰PCIe思元PCIE天垓2.5D64PCIEPCIE壁仞2.5DPCle壁仞300W2.5DPCle英偉達PCleA100PCleH1002.5DH1002.5DPCleAMDInstinctAMDPCleAMDInstinctAMDPCleAMDInstinctAMDPCle 公司基于通用的GPGPU架構,設計、發(fā)布的適合計算密集型和運算加速領域的一類協(xié)處理器,定義為深度計算處理器DCU(Deep-learningComputingUnit,深度計算處理器)擴大高速緩存容量,優(yōu)化存儲子系統(tǒng)的微結構;改進片上網絡拓撲結構和路由算法,支持更大的芯片互連規(guī)模;設計周期精確的模擬器,Ampere7nm7nm7nm4096(642560CUDA640TensorUpto1.5GHz(FP64)UptoUptoUpto32GB80GB32GB409651202.03.22.4102420391228350400CPUtoGPUPCIeGen4xPCIeGen4xPCIeGEN4xGPUtoGPUxGMIx2,Upto184NVLinkupto600InfinityFabricx3,upto276GB/s資料來源:資料來源:AMDAMDHPCAI蓬勃發(fā)展的未來,它們正被大量部署以支持科學家在氣候變化、疫苗等方面的研究工作。AMD發(fā)起了一場與數exascale機器(1018次浮點運算)——AMDEpycCPUInstinctMI250GPU驅動的HPE-CrayEX系統(tǒng)。但是英偉達協(xié)處理器可以在154臺TOP500超級計算機中找到;只有七臺超級計算機使用AMDInstinct卡。由AMDEpycCPUInstinctMI250GPU驅動的HPE-CrayDGXA100系統(tǒng)單節(jié)點的峰值性能為:INT810PetaOPS(每秒1億億次整數運算)、FP165PFlops(每秒5千萬億次半精度浮點運算)、TF32PFlops(每秒2.5千萬億次運算)、FP64156TFlops(每秒156萬億次雙精度浮點運算)。相比于高端CPU服務器,它的AI計算性能要高出150H100配備第四代Tensor核心和具有FP8精確度的TransformerEngine,能夠依據動態(tài)管理與選擇FP8與FP16,并自處理模型每一層FP8與FP16的自目前華碩、源訊、戴爾、INGRASYS、技嘉、聯想與美超微(Supermicro)等NVIDIA的眾多合作伙伴推出搭載A100/H100產品,已在AWS、GoogleCloud、MicrosoftAzureOracleCloudInfrastructure等各大云端平臺上使用。 資料來源:智東西微信公眾 資料來源:英偉達官壁仞科技創(chuàng)立于9年,團隊由國內外芯片和云計算領域核心專業(yè)人員、研發(fā)人員組成,在GU、DSA(專用加速器)和計算機體系結構等領域具有深厚的技術積累和獨到的行業(yè)洞見。包括前AMD全球副總裁李新榮;原華為海思GPU首席架構師、英偉達GPU資深架構師洪洲;曾創(chuàng)建高通公司驍龍GPU團隊、領導了5代AdrenoGPU架構開發(fā)的首席架構師焦國方;原英特爾軟件研發(fā)負責人、AMD軟件工程負責人梁剛;原AMDGPU芯片研發(fā)負責人陳文中;原英偉達中國研發(fā)中心總經理、臺積電設計與技術平臺負責人楊超源;原AMDGPUSoC負責人張凌嵐;原阿里云AI&GPU負責人、英偉達GPU架構師等。姓 職 個人經聯合創(chuàng)始人張凌 聯合創(chuàng)始人、 徐凌 焦國形GPU李新聯席楊超 陳文
為海思GPU首席架構師、英偉達GPU資深架構師。曾擔任海思自研GPU的負責人與主架構師,原AMDGPUSoC負責人,原海光海外GPU原阿里云AI&GPU負責人、英偉達GPU具有超過5年精深的P產品架構和研發(fā)經驗,曾在高通任職年,曾創(chuàng)建高通公司驍龍U團隊、領導了代AoGP架構開發(fā)的首席架構師。圖形圖像處理和系統(tǒng)框畢業(yè)于加州大學伯克利分校電子工程專業(yè),在GP芯片行業(yè)擁有超過5年的產品研發(fā)與管理經在GPU行業(yè)擁有超過5年的研發(fā)與團隊管理經驗,此前曾在MD、和ride等知名U企業(yè)領導核
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 部審人教版七年級數學下冊聽評課記錄《5.2.1 平行線》2
- 人教版地理七年級上冊第二節(jié)《地球的運動》聽課評課記錄3
- 湘教版數學八年級上冊4.1《不等式》聽評課記錄
- 人教版地理八年級下冊7.2《魚米之鄉(xiāng)-長江三角洲地區(qū)》聽課評課記錄2
- 用戶體驗設計服務協(xié)議書(2篇)
- 環(huán)境整治用功協(xié)議書(2篇)
- 人教部編版八年級道德與法治上冊:8.1《國家好 大家才會好-國家利益的含義》聽課評課記錄
- 【人教版】河南省八年級地理上冊3.2土地資源聽課評課記錄1新版新人教版
- 新版華東師大版八年級數學下冊《17.3.2一次函數的圖象2》聽評課記錄22
- 北京課改版歷史八年級上冊第3課《第二次鴉片戰(zhàn)爭》聽課評課記錄
- (完整版)高考英語詞匯3500詞(精校版)
- 2024年聯勤保障部隊第九四〇醫(yī)院社會招聘筆試真題
- 防火墻漏洞掃描基礎知識
- 供應鏈網絡安全解決方案
- NPI管理流程文檔
- 運動技能學習PPT
- 嶺南版三年級美術下冊教學工作計劃
- 應急裝備、應急物資臺賬(較詳細)
- 運動技能學習與控制
- 大學物理光學答案
- 關于教材編寫的統(tǒng)一格式的規(guī)定
評論
0/150
提交評論