半導(dǎo)體行業(yè)專題:ChatGPT對(duì)GPU算力的需求測(cè)算與相關(guān)分析-20230216-中信證券_第1頁(yè)
半導(dǎo)體行業(yè)專題:ChatGPT對(duì)GPU算力的需求測(cè)算與相關(guān)分析-20230216-中信證券_第2頁(yè)
半導(dǎo)體行業(yè)專題:ChatGPT對(duì)GPU算力的需求測(cè)算與相關(guān)分析-20230216-中信證券_第3頁(yè)
半導(dǎo)體行業(yè)專題:ChatGPT對(duì)GPU算力的需求測(cè)算與相關(guān)分析-20230216-中信證券_第4頁(yè)
半導(dǎo)體行業(yè)專題:ChatGPT對(duì)GPU算力的需求測(cè)算與相關(guān)分析-20230216-中信證券_第5頁(yè)
已閱讀5頁(yè),還剩67頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

半導(dǎo)體行業(yè)專題ChatGPT對(duì)GPU算力的需求測(cè)算與相關(guān)分析中信證券研究部

雷俊成/王子源/徐濤/楊澤原2023年2月16日核心觀點(diǎn):?jiǎn)蝹€(gè)大模型可帶來(lái)2萬(wàn)GPU銷售量,搜索引擎帶來(lái)成倍空間市場(chǎng)規(guī)模相關(guān)參數(shù)/假設(shè)核心觀點(diǎn):1.短期內(nèi)GPU增量與市場(chǎng)規(guī)模:參考OpenAI算法,假設(shè)每日1億用戶,每人進(jìn)行10條交互,每個(gè)問(wèn)題的回答長(zhǎng)度為50詞,算力利用率30%,則單個(gè)大語(yǔ)言模型(LLM)的日常需求有望帶來(lái)2.13萬(wàn)片A100的增量,對(duì)應(yīng)市場(chǎng)規(guī)模2.13億美元。假設(shè)有5家大企業(yè)推出此類LLM,則總增量為10.7片A100,對(duì)應(yīng)市場(chǎng)規(guī)模10.7億美元。A100單卡算力:19.5TFLOPS/s日常算力利用率:30%(依據(jù)經(jīng)驗(yàn))GPU單價(jià):1萬(wàn)美元(A100)2.短期服務(wù)器增量與市場(chǎng)規(guī)模:?jiǎn)蝹€(gè)服務(wù)器包含8個(gè)GPU,因此單個(gè)LLM帶來(lái)2669臺(tái)服務(wù)器需求,對(duì)應(yīng)市場(chǎng)規(guī)模3.39億美元,5家大企業(yè)共需要13345臺(tái),對(duì)應(yīng)市場(chǎng)規(guī)模20億美元。3.長(zhǎng)期市場(chǎng)空間:參考谷歌,若每日搜訪問(wèn)30億次,需要106.74萬(wàn)張A100,對(duì)應(yīng)13.3萬(wàn)臺(tái)服務(wù)器DGXA100,帶來(lái)市場(chǎng)空間200億美元。每臺(tái)服務(wù)器搭載GPU數(shù)量:8服務(wù)器單價(jià):15萬(wàn)美元(DGXStationA100)做LLM模型的企業(yè)數(shù)量:5(BAT、華為、字節(jié))關(guān)鍵中間變量:GPU與服務(wù)器增量短期國(guó)內(nèi)GPU/服務(wù)器增量市場(chǎng)規(guī)模遠(yuǎn)期GPU增量空間1億用戶所需GPU數(shù)量:21348(A100)1億用戶帶來(lái)國(guó)內(nèi)GPU總市場(chǎng)規(guī)模:2.13億美元一個(gè)LLM模型所需GPU數(shù)量:21348(A100)GPU單價(jià):1萬(wàn)美元(A100)谷歌+LLM所需GPU數(shù)量:1067415(A100)遠(yuǎn)期總算力需求:5.4E+11TFLOPSA100單卡算力:19.5TFLOPS/s近期單日交互+訓(xùn)練總算力1.08E+10TFLOPSA100單卡算力19.5T/s算力利用率30%算力利用率:30%1億用戶所需服務(wù)器數(shù)量:2669(DGXA100)一個(gè)LLM模型所需GPU數(shù)量:21348(A100)每臺(tái)服務(wù)器搭載GPU數(shù)量:81億用戶帶來(lái)國(guó)內(nèi)服務(wù)器市場(chǎng)規(guī)模:3.39億美元一個(gè)LLM所需服務(wù)器數(shù)量:2669谷歌+LLM所需服務(wù)器數(shù)量:133427(GPU/8)服務(wù)器單價(jià):15萬(wàn)美元(A100)注:遠(yuǎn)期由于更高算力的GPU出現(xiàn)或更高效的計(jì)算方式,對(duì)應(yīng)市場(chǎng)空間可能變化。5家企業(yè)對(duì)應(yīng)10.7萬(wàn)片A100、1.33萬(wàn)臺(tái)服務(wù)器5家企業(yè)對(duì)應(yīng)10.7億美元GPU、20億美元服務(wù)器資料來(lái)源:Raconteur,OpenAI:Language

ModelsareFew-ShotLearners,NVIDIA官網(wǎng),Amazon,中信證券研究部1核心觀點(diǎn)技術(shù)差距:GPGPU的核心壁壘是高精度浮點(diǎn)計(jì)算及CUDA生態(tài)。從高精度浮點(diǎn)計(jì)算能力來(lái)看,國(guó)內(nèi)GPU產(chǎn)品與國(guó)外產(chǎn)品的計(jì)算性能仍或有一代以上差距;在軟件和生態(tài)層面與英偉達(dá)CUDA生態(tài)的差距則更為明顯。

AI計(jì)算GPU領(lǐng)域,國(guó)內(nèi)壁仞科技發(fā)布的BR100產(chǎn)品在FP32單精度計(jì)算性能上實(shí)現(xiàn)超越NVIDIA

A100芯片,但是不支持FP64雙精度計(jì)算;天數(shù)智芯推出的天垓100的FP32單精度計(jì)算性能實(shí)現(xiàn)超越A100芯片,但是在INT8整數(shù)計(jì)算性能方面卻低于A100;海光推出的DCU實(shí)現(xiàn)了FP64雙精度浮點(diǎn)計(jì)算,但是其性能為A100的60%左右,大概相當(dāng)于其4年前水平。因此,從高精度浮點(diǎn)計(jì)算能力來(lái)看,國(guó)內(nèi)GPU產(chǎn)品與國(guó)外產(chǎn)品的計(jì)算性能仍或有一代以上差距。

但是,GPU不僅在硬件上需要提升算力,軟件層面對(duì)于GPU的應(yīng)用和生態(tài)布局尤其重要,英偉達(dá)憑借CUDA構(gòu)建生態(tài)壁壘占領(lǐng)全球GPU市場(chǎng)90%的份額。目前國(guó)內(nèi)企業(yè)多采用開(kāi)源的OpenCL進(jìn)行自主生態(tài)建設(shè),但這需要大量的時(shí)間進(jìn)行布局;我們對(duì)比AMD從2013年開(kāi)始建設(shè)GPU生態(tài),近10年時(shí)間后用于通用計(jì)算的ROCm開(kāi)放式軟件平臺(tái)才逐步有影響力,且還是在兼容CUDA的基礎(chǔ)上。因此我們認(rèn)為國(guó)內(nèi)廠商在軟件和生態(tài)層面與英偉達(dá)CUDA生態(tài)的差距較計(jì)算性能更為明顯。

雖然目前國(guó)內(nèi)產(chǎn)品的計(jì)算性能和軟件生態(tài)實(shí)力與國(guó)際廠商還有差距,但是,國(guó)內(nèi)廠商依然在奮起直追,努力實(shí)現(xiàn)GPGPU的國(guó)產(chǎn)化突破。我們認(rèn)為長(zhǎng)久來(lái)看,美國(guó)對(duì)中國(guó)高端GPU的禁售令反而給國(guó)產(chǎn)GPGPU和AI芯片廠商帶來(lái)快速發(fā)展的機(jī)會(huì)。

短期來(lái)看,我們認(rèn)為對(duì)高端通用計(jì)算GPU的禁令可能會(huì)影響英偉達(dá)和AMD的GPU產(chǎn)品在中國(guó)的銷售,中國(guó)AI計(jì)算、超級(jí)計(jì)算和云計(jì)算產(chǎn)業(yè)進(jìn)步受到一定的阻礙??墒褂糜ミ_(dá)和AMD還沒(méi)有被禁止的及國(guó)產(chǎn)廠商的中高計(jì)算性能CPU、GPU、ASIC芯片等替代。

長(zhǎng)期來(lái)看,國(guó)產(chǎn)CPU、GPU、AI芯片廠商受益于龐大的國(guó)內(nèi)市場(chǎng),疊加國(guó)內(nèi)信創(chuàng)市場(chǎng)帶來(lái)國(guó)產(chǎn)化需求增量,我們預(yù)期國(guó)內(nèi)AI芯片的國(guó)產(chǎn)化比例將顯著提升,借此機(jī)會(huì)進(jìn)行產(chǎn)品升級(jí),逐漸達(dá)到國(guó)際先進(jìn)水平,突破封鎖。對(duì)于國(guó)內(nèi)廠商,建議重點(diǎn)關(guān)注實(shí)現(xiàn)自主創(chuàng)新,打造自主生態(tài)體系,打磨產(chǎn)品實(shí)現(xiàn)穩(wěn)定供貨的公司。

重點(diǎn)關(guān)注能夠?qū)崿F(xiàn)GPU領(lǐng)域的自主創(chuàng)新,實(shí)現(xiàn)架構(gòu)、計(jì)算核、指令集及基礎(chǔ)軟件棧的全自研的設(shè)計(jì)公司。

同時(shí),不止成功點(diǎn)亮,要能滿足測(cè)試、客戶適配、穩(wěn)定供貨等一系列要求,成功量產(chǎn)并實(shí)現(xiàn)規(guī)模應(yīng)用,實(shí)現(xiàn)GPGPU的國(guó)產(chǎn)替代。建議關(guān)注:

國(guó)內(nèi)企業(yè):1)芯片:龍芯中科(國(guó)內(nèi)PC

CPU龍頭,自主研發(fā)GPGPU產(chǎn)品)、海光信息(國(guó)內(nèi)服務(wù)器CPU龍頭,推出深度計(jì)算處理器DCU)、景嘉微(國(guó)內(nèi)圖形渲染GPU龍頭)、寒武紀(jì)(國(guó)內(nèi)ASIC芯片龍頭)、瀾起科技(國(guó)內(nèi)服務(wù)器內(nèi)存接口芯片龍頭);2)PCB:勝宏科技、興森科技、滬電股份;3)先進(jìn)封裝:通富微電、甬矽電子、長(zhǎng)電科技、長(zhǎng)川科技等。

海外企業(yè):英偉達(dá)(全球GPU龍頭)、AMD(全球CPU/GPU領(lǐng)先廠商)、英特爾(全球CPU龍頭)、美光(全球存儲(chǔ)芯片龍頭)。2風(fēng)險(xiǎn)因素:用戶拓展不及預(yù)期風(fēng)險(xiǎn),AI技術(shù)及新產(chǎn)品開(kāi)發(fā)發(fā)展不及預(yù)期風(fēng)險(xiǎn),外部制裁加劇風(fēng)險(xiǎn),宏觀經(jīng)濟(jì)需求下行風(fēng)險(xiǎn)。相關(guān)上市公司ChatGPT相關(guān)上市公司及近期漲跌幅(截至2023年2月14日)市值(億元人民幣)488.782023年初至今漲跌幅43%分類公司名代碼ChatGPT2022年11月30日上線至今漲跌幅龍芯中科海光信息中科曙光英特爾AMD景嘉微688047.SH688041.SH603019.SHINTC.OAMD.O300474.SZNVDA.O688256.SH688008.SHMBLY.O002049.SZ688385.SH688107.SH300799.SZ688521.SH603893.SH688099.SH300613.SZ002436.SZ300476.SZ688183.SH002463.SZ600584.SH002156.SZ688362.SH688200.SH300604.SZMU.O49%28%24%-4%7%45%29%35%-7%50%-8%-9%13%4%30%14%12%18%1%28%11%23%15%28%-1%23%-17%5%1,235.85425.888,049.419,134.63381.5136,527.90342.62713.462,343.441,032.70443.24283.43136.25308.66368.62348.41152.06205.11155.6394.00294.9333%31%9%28%54%49%57%0%22%-8%-1%10%2%41%28%20%32%25%39%21%31%25%34%27%10%8%CPUGPU英偉達(dá)寒武紀(jì)-U瀾起科技Mobileye紫光國(guó)微復(fù)旦微電安路科技-U左江科技芯原股份-U瑞芯微AI芯片F(xiàn)PGADPUIPAISoC晶晨股份富瀚微興森科技勝宏科技生益電子滬電股份長(zhǎng)電科技通富微電甬矽電子華峰測(cè)控長(zhǎng)川科技美光PCB513.58334.58112.76276.32289.654,470.81先進(jìn)封裝存儲(chǔ)20%3資料來(lái)源:Wind,中信證券研究部CONTENTS目錄1.

ChatGPT是什么——OpenAI開(kāi)發(fā)的聊天機(jī)器人,擁有創(chuàng)造能力2.

GPGPU是什么3.

GPGPU的壁壘是什么4.

GPGPU主要應(yīng)用場(chǎng)景5.

國(guó)內(nèi)GPGPU發(fā)展水平41.1生成式AI:實(shí)現(xiàn)創(chuàng)造,部分領(lǐng)域的能力超越人類的基準(zhǔn)水平

不同于分析式AI只能做些分析型或機(jī)械式的認(rèn)知計(jì)算,生成式AI可以創(chuàng)造有意義并具備美感的東西,而且在某些情況下,其生成的結(jié)果可能比人類手工創(chuàng)造的還要好。

機(jī)器可以分析數(shù)據(jù),并針對(duì)不同用例需求找到相應(yīng)的規(guī)律,且在不斷迭代,變得越來(lái)越聰明,這種機(jī)器被稱為“分析式人工智能”(Analytical

AI),或者傳統(tǒng)AI。機(jī)器并非如之前那樣僅分析已有的數(shù)據(jù),而是創(chuàng)造了全新的東西,這一新型的AI被稱為“生成式人工智能”(Generative

AI)。2017年谷歌推出一種用于自然語(yǔ)言理解的新型神經(jīng)網(wǎng)絡(luò)架構(gòu)——Transformers模型,不但能生成質(zhì)量上乘的語(yǔ)言模型,同時(shí)具有更高的可并行性,大大降低了所需的訓(xùn)練時(shí)間。這些小樣本學(xué)習(xí)模型,可以更容易地針對(duì)特定領(lǐng)域做定制修改。

2015-2020年,用于訓(xùn)練這些模型的計(jì)算量增加了6個(gè)數(shù)量級(jí),其表現(xiàn)在手寫、語(yǔ)音和圖像識(shí)別、閱讀理解和語(yǔ)言理解方面超過(guò)了人類的基準(zhǔn)水平。隨著AI模型逐漸發(fā)展壯大,已經(jīng)開(kāi)始超越人類的基準(zhǔn)水平生成式AI的應(yīng)用格局5資料來(lái)源:《機(jī)器學(xué)習(xí)三個(gè)時(shí)代的計(jì)算趨勢(shì)》——Sevilla等人,arXiv,2022,《生成式AI:充滿創(chuàng)造力的新世界》——紅杉匯內(nèi)參微信公眾號(hào)資料來(lái)源:《生成式AI:充滿創(chuàng)造力的新世界》——紅杉匯內(nèi)參微信公眾號(hào)1.2預(yù)訓(xùn)練模型:大模型提高準(zhǔn)確率,2018年開(kāi)始步入快車道預(yù)訓(xùn)練模型使得模型的訓(xùn)練可以被復(fù)用,大幅降低訓(xùn)練成本,但是前期需要大量的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。

預(yù)訓(xùn)練模型是一種遷移學(xué)習(xí)的應(yīng)用,對(duì)句子每一個(gè)成員的上下文進(jìn)行相關(guān)的表示,通過(guò)隱式的方式完成了語(yǔ)法語(yǔ)義知識(shí)的學(xué)習(xí)。預(yù)訓(xùn)練模型通過(guò)微調(diào)的方式具備很強(qiáng)的擴(kuò)展性,每次擴(kuò)展到新場(chǎng)景時(shí),只需要針對(duì)這個(gè)場(chǎng)景的特定標(biāo)注數(shù)據(jù)進(jìn)行定向的學(xué)習(xí),便可以快速應(yīng)用。2018年以來(lái),國(guó)內(nèi)外超大規(guī)模預(yù)訓(xùn)練模型參數(shù)指標(biāo)不斷創(chuàng)出新高,“大模型”已成為行業(yè)巨頭發(fā)力的一個(gè)方向。谷歌、百度、微軟等國(guó)內(nèi)外科技巨頭紛紛投入大量人力、財(cái)力,相繼推出各自的巨量模型。國(guó)外廠商自2021年開(kāi)始進(jìn)入“軍備競(jìng)賽”階段。

2018年,谷歌提出3億參數(shù)BERT模型,大規(guī)模預(yù)訓(xùn)練模型開(kāi)始逐漸走進(jìn)人們的視野,成為人工智能領(lǐng)域的一大焦點(diǎn)。

2019年,OpenAI推出15億參數(shù)的GPT-2,能夠生成連貫的文本段落,做到初步的閱讀理解、機(jī)器翻譯等。緊接著,英偉達(dá)推出83億參數(shù)的Megatron-LM,谷歌推出110億參數(shù)的T5,微軟推出170億參數(shù)的圖靈Turing-NLG。

2020年,OpenAI以1750億參數(shù)的GPT-3,直接將參數(shù)規(guī)模提高到千億級(jí)別。

2021

年1

月,谷歌推出的Switch

Transformer模型以高達(dá)1.6

萬(wàn)億的參數(shù)量打破了GPT-3作為最大AI模型的統(tǒng)治地位,成為史上首個(gè)萬(wàn)億級(jí)語(yǔ)言模型。2020年10月,微軟和英偉達(dá)聯(lián)手發(fā)布了5300億參數(shù)的Megatron-Turing自然語(yǔ)言生成模型(MT-NLG)。2021年12月,谷歌還提出了1.2萬(wàn)億參數(shù)的通用稀疏語(yǔ)言模型GLaM,在7項(xiàng)小樣本學(xué)習(xí)領(lǐng)域的性能超過(guò)GPT-3。2018年以來(lái)LLM算法(大規(guī)模語(yǔ)言算法)成長(zhǎng)的時(shí)間線近年來(lái)超大規(guī)模預(yù)訓(xùn)練模型參數(shù)增長(zhǎng)趨勢(shì)6資料來(lái)源:Xavier

Amatriain,陳巍談芯@知乎資料來(lái)源:《Large

Language

Models:ANewMoore'sLaw?》——Julien

Simon@Hugging

Face1.3

ChatGPT:基于OpenAI推出的深度學(xué)習(xí)模型GPT打造,成為迄今增長(zhǎng)最快的消費(fèi)應(yīng)用程序ChatGPT(Chat

Generative

Pre-trained

Transformer,聊天生成式預(yù)訓(xùn)練器)是OpenAI開(kāi)發(fā)的聊天機(jī)器人,于2022年11月推出。它建立在OpenAI開(kāi)發(fā)的GPT-3大型語(yǔ)言模型之上,并使用監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)(人類監(jiān)督)技術(shù)進(jìn)行了微調(diào)。

雖然聊天機(jī)器人的核心功能是模仿人類談話者,但ChatGPT是多功能的。例如,它可以編寫和調(diào)試計(jì)算機(jī)程序,創(chuàng)作音樂(lè)、電視劇、童話故事和學(xué)生論文;回答測(cè)試問(wèn)題(有時(shí)根據(jù)測(cè)試的不同,答題水平要高于平均水平);寫詩(shī)和歌詞;模擬Linux系統(tǒng);模擬整個(gè)聊天室等。ChatGPT背后的公司為OpenAI,成立于2015年,由特斯拉CEO埃隆·馬斯克、PayPal聯(lián)合創(chuàng)始人彼得·蒂爾、Linkedin創(chuàng)始人里德·霍夫曼、創(chuàng)業(yè)孵化器Y

Combinator總裁阿爾特曼(Sam

Altman)等人出資10億美元?jiǎng)?chuàng)立。OpenAI的誕生旨在開(kāi)發(fā)通用人工智能(AGI)并造福人類。ChatGPT中的GPT(Generative

Pre-trained

Transformer),是OpenAI推出的深度學(xué)習(xí)模型。ChatGPT就是基于GPT-3.5版本的聊天機(jī)器人。

截至2022年12月4日,OpenAI估計(jì)ChatGPT用戶已經(jīng)超過(guò)100萬(wàn);2023年1月,ChatGPT用戶超過(guò)1億,成為迄今增長(zhǎng)最快的消費(fèi)應(yīng)用程序。

2023年2月,OpenAI開(kāi)始接受美國(guó)客戶注冊(cè)一項(xiàng)名為ChatGPT

Plus的高級(jí)服務(wù),每月收費(fèi)20美元;此外,OpenAI正計(jì)劃推出一個(gè)每月42美元的ChatGPT專業(yè)計(jì)劃,當(dāng)需求較低時(shí)可以免費(fèi)使用。GPT系列模型的數(shù)據(jù)集訓(xùn)練規(guī)模ChatGPT與GPT

1-3的技術(shù)對(duì)比7資料來(lái)源:《The

GPT-3

language

model,

revolution

orevolution?》——Hello

Future資料來(lái)源:《6個(gè)問(wèn)題,用專業(yè)視角帶你全方位了解ChatGPT》——甲子光年微信公眾號(hào)1.4算力需求:計(jì)算資源每3~4個(gè)月翻一倍,投入資金指數(shù)級(jí)增長(zhǎng)OpenAI預(yù)計(jì)人工智能科學(xué)研究要想取得突破,所需要消耗的計(jì)算資源每3~4個(gè)月就要翻一倍,資金也需要通過(guò)指數(shù)級(jí)增長(zhǎng)獲得匹配。

在算力方面,GPT-3.5在微軟Azure

AI超算基礎(chǔ)設(shè)施(由V100GPU組成的高帶寬集群)上進(jìn)行訓(xùn)練,總算力消耗約3640PF-days(即每秒一千萬(wàn)億次計(jì)算,運(yùn)行3640天)。

在大數(shù)據(jù)方面,GPT-2用于訓(xùn)練的數(shù)據(jù)取自于Reddit上高贊的文章,數(shù)據(jù)集共有約800萬(wàn)篇文章,累計(jì)體積約40G;GPT-3模型的神經(jīng)網(wǎng)絡(luò)是在超過(guò)45TB的文本上進(jìn)行訓(xùn)練的,數(shù)據(jù)相當(dāng)于整個(gè)維基百科英文版的160倍。

按照量子位給出的數(shù)據(jù),將一個(gè)大型語(yǔ)言模型(LLM)訓(xùn)練到GPT-3級(jí)的成本高達(dá)460萬(wàn)美元。

最新的GPT3.5在訓(xùn)練中使用了微軟專門建設(shè)的AI計(jì)算系統(tǒng),由1萬(wàn)個(gè)英偉達(dá)V100

GPU組成的高性能網(wǎng)絡(luò)集群,總算力消耗約3640PF-days(PD),即假如每秒計(jì)算一千萬(wàn)億(1020)次,需要計(jì)算3640天。

采購(gòu)一片英偉達(dá)頂級(jí)GPU成本為8萬(wàn)元,GPU服務(wù)器成本通常超過(guò)40萬(wàn)元。對(duì)于ChatGPT而言,支撐其算力基礎(chǔ)設(shè)施至少需要上萬(wàn)顆英偉達(dá)GPU

A100,一次模型訓(xùn)練成本超過(guò)1200萬(wàn)美元。預(yù)訓(xùn)練模型參數(shù)及所需要的算力情況目前SOTA

模型訓(xùn)練的浮點(diǎn)數(shù)運(yùn)算量(以FLOPs為衡量單位)資料來(lái)源:《AI算力的阿喀琉斯之踵:內(nèi)存墻》——Amir

Gholami@OneFlow社區(qū)

注:藍(lán)線上的是

CV,NLP和語(yǔ)音模型,模型運(yùn)算量平均每?jī)赡攴?5

倍,紅線上的是Transformer

的模型,模型運(yùn)算量平均每?jī)赡攴?50

倍。而灰線則標(biāo)志摩爾定律下內(nèi)存硬件大小的增長(zhǎng),平均每?jī)赡攴?倍。8資料來(lái)源:做AI做的事兒微信公眾號(hào),

《6個(gè)問(wèn)題,用專業(yè)視角帶你全方位了解ChatGPT》——甲子光年微信公眾號(hào)1.5產(chǎn)業(yè)競(jìng)爭(zhēng):訓(xùn)練成本逐漸降低,國(guó)內(nèi)外科技巨頭加速布局

根據(jù)《財(cái)富》雜志報(bào)道的數(shù)據(jù),2022年OpenAI的收入為3000萬(wàn)美元,但凈虧損預(yù)計(jì)為5.445億美元。公司預(yù)測(cè)其2023年收入2億美元,2024年收入預(yù)計(jì)超過(guò)10億美元。

投入上:公司CEO阿爾特曼在推特上回答馬斯克的問(wèn)題時(shí)表示,在用戶與ChatGPT的每次交互中,OpenAI花費(fèi)的計(jì)算成本為“個(gè)位數(shù)美分”,隨著ChatGPT變得流行,每月的計(jì)算成本可能達(dá)到數(shù)百萬(wàn)美元。

創(chuàng)造價(jià)值上:ARK認(rèn)為,AI工具的發(fā)展將不斷提高生產(chǎn)力,到2030年,人工智能或?qū)⒅R(shí)工作者的生產(chǎn)力提高4倍以上,將軟件工程師的效率提高10倍以上,創(chuàng)造約200萬(wàn)億美元的價(jià)值。

大模型高昂的訓(xùn)練成本讓普通創(chuàng)業(yè)公司難以為繼,因此參與者基本都是科技巨頭。

在國(guó)內(nèi)科技公司中,阿里巴巴達(dá)摩院在2020年推出了M6大模型,百度在2021年推出了文心大模型,騰訊在2022年推出了混元AI大模型。

這些模型不僅在參數(shù)量上達(dá)到了千億級(jí)別,而且數(shù)據(jù)集規(guī)模也高達(dá)TB級(jí)別,想要完成這些大模型的訓(xùn)練,就至少需要投入超過(guò)1000PetaFlop/s-day的計(jì)算資源。大模型計(jì)算布局呈爆發(fā)增長(zhǎng)態(tài)勢(shì)目前全球大模型計(jì)算布局情況資料來(lái)源:《6個(gè)問(wèn)題,用專業(yè)視角帶你全方位了解ChatGPT》——甲子光年微信公眾號(hào)

注:1、清華大學(xué)和阿里達(dá)摩院等合作提出;2、上海人工智能實(shí)驗(yàn)室聯(lián)合商湯科技、香港中文大學(xué)、上海交通大學(xué)

9發(fā)布;3、Pflops-day

為算力單位,意為一天可以進(jìn)行約1020運(yùn)算。資料來(lái)源:Xavier

Amatriain,陳巍談芯@知乎1.6ChatGPT帶來(lái)的算力/GPU需求——測(cè)算原理、預(yù)訓(xùn)練需求分析算力消耗測(cè)算原理訓(xùn)練總計(jì)算

訓(xùn)練總計(jì)算

模型參數(shù)量

訓(xùn)練詞數(shù)

單個(gè)詞語(yǔ)消耗

計(jì)算反向傳播后

正向計(jì)算時(shí)每個(gè)詞核心原理:模型量(PF·日)

量(flops)1.89

1.64E+206.16

5.33E+2017.36

1.50E+2149.31

4.26E+212.60

2.25E+207.42

6.41E+2015.83

1.37E+2127.50

2.38E+2155.21

4.77E+21138.75

1.20E+22267.71

2.31E+22(百萬(wàn))

(十億)的總計(jì)算次數(shù)

的算力消耗倍數(shù)

消耗浮點(diǎn)計(jì)算次數(shù)每個(gè)訓(xùn)練詞都會(huì)導(dǎo)致模型所有參數(shù)的更新,且每個(gè)訓(xùn)練詞BERT-Base1093552502506666666666663333333333332

都需要消耗固定的浮點(diǎn)算力。因此:BERT-LargeRoBERTa-BaseRoBERTa-LargeGPT-3SmallGPT-3MediumGPT-3LargeGPT-3XLGPT-32.7BGPT-36.7BGPT-313B22222222總算力需求=模型參數(shù)量*訓(xùn)練詞數(shù)*每個(gè)詞的運(yùn)算量測(cè)算過(guò)程:表格從右向左計(jì)算1.

最基礎(chǔ)的“原子”運(yùn)算:1個(gè)詞更新1個(gè)參數(shù),需要計(jì)算1次乘法和1次加法,共2次浮點(diǎn)運(yùn)算。2.

如果是訓(xùn)練,則需要反向傳播算法,反向傳播需要的運(yùn)算次數(shù)是正向傳播2倍,故訓(xùn)練時(shí)每個(gè)詞的運(yùn)算量是推理情況的3倍,需要消耗6次浮點(diǎn)運(yùn)算。(2次運(yùn)算*算力消耗倍數(shù)3)125

2,000355

2,0001253567603003003003003003003003001,3202,6506,66012,8502

3.

按照核心公式求解,GPT-3的總算力消耗為1.746E+11*3E+11

*6=3.14E+23FLOPS4.

進(jìn)行單位換算,3.14E+23FLOPS

=3640

PF·日22GPT-3175B3637.50

3.14E+23

174,600資料來(lái)源:OpenAI:Language

ModelsareFew-ShotLearners:附錄D,中信證券研究部,注:為簡(jiǎn)單起見(jiàn),本測(cè)算方法忽略了Attention計(jì)算的算力消耗,該部分占總算力消耗的10%以下3000億訓(xùn)練詞如何構(gòu)成預(yù)訓(xùn)練算力消耗及GPU需求測(cè)算數(shù)據(jù)集

詞數(shù)(十億)

訓(xùn)練輪數(shù)

權(quán)重占比?

假設(shè)1:ChatGPT使用的數(shù)據(jù)集與GPT-3175B模型相同?

假設(shè)2:ChatGPT使用FP32數(shù)據(jù)格式完成訓(xùn)練測(cè)算數(shù)據(jù)來(lái)源:1.

總計(jì)算量來(lái)自上表OpenAI論文2.

GPU算力來(lái)自NVIDIA官網(wǎng)3.

計(jì)算用時(shí)取決于語(yǔ)言模型開(kāi)發(fā)者試圖在多長(zhǎng)時(shí)間內(nèi)完成訓(xùn)練左側(cè)求得GPU數(shù)量與右側(cè)計(jì)算用時(shí)一一對(duì)應(yīng),例如一個(gè)月完成訓(xùn)練需要7723張A100GPU網(wǎng)頁(yè)爬蟲(chóng)WebText2Books1Books2維基百科41019125530.442.91.90.433.460%22%8%8%3%總計(jì)算量GPU數(shù)量GPU算力計(jì)算用時(shí)計(jì)算用時(shí)?

不同數(shù)據(jù)集的數(shù)據(jù)質(zhì)量和重要度不一致,因此重要度和質(zhì)量更高的數(shù)據(jù)集會(huì)進(jìn)行更多輪次的訓(xùn)練,從而提升其權(quán)重占比。?

將每個(gè)數(shù)據(jù)集的詞數(shù)乘以訓(xùn)練輪數(shù),加在一起即得到3000億詞的訓(xùn)練數(shù)據(jù)。GPU數(shù)量總計(jì)算量GPU算力186538/7723/3861/25743.14E+23FLOPS19.5TFLOPS/s(A100FP32)1天/1個(gè)月/2個(gè)月/3個(gè)月10資料來(lái)源:OpenAI:Language

ModelsareFew-ShotLearners,NVIDIA官網(wǎng),中信證券研究部1.7ChatGPT帶來(lái)的算力需求——日常交互、日常訓(xùn)練需求分析測(cè)算核心假設(shè)階段1:ChatGPT+bing日常算力需求ChatGPT月度訪問(wèn)量(百萬(wàn)次)單個(gè)詞語(yǔ)計(jì)算單個(gè)詞計(jì)算量次數(shù)2(推理)?

核心假設(shè)1-算力需求影響因素:模型參數(shù)量(175B)和單個(gè)詞計(jì)算量(訓(xùn)練6次,推理2次)不變,算力需求變化主要取決于詞數(shù)變化。?

詞數(shù)=用戶訪問(wèn)詞數(shù)*每次訪問(wèn)的提問(wèn)數(shù)量(默認(rèn)10)*每個(gè)回答包含的詞數(shù)(默認(rèn)50),詞數(shù)與用戶訪問(wèn)數(shù)成正比。7006005004003002001000交總互計(jì)計(jì)算算量量參數(shù)量詞數(shù)6161.05E+10T1.75B300億單個(gè)詞語(yǔ)計(jì)算單個(gè)詞計(jì)算量次數(shù)6(訓(xùn)練)訓(xùn)總練計(jì)計(jì)算算量量參數(shù)量詞數(shù)2663.14E+8T1.75B9.06億階段1假設(shè):0.1527?

每日用戶訪問(wèn)量1億(根據(jù)SimilarWeb統(tǒng)計(jì),2023年1月ChatGPT注冊(cè)用戶1億,單月訪問(wèn)量6.16億,月底日訪問(wèn)2800萬(wàn)次;bing日訪問(wèn)約4000萬(wàn)次,二者結(jié)合后短期有望迅速增長(zhǎng))Nov-22Dec-22Jan-23資料來(lái)源:SimilarWeb,中信證券研究部階段2:LLM+Google日常算力需求Google/Bing/百度月度訪問(wèn)量(億次)?

核心假設(shè)2-算力需求分配:訓(xùn)練采用的數(shù)據(jù)占當(dāng)日新生成數(shù)據(jù)的1%。?

假設(shè)依據(jù):根據(jù)OpenAI論文Language

ModelsareFew-Shot

Learners

,GPT-3采用的數(shù)據(jù)集清洗前大小45TB,清洗后大小單個(gè)詞語(yǔ)計(jì)算交總互計(jì)計(jì)算算量量參數(shù)量詞數(shù)單個(gè)詞計(jì)算量次數(shù)2(推理)GoogleBing百度100090080070060050040030020010008835.24E+11T1.75B15000億851864單個(gè)詞語(yǔ)計(jì)算單個(gè)詞計(jì)算量次數(shù)6(訓(xùn)練)訓(xùn)總練計(jì)計(jì)算算量量參數(shù)量詞數(shù)1.57E+10T1.75B150億570GB,清洗前后存在2個(gè)數(shù)量級(jí)的差距,因此可以認(rèn)為每天新生成的數(shù)據(jù)有1%用于訓(xùn)練。504949階段2假設(shè):?

Bing有望逐漸占據(jù)更多市場(chǎng)份額,市場(chǎng)空間參考谷歌,根據(jù)SimilarWeb,谷歌月訪問(wèn)量約900億次,每日用戶訪問(wèn)30億次。121211Nov-22Dec-22Jan-23資料來(lái)源:SimilarWeb,中信證券研究部資料來(lái)源:SimilarWeb,OpenAI:Language

ModelsareFew-ShotLearners,中信證券研究部11CONTENTS目錄1.

ChatGPT是什么2.

GPGPU是什么——通用計(jì)算GPU,算力強(qiáng)大,應(yīng)用于加速計(jì)算場(chǎng)景3.

GPGPU的壁壘是什么4.

GPGPU主要應(yīng)用場(chǎng)景5.

國(guó)內(nèi)GPGPU水平122.1GPU是什么?GPU(Graphics

Processing

Unit,圖形處理器):是一種專門在個(gè)人電腦、工作站、游戲機(jī)和一些移動(dòng)設(shè)備(如平板電腦、智能手機(jī)等)上做圖像加速和通用計(jì)算工作的微處理器。GPU是英偉達(dá)公司在1999年8月發(fā)表NVIDIAGeForce

256(GeForce

256)繪圖處理芯片時(shí)首先提出的概念。GPU應(yīng)用場(chǎng)景

圖形加速:此時(shí)GPU

內(nèi)部的頂點(diǎn)渲染、像素渲染以及幾何渲染操作都可以通過(guò)流處理器完成。

通用計(jì)算:計(jì)算通常采用CPU+GPU異構(gòu)模式,由CPU負(fù)責(zé)執(zhí)行復(fù)雜邏輯處理和事務(wù)處理等不適合數(shù)據(jù)并行的計(jì)算,由GPU負(fù)責(zé)計(jì)算密集型的大規(guī)模數(shù)據(jù)并行計(jì)算。GPU

與CPU

對(duì)比

CPU的邏輯運(yùn)算單元較少,控制器(Control)和緩存(Cache)占比較大;GPU

的邏輯運(yùn)算單元小而多,控制器功能簡(jiǎn)單,緩存也較少。

GPU

單個(gè)運(yùn)算單元(ALU)處理能力弱于CPU,但是數(shù)量眾多的ALU可以同時(shí)工作,當(dāng)面對(duì)高強(qiáng)度并行計(jì)算時(shí),其性能要優(yōu)于CPU。

GPU可以利用多個(gè)ALU來(lái)做并行計(jì)算,而CPU只能按照順序進(jìn)行串行計(jì)算,同樣運(yùn)行3000次的簡(jiǎn)單運(yùn)算,CPU需要3000個(gè)時(shí)鐘周期,而配有3000個(gè)ALU的GPU運(yùn)行只需要1個(gè)時(shí)鐘周期。GPU的主要分類CPU與GPU的芯片資源分布示例類型應(yīng)用場(chǎng)景特點(diǎn)代表產(chǎn)品封裝在獨(dú)立的電路板,專用的顯存(顯示儲(chǔ)存器)獨(dú)立GPU性能高,功耗大NVIDIA

Geforce系列AMD

Radeon系列Intel

HD系列AMD

APU系列蘋果M芯片GPU集成GPU內(nèi)嵌到主板上,共享

性能中等,功系統(tǒng)內(nèi)存耗中等Imagination

PowerVR系列性能低,功耗

高通Adreon系列嵌在SoC(SystemOn

Chip)中,共享系統(tǒng)內(nèi)存移動(dòng)端GPU低AMD

Mali系列蘋果A芯片GPU13資料來(lái)源:《CUDA

編程手冊(cè)系列第一章:CUDA

簡(jiǎn)介》——英偉達(dá)技術(shù)博客資料來(lái)源:中信證券研究部2.2從GPU到GPGPU的跨越,英偉達(dá)CUDA降低開(kāi)發(fā)門檻GPGPU(general-purpose

GPU,通用計(jì)算圖形處理器),利用圖形處理器進(jìn)行非圖形渲染的高性能計(jì)算。為了進(jìn)一步專注通用計(jì)算,GPGPU去掉或減弱GPU的圖形顯示部分能力,將其余部分全部投入通用計(jì)算,實(shí)現(xiàn)處理人工智能、專業(yè)計(jì)算等加速應(yīng)用。2007年6月,NVIDIA推出了CUDA(Computer

Unified

Device

Architecture計(jì)算統(tǒng)一設(shè)備結(jié)構(gòu))。

CUDA是一種將GPU作為數(shù)據(jù)并行計(jì)算設(shè)備的軟硬件體系。在CUDA

的架構(gòu)中,不再像過(guò)去GPU架構(gòu)那樣將通用計(jì)算映射到圖形API中,對(duì)于開(kāi)發(fā)者來(lái)說(shuō),CUDA

的開(kāi)發(fā)門檻大大降低了。

CUDA

的編程語(yǔ)言基于標(biāo)準(zhǔn)C,因此任何有C

語(yǔ)言基礎(chǔ)的用戶都很容易地開(kāi)發(fā)CUDA

的應(yīng)用程序。由于這些特性,CUDA在推出后迅速發(fā)展,被廣泛應(yīng)用于石油勘測(cè)、天文計(jì)算、流體力學(xué)模擬、分子動(dòng)力學(xué)仿真、生物計(jì)算、圖像處理、音視頻編解碼等領(lǐng)域。GPU并不是一個(gè)獨(dú)立運(yùn)行的計(jì)算平臺(tái),而是需要與CPU協(xié)同工作,可以看成是CPU的協(xié)處理器。GPU與CPU通過(guò)PCIe總線連接在一起來(lái)協(xié)同工作,因此GPU并行計(jì)算實(shí)際上指的是基于CPU+GPU的異構(gòu)計(jì)算架構(gòu)。GPGPU的架構(gòu)與生態(tài)基于CPU+GPU的異構(gòu)計(jì)算應(yīng)用執(zhí)行邏輯資料來(lái)源:《GPU與GPGPU泛淡》—夕陽(yáng)嘆@CSDN資料來(lái)源:Preofessional

CUDA?CProgramming142.32020年GPU全球市場(chǎng)254億美元,獨(dú)顯市場(chǎng)英偉達(dá)份額約80%

根據(jù)Verified

Market

Research數(shù)據(jù),2020年,全球GPU市場(chǎng)規(guī)模為254.1億美元(約1717.2億人民幣)。隨著需求的不斷增長(zhǎng),預(yù)計(jì)到2028年,這一數(shù)據(jù)將達(dá)到2465.1億美元(約1.67萬(wàn)億人民幣),年復(fù)合增長(zhǎng)率為32.82%。

市場(chǎng)研究機(jī)構(gòu)JonPeddie

Research的最新數(shù)據(jù)顯示,2022年二季度,全球獨(dú)立GPU市場(chǎng)出貨量同比增長(zhǎng)2.4%

1040萬(wàn)臺(tái),但是較一季度環(huán)比則下滑了22.6%。

從市場(chǎng)份額來(lái)看,英偉達(dá)的獨(dú)立GPU的市場(chǎng)份額從22Q1的75%增加到22Q2的79.6%,保持了與去年同期相當(dāng)?shù)姆蓊~。AMD和Intel則分別占比20%/1%。

據(jù)Verified

Market

Research數(shù)據(jù),2020年中國(guó)大陸的獨(dú)立GPU市場(chǎng)規(guī)模為47.39億美元,預(yù)計(jì)2027年將超過(guò)345.57億美元。GPU全球市場(chǎng)規(guī)模(億美元)全球獨(dú)顯GPU市場(chǎng)各廠商份額占比200018001600140012001000800NVIDIAINTELAMD100%90%80%70%60%50%40%30%20%10%0%19%20%17%19%20%1%24%1%81%80%83%81%79%60075%400200020202021E2022E2023E2024E2025E2026E2027E21Q121Q221Q321Q422Q122Q2資料來(lái)源:Verified

MarketResearch(含預(yù)測(cè)),中信證券研究部資料來(lái)源:Jon

Peddie

Research,中信證券研究部152.32020年全球AI芯片市場(chǎng)規(guī)模約為175億美元,英偉達(dá)份額超80%

伴隨著人工智能應(yīng)用場(chǎng)景的多元化,新算法、新模型不斷涌現(xiàn),模型中的參數(shù)數(shù)量呈指數(shù)級(jí)增長(zhǎng),對(duì)算力的需求越來(lái)越大。OpenAI預(yù)估算力需求每3.5個(gè)月翻一倍,每年近10倍。

根據(jù)WSTS數(shù)據(jù),2020年全球人工智能芯片市場(chǎng)規(guī)模約為175億美元。隨著人工智能技術(shù)日趨成熟,數(shù)字化基礎(chǔ)設(shè)施不斷完善,人工智能商業(yè)化應(yīng)用將加落地,推動(dòng)AI芯片市場(chǎng)高速增長(zhǎng),預(yù)計(jì)2025年全球人工智能芯片市場(chǎng)規(guī)模將達(dá)到726億美元。

未來(lái),隨著自動(dòng)駕駛級(jí)別的不斷提高,對(duì)于AI芯片的需求正不斷增長(zhǎng)。L2和L3+級(jí)汽車都會(huì)用AI芯片來(lái)取代分立的MCU芯片進(jìn)行自動(dòng)駕駛相關(guān)的計(jì)算工作。WSTS預(yù)計(jì)AI芯片的數(shù)量將從2020年的899萬(wàn)套增長(zhǎng)至2025年的2380萬(wàn)套。

據(jù)IDC數(shù)據(jù),2021年,中國(guó)加速卡出貨量超過(guò)80萬(wàn)片,其中英偉達(dá)占據(jù)超過(guò)80%市場(chǎng)份額,此外其他市場(chǎng)參與者還包括AMD、百度、寒武紀(jì)、燧原科技、新華三、華為、Intel和賽靈思等。2020年的采購(gòu)主要集中在搭載V100、V100S、A100和T4的加速服務(wù)器上,此外英偉達(dá)的A10、A30、A40和Atlas系列加速卡在部分領(lǐng)域已經(jīng)開(kāi)始使用。全球AI芯片(GPU、FPGA、ASIC等)的市場(chǎng)規(guī)模全球AI芯片銷售數(shù)量及預(yù)測(cè)(萬(wàn)套)全球AI芯片市場(chǎng)規(guī)模(億美元)YoY全球AI芯片銷售數(shù)量(萬(wàn)套)YoY2380800700600500400300200100070%60%50%40%30%20%10%0%250020001500100050040%35%30%25%20%15%10%5%72634.8%63059.1%188851.9%48.6%1640510143318.2%26.1%395121289929.1%26015.1%14.4%23.5%17511015.2%00%202020212022E2023E2024E2025E2019202020212022E2023E2024E2025E資料來(lái)源:WSTS(含預(yù)測(cè)),中信證券研究部資料來(lái)源:WSTS(含預(yù)測(cè)),中信證券研究部162.3中國(guó)市場(chǎng),GPU服務(wù)器在AI服務(wù)器中占比92%,占主導(dǎo)地位

據(jù)IDC數(shù)據(jù),2021年,全球AI服務(wù)器市場(chǎng)規(guī)模達(dá)156億美元,同比增長(zhǎng)39.1%;IDC預(yù)測(cè),2025年全球AI服務(wù)器市場(chǎng)規(guī)模將達(dá)317.9億美元,年復(fù)合增長(zhǎng)率為19%。

IDC報(bào)告顯示,2021年中國(guó)加速服務(wù)器市場(chǎng)規(guī)模達(dá)到53.9億美元(約350.3億人民幣),同比+68.6%;預(yù)計(jì)到2026年將達(dá)到103.4億美元。年復(fù)合增長(zhǎng)率為19%,占全球整體服務(wù)器市場(chǎng)近三成。

根據(jù)IDC數(shù)據(jù),2021年,GPU服務(wù)器以91.9%的份額占國(guó)內(nèi)加速服務(wù)器市場(chǎng)的主導(dǎo)地位;NPU、ASIC和FPGA等非GPU加速服務(wù)器占比8.1%。IDC預(yù)計(jì)2024年中國(guó)GPU服務(wù)器市場(chǎng)規(guī)模將達(dá)到64億美元。

從行業(yè)的角度看,互聯(lián)網(wǎng)依然是最大的采購(gòu)行業(yè),占整體加速服務(wù)器市場(chǎng)近60%的份額;2021年,用于推理工作負(fù)載的加速服務(wù)器占比已經(jīng)達(dá)到57.6%,預(yù)計(jì)到2026年將超過(guò)60%。全球及中國(guó)AI服務(wù)器市場(chǎng)規(guī)模2021年中國(guó)AI服務(wù)器芯片占比情況中國(guó)市場(chǎng)規(guī)模(億美元)全球市場(chǎng)規(guī)模(億美元)GPUNPUASICFPGA350300250200150100501.5%0.3%6.3%CAGR=19%CAGR=19%91.9%020212025E資料來(lái)源:IDC(含預(yù)測(cè)),中信證券研究部

注:這里統(tǒng)計(jì)的AI服務(wù)器包括高性能計(jì)算資料來(lái)源:IDC,中信證券研究部172.3

預(yù)計(jì)2021年中國(guó)GPGPU市場(chǎng)規(guī)模為149.8億元,其中AI推理/AI訓(xùn)練/高性能計(jì)算分別為93.5/47.1/9.1億元。

市場(chǎng)研究機(jī)構(gòu)Verified

Market

Research預(yù)測(cè),到2025年,中國(guó)GPGPU芯片板卡的市場(chǎng)規(guī)模將達(dá)到458億元,是2019年86億元的5倍多,2019-2025年的年復(fù)合增長(zhǎng)率為32%。其中,

按行業(yè)來(lái)分,到2025年,預(yù)計(jì)互聯(lián)網(wǎng)及云數(shù)據(jù)中心需求為228億元,安防與政府?dāng)?shù)據(jù)中心為142億元,行業(yè)AI應(yīng)用為37億元,高性能計(jì)算為28億元。

按應(yīng)用場(chǎng)景來(lái)分,到2025年,預(yù)計(jì)人工智能推理/人工智能訓(xùn)練/高性能計(jì)算需求分別為286/144/28億元,占比分別為62.4%/31.4%/6.1%。

我們預(yù)計(jì)2021年中國(guó)GPGPU市場(chǎng)規(guī)模為149.8億元,其中人工智能推理/人工智能訓(xùn)練/高性能計(jì)算分別為93.5/47.1/9.1億元。2022~2026年中國(guó)加速計(jì)算服務(wù)器市場(chǎng)預(yù)測(cè)(單位:百萬(wàn)美元)GPGPU市場(chǎng)按應(yīng)用場(chǎng)景拆分高性能計(jì)算6%人工智能訓(xùn)練31%人工智能推理63%資料來(lái)源:IDC預(yù)測(cè)(2022-2026年均為預(yù)測(cè))資料來(lái)源:Verified

MarketResearch,中信證券研究部182.4GPGPU市場(chǎng)英偉達(dá)一家獨(dú)大,全球市場(chǎng)份額約90%

GPGPU是一個(gè)門檻極高的領(lǐng)域,全球市場(chǎng)基本上被英偉達(dá)和AMD兩家國(guó)際龍頭掌控。

根據(jù)ArkInvest

的數(shù)據(jù),2021

年,英偉達(dá)占據(jù)了全球數(shù)據(jù)加速器市場(chǎng)90%

的份額。

根據(jù)IDC數(shù)據(jù),2020年的GPGPU采購(gòu)主要集中在搭載V100、V100S、A100和T4的加速服務(wù)器上,此外Nvidia的

A10、A30、A40和Atlas系列加速卡在部分領(lǐng)域已經(jīng)開(kāi)始使用。2021年,中國(guó)加速卡出貨量超過(guò)80萬(wàn)片,其中英偉達(dá)占據(jù)超過(guò)80%市場(chǎng)份額。

根據(jù)天數(shù)智芯數(shù)據(jù),英偉達(dá)在2021年的中國(guó)的云端AI訓(xùn)練芯片市場(chǎng)份額達(dá)到90%。其中,某一款產(chǎn)品占整個(gè)市場(chǎng)的50%,另一款產(chǎn)品占25%。英偉達(dá)歷代GPGPU產(chǎn)品的詳細(xì)信息英偉達(dá)歷代GPGPU產(chǎn)品的FP32算力水平FP32算力(GFLOPS)7000060000500004000030000200001000002010

2011

2012

2013

2014

2015

2016

2017

2018

2019

2020

2021

2022

2023資料來(lái)源:智東西資料來(lái)源:英偉達(dá)官網(wǎng),中信證券研究部19CONTENTS目錄1.

ChatGPT是什么2.

GPGPU是什么3.

GPGPU的壁壘是什么——高精度浮點(diǎn)計(jì)算+CUDA生態(tài)4.

GPGPU主要應(yīng)用場(chǎng)景5.

國(guó)內(nèi)GPGPU水平203.1壁壘一——高精度浮點(diǎn)計(jì)算CPU是串行處理器,而GPU是并行處理器。

在機(jī)器學(xué)習(xí)中,絕大多數(shù)任務(wù)會(huì)涉及到耗費(fèi)時(shí)間的大量運(yùn)算,而且隨著數(shù)據(jù)集的增加,運(yùn)算量會(huì)越來(lái)越大。解決這個(gè)問(wèn)題的一個(gè)方法就是使用多線程并行計(jì)算。

CUDA

核能夠以相對(duì)稍慢的速度運(yùn)行,但是能夠通過(guò)使用大量運(yùn)算邏輯單元(ALU)來(lái)提供很大的并行度。

每個(gè)GPU

核都能運(yùn)行一個(gè)獨(dú)立的線程,對(duì)于矩陣相乘運(yùn)算來(lái)說(shuō)大大縮短了計(jì)算時(shí)間。

對(duì)于每個(gè)小片的結(jié)果可以由一組線程負(fù)責(zé),其中每個(gè)線程對(duì)應(yīng)小片中的一個(gè)元素。這個(gè)線程組將

A

的行小片和

B

的列小片一一載入共享內(nèi)存,在共享內(nèi)存上對(duì)其做矩陣相乘,然后疊加在原有結(jié)果上。所以對(duì)于2000×2000

的矩陣乘法,只需要2000

次并行運(yùn)行。

但是對(duì)于CPU來(lái)說(shuō),因?yàn)槭谴杏?jì)算的,所以需要4000000次運(yùn)行。矩陣相乘分片算法示意圖CUDA線程模型資料來(lái)源:Matthes,

Alexander&Widera,

Rene&Zenker,

Erik&Worpitz,

Benjamin

&Huebl,

Axel

&Bussmann,

Michael.(2017).

Tuningand

optimization

for

avariety

ofmany-core

architectures

withoutchanging

asingle

line

of

implementation

code

using

the

Alpaka

library.21資料來(lái)源:《CUDA

輕松入門編程(一):CUDAC編程及GPU

基本知識(shí)》——科技猛獸@極市網(wǎng)站3.1人工智能的實(shí)現(xiàn)包括兩個(gè)環(huán)節(jié):推理(Inference)和訓(xùn)練(Training)

訓(xùn)練需要密集的計(jì)算得到模型,沒(méi)有訓(xùn)練,就不可能會(huì)有推理。

訓(xùn)練是指通過(guò)大數(shù)據(jù)訓(xùn)練出一個(gè)復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,通過(guò)大量標(biāo)記過(guò)的數(shù)據(jù)來(lái)訓(xùn)練相應(yīng)的系統(tǒng)得到模型,使其能夠適應(yīng)特定的功能。訓(xùn)練需要較高的計(jì)算性能、能夠處理海量的數(shù)據(jù)、具有一定的通用性,以便完成各種各樣的學(xué)習(xí)任務(wù)(大數(shù)據(jù)分析淘寶推薦“你可能感興趣的產(chǎn)品”模型)。

推理是指利用訓(xùn)練好的模型,使用新數(shù)據(jù)推理出各種結(jié)論。借助神經(jīng)網(wǎng)絡(luò)模型進(jìn)行運(yùn)算,利用輸入的新數(shù)據(jù)來(lái)一次性獲得正確結(jié)論的過(guò)程。這也有叫做預(yù)測(cè)或推斷(用戶打開(kāi)手機(jī)被推送“可能感興趣的產(chǎn)品”)。

訓(xùn)練需要較高的精度,推理的精度要求較低

訓(xùn)練的時(shí)候因?yàn)橐WC前后向傳播,每次梯度的更新是很微小的,這個(gè)時(shí)候需要相對(duì)較高的精度,一般來(lái)說(shuō)需要float型,如FP32,32位的浮點(diǎn)型來(lái)處理數(shù)據(jù)。

推理對(duì)精度的要求沒(méi)有那么高,可以用低精度,如FP16,也可以用8位的整型(INT8)來(lái)做推理,研究結(jié)果表明沒(méi)有特別大的精度損失,但是需要綜合考慮功耗、速度等其它問(wèn)題。推理是將深度學(xué)習(xí)訓(xùn)練成果投入使用的過(guò)程訓(xùn)練

推理常見(jiàn)的32/16/8位數(shù)字格式對(duì)比資料來(lái)源:《Lower

Numerical

Precision

DeepLearning

Inference

and

Training》——Intel

注:FP32和BF16提供了相同的動(dòng)態(tài)范圍,F(xiàn)P32由于更大的尾數(shù)提供了更高的精度。22資料來(lái)源:《NVIDIA

DEEPLEARNINGINSTITUTE》——英偉達(dá)AI

Conference3.1.1

AI訓(xùn)練端:發(fā)展目標(biāo)是精度降低的同時(shí)保證模型的準(zhǔn)確性

浮點(diǎn)計(jì)數(shù)是利用浮動(dòng)小數(shù)點(diǎn)的方式使用不同長(zhǎng)度的二進(jìn)制來(lái)表示一個(gè)數(shù)字,同樣的長(zhǎng)度下浮點(diǎn)較整形能表達(dá)的數(shù)字范圍相比定點(diǎn)數(shù)更大,結(jié)果也更精確

FP64雙精度計(jì)算:雙精度浮點(diǎn)數(shù)采用8個(gè)字節(jié)也就是64位二進(jìn)制來(lái)表達(dá)一個(gè)數(shù)字,1位符號(hào),11位指數(shù),52位小數(shù),有效位數(shù)為16位。

FP32單精度計(jì)算:?jiǎn)尉鹊母↑c(diǎn)數(shù)中采用4個(gè)字節(jié)也就是32位二進(jìn)制來(lái)表達(dá)一個(gè)數(shù)字,1位符號(hào),8位指數(shù),23位小數(shù),有效位數(shù)為7位。

FP16半精度計(jì)算:半精度浮點(diǎn)數(shù)采用2個(gè)字節(jié)也就是16位二進(jìn)制來(lái)表達(dá)一個(gè)數(shù)字,

1位符號(hào)、5位指數(shù)、10位小數(shù),有效位數(shù)為3位。

因?yàn)椴捎貌煌粩?shù)的浮點(diǎn)數(shù)的表達(dá)精度不一樣,所以造成的計(jì)算誤差也不一樣。

對(duì)于需要處理的數(shù)字范圍大而且需要精確計(jì)算的科學(xué)計(jì)算來(lái)說(shuō),可能需要采用雙精度浮點(diǎn)數(shù),例如:計(jì)算化學(xué),分子建模,流體動(dòng)力學(xué)。

對(duì)于常見(jiàn)的多媒體和圖形處理計(jì)算、深度學(xué)習(xí)、人工智能等領(lǐng)域,32位的單精度浮點(diǎn)計(jì)算已經(jīng)足夠了。

對(duì)于要求精度更低的機(jī)器學(xué)習(xí)等一些應(yīng)用來(lái)說(shuō),半精度16位浮點(diǎn)數(shù)就可以,甚至8位浮點(diǎn)數(shù)就已經(jīng)夠用了。AI計(jì)算模型規(guī)模的持續(xù)擴(kuò)大,導(dǎo)致模型訓(xùn)練和部署所需求的算力和功耗持續(xù)的擴(kuò)張。面對(duì)算力的挑戰(zhàn),降低精度是一把利器。TensorRT支持的計(jì)算精度AI模型訓(xùn)練算力消耗量與摩爾定律浮點(diǎn)數(shù)運(yùn)算量(單位:FLOPs)資料來(lái)源:《AI算力的阿喀琉斯之踵:內(nèi)存墻》——Amir

Gholami@OneFlow社區(qū)注:藍(lán)線上的是CV,NLP和語(yǔ)音模型,模型運(yùn)算量平均每?jī)赡攴?5

倍,紅線上的是Transformer

的模型,模型運(yùn)算量平均每?jī)赡攴?50

倍。而灰線則標(biāo)志摩爾定律下內(nèi)存硬件大小的增長(zhǎng),平均每?jī)赡攴?倍。23資料來(lái)源:《一起實(shí)踐神經(jīng)網(wǎng)絡(luò)INT8量化系列教程》——老潘的博客@CSDN3.1.2

AI推理端:浮點(diǎn)型量化為整形數(shù)據(jù),降低算力、加速推理、降低功耗

量化是通過(guò)一組離散符號(hào)或整數(shù)值去逼近一個(gè)連續(xù)信號(hào)的過(guò)程,利用低比特量化(權(quán)重或激活)可以在不影響精度的前提下加快推理階段。隨著模型越來(lái)越大,需求越來(lái)越高,模型的量化自然是少不了的一項(xiàng)技術(shù)。

在低比特表達(dá)中(如FP16、INT16、FP8、INT8、INT4等),INT8因兼顧效率和精度,而被廣泛采用。一方面,INT8的運(yùn)行速度是FP16/INT16的兩倍,并且相比FP8,能被更多的硬件設(shè)備支持。另一方面,INT8的量化范圍(-128~127)比INT4(-8~7)或其它更低的比特(小于4比特)大,表達(dá)能力更強(qiáng)。

經(jīng)過(guò)INT8量化后的模型:模型容量變小了,F(xiàn)P32的權(quán)重變成INT8,大小直接縮了4倍模型,運(yùn)行速度可以提升,使用INT8的模型耗電量更少,對(duì)于嵌入式側(cè)端設(shè)備來(lái)說(shuō)提升巨大。INT8有更高的吞吐率、更低的內(nèi)存要求利用NVIDIA

TensorRT

量化感知訓(xùn)練實(shí)現(xiàn)INT8

推理的FP32

精度資料來(lái)源:英偉達(dá)—developer.nvidia.

com/tensorrt資料來(lái)源:《利用NVIDIATensorRT量化感知訓(xùn)練實(shí)現(xiàn)INT8推理的FP32精度》——英偉達(dá)技術(shù)博客243.1.3GPU中設(shè)置各自獨(dú)立的計(jì)算單元,可以針對(duì)不同運(yùn)算優(yōu)化

對(duì)于浮點(diǎn)計(jì)算來(lái)說(shuō),CPU可以同時(shí)支持不同精度的浮點(diǎn)運(yùn)算,但在GPU里針對(duì)單精度和雙精度需要各自獨(dú)立的計(jì)算單元。

一般在GPU里支持單精度運(yùn)算的單精度ALU(算術(shù)邏輯單元)稱之為FP32

core,而把用作雙精度運(yùn)算的雙精度ALU稱之為DP

unit或者FP64

core

在英偉達(dá)不同架構(gòu)不同型號(hào)的GPU之間,因?yàn)楫a(chǎn)品定位不同,單精度ALU和雙精度ALU的數(shù)量的比例差異很大,也決定了產(chǎn)品的定位。Nvidia

Hopper架構(gòu)中的SMP(流處理塊)英偉達(dá)不同GPU產(chǎn)品的CUDA計(jì)算核數(shù)對(duì)比25資料來(lái)源:智東西微信公眾號(hào)資料來(lái)源:英偉達(dá),《GPGPU

芯片設(shè)計(jì):

原理與實(shí)踐》——陳巍談芯@知乎3.2壁壘二——CUDA生態(tài):使GPU解決復(fù)雜計(jì)算問(wèn)題,基于此開(kāi)發(fā)數(shù)千個(gè)應(yīng)用CUDA(Compute

Unified

Device

Architecture,統(tǒng)一計(jì)算設(shè)備架構(gòu))是由

NVIDIA

于2007年推出的通用并行計(jì)算架構(gòu),專為圖形處理單元

(GPU)

上的通用計(jì)算開(kāi)發(fā)的并行計(jì)算平臺(tái)和編程模型。借助CUDA,開(kāi)發(fā)者能夠利用GPU的強(qiáng)大性能顯著加速計(jì)算應(yīng)用。

它包含了

CUDA

指令集架構(gòu)(ISA)以及

GPU

內(nèi)部的并行計(jì)算引擎。CUDA

是一個(gè)全新的軟硬件架構(gòu),可以將

GPU

視為一個(gè)并行數(shù)據(jù)計(jì)算的設(shè)備,對(duì)所進(jìn)行的計(jì)算進(jìn)行分配和管理,無(wú)需將其映射到圖形API(OpenGL和Direct

3D)中運(yùn)行。

使用

CUDA

時(shí),開(kāi)發(fā)者使用主流語(yǔ)言(如

C、C++、Fortran、Python

MATLAB)進(jìn)行編程,并通過(guò)擴(kuò)展程序以幾個(gè)基本關(guān)鍵字的形式來(lái)表示并行性。

NVIDIA

的CUDA

工具包提供了開(kāi)發(fā)

GPU

加速應(yīng)用所需的一切。CUDA

工具包中包含多個(gè)

GPU

加速庫(kù)、一個(gè)編譯器、多種開(kāi)發(fā)工具以及CUDA

運(yùn)行環(huán)境。通過(guò)CUDA

開(kāi)發(fā)的數(shù)千個(gè)應(yīng)用已部署到嵌入式系統(tǒng)、工作站、數(shù)據(jù)中心和云中的GPU。CUDA

架構(gòu)的組件組成通過(guò)CUDA

開(kāi)發(fā)的部分應(yīng)用資料來(lái)源:

《Nvidia

并行計(jì)算架構(gòu)CUDA分析(一)——CUDA

簡(jiǎn)介》——club111@阿里云資料來(lái)源:英偉達(dá)開(kāi)發(fā)者社區(qū)263.2.1CUDA:一家獨(dú)大,助力英偉達(dá)GPU生態(tài)建設(shè),軟硬件深度綁定

易于編程和性能飛躍,加上擁有廣泛而豐富的生態(tài)系統(tǒng),CUDA讓NVIDIA的GPU生態(tài)圈迅速成型。

在2006年問(wèn)世之初,英偉達(dá)就開(kāi)始對(duì)CUDA系統(tǒng)在AI領(lǐng)域進(jìn)行大力投入和推廣。一方面在年?duì)I業(yè)額只有30億美元的情況下,每年投入5億美元的研發(fā)經(jīng)費(fèi)更新維護(hù);另一方面,為當(dāng)時(shí)美國(guó)大學(xué)及科研機(jī)構(gòu)免費(fèi)提供CUDA系統(tǒng),使其迅速在AI及通用計(jì)算領(lǐng)域開(kāi)花結(jié)果。

與任何新平臺(tái)一樣,CUDA的成功依賴于CUDA生態(tài)系統(tǒng)可用的工具、庫(kù)、應(yīng)用程序和合作伙伴。CUDA

支持

Windows、Linux、MacOS

三種主流操作系統(tǒng),支持

CUDA

C

語(yǔ)言和

OpenCL

CUDA

Fortran

語(yǔ)言。無(wú)論使用何種語(yǔ)言或接口,指令最終都會(huì)被驅(qū)動(dòng)程序轉(zhuǎn)換成PTX(Parallel

Thread

Execution,并行線程執(zhí)行,CUDA架構(gòu)中的指令集,類似于匯編語(yǔ)言)代碼,交由GPU計(jì)算。

但是,只有NVIDIA的GPUs才支持CUDA技術(shù),NVIDIA憑借CUDA在科學(xué)計(jì)算、生物、金融等領(lǐng)域的推廣牢牢把握著主流市場(chǎng)。CUDA生態(tài)支持的主要應(yīng)用場(chǎng)景CUDA

11

中的平臺(tái)支撐資料來(lái)源:

《CUDA

11功能揭曉》——Pramod

Ramarao@英偉達(dá)社區(qū)資料來(lái)源:《CUDA

newfeatures

and

beyond》——英偉達(dá)273.2.2OpenCL:開(kāi)源計(jì)算框架,兼容各類硬件設(shè)備用于并行計(jì)算

由于各個(gè)硬件廠家在GPU

硬件設(shè)計(jì)上存在著較大差別,為了降低跨平臺(tái)的開(kāi)發(fā)難度,需要一套能夠兼容各類硬件設(shè)備的計(jì)算框架。

OpenCL

最初由蘋果公司開(kāi)發(fā),擁有其商標(biāo)權(quán)。2008

年,蘋果公司向

Khronos

Group

提交了一份關(guān)于跨平臺(tái)計(jì)算框架

(OpenCL)

的草案,隨后與AMD、IBM、Intel、和

NVIDIA

公司合作逐步完善,其接口大量借鑒了

CUDA。

后續(xù),OpenCL

的管理權(quán)移交給了非盈利組織

Khronos

Group,且于2008年12月發(fā)布了

OpenCL

1.0。最新的OpenCL

3.0

于2020

年9月發(fā)布。OpenCL是一個(gè)為異構(gòu)平臺(tái)(CPU/GPU/DSP/FPGA等)編程設(shè)計(jì)的框架,是一個(gè)面向異構(gòu)系統(tǒng)通用目的并行編程的開(kāi)放式、免費(fèi)標(biāo)準(zhǔn),也是一個(gè)統(tǒng)一的編程環(huán)境,便于軟件開(kāi)發(fā)人員為高性能計(jì)算服務(wù)器、桌面計(jì)算系統(tǒng)、手持設(shè)備編寫高效輕便的代碼,只要按照標(biāo)準(zhǔn)實(shí)現(xiàn)了驅(qū)動(dòng)的硬件,使用OPENCL加速的應(yīng)用原則上就都能使用,主要用于并行運(yùn)算。

OpenCL

中,首先需要一個(gè)主機(jī)處理器(Host),一般是

CPU。而其他的硬件處理器(多核CPU/GPU/DSP

等)被抽象成

OpenCL

設(shè)備(Device)。每個(gè)設(shè)備包含多個(gè)計(jì)算單元(Compute

Unit),每個(gè)計(jì)算單元又包含多個(gè)處理單元(Processing

Element)。在執(zhí)行中,主要的流程為Host

端發(fā)送數(shù)據(jù)和任務(wù)給Device

端,Device

端進(jìn)行計(jì)算,最后在Host

端進(jìn)行同步。OpenCL

-異構(gòu)計(jì)算框架OpenCL

平臺(tái)模型圖示資料來(lái)源:《移動(dòng)端算法優(yōu)化》——高性能計(jì)算學(xué)院@知乎專欄資料來(lái)源:《移動(dòng)端算法優(yōu)化》——高性能計(jì)算學(xué)院@知乎專欄283.2.2OpenCL對(duì)比CUDA:簡(jiǎn)便性差、市占率低,通用性強(qiáng)OpenCL在應(yīng)用層次、簡(jiǎn)便性、市場(chǎng)占有率方面都要弱于CUDA,但是在跨平臺(tái)和通用性上優(yōu)于CUDA。

開(kāi)發(fā)者友好程度:CUDA在這方面顯然受更多開(kāi)發(fā)者青睞。原因在于其統(tǒng)一的開(kāi)發(fā)套件(CUDA

Toolkit,

NVIDIA

GPU

Computing

SDK以及NSight等等)、豐富的庫(kù)(cuFFT,

cuBLAS,

cuSPARSE,

cuRAND,

NPP,

Thrust)以及NVCC(NVIDIA的CUDA編譯器)所具備的PTX代碼生成、離線編譯等更成熟的編譯器特性。相比之下,使用OpenCL進(jìn)行開(kāi)發(fā),只有AMD對(duì)OpenCL的驅(qū)動(dòng)相對(duì)成熟。

跨平臺(tái)性和通用性:OpenCL支持包括ATI,

NVIDIA,

Intel,

ARM在內(nèi)的多類處理器,CPU、顯卡、FPGA、DSP等等都可能可以用OpenCL開(kāi)發(fā);并能支持運(yùn)行在CPU的并行代碼,同時(shí)還獨(dú)有Task-Parallel

Execution

Mode,能夠更好的支持異構(gòu)計(jì)算。這一點(diǎn)是僅僅支持?jǐn)?shù)據(jù)級(jí)并行并僅能在NVIDIA眾核處理器上運(yùn)行的CUDA無(wú)法做到的。

市場(chǎng)占有率:作為一個(gè)開(kāi)放標(biāo)準(zhǔn),缺少背后公司的推動(dòng),OpenCL沒(méi)有占據(jù)通用并行計(jì)算的主流市場(chǎng)。NVIDIA則憑借CUDA在科學(xué)計(jì)算、生物、金融等領(lǐng)域的推廣牢牢把握著主流市場(chǎng)。OpenCL和CUDA的應(yīng)用框架OpenCL和CUDA產(chǎn)品對(duì)比應(yīng)用產(chǎn)品29資料來(lái)源:《OpenCL與Cuda技術(shù)》——吳建明@博客園資料來(lái)源:《CUDA與OpenCL之間的差異》—AI領(lǐng)域@簡(jiǎn)書網(wǎng)站3.2.3其他生態(tài):AMD和Intel都推出自主生態(tài),但都無(wú)法擺脫CUDAAMD推出了ROCm開(kāi)發(fā)環(huán)境,目的是建立可替代CUDA的生態(tài),并在源碼級(jí)別上對(duì)CUDA程序支持

A卡上編程模型(硬件生態(tài))使用的是HIP,而運(yùn)行環(huán)境(軟件生態(tài))是ROCm,此外AMD發(fā)布GPUFORT將CUDA應(yīng)用轉(zhuǎn)換;N卡上,編程模型是CUDA,運(yùn)行環(huán)境也是CUDA。

AMD收購(gòu)賽靈思后,公司擁有AMD

CPU

+

AMD

GPU

+

FPGA

+

Xilinx

SmartNIC。除了硬件外,AMD的Radeon

Open

Compute

(ROCm)混合CPU-GPU開(kāi)發(fā)環(huán)境,再加上賽靈思Vitis,足以對(duì)抗英偉達(dá)頗受歡迎的CUDA開(kāi)發(fā)平臺(tái),以及英特爾力推的oneAPI。

英特爾也推出了one

API,意在打造跨行業(yè)的開(kāi)放軟件生態(tài)。

Intel

one

API是一個(gè)跨行業(yè)、開(kāi)放、標(biāo)準(zhǔn)統(tǒng)一、簡(jiǎn)化的編程模型,旨在促進(jìn)社區(qū)和行業(yè)合作、簡(jiǎn)化跨多架構(gòu)的開(kāi)發(fā)過(guò)程、解決跨體系及供應(yīng)商代碼重用,為跨CPU、GPU、FPGA、專用加速器的開(kāi)發(fā)者提供統(tǒng)一的開(kāi)發(fā)體驗(yàn)。包括了oneAPI標(biāo)準(zhǔn)組件如直接編程工具、含有一系列性能庫(kù)的基于API的編程工具,以及先進(jìn)的分析、調(diào)試工具等組件。

目前對(duì)于AMD和Intel,解決應(yīng)用問(wèn)題都是通過(guò)工具幫助將CUDA

代碼轉(zhuǎn)換成自己的編程模型,從而能夠針對(duì)CUDA

環(huán)境的代碼編譯。AMD推出的ROCm與英偉達(dá)CUDA的對(duì)比Intel

one

API30資料來(lái)源:《ROCm平臺(tái)及HIP介紹》——Charles

Ren@CSDN資料來(lái)源:Intel官網(wǎng)3.2.4國(guó)內(nèi)廠商目前多采用指令翻譯兼容CUDA,同時(shí)也在構(gòu)建自主生態(tài)

國(guó)內(nèi)廠商:多采用指令翻譯兼容CUDA及ROCm生態(tài),同時(shí)也在構(gòu)建自主生態(tài)。

壁仞目前兼容主流的GPU生態(tài)(CUDA),與客戶現(xiàn)有的基礎(chǔ)設(shè)施做到高度的兼容,方便客戶的遷移。也推出了自主的BIRENSUPA軟件平臺(tái)和編程模型,該平臺(tái)構(gòu)建在BR100系列產(chǎn)品的底層硬件之上,由驅(qū)動(dòng)層、編程平臺(tái)、框架層、應(yīng)用解決方案構(gòu)成,支持各類應(yīng)用場(chǎng)景。

沐曦專注研發(fā)全兼容CUDA及ROCm生態(tài)的國(guó)產(chǎn)高性能GPU芯片,滿足HPC、數(shù)據(jù)中心及AI等方面的計(jì)算需求。

海光DCU協(xié)處理器全面兼容ROCm

GPU計(jì)算生態(tài),由于ROCm和CUDA在生態(tài)、編程環(huán)境等方面具有高度的相似性,CUDA用戶可以以較低代價(jià)快速遷移至ROCm平臺(tái)。

天數(shù)智芯GPGPU計(jì)算芯片主要針對(duì)云端AI訓(xùn)練+推理和云端通用計(jì)算,是國(guó)內(nèi)量產(chǎn)的唯一兼容CUDA等異構(gòu)計(jì)算生態(tài)的數(shù)據(jù)中心高端計(jì)算芯片。

由于CUDA的閉源特性,以及快速的更新,后來(lái)者很難通過(guò)指令翻譯等方式完美兼容,即使部分兼容也會(huì)有較大的性能損失,導(dǎo)致在性價(jià)比上持續(xù)落后NVIDIA。另一方面,CUDA畢竟是NVIDIA的專屬軟件棧,包含了許多NVIDIA

GPU硬件的專有特性,這部分在其他廠商的芯片上并不能得到體現(xiàn)。因此對(duì)于國(guó)內(nèi)廠商來(lái)說(shuō),還是需要構(gòu)建自主的軟硬件生態(tài)。AMD

ROCm兼容CUDA的方案壁仞B(yǎng)IRENSUPA可實(shí)現(xiàn)現(xiàn)有GPU代碼平滑遷移31資料來(lái)源:AMD官網(wǎng)資料來(lái)源:壁仞科技發(fā)布會(huì)CONTENTS目錄1.

ChatGPT是什么2.

GPGPU是什么3.

GPGPU的壁壘是什么4.

GPGPU主要應(yīng)用場(chǎng)景——AI計(jì)算和高性能計(jì)算5.

國(guó)內(nèi)GPGPU水平324.1GPGPU在計(jì)算領(lǐng)域應(yīng)用:AI計(jì)算和高性能計(jì)算GPU在通用計(jì)算領(lǐng)域分為兩種應(yīng)用場(chǎng)景,人工智能(AI)

計(jì)算和高性能計(jì)算(HPC)

AI所需的計(jì)算力不需要太高精度。一些AI應(yīng)用需要處理的對(duì)象是語(yǔ)音、圖片或視頻,運(yùn)行低精度計(jì)算甚至整型計(jì)算即可完成推理或訓(xùn)練。?

智能計(jì)算機(jī)是一種專用算力,它們?cè)谕评砘蛴?xùn)練等智能計(jì)算方面的確表現(xiàn)出色,但由于AI推理或訓(xùn)練一般僅用到單精度甚至半精度計(jì)算、整型計(jì)算,多數(shù)智能計(jì)算機(jī)并不具備高精度數(shù)值計(jì)算能力,這也限制其在AI計(jì)算之外的應(yīng)用場(chǎng)景使用。?

英偉達(dá)新推出的H100芯片搭載Transformer

引擎,使用每層統(tǒng)計(jì)分析來(lái)確定模型每一層的最佳精度(FP16

FP8),在保持模型精度的同時(shí)實(shí)現(xiàn)最佳性能,相較于上一代產(chǎn)品提供9倍的訓(xùn)練吞吐量,性能提升6倍。

高性能計(jì)算是一種通用算力,設(shè)計(jì)目標(biāo)是提供完備、復(fù)雜的計(jì)算能力,在高精度計(jì)算上能力更強(qiáng)。應(yīng)用場(chǎng)景包括行星模擬、分子藥物設(shè)計(jì)等。?

超級(jí)計(jì)算機(jī)主要測(cè)試的是雙精度浮點(diǎn)運(yùn)算能力(FP64)。對(duì)比單精度(32位,F(xiàn)P32)、半精度(16位,F(xiàn)P16)以及整數(shù)類型(如INT8、INT4)等,數(shù)字位數(shù)越高,意味著人們可以在更大范圍內(nèi)的數(shù)值內(nèi)體現(xiàn)0/1兩個(gè)數(shù)值的變化,從而實(shí)現(xiàn)更精確計(jì)算。NVIDIA的AI計(jì)算應(yīng)用場(chǎng)景NVIDIA的高性能計(jì)算應(yīng)用場(chǎng)景33資料來(lái)源:英偉達(dá)官網(wǎng)資料來(lái)源:英偉達(dá)官網(wǎng)4.1應(yīng)用場(chǎng)景一——AI計(jì)算

根據(jù)部署的位置不同,AI芯片可以分為:云端AI芯片、終端AI芯片。

云端,即數(shù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論