電子-AMD正式宣戰(zhàn)誰來為MI300站臺

上傳人：策*** IP屬地：山西上傳時(shí)間：2023-06-16 格式：DOCX 頁數(shù)：29 大小：1.04MB 積分：19.9 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩24頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1告AI告AI芯片爭霸戰(zhàn)大幕正式開啟，誰來為AMDMI300站臺？AMD數(shù)據(jù)中心和人工智能技術(shù)首映式于加州時(shí)間2023年6月13日早上10點(diǎn)開始。主要發(fā)布產(chǎn)品為：云原生的BergamoCPU、3DV-Cache的Genoa-XCPU及AI芯片InstinctMI300XGPU和MI300AAPU。AMDCEOLisaSu認(rèn)為Al發(fā)展戰(zhàn)略主要在三方面:廣泛的CPU和GPU產(chǎn)品組合、開放且經(jīng)驗(yàn)證的軟件平臺以及深入的合作伙伴生態(tài)系統(tǒng)。AMD并未披露MI300系列的關(guān)鍵客戶合作信息，發(fā)布會當(dāng)天收盤下挫3.61%。但根據(jù)路透社6月14日獨(dú)家報(bào)道，亞馬遜高管DaveBrown表示AWS正考慮使用MI300。我們前序報(bào)告中提到，MI300全方位追擊英偉達(dá)GraceHopper，但軟件生態(tài)完善或成破局關(guān)鍵。LisaSu于5月31日的《福布斯》采訪時(shí)強(qiáng)調(diào)“放眼5年將在AMD每一個(gè)產(chǎn)品中看到AI”，AI是公司的戰(zhàn)略首位。目前，算力高的英偉達(dá)占據(jù)AI訓(xùn)練端的領(lǐng)導(dǎo)地位，但隨著AMD在AI芯片上逐步發(fā)力，或能開始撼動(dòng)英偉達(dá)在行業(yè)里獨(dú)占鰲頭的地位。我們也認(rèn)為云廠商應(yīng)不希望AI芯片呈現(xiàn)一家獨(dú)大的局面，MI300恰逢其時(shí)地出現(xiàn)，為市場提供了英偉達(dá)以外的選擇。風(fēng)險(xiǎn)提示：技術(shù)落地緩慢、中美局勢可能升級、芯片需求不及預(yù)期。動(dòng)態(tài)點(diǎn)評增增持(維持)研究研究員SACNo.S0570523020002SFCNo.ASI353翩purdyho@+(852)36586000MI300X&MI300A：與英偉達(dá)相比，AMDAI能力如何？AMD展現(xiàn)出的AI產(chǎn)品與我們幾個(gè)前序報(bào)告中描述的大體一致，蓄勢待發(fā)切AMD展現(xiàn)出的AI產(chǎn)品與我們幾個(gè)前序報(bào)告中描述的大體一致，蓄勢待發(fā)切入AI訓(xùn)練賽道。MI300A為CPU+GPU架構(gòu)，對標(biāo)英偉達(dá)GH200；而這次BH的800億個(gè)；3)內(nèi)存帶寬5.2TB/s與H100的2-7.2TB/s相近。公司展示MI300X運(yùn)行400億參數(shù)的Falcon模型實(shí)時(shí)推理，此等參數(shù)規(guī)模的大語言模型為第一次在單片GPU上運(yùn)行。AMDMI300系列將成為英偉達(dá)有力的競爭對手，另外，還需關(guān)注英特爾和其他AI芯片企業(yè)如Cerebras和SambaNova，但更重要的競爭對手或是云計(jì)算巨頭自研芯片。業(yè)界首款x86云原生Bergamo及采用3D業(yè)界首款x86云原生Bergamo及采用3DV-Cache技術(shù)的Genoa-X正式推出。前者的峰值內(nèi)核數(shù)達(dá)128(可提高多線程能力，并對標(biāo)其他多核數(shù)的服務(wù)器產(chǎn)品如144核的IntelSierraForest)，基于特別定制的Zen4c微架構(gòu)，在保持與Zen4架構(gòu)基本相同的功能集的同時(shí)將內(nèi)核縮小35%，讓數(shù)據(jù)中心CPU的性能推向新高；后者采用超過1GB的L3緩存和3DV-Cache技術(shù)，適用于緩存需求較高的技術(shù)計(jì)算。二者均為EPYC第四代和采用臺積電5nm制程，對比SapphireRapids采用的Intel7節(jié)點(diǎn)(10nm相當(dāng)于臺積電7nm)，性能和制程尚處領(lǐng)先。此外，AMD也宣布與AWS、Oracle、Meta及微軟在第四代EPYC的合作關(guān)系。PyTorchPyTorchROCmHuggingFaceCEO也宣布將在AMD平臺上優(yōu)化數(shù)千個(gè)模型。此前我們在前序報(bào)告里多次對比英偉達(dá)CUDA和AMDROCm生態(tài)圈：ROCm起步較晚，開發(fā)者數(shù)量與CUDA相差較大。ROCm雖能完全兼容CUDA，但亦只屬權(quán)宜之計(jì)。AMD正積極拓展生態(tài)圈，包括支持Windows、在AI領(lǐng)域開拓更廣泛的PyTorch等，與二者的合作將對ROCm生態(tài)圈產(chǎn)生關(guān)鍵助力。AI爭霸戰(zhàn)大幕正式開啟，誰來為AMDMI300站臺？ 3MIX肩H100，MI300A對陣GH200具一戰(zhàn)之力 3多方入局，英偉達(dá)在AI芯片市場能否笑到最后？ 6第四代EPYC數(shù)據(jù)中心CPU家族成員發(fā)布，性能重磅升級 11 圖表2：AMDMI300X產(chǎn)品實(shí)物圖(共8個(gè)GPUchiplets) 4 圖表8：MI300A結(jié)構(gòu)示意圖(預(yù)測) 5 ISC將FalconShores規(guī)劃在CPU與GPU之間，ISC2023移動(dòng)至Gaudi系列和GPU之間8 U 圖表21：AMDEPYCGenoa-X與Intel第四代Xeon產(chǎn)品對比(最高配置) 12圖表22：AMDEPYCGenoa-X與Intel第四代Xeon產(chǎn)品對比(同為32核) 12 AMD數(shù)據(jù)中心和人工智能技術(shù)首映式于加州時(shí)間2023年6月13日早上10時(shí)開始。本次的主要產(chǎn)品為：云原生的BergamoCPU、面向技術(shù)計(jì)算和采用3DV-cache的Genoa-XCPU、以及包括InstinctMI300XGPU和MI300AAPU在內(nèi)的AI平臺等。AMD的Al戰(zhàn)略主要在于三個(gè)方向：廣泛的CPU和GPU產(chǎn)品組合、開放穩(wěn)定且經(jīng)過驗(yàn)證(open,steadyandproven)的軟件平臺、以及深入的合作伙伴生態(tài)系統(tǒng)。AMD并未披露MI300系列的3.61%。但根據(jù)路透社6月14日的獨(dú)家報(bào)道，亞DaveBrown表示AWS正在考慮使用MI300。我們在今年的前序報(bào)告：5月18日發(fā)布的《AMD：MI300在AI正面交鋒英偉達(dá)，16年CPU突圍成功能否復(fù)制？》、5月30日發(fā)布的《英偉達(dá)GH200vsAMDMI300》和6月11日發(fā)布的《AMDMI300：AI芯片十問十答》中提到，MI300全方位追擊英偉達(dá)GraceHopper，但軟件生態(tài)完善或成破局關(guān)資料來源：AMD官網(wǎng)、華泰研究在以AI為首的戰(zhàn)略背景下，此次數(shù)據(jù)中心與人工智能技術(shù)首映會發(fā)布的純GPUMI300X參數(shù)跟英偉達(dá)H100比肩，而CPU+GPU架構(gòu)的MI300A對陣GH200也具一戰(zhàn)之力。本次首映會中AMD展現(xiàn)出的AI能力與我們幾個(gè)前序報(bào)告中提及的大體一致，蓄勢待發(fā)切入AI訓(xùn)練賽道。GPUAIUCPU構(gòu)成。MI300X參數(shù)上值得關(guān)注的亮點(diǎn)包括：1)192GBHBM3內(nèi)存，領(lǐng)先于英偉達(dá)H100NVL的雙卡共188GBHBM3；2)共1530億的晶體管數(shù)量，遠(yuǎn)超H100的800億；3)內(nèi)存帶寬5.2TB/s與英偉達(dá)H100的2-7.2TB/s相近；4)InfinityFabric互聯(lián)帶寬的896GB/s與NVLink的900GB/s也相差無幾；5)比H100高2.4X的HBM密度，以及1.6XHBM帶寬。無可否認(rèn)，MI300X或?qū)⒊蔀榭蛻粼贖100之外有力選擇，或也可對AI芯片定價(jià)造成一定影響。MI300A目前正在送樣，而MI300X則要等到Q3。資料來源：AMD數(shù)據(jù)中心&AI首映式、華泰研究資料來源：AMD數(shù)據(jù)中心&AI首映式、華泰研究AMD也展示了MI300X在400億參數(shù)的Falcon模型上進(jìn)行實(shí)時(shí)推理的能力，公司稱這是此等參數(shù)規(guī)模的大語言模型第一次在單GPU上運(yùn)行。公司表示MI300X還可運(yùn)行規(guī)模更大的模型，比如Meta的OPT模型(660億參數(shù)版本)和LLaMA(650億參數(shù))，如果使用FP16精度在單一MI300X上推理，最高可以運(yùn)行800億參數(shù)的模型。源：AMD官網(wǎng)、華泰研究AMD的MI300A為APU架構(gòu)(Zen4CPU+CNDA3GPU)，與英偉達(dá)的GH200正面交鋒。AMD于2023年1月的CES2023介紹了MI300(我們在前序報(bào)告中介紹的CPU+GPU架構(gòu)，就是現(xiàn)今的MI300A)。它結(jié)合CPU與GPU，聚焦AI和HPC(highperformancecomputing)，對標(biāo)英偉達(dá)GraceHopper(GraceCPU+HopperH100GPU)。性能方面比前序產(chǎn)品MI250高8X，效率也高5X。AMD這次也一改過去GPU產(chǎn)品主要應(yīng)用在圖像處理及AI推理領(lǐng)域的局限。MI300A應(yīng)該是除了谷歌的TPU之外，能與英偉達(dá)在AI訓(xùn)練端上匹敵的產(chǎn)品。MI300A在規(guī)格及性能方面同樣全面追擊英偉達(dá)GraceHopper。資料來源：AMD數(shù)據(jù)中心&AI首映式、華泰研究資料來源：CES2023、華泰研究從封裝方案看，MI300系列都使用了臺積電SoIC(3D)和CoWoS(2.5D)兩種封裝技術(shù)，相比英偉達(dá)的H100和GH200則只采用CoWoS封裝技術(shù)。3DChiplet封裝技術(shù)具有提高性能、降低延遲和功耗的優(yōu)點(diǎn)，也可彌補(bǔ)x86架構(gòu)相較ARM架構(gòu)在AI應(yīng)用中的能耗問題。PU而下層為4個(gè)基于6nm制程的I/O+cachechiplets，芯片兩側(cè)圍繞8個(gè)總計(jì)128GB容量的HBM3高帶寬內(nèi)存。MI300X與MI300A相比，去掉了3個(gè)CPU，換為2個(gè)GPU，并將HBMGBGBDigitimes稱，臺積電確認(rèn)將部分先進(jìn)封裝外包給其他廠商，如通富微電將代工MI300的封裝。資料來源：臺積電官網(wǎng)、華泰研究資料來源：電子工程專輯、華泰研究產(chǎn)品名稱英偉達(dá)A100PCIe|SXMH100PCIe|SXM|NVLAMDMI250XMI300AMI300X發(fā)布時(shí)間2020.62022.32021.112023.12023.6峰值算力(TFLOPS)FP16:312|624FP32:19.5FP64:19.5FP8:3,026|3,958|7,916FP16:1,513|1,979|3,958FP32:51|67|134FP64:51|64|134FP16:383FP32/64:47.9FP32/64Matrix:95.7暫無暫無工藝制程及芯片面積7nm,826mm24nm,814mm26nm,724mm25nm,1017mm25nm,1017mm2晶體管數(shù)量(億)54080058214601530內(nèi)存容量80GBHBM2e80|80|188GBHBM3128GBHBM2e128GBHBM3192GBHBM3內(nèi)存帶寬1,935|2,039GB/s2|3.35TB/s|7.8TB/s3.2TB/s暫無5.2TB/sInterconnect600GB/sNVLinkfor2GPUs64GB/sPCIeGen4600|900|600GB/sNVLink125GB/sPCIeGen5100GB/s約800GB/s896GB/s熱設(shè)計(jì)功耗TDP(W)00|400300-350|700|2x350-400500600暫無資料來源：AMD官網(wǎng)、英偉達(dá)官網(wǎng)、華泰研究MI300A的客戶勞倫斯利弗莫爾國家實(shí)驗(yàn)室在2023年5月22日的ISC2023大會上表示，MI300A統(tǒng)一的內(nèi)存層可簡化編程，降低不同類型計(jì)算和不同內(nèi)存池之間數(shù)據(jù)移動(dòng)的復(fù)雜性，從而減少延遲并提高性能和功效。MI300A將于2023年底搭載在該實(shí)驗(yàn)室，由慧與(HewlettPackardEnterprise)旗下超算公司Cray制造的ElCapitan超級計(jì)算機(jī)上。資料來源：惠與官網(wǎng)、華泰研究除英偉達(dá)和AMD外，還需關(guān)注英特爾和其他AI芯片企業(yè)如Cerebras和SambaNova等的布局，但我們認(rèn)為更重要的競爭對手也許是云計(jì)算巨頭們自己設(shè)計(jì)專用芯片。LisaSu在會上也表示，數(shù)據(jù)中心的AI芯片市場規(guī)模將從今年的300億美元左右，上升至2027年00億美元。英特爾的AI芯片布局包括GPU產(chǎn)品PonteVecchio(今年一季度推出)和下一代Falcon (公司準(zhǔn)備在2025年推出)，另外也包括HabanaGaudi系列。在今年三月，英特爾發(fā)布了加速計(jì)算系統(tǒng)和圖像組的暫代總經(jīng)理JeffMcVeigh的一封信。信中提到公司GPU產(chǎn)品的未來的發(fā)展路徑，包括取消一些原定在未來1至1.5年準(zhǔn)備推出的服務(wù)器GPU產(chǎn)品，如RialtoBridge，但會將更多資源投放到Falcon上。這意味著英特爾在PonteVecchio之后，將相隔最少兩年才會推出新的GPU產(chǎn)品Falcon。1)PonteVecchio：早在2021年發(fā)布，但2023年一季度才推出。PonteVecchioGPU宣布PonteVecchioGPU(XeHPC)的計(jì)算層采用了臺積電N5工藝，基底采用了Intel7 (對標(biāo)臺積電7nm)，XeLinkI/O是臺積電N7，另外RamboCache采用的是Intel7，對比H100和MI300的臺積電N5制程。晶體管數(shù)量超1000億個(gè)，高于H100的800億，但低于MI300X的1530億。內(nèi)存屬HBM2e，落后于H100和MI300X的HBM3。2)FalconShores：FalconShores原定為XPU(即CPU+GPU架構(gòu))產(chǎn)品，并準(zhǔn)備于時(shí)發(fā)布了CPU+GPU架構(gòu)的AI芯片，因此英特爾在此架構(gòu)上屬于掉隊(duì)。目前產(chǎn)品參數(shù)細(xì)節(jié)3)HabanaGaudi：Gaudi是由英特爾在2019年12月以20億美元收購的HabanaLabs，主要設(shè)計(jì)ASIC芯片。第一款Gaudi(TSMCN16)于2019年6月推出，目前已迭代至HabanaGaudi2(TSMCN7)，2022年末已推出。Gaudi2包含2個(gè)MME(MatrixMultiplicationEngine，矩陣乘法引擎)和24個(gè)TPC(TensorProcessorCore，張量處理器)，前者負(fù)責(zé)處理所有可以轉(zhuǎn)換成矩陣運(yùn)算的任務(wù)，例如卷積、GEMM等，后者處理其他類型的運(yùn)算。這兩種計(jì)算引擎可以并行使用，因此兩種類型的運(yùn)算可以重疊進(jìn)行，在Gaudi2的產(chǎn)品技術(shù)手冊中，通過這種重疊進(jìn)行的運(yùn)算解釋了Gaudi2可以有效提高運(yùn)行AI模型的受益于以上架構(gòu)特點(diǎn)，公司表示Gaudi2的基準(zhǔn)測試較A100表現(xiàn)較為優(yōu)秀。推理端，HuggingFace在2023年3月對HabanaGaudi2與A100進(jìn)行了大模型(BLOOMZ，1760億參數(shù))推理的基準(zhǔn)測試。結(jié)果顯示，Gaudi2比A100快1.2倍。訓(xùn)練端，HabanaLab對HabanaGaudi2與A100進(jìn)行了基準(zhǔn)測試，運(yùn)行了兩款芯片在RestNet50和BERT模型訓(xùn)練的測試，稱其訓(xùn)練吞吐量可達(dá)到英偉達(dá)A100GPU的兩倍。然而，想要與英偉達(dá)在訓(xùn)練端匹敵，Gaudi還要面對H100。英偉達(dá)在2022年11月對H100和Gaudi2進(jìn)行了對i快2.4倍。我們需要強(qiáng)調(diào)，ASIC仍然面臨通用性較弱，以及開發(fā)成本較高等局限，大規(guī)模搶占GPU訓(xùn)練市場的可能性目前來說較為有限。資料來源：英特爾官網(wǎng)、華泰研究資料來源：英特爾官網(wǎng)，華泰研究ISC2022FaIconShoresCPU+GPU規(guī)劃在CPU和GPU之間ISC2023FaIconShoresPU將結(jié)合Gaudi的部分IP資料來源：英特爾官網(wǎng)，華泰研究資料來源：Cerebras官網(wǎng)，華泰研究資料來源：SambaNova官網(wǎng)、華泰研究“Big5startups”：AI芯片的另外一類玩家是“Big5startups”，指Graphcore，Habana (已屬英特爾),Cerebras，SambaNova和寒武紀(jì)五家初創(chuàng)芯片企業(yè)，其中寒武紀(jì)為中國企業(yè)。我們認(rèn)為值得關(guān)注Cerabras和SambaNova等對英偉達(dá)發(fā)起的以小博大嘗試：WaferScaleEngine即晶圓級別芯片，晶圓級指的是這款芯片幾乎像一個(gè)完整的晶圓一樣大(晶圓通常為8英寸直徑左右，和WSE2的460cm2在同一個(gè)量級)，一塊WSE-2上有2.6萬億晶體管，核心數(shù)量達(dá)到85萬個(gè)，是A100芯片的123倍。生產(chǎn)這種大型芯片的動(dòng)力是為了更好地部署AI大模型，公司稱由于AI大模型需要在眾多的GPU上分布式訓(xùn)練，數(shù)據(jù)在GPU之間傳輸，浪費(fèi)時(shí)間又增加能耗，所以想讓產(chǎn)品同時(shí)具備百千個(gè)GPU的算力和單一芯片的簡單性。Cerabras把一片WSE2部署在一臺CS-2AI平臺上，一臺CS-2售價(jià)在200萬美元以上，目前已被多個(gè)科研機(jī)構(gòu)(包括NCSA國家超級電腦應(yīng)用中心、LeibnizSupercomputingCentre萊布尼茲超級計(jì)算中心等)和一家美國主要的金融機(jī)構(gòu)用于搭建超算，并部署AI工作。值得關(guān)注的是，WSE-2一度是單片能訓(xùn)練最大參數(shù)量AI模型的芯片：2022年6月Cerabras宣布單片WSE-2可以訓(xùn)練200億參數(shù)的模型。對比現(xiàn)在AMD的MI300X能實(shí)現(xiàn)400-800億模型的推理。2)SambaNova：最新的AI芯片是SN30，采用臺積電N7工藝，有860億晶體管，可編程性強(qiáng)，類似于一款FPGA，但公司稱SN30相比傳統(tǒng)的FPGA配置時(shí)間更快。公司稱基于SN30的DataScale系統(tǒng)(8個(gè)SN30)在訓(xùn)練130億參數(shù)GPT模型時(shí)比DGXA100快6倍。埃森哲已于2023年4月宣布采用SambaNova的AI芯片平臺SN30系統(tǒng)用于生成3)Graphcore：Graphcore最新的AI芯片是BowIPU，類似于一款A(yù)SIC，但公司稱其不SICGPUccGBsBowreAzureAI，也在自研Athena。Graphcore正在努力切入中國市場，為中國大型互聯(lián)網(wǎng)公司為主提供AI硬件。資料來源：Graphcore官網(wǎng)，華泰研究資料來源：Graphcore官網(wǎng)、華泰研究云廠商自研AI芯片或?qū)⑹菍τミ_(dá)最大的競爭對手。云廠商針對TCO(totalcostofownership)，具備較高意愿自研芯片。但除了自身的研發(fā)能力外，其他條件也必須要符合，包括算法要較為成熟和穩(wěn)定、擁有自己的軟件生態(tài)和應(yīng)用，以及足夠的芯片需求去攤分設(shè)計(jì)芯片的固定成本。云廠商自研AI芯片的典型是谷歌TPU(TensorProcessingUnit,從2017年開始已具備訓(xùn)練和推理能力)，目前已發(fā)展到第四代，在架構(gòu)與性能參數(shù)上不斷迭代。我們認(rèn)為谷歌的TPU是少數(shù)能與英偉達(dá)高算力GPU匹敵的AI芯片。谷歌目前通過谷歌云服務(wù)平臺向外部客戶提供TPU的算力租賃服務(wù)，而并未將其作為硬件產(chǎn)品出售。谷歌TPU的應(yīng)用可以分為兩類，分別是對內(nèi)承擔(dān)AI工作負(fù)載和其他應(yīng)用，對外在云服務(wù)上提供給客戶。對內(nèi)：根據(jù)路透社4月5日的報(bào)道，目前谷歌內(nèi)部90%的AI工作負(fù)載都使用TPU，例如在擁有5400億參數(shù)的PaLM模型訓(xùn)練中，就使用了6144個(gè)TPUv4。今年的PaLM2也是采用TPUv4來訓(xùn)練。除AI工作負(fù)載之外，TPU也已廣泛應(yīng)用于翻譯、相冊、搜索、Google助理和Gmail等眾多Google產(chǎn)品。對外：谷歌云服務(wù)同時(shí)提供GPU和TPU給客戶選擇。谷歌云上TPU相比GPU的價(jià)格較有優(yōu)勢，但也在一定程度上受限于生態(tài)圈。谷歌云上A10080GB價(jià)格為3.93美元/芯片/小時(shí)，TPUv4價(jià)格為3.22美元/芯片/小時(shí)。但是，需要考慮谷歌的TPU是專門針對自身的開源深度學(xué)習(xí)框架TensorFlow作ensorFlow在深度學(xué)習(xí)里的生態(tài)也成熟，使用者眾，但其他機(jī)器學(xué)習(xí)庫的開發(fā)者群或也會有自己的偏好。目前使用TPU的客戶包括Midjourney、Cohere、LGAIResearch等AI公司。第一代TPU從2015年開始被使用于谷歌云計(jì)算數(shù)據(jù)中心的機(jī)器學(xué)習(xí)應(yīng)用中，彼時(shí)面向推理端，但從2017年推出第二代開始，TPU已同時(shí)擁有訓(xùn)練和推理能力。第三代TPU于2018年發(fā)布，旨在提高性能和能效以滿足不斷增長的機(jī)器學(xué)習(xí)任務(wù)需求，但其應(yīng)用范圍仍然會在一定程度上受限于谷歌的生態(tài)系統(tǒng)和軟件包。矩陣乘法是Transformer模型中最為關(guān)鍵的計(jì)算步驟之一，而TPU針對矩陣乘法進(jìn)行了專門的優(yōu)化，采用脈動(dòng)列陣，對大規(guī)模矩ormer時(shí)節(jié)約訓(xùn)練成本。TPUv3TPUv3TPUv2TPU芯片包含2個(gè)TensorCore；TensorCoreMXU位和1個(gè)標(biāo)每每個(gè)TPUv3芯片包含2個(gè)TensorCore；每個(gè)TensorCore都有2個(gè)MXU、1個(gè)矢量單元和1個(gè)標(biāo)量單位TPUv4TPUv芯片包含2個(gè)TensorCore；個(gè)標(biāo)量單位資料來源：谷歌官網(wǎng)、華泰研究發(fā)布年份TPUv12016TPUv22017TPUv32018TPUv42021每顆芯片的峰值計(jì)算能力(TFLOPS)92(int8)46(bf16)123(bf16)275(bf16orint8)HBM2容量與帶寬28GiB,34GB/s32GiB,700GB/s32GiB,900GB/s32GiB,1200GB/s最小/平均/最大測量功耗(W)--123/220/26290/170/192TPUPod規(guī)模(芯片數(shù)量)-25610244096互連拓?fù)浣Y(jié)構(gòu)-2Dtorus2Dtorus3Dtorus每個(gè)Pod的峰值計(jì)算能力(PFLOPS)-12(bf16)126(bf16)1100(bf16orint8)每個(gè)Pod的All-reduce帶寬(TB/s)-203401126.4每個(gè)Pod的切分帶寬(TB/s)-26.424目標(biāo)應(yīng)用場景推理端訓(xùn)練&推理端訓(xùn)練&推理端訓(xùn)練&推理端資料來源：谷歌官網(wǎng)、nextplatform官網(wǎng)、華泰研究微軟早在2010年開始希望自研AI硬件，當(dāng)時(shí)以外采FPGA、自己搭建運(yùn)算平臺為主要目標(biāo)。FPGA的方案最早由微軟的計(jì)算機(jī)架構(gòu)研究員、FPGA專家DougBurger提出。根據(jù)Shilicon，微軟自研FPGA的第一階段采用了單板多FPGA的方案，即每塊加速卡上集成6片XilinxVirtix-6FPGA，各FPGA之間通過自身的通用I/O端口相連和通信，但整體穩(wěn)定性存在較多問題，若一塊FPGA出問題，整個(gè)板卡都會出問題。第二階段從單板多FPGA，變成了單板單FPGA。但是，這種方案為實(shí)現(xiàn)FPGA之間的低延時(shí)通信，F(xiàn)PGA之間的互聯(lián)需要通過兩類特殊定制的線纜，成本高昂且實(shí)現(xiàn)難度較高。第三階段為解決互聯(lián)問題，取消了FPGA互連的網(wǎng)絡(luò)，直接將FPGA與數(shù)據(jù)中心網(wǎng)絡(luò)互連。到此為止，微軟的所有努力都是使用外采的FPGA產(chǎn)品，自己搭建FPGA的AI平臺。AzureAITom’sHardware，芯片的代號為Athena，據(jù)Tom’sHardware2023年4月18日消息，Athena使用臺積電5nm制程，專門為大語言模型訓(xùn)練設(shè)計(jì)。據(jù)彭博社5月4日報(bào)道，微軟將注資AMD并開展合作，目前合作研發(fā)的微軟AI芯片即為Athena，希望為ChatGPT等大語言模型的訓(xùn)練及推理提供英偉達(dá)芯片以外的替代方案。隨后5月5日，微軟發(fā)言人FrankShaw表示AMD參與“雅典娜”項(xiàng)目的報(bào)道不實(shí)，但并未明確微軟與AMD的合作關(guān)系。我們認(rèn)為，大型云計(jì)算供應(yīng)商擁有財(cái)力物力，面對較高的外購成本和較有限的靈活性，選擇自己設(shè)計(jì)AI芯片并非意外，且微軟與OpenAI的合作中用到大量的英偉達(dá)芯片。我們認(rèn)為云計(jì)算大廠希望出現(xiàn)一個(gè)二供的選擇也很理所當(dāng)然。AWS分別在2019和2020年推出AI模型推理端芯片Inferentia以及訓(xùn)練端芯片Trainium，并整合到其AWS中。2022年正式推出的Trn1AI平臺可以部署最多16個(gè)Trainium，可在左右的AI模型訓(xùn)練成本。EPYCCPU員發(fā)布，性能重磅升級AMD在會上強(qiáng)調(diào)了CPU在AI領(lǐng)域的重要性，稱目前絕大多數(shù)AI工作負(fù)載仍以CPU運(yùn)行，并正式推出了行業(yè)首款x86云原生Bergamo及采用3DV-Cache技術(shù)的Genoa-X，并與Intel云端最新款CPU4thgenXeon(也就是SapphireRapids)進(jìn)行對比。Bergamo基于Zen4c架構(gòu)，內(nèi)核+L2區(qū)域合計(jì)2.48平方毫米，比Zen4的3.84平方毫米減少了35%，采用了8個(gè)16核的CCD，內(nèi)核數(shù)最高可至128個(gè)，可提高多線程能力，并對標(biāo)其他多核數(shù)的服務(wù)器產(chǎn)品如英特爾下一代144核的SierraForest。Genoa-X內(nèi)核數(shù)最高96個(gè)，采用1.3GB的L3緩存，并集成了3DV-Cache技術(shù)，適用于緩存需求較高的技術(shù)計(jì)算。二者作為第四代EPYC家族成員均采用臺積電5nm制程，對比SapphireRapids采用的Intel7節(jié)點(diǎn)(10nm相當(dāng)于臺積電7nm)尚處領(lǐng)先。AMD第四代EPYCCPU均采用臺積電5nm制程，目前仍領(lǐng)先于英特爾。但I(xiàn)ntel在先進(jìn)制程的追趕方案比較激進(jìn)，似有正在逐步接近AMD制程的可能。目前，Intel在服務(wù)器領(lǐng)域最新產(chǎn)品SapphireRapids采用的Intel7節(jié)點(diǎn)(10nm相當(dāng)于臺積電7nm)。但根據(jù)Intel技術(shù)路線圖，如果英特爾按照“四年五節(jié)點(diǎn)”計(jì)劃順利推進(jìn)，則AMD依賴臺積電所獲得的制程優(yōu)勢或?qū)⒖s小，甚至在服務(wù)器端2025年可能出現(xiàn)英特爾超過臺積電的情況。但英特爾究竟能否在2025年或以前順利推進(jìn)制程計(jì)劃還需進(jìn)一步觀察，2024年Intel3的落地情況將是關(guān)鍵一步。資料來源：CES2023、華泰研究資料來源：AMD官網(wǎng)、華泰研究資料來源：AMD官網(wǎng)、華泰研究*AMDZen62nmAMDPYCTurinAMDEPYCVeniceAMDEPYCGenoa&GenoaXEPYCBergamoEPYCSienna*AMDZen*AMDZen62nmAMDPYCTurinAMDEPYCVeniceAMDEPYCGenoa&GenoaXEPYCBergamoEPYCSienna*AMDZen53/4nm7nm+AMDZen45nm英特爾*SierraForest*GraniteRapidsnmAMDZen27nmCooperLake(2020)2019資料來源：CES2023、華泰研究T2nm3nm5nm7nmnmnmnm制程M英特爾*CIearwaterForest*Diamond制程M**InteI.8nmAMDEPYCRomeP127410nmAMDZen37nm英特爾BroadweIIEP/EX(2014-2015)SkyIake(2017)英特爾BroadweIIEP/EX(2014-2015)SkyIake(2017)AMDiIan英特爾IceLake-SP(2021)AMD服務(wù)器端制程首度超英特AMAMD服務(wù)器端制程首度超英特AMDEPYCNapIesAMDZen1nmP1272nmKabyLakeDT(2017)CoffeeLakeE(2019)CascadeLakeSP(2019)間2015201620172018201420間2015201620172018201420212022202320242025資料來源：AMD官網(wǎng)、英特爾官網(wǎng)、華泰研究系列名稱VeniceTurinSienaBergamoGenoa-XGenoaMilan-XMilanRomeNaples系列編號CKCKCCCCCCCC發(fā)布年份2025+202420232023202320222022202120192017CPU架構(gòu)Zen*Zen5ZenZenCZenV-CacheZenZen3Zen3ZenZen1制程nmTSMC5nmTSMC4nmTSMC5nmTSMC5nmTSMCnmTSMCnmTSMCnmTSMC插座PSP6SP5SP5SP5SP3SP3SP3SP3插槽LGA6096AAAAAAAA最大核心數(shù)4*4664442最大線程數(shù)*256*2564最大三級緩存4MBMB256MB256MB4MBChiplet設(shè)計(jì)8CCD'sCXCCDCCDacheXCCDCCD3DV-CachesXCCDsCCDssCCDCCD's(2CCX's/CCD)內(nèi)存支持DDR*DDRDDR*DDRDDRDDRDDRDDRDDR存儲器通道TBD12ChannelsPlslsPCIeGen支持TBDTBDnn最大熱設(shè)計(jì)功耗TBD480WPWW0WPW400W400W280W280W280W200W*注：具體參數(shù)官方尚未確認(rèn)資料來源：Wccftech、華泰研究最后，AMD還宣布了與AWS、Oracle、Meta及微軟在第四代EPYCCPU產(chǎn)品上的合作關(guān)系。但并沒有宣布MI300系列的合作客戶。U資料來源：CES2023、華泰研究提示技術(shù)落地緩慢：公司的生產(chǎn)技術(shù)推進(jìn)和產(chǎn)品落地可能達(dá)不到預(yù)期，或影響營收及利潤。中美局勢可能升級：中國是美國半導(dǎo)體產(chǎn)業(yè)的重要市場之一，如果中美局勢再次升級，將對宏觀因素和板塊產(chǎn)品銷售產(chǎn)生影響。芯片需求不及預(yù)期：市場的芯片需求規(guī)?？赡懿患邦A(yù)期，影響行業(yè)營收及利潤。宏觀經(jīng)濟(jì)不確定性：宏觀經(jīng)濟(jì)的下行壓力和不確定性可能影響公司主營業(yè)務(wù)及合作進(jìn)展。相關(guān)信息數(shù)據(jù)來自于相關(guān)公司的公開的客觀信息，不代表對相關(guān)公司的研究覆蓋和推薦。分析師聲明本人，何翩翩，茲證明本報(bào)告所表達(dá)的觀點(diǎn)準(zhǔn)確地反映了分析師對標(biāo)的證券或發(fā)行人的個(gè)人意見；彼以往、現(xiàn)在或未來并無就其研究報(bào)告所提供的具體建議或所表迖的意見直接或間接收取任何報(bào)酬。一般聲明及披露本報(bào)告由華泰證券股份有限公司(已具備中國證監(jiān)會批準(zhǔn)的證券投資咨詢業(yè)務(wù)資格，以下簡稱“本公司”)制作。本報(bào)告所載資料是供接收人的嚴(yán)格保密資料。本報(bào)告供本公司及其客戶和其關(guān)聯(lián)機(jī)構(gòu)使用。本公司不因接收人收到本報(bào)告而視其為客戶。本報(bào)告基于本公司認(rèn)為可靠的、已公開的信息編制，但本公司及其關(guān)聯(lián)機(jī)構(gòu)(以下統(tǒng)稱為“華泰”)對該等信息的準(zhǔn)確性及完整性不作任何保證。本報(bào)告所載的意見、評估及預(yù)測反映報(bào)告發(fā)布當(dāng)日的觀點(diǎn)和判斷。在不同時(shí)期，華泰可能會發(fā)出與本報(bào)告所載意見、評估及預(yù)測不一致的研究報(bào)告。同時(shí)，本報(bào)告所指的證券或投資標(biāo)的的價(jià)格、價(jià)值及投資收入可能會波動(dòng)。以往表現(xiàn)并不能指引未來，未來回報(bào)并不能得到保證，并存在損失本金的可能。華泰不保證本報(bào)告所含信息保持在最新狀態(tài)。華泰對本報(bào)告所含信息可在不發(fā)出通知的情形下做出修改，投資者應(yīng)當(dāng)自行關(guān)注相應(yīng)的更新或修改。本公司不是FINRA的注冊會員，其研究分析師亦沒有注冊為FINRA的研究分析師/不具有FINRA分析師的注冊資華泰力求報(bào)告內(nèi)容客觀、公正，但本報(bào)告所載的觀點(diǎn)、結(jié)論和建議供參考，不構(gòu)成購買或出售所述證券的要約或招攬。該等觀點(diǎn)、建議并未考慮到個(gè)別投資者的具體投資目的、財(cái)務(wù)狀況以及特定需求，在任何時(shí)候均不構(gòu)成對客戶私人投資建議。投資者應(yīng)當(dāng)充分考慮自身特定狀況，并完整理解和使用本報(bào)告內(nèi)容，不應(yīng)視本報(bào)告為做出投資決策的唯一因素。對依據(jù)或者使用本報(bào)告所造成的一切后果，華泰及作者均不承擔(dān)任何法律責(zé)任。任何形式的分享證券投資收益或者分擔(dān)證券投資損失的書面或口頭承諾均為無效。除非另行說明，本報(bào)告中所引用的關(guān)于業(yè)績的數(shù)據(jù)代表過往表現(xiàn)，過往的業(yè)績表現(xiàn)不應(yīng)作為日后回報(bào)的預(yù)示。華泰不承諾也不保證任何預(yù)示的回報(bào)會得以實(shí)現(xiàn)，分析中所做的預(yù)測可能是基于相應(yīng)的假設(shè)，任何假設(shè)的變化可能會顯著影響所預(yù)測的回報(bào)。華泰及作者在自身所知情的范圍內(nèi)，與本報(bào)告所指的證券或投資標(biāo)的不存在法律禁止的利害關(guān)系。在法律許可的情況下，華泰可能會持有報(bào)告中提到的公司所發(fā)行的證券頭寸并進(jìn)行交易，為該公司提供投資銀行、財(cái)務(wù)顧問或者金融產(chǎn)品等相關(guān)服務(wù)或向該公司招攬業(yè)務(wù)。華泰的銷售人員、交易人員或其他專業(yè)人士可能會依據(jù)不同假設(shè)和標(biāo)準(zhǔn)、采用不同的分析方法而口頭或書面發(fā)表與本報(bào)告意見及建議不一致的市場評論和/或交易觀點(diǎn)。華泰沒有將此意見及建議向報(bào)告所有接收者進(jìn)行更新的義務(wù)。華泰的資產(chǎn)管理部門、自營部門以及其他投資業(yè)務(wù)部門可能獨(dú)立做出與本報(bào)告中的意見或建議不一致的投資決策。投資者應(yīng)當(dāng)考慮到華泰及/或其相關(guān)人員可能存在影響本報(bào)告觀點(diǎn)客觀性的潛在利益沖突。投資者請勿將本報(bào)告視為投資或其他決定的唯一信賴依據(jù)。有關(guān)該方面的具體披露請參照本報(bào)告尾部。本報(bào)告并非意圖發(fā)送、發(fā)布給在當(dāng)?shù)胤苫虮O(jiān)管規(guī)則下不允許向其發(fā)送、發(fā)布的機(jī)構(gòu)或人員，也并非意圖發(fā)送、發(fā)布給因可得到、使用本報(bào)告的行為而使華泰違反或受制于當(dāng)?shù)胤苫虮O(jiān)管規(guī)則的機(jī)構(gòu)或人員。本報(bào)告版權(quán)為本公司所有。未經(jīng)本公司書面許可，任何機(jī)構(gòu)或個(gè)人不得以翻版、復(fù)制、發(fā)表、引用或再次分發(fā)他人(無論整份或部分)等任何形式侵犯本公司版權(quán)。如征得本公司同意進(jìn)行引用、刊發(fā)的，需在允許的范圍內(nèi)使用，并需在使用前獲取獨(dú)立的法律意見，以確定該引用、刊發(fā)符合當(dāng)?shù)剡m用法規(guī)的要求，同時(shí)注明出處為“華泰證券研究所”，且不得對本報(bào)告進(jìn)行任何有悖原意的引用、刪節(jié)和修改。本公司保留追究相關(guān)責(zé)任的權(quán)利。所有本報(bào)告中使用的商標(biāo)、

人人文庫> 全部分類> 行業(yè)資料 > 管理策劃

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

電子-AMD正式宣戰(zhàn)誰來為MI300站臺

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔