GPU行業(yè)研究報告:AI與自動駕駛打造GPU強力增長引擎_第1頁
GPU行業(yè)研究報告:AI與自動駕駛打造GPU強力增長引擎_第2頁
GPU行業(yè)研究報告:AI與自動駕駛打造GPU強力增長引擎_第3頁
GPU行業(yè)研究報告:AI與自動駕駛打造GPU強力增長引擎_第4頁
GPU行業(yè)研究報告:AI與自動駕駛打造GPU強力增長引擎_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

GPU行業(yè)研究報告:AI與自動駕駛打造GPU強力增長引擎一、數(shù)字經(jīng)濟、AI、智能駕駛視角下看算力需求1.1演變趨勢:從通用計算到智能計算,從分散獨立到云網(wǎng)邊協(xié)同宏觀角度下,數(shù)字經(jīng)濟建設及人工智能發(fā)展掀起了新一代算力革命,算力基建成為國家數(shù)字化轉型和經(jīng)濟發(fā)展的重要競爭策略。從1964年戈登·摩爾提出著名的摩爾定律后,CPU性能的發(fā)展便遵循這一規(guī)律,但目前數(shù)字經(jīng)濟與人工智能的高速發(fā)展,基于CPU的摩爾定律已經(jīng)失效,如何突破“算力墻”,滿足新時代各種算力需求,成為各國主要的競爭焦點。微觀角度下,算力形式逐漸由通用計算過渡為高性能計算,從分散獨立的端計算向云網(wǎng)邊協(xié)同計算演變。當前,常見的高性能計算可以分為科學、工程計算與智能計算;算力資源服務可以分為云計算、混合計算及算力網(wǎng)絡。1)科學、工程計算。這類計算主要利用超級計算機實現(xiàn)并行計算,是一種算法優(yōu)化和硬件集群結合的計算模式。高性能計算由于具有較高的性能、效率及計算精度,可以廣泛的用于大規(guī)模復雜科學計算,比如工程模擬仿真、航空航天、地震預測等,同時也能支持人工智能、智慧城市等新興領域。2)智能計算。智能計算以智能芯片為計算算力底座,可以較好的滿足AI領域模型訓練所需的智能運算需求,因此用于支持專一的人工智能應用場景?;谥悄苡嬎愦罱ǖ娜斯ぶ悄苡嬎阒行?,通過將各種交叉技術集成,廣泛的應用于智能語音處理、機器視覺、自然語言(文本)處理等不用的領域。3)云計算、混合計算、算力網(wǎng)絡屬于新型算力資源服務模式。云計算通過WorldWideWeb(萬維網(wǎng))向用戶提供包括服務器、存儲、數(shù)據(jù)庫等在內的各項計算服務,因為萬維網(wǎng)以網(wǎng)頁為核心,因此云計算主要面向消費互聯(lián)網(wǎng);而算力網(wǎng)絡主要以算法及算力協(xié)同為核心,通過協(xié)同聯(lián)動云計算、邊緣計算、端計算及通信網(wǎng)絡,能夠實現(xiàn)對復雜計算任務的分解及高效調度。1.2戰(zhàn)略地位:算力屬于基礎設施建設,是智能時代發(fā)展的物理承載整體架構層面,算法、算力及數(shù)據(jù)是實現(xiàn)人工智能的三要素,其中算力是構筑智能時代的物理基礎。人工智能離不開算力、算法及數(shù)據(jù),其發(fā)展需要在建立在龐大的數(shù)據(jù)集、優(yōu)秀的深度學習算法及強大的計算能力基礎之上,而算力作為底層基礎設施,是開啟智能時代的關鍵因素,其核心于智能芯片的技術進步。實際發(fā)展層面,全球數(shù)據(jù)量正以指數(shù)級速度增長,“算力荒”問題日益凸顯。據(jù)IDC數(shù)據(jù)顯示,2018年至2019年全球大數(shù)據(jù)存儲量分別為33ZB、41ZB,而2020年全球數(shù)據(jù)量達到了60ZB,同比增長46%;龐大的數(shù)據(jù)集必然依賴強大的數(shù)據(jù)處理能力,進而要求宏觀算力快速發(fā)展,NTCysd預計2021-2028年全球算力規(guī)模將以超過40%的速度增長,2028年將達到7510EFlops。1.3應用驅動:數(shù)字經(jīng)濟搭建整體框架,AI大模型、智能駕駛持續(xù)拉升市場方面,數(shù)字經(jīng)濟建設、AI大模型、智能駕駛成為開啟智能時代的確定性研究方向。其中,數(shù)字經(jīng)濟建設搭建數(shù)字化布局整體框架,并提供政策支持;AI大模型及智能駕駛率先落地,成為拉動算力需求的核心驅動力。1)全球正加快數(shù)字經(jīng)濟建設,算力發(fā)展成為主要戰(zhàn)略競爭點之一。目前,全球正處于經(jīng)濟數(shù)字化轉型階段,據(jù)中國信通院發(fā)布的《全球數(shù)字經(jīng)濟白皮書》顯示,數(shù)字經(jīng)濟已經(jīng)成為各國發(fā)展GDP的核心戰(zhàn)略,具體數(shù)據(jù)來看,2020年全球47個國家數(shù)字經(jīng)濟增加值達到32.6萬億美元,占GDP比重為43.7%,同比名義增長3%。此外,數(shù)字經(jīng)濟已經(jīng)成為我國穩(wěn)增長促轉型的重要引擎,出臺多項政策支持算力發(fā)展,截至2022年我國數(shù)字經(jīng)濟規(guī)模已達50.2億元,數(shù)字基礎設施規(guī)模能級大幅提升,在用數(shù)據(jù)中心算例總規(guī)模超180EFlops,位居世界第二。2)AI大模型的快速擴張是算力需求的關鍵驅動力。由于AI大模型通常需要在大規(guī)模無標注的數(shù)據(jù)集上進行重復的訓練,因此相比于傳統(tǒng)的小模型在應用場景上更具有普適性。但與此同時,數(shù)據(jù)集的快速增長以及模型不斷迭代優(yōu)化使得AI大模型尺寸快速膨脹,GPU算力也遵循著同樣的增長規(guī)律。據(jù)

OpenAI

數(shù)據(jù)顯示,GPT-3175B相比于GPT-3Small,總計算力(Flops)及參數(shù)量增長了約1400倍;而據(jù)Semianalysis最新分析指出,GPT-4模型尺寸進一步擴張,在其120層模型中總共包含了1.8萬億參數(shù),約GPT-3175B參數(shù)量的10倍。3)汽車智能化功能升級,智能駕駛將貢獻算力需求的全新增量。汽車正逐漸步入智能化時代,傳感器數(shù)量的增加及交互能力的提升,將帶來數(shù)據(jù)的幾何式增長,這必然要求車端擁有強大的數(shù)據(jù)分析和處理能力。據(jù)華經(jīng)產(chǎn)業(yè)研究院預測,2025年我國L3、L5級別智能駕駛滲透率將分別達到14%、1%,到2030年兩者將分別達到40%、12%。而L3級別及以上智能駕駛汽車,不僅需要處理人機交互等指令,還需要與外界環(huán)境、云數(shù)據(jù)中心進行交互。據(jù)分析,L3、L5級別智能駕駛算力需求將分別達到30-60TOPS、100TOPS,未來隨著智能駕駛汽車滲透率的提升,將會持續(xù)帶動智能駕駛市場整體算力需求的增加,預計2025、2030年智能駕駛市場算力需求達到1.9萬、19萬TOPS,2021-2025CAGR達112%。1.4優(yōu)化路徑:提升芯片性能及創(chuàng)新存算架構是研究主流系統(tǒng)算力主要受處理器性能與數(shù)據(jù)傳輸能力影響,當數(shù)據(jù)處理能力與傳輸能力不匹配時,計算能力由兩者中較低者決定。處理性能主要與指令復雜程度、頻率、并行度有關,一般來說,指令越復雜、計算頻率越高、并行程度越大,處理器性能就越好;而數(shù)據(jù)傳輸?shù)哪芰εc處理器內部存算架構有關,在計算機體系里,根據(jù)訪問延遲及容量大小將存儲結構分為寄存器、緩存、內存、外存與遠程存儲,而這種存算分離的架構形式,通常使得數(shù)據(jù)傳輸成為限制系統(tǒng)算力的因素。1)指令的復雜程度。指令系統(tǒng)是連接計算機軟件和硬件的橋梁,一般來說,指令的復雜程度于處理器運算性能有關,指令越復雜,其性能就越好。典型的處理器平臺大致可以分為CPU、協(xié)處理器、GPU、FPGA、DSA、ASIC,其中CPU為通用軟件平臺,支持包括整形計算類、浮點類、數(shù)據(jù)傳輸類、控制類等在內的通用指令,而其余處理器為硬件加速平臺,用于執(zhí)行各類復雜指令。2)計算頻率。一般來說,處理器計算的速度于頻率呈現(xiàn)正相關關系,計算頻率越高,速度越快。以CPU為例,執(zhí)行一條指令需要依次經(jīng)過取址、譯碼、地址生成、取操作數(shù)、執(zhí)行、寫回階段,每個階段需要消耗一個時鐘周期,上個階段執(zhí)行完畢后才會進入到下個階段。在此基礎上,時鐘周期的設定便取決于各階段用時最大者,而提高時鐘頻率大致有兩種方法:一是通過超流水線架構提高處理器主頻,通過增加多級流水從而細化每個階段;一是通過優(yōu)化工藝技術降低各階段邏輯門處理延遲。3)并行度。并行度是指在計算機體系中,指令并行執(zhí)行的最大數(shù)目,并行度越大,意味著系統(tǒng)能夠同時處理更多指令,其運算速度越快。常用的并行設計包括指令并行、處理器核并行、芯片級并行及服務器并行。4)數(shù)據(jù)傳輸能力。數(shù)據(jù)傳輸能力并不直接影響處理器性能,但復雜的存儲分層結構會使得系統(tǒng)功耗、延遲及訪問寬帶增加,從而限制算力的提升。優(yōu)秀的計算系統(tǒng)應使得處理器性能與數(shù)據(jù)傳輸能力盡可能匹配,以減少“木桶效應”對于算力的限制。目前,數(shù)據(jù)傳輸能力的優(yōu)化方向主要包括近存計算及存算一體化架構。二、算力需求視角下看GPU發(fā)展的必然趨勢2.1性能:GPU技術發(fā)展迅速,高并發(fā)計算能力契合算力需求1)橫向比較,GPU較CPU而言,更符合深度學習算法的高度并行計算需求。一方面,CPU性能提升已達到瓶頸,與高速增長的算力需求脫節(jié)。CPU作為第一代高效計算平臺,目前無論從不管是從架構/微架構設計、工藝、多核并行等各種角度出發(fā),其性能都難以提升,2016年之后,CPU性能每年提升僅3.5%。隨著數(shù)字經(jīng)濟、AI大模型、智能駕駛等算力需求的推動,CPU性能已無法滿足上層軟件算力需求。另一方面,GPU較CPU具備更多的算術邏輯單元、控制單元與內存緩存,其SIMD架構與深度學習算法需求更吻合。CPU為線程級并行的MIMD架構,其核心少但性能強,可以用來處理復雜的控制邏輯、預測分支、亂序執(zhí)行、多級流水等,而GPU為數(shù)據(jù)級并行的SIMD架構,其核心多但性能弱,用于優(yōu)化具有簡單控制邏輯的數(shù)據(jù)并行任務。而神經(jīng)網(wǎng)絡算法數(shù)據(jù)要求量大,并行計算程度高,與GPU高并行計算能力、高內存帶寬相適配。神經(jīng)網(wǎng)絡的訓練環(huán)節(jié)需要處理大量的數(shù)據(jù),并且其結構非常統(tǒng)一,每一層成千上萬個相同的人工神經(jīng)元都在執(zhí)行相同的計算操作,具有高效并行計算能力與內存帶寬的GPU,不僅能夠更快的完成數(shù)據(jù)的讀取與寫入,還能實行多條指令并行計算。2)縱向比較,GPU架構技術仍在演進,其高性能計算與智能計算能力不斷優(yōu)化GPU最早作為顯卡的核心零部件,專用于圖形渲染及處理。GPU(GraphicProcessingUnit),即圖形處理單元,英偉達公司在1999年發(fā)布GeForce256圖形處理芯片時首先提出GPU的概念,GeForce256作為專門負責計算機圖形顯示的計算機零部件,通過T&L及其他多項技術引擎,減少了顯卡對于CPU的依賴。GPU組成中通常包含一個顯存、一個主頻、一個VRAM、一個顯存速率以及一個顯存位寬。GPU架構迭代頻繁,已從從專用圖形處理器發(fā)展為高效的通用計算平臺,向外拓展人工智能計算及高性能計算領域。當GPU引入可編程特性,將圖形硬件的流水線作為流處理器來解釋,基于GPU的通用計算也開始出現(xiàn),即GPGPU。英偉達產(chǎn)品在2008-2022年內,架構迭代調整了8次,其在2010年推出具有完整GPU架構的Fermi,在2017年Volta架構中首次推出Tensor內核以支持深度學習算法,而目前Hopper架構的GPU已廣泛的應用于AI大模型訓練與推理環(huán)節(jié)。英偉達Tensor核心持續(xù)升級,智能計算及高性能計算能力得到不斷優(yōu)化,已成為AI模型推理的關鍵張量核心。英偉達Tensor核心最初在Volta架構上推出,在后續(xù)推出的Turing、Ampere、Hopper上不斷優(yōu)化,Tensor核心能夠加速矩陣運算,大幅增加浮點計算吞吐量。具體來看,擁有Tensor核心的V100相比于P100其混合精度運算速度提高了9倍,而英偉達推出的第四代Tensor核心其FP8性能較AmpereFP6提高16倍,而在AI大型語言模型推理方面,性能比Ampere高出30倍。2.2靈活性:GPU可編程優(yōu)勢明顯,通用靈活性適配AI應用端拓展GPU擁有相對較優(yōu)的性能及靈活性。常用的計算平臺包括CPU、FPGA、GPU、DSA以及ASIC,一般情況下隨著芯片性能的提升,其靈活性會逐漸下降。CPU為軟件加速平臺,通過標準化的指令集使得CPU平臺的硬件實現(xiàn)與軟件編程完全解耦,靈活性最高;ASIC為專用集成電路,是一種為專門目的而設計的集成電路,不支持硬件編程,靈活性最差。1)ASIC、DSA設計成本高、周期長,其靈活性難以滿足應用層及宏架構趨勢的需求。DSA與ASIC屬于專用領域定制類型芯片,其中ASIC屬于完全定制性化芯片,其晶體管根據(jù)算法定制,流片量產(chǎn)后算法便不可編輯;DSA在ASIC基礎上回調,保留一定編程能力,但其功能覆蓋的領域成具有較大的局限性。ASIC與DSA的通用性是限制其應用的關鍵因素。首先,通用性限制了ASIC與DSA的應用領域,與芯片高企的研發(fā)成本相矛盾。據(jù)估計,5nm制程的芯片研發(fā)成本已經(jīng)超5億美元,高企的研發(fā)成本需要具有充分量產(chǎn)能力芯片來攤薄,而ASIC與DSA芯片均為面向特定領域專用芯片,不同領域則面臨重新設計的問題,尤其是在AI應用領域,ASIC與DSA的研發(fā)周期和成本并不能滿足其AI應用及算法迭代優(yōu)化的速度。其次,專用性使得ASIC與DSA芯片與算力融合的宏架構趨勢相矛盾。數(shù)字經(jīng)濟的建設需用云、網(wǎng)、邊各部分資源協(xié)同融合,從而組成龐大的算力網(wǎng)絡,然而不同計算引擎、平臺、設備以及數(shù)據(jù)中心的芯片應用場景具有較大的差異,這使得DSA、ASIC芯片難以成為數(shù)字經(jīng)濟時代的整體解決方案。2)CUDA、OpenCL技術持續(xù)為GPU賦能,GPU性能提升潛力大、應用拓展力強。一方面,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論