通過NPU和異構(gòu)計(jì)算開啟終端側(cè)生成式AI_第1頁
通過NPU和異構(gòu)計(jì)算開啟終端側(cè)生成式AI_第2頁
通過NPU和異構(gòu)計(jì)算開啟終端側(cè)生成式AI_第3頁
通過NPU和異構(gòu)計(jì)算開啟終端側(cè)生成式AI_第4頁
通過NPU和異構(gòu)計(jì)算開啟終端側(cè)生成式AI_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2024年3月2024年3月開啟終端側(cè)生成式Al目錄 32處理器集成于SoC中的諸多優(yōu)勢(shì) 33生成式Al需要多樣化的處理器 4 55高通NPU:以低功耗實(shí)現(xiàn)持久穩(wěn)定的高性能Al 66異構(gòu)計(jì)算:利用全部處理器支持生成式A! 97高通Al引擎:面向生成式Al的業(yè)界領(lǐng)先異構(gòu)計(jì)算 17.2高通Al異構(gòu)計(jì)算的系統(tǒng)級(jí)解決方案 7.3案例研究:使用異構(gòu)計(jì)算的虛擬化身Al個(gè)人助手 8驍龍平臺(tái)領(lǐng)先的Al性能 8.1第三代驍龍8的領(lǐng)先智能手機(jī)上Al性能 9通過高通軟件棧訪問Al處理器 10總結(jié) 3生成式Al變革已經(jīng)到來。隨著生成式Al用例需求在有著多樣化要求和計(jì)算需求的垂直領(lǐng)域不斷增加,我們顯然需要專為Al定制設(shè)計(jì)的全新計(jì)算架構(gòu)。這首先需要一個(gè)面向生成式Al全新設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)處理器(NPU),同時(shí)要利用異構(gòu)處理器組合,比如中央處者。利用高通Al軟件棧(QualcommAlStack),開發(fā)(GPU)和神經(jīng)網(wǎng)絡(luò)處理器(NPU)。芯片設(shè)計(jì)上的這種集成具有諸多優(yōu)勢(shì),包括改善峰值性能、能效、單位面積性能、芯片尺寸和成本。4例如,在智能手機(jī)或筆記本電腦內(nèi)安裝分立的GPU或NPU會(huì)占用更多電路板空間,需要使用更多能源,從而影響工業(yè)設(shè)計(jì)和電池尺寸。此外,輸能降低、能耗增加,以及采用更大電路板帶來的額外成機(jī)、筆記本電腦和其他需要輕巧工業(yè)設(shè)計(jì),具有嚴(yán)格功率和散熱限制的便攜式傳感談到Al,集成專用處理器并不新鮮。智能手機(jī)SoC自多年前就開始利用NPU改善日常用戶體驗(yàn),賦能出色影像和音頻,以及增強(qiáng)的連接和安全。不同之處在于,生成式Al用例需求在有著多1.按需型用例由用戶觸發(fā),需要立即響應(yīng),包括照片/視頻拍攝、圖像生成/編輯成、錄音轉(zhuǎn)錄/摘要和文本(電子郵件、文檔等)創(chuàng)作/摘要。這包括用戶用手機(jī)輸入文2.持續(xù)型用例運(yùn)行時(shí)間較長(zhǎng),包括語音識(shí)別、游戲和視頻的超級(jí)分辨率、視頻通話的音頻/53.泛在型用例在后臺(tái)持續(xù)運(yùn)行,包括始終開啟的預(yù)測(cè)性Al助手、基于情境感知的Al個(gè)性這些Al用例面臨兩大共同的關(guān)鍵挑戰(zhàn)。第一,在功耗和散熱受限的終端上使用通用CPU和GPU服務(wù)平臺(tái)的不同需求,難以滿足這些Al用例嚴(yán)苛且多樣化的計(jì)算需求。第二,這些Al用例在不構(gòu)能夠發(fā)揮每個(gè)處理器的優(yōu)勢(shì),例如以Al為中心定制設(shè)計(jì)的NPU,以及CPU和GPU。CPU和GPU是通用處理器。它們?yōu)殪`活性而設(shè)作系統(tǒng)、游戲和其他應(yīng)用等。而這些“本職工作”同時(shí)也會(huì)隨時(shí)限制他們運(yùn)行Al工作負(fù)載的可用通過使用合適的處理器,異構(gòu)計(jì)算能夠?qū)崿F(xiàn)最佳應(yīng)用性能、能效和電池續(xù)航,賦能全新增強(qiáng)的生成式Al體驗(yàn)。NPU專為實(shí)現(xiàn)以低功耗加速Al推理而全新打造,并隨著新Al用例、模型和需求的發(fā)展不斷演進(jìn)。對(duì)整體SoC系統(tǒng)設(shè)計(jì)、內(nèi)存訪問模式和其他處理器架構(gòu)運(yùn)行Al工作負(fù)載時(shí)的瓶頸進(jìn)行的分析會(huì)深刻影響NPU設(shè)計(jì)。這些Al工作負(fù)載主要包括由標(biāo)量、向量和張量數(shù)學(xué)組成的神在2015年,早期的NPU面向音頻和語音Al用例而設(shè)計(jì),這些用例基于簡(jiǎn)單卷積神并且主要需要標(biāo)量和向量數(shù)學(xué)運(yùn)算。從2016年開始,拍照和視頻Al用例大受歡迎,出現(xiàn)了基于更復(fù)雜的全新模型。這些工作負(fù)載需要大量張加速,讓處理效率大幅提升。有了面向張量乘法的大共享內(nèi)存配置和專要讀取2N2個(gè)值并進(jìn)行2N3次運(yùn)算(單個(gè)乘法和加法)。在張量加速器中,每次內(nèi)存訪問的計(jì)算620232023后隨著Al持續(xù)快速演進(jìn),必須在性能、功耗、效率、可編程性和面積之間進(jìn)行權(quán)衡取舍。一個(gè)專用的定制化設(shè)計(jì)NPU能夠做出正確的選擇,與Al行業(yè)方向保持高度一致。72020年,高通憑借HexagonNPU變革性的架構(gòu)更新,實(shí)現(xiàn)了重要里程碑。我們?nèi)诤蠘?biāo)量、向量和張量加速器,帶來了更佳性能和能效,同時(shí)還為加速器打造了專用大數(shù)據(jù)更加高效。融合Al加速器架構(gòu)為高通未來的NPU架構(gòu)奠定了堅(jiān)實(shí)基礎(chǔ)。2022年,第二代驍龍8中的HexagonNPU引入了眾多重要技術(shù)提升。專用電源傳輸軌道能夠分割成多個(gè)能夠獨(dú)立執(zhí)行的微切片,消除了高達(dá)10余層的內(nèi)存占用,能夠最大化利用HexagonNPU中的標(biāo)量、向量和張量加速器并降低功耗。本地4位整數(shù)(INT4)運(yùn)算支持能夠提升能效大幅加快了應(yīng)用于生成式Al的多頭注意力機(jī)制的推理速度,在使用MobileBERT模型的特定用例中能帶來高達(dá)4.35倍的驚人Al性能提升。其他特殊硬件包括改進(jìn)的分組卷積、激活函數(shù)加速第三代驍龍8中的HexagonNPU是高通面向生成式Al最新、也是目前最好的設(shè)計(jì),為持續(xù)Al推理帶來98%性能提升和40%能效提升。它包括了跨整個(gè)NPU的微架構(gòu)升級(jí)。微切片推理進(jìn)一加了獨(dú)立的電源傳輸軌道,讓需要不同標(biāo)量、向量和張量處理規(guī)模的Al模型能夠?qū)崿F(xiàn)最高性能和效率。大共享內(nèi)存的帶寬也增加了一倍?;谝陨咸嵘虸NT4硬件加速,HexagonNPU成為面向終端側(cè)生成式Al大模型推理的領(lǐng)先處理器。峰值性能內(nèi)核加速器專用電源高通更高主頻2倍帶寬高通NPU的差異化優(yōu)勢(shì)在于系統(tǒng)級(jí)解決方案、定制設(shè)計(jì)和快速創(chuàng)新。高通的系統(tǒng)級(jí)解決方案考量每個(gè)處理器的架構(gòu)、SoC系統(tǒng)架構(gòu)和軟件基礎(chǔ)設(shè)施,以打造最佳Al解決方這一迭代改進(jìn)和反饋循環(huán),使我們能夠基于最新神軟件棧?;诟咄ǖ淖灾鰽l研究以及與廣大Al社區(qū)的合作,我們與Al模型的發(fā)展保持同步。高通具有開展基礎(chǔ)性Al研究以支持全棧終端側(cè)Al開發(fā)的獨(dú)特能力,可賦能產(chǎn)品快速上市,并圍繞相應(yīng)地,高通NPU歷經(jīng)多代演進(jìn),利用大量技術(shù)成果消除瓶頸。例如,第三代驍龍8的諸多NPU架構(gòu)升級(jí)能夠幫助加速生成式Al大模型。內(nèi)存帶寬是大語言模型token生成的瓶頸驍龍8還支持業(yè)界最快的內(nèi)存配置之一:4.8GHzLPDDR5x,支持77GB/s帶寬,能夠滿足生成從DSP架構(gòu)入手打造NPU是正確的選擇,可以改善可編程性,并能夠緊密控制用于Al處理的標(biāo)量、向量和張量運(yùn)算。高通優(yōu)化標(biāo)量、向量和張量加速的設(shè)計(jì)方案結(jié)9網(wǎng)絡(luò)層和運(yùn)算,比如卷積、全連接層、Transformer以及主流激活函數(shù),以低功耗實(shí)現(xiàn)持續(xù)穩(wěn)定的高性能表現(xiàn)。6異構(gòu)計(jì)算:利用全部處理器支持生成式Al作為語音輸出的文本生成語音(TTS)模型。生成式Al工作負(fù)載的復(fù)雜性、并發(fā)性和多樣性需要利用SoC中所有處理器的能力。最佳的解決方案要求:以低功耗實(shí)現(xiàn)以低功耗實(shí)現(xiàn)持續(xù)穩(wěn)定的高峰值性能選擇什么處理器用例終端類型終端層級(jí)開發(fā)時(shí)間關(guān)鍵性能指標(biāo)開發(fā)者技術(shù)專長(zhǎng)順序控制低時(shí)延、低計(jì)算量面向高精度格式的并行處理圖5:正如在工具箱中選擇合適的工具一樣,選擇合適的處理器取決于諸多因素。正如前述,大多數(shù)生成式Al用例可分類為按需型、持續(xù)型或泛在型用例。按需型應(yīng)用的關(guān)鍵性能指標(biāo)是時(shí)延,因?yàn)橛脩舨幌氲却?。這些應(yīng)用使用小模型時(shí),CPU通常是正確的選擇。當(dāng)模型變大(比如數(shù)十億參數(shù))時(shí),GPU和NPU往往更合適。電池續(xù)航和能效對(duì)于持續(xù)和泛在型用例另一個(gè)關(guān)鍵區(qū)別在于Al模型為內(nèi)存限制型(即性能表現(xiàn)受限于內(nèi)存帶寬),還是計(jì)算限制型(即性能表現(xiàn)受限于處理器性能)。當(dāng)前的大語言模型在生成文本時(shí)受內(nèi)存限制,因此需要關(guān)注CPU、GPU或NPU的內(nèi)存效率。對(duì)于可能受計(jì)算或內(nèi)存限制的大視覺模型,可使用GPU或NPU,但NPU可提供最佳的能效。提供自然語音用戶界面(UI)以提高生產(chǎn)力并增強(qiáng)用戶體驗(yàn)的個(gè)人助手預(yù)計(jì)將成為一類流行的生成式Al應(yīng)用。語音識(shí)別、大語言模型和語音模型必將以某種并行方式運(yùn)行,因此理想的情況是在NPU、GPU、CPU和傳感處理器之間分布處理模型。對(duì)于PC來說,個(gè)人助手預(yù)計(jì)將始終開啟且無處不在地運(yùn)行,考慮到性能和能效,應(yīng)當(dāng)盡可能在NPU上運(yùn)行。7高通Al引擎:面向生成式Al的業(yè)界領(lǐng)先異構(gòu)計(jì)算高通Al引擎包含多個(gè)硬件和軟件組件,以加速驍龍和高通平臺(tái)上的終端側(cè)Al。在集成硬件方面,高通Al引擎具有業(yè)界最領(lǐng)先的異構(gòu)計(jì)算架構(gòu),包括HexagonNPU、AdrenoGPU、高通Kryo或高通OryonCPU、高通傳感器中樞和內(nèi)存子系統(tǒng),所有硬件都經(jīng)過精心設(shè)計(jì)以實(shí)現(xiàn)協(xié)同工作,在終端側(cè)快速高效地運(yùn)行Al應(yīng)用。高通Al引擎高通Al引擎7.1高通Al引擎中的處理器高通最新的HexagonNPU面向生成式Al帶來了顯著提升,性能提升98%、能效提升40%,包括微架構(gòu)升級(jí)、增強(qiáng)的微切片推理、更低的內(nèi)存帶寬占用,以及專用電源傳輸軌道,以實(shí)現(xiàn)最優(yōu)性能和能效。這些增強(qiáng)特性結(jié)合INT4硬件加速,使HexagonNPU成為面向終端側(cè)Al推理的領(lǐng)先處理器。AdrenoGPU不僅是能夠以低功耗進(jìn)行高性能圖形處理、賦能豐富用戶體驗(yàn)的強(qiáng)大引擎,還可用于以高精度格式進(jìn)行Al并行處理,支持32位浮點(diǎn)(FP32)、16位浮點(diǎn)(FP16)和8位整數(shù)(INT8)運(yùn)算。第三代驍龍8中全新升級(jí)的AdrenoGPU實(shí)現(xiàn)了25%的能效提升,增強(qiáng)了Al、游戲和流媒體能力。基于AdrenoGPU,Llama2-7B每秒可生成超過13個(gè)tokens。正如上一章節(jié)所述,CPU擅長(zhǎng)時(shí)延敏感型的低計(jì)算量Al工作負(fù)載。在驍龍XElite計(jì)算平臺(tái)中高通OryonCPU作為PC領(lǐng)域的全新CPU領(lǐng)軍者,可提供高達(dá)競(jìng)品兩倍的CPU性能,達(dá)到競(jìng)品峰值性能時(shí)功耗僅為競(jìng)品的三分之一。始終在線的處理器對(duì)于處理面向泛在型生成式Al應(yīng)用的情境化信息至關(guān)重要。高通Al引擎集成的高通傳感器中樞是一款極其高效、始終在線的Al處理器,適用于需要全天候運(yùn)行的小型神經(jīng)網(wǎng)絡(luò)和泛在型應(yīng)用,比如情境感知和傳感器處理,所需電流通常不超過1毫安(mA)。第三代驍龍8中全新升級(jí)的高通傳感器中樞相比前代性能提升3.5倍,內(nèi)存增加30%,并配備兩個(gè)下一代微型NPU,能夠?qū)崿F(xiàn)增強(qiáng)的Al性能。高通傳感器中樞具備專用電源傳輸軌道,可在SoC其余部分關(guān)閉時(shí)運(yùn)行,從而大幅節(jié)省電量。高通Al引擎中的所有處理器相輔相成,能夠?qū)崿F(xiàn)Al處理效率的大幅度提升。7.2高通Al異構(gòu)計(jì)算的系統(tǒng)級(jí)解決方案通Al引擎作為我們多年全棧Al優(yōu)化的結(jié)晶,能夠以極低功耗提供業(yè)界領(lǐng)先的終端側(cè)Al性能,支持當(dāng)前和未來的用例。搭載高通Al引擎的產(chǎn)品出貨量已超過20億,賦能了極為廣7.3案例研究:使用異構(gòu)計(jì)算的虛擬化身Al個(gè)人助手眾多復(fù)雜工作負(fù)載。實(shí)現(xiàn)優(yōu)秀用戶體驗(yàn)的關(guān)鍵在于充分利用SoC內(nèi)的處理器多樣性,在最匹配的處理器上運(yùn)行合適的工作負(fù)載。2/products/mobile/snapdragon/1.當(dāng)用戶與Al助手交談時(shí),語音通過OpenAl的自動(dòng)語音識(shí)別(ASR)生成式Al模型3.然后利用在CPU上運(yùn)行的開源TTS模型將文本轉(zhuǎn)化為語音。4.與此同時(shí),虛擬化身渲染必須與語音輸出同步,才能實(shí)現(xiàn)足夠真實(shí)的用戶交互界面。借助5.最終的虛擬化身渲染在GPU上進(jìn)行。以上步驟需要在整個(gè)內(nèi)存子系統(tǒng)中高效傳輸數(shù)據(jù),這一個(gè)人助手演示利用了高通Al引擎上的所有多樣化處理器,以高效處理生成式和傳統(tǒng)Al工作WhisperWhisper4chme4chmeGPX語音生成融合變形動(dòng)畫語音生成融合變形動(dòng)畫圖8:支持虛擬化身的個(gè)人助手充分利用高通Al引擎的所有多樣化處理器。8驍龍平臺(tái)領(lǐng)先的Al性能指標(biāo)的分析展示了驍龍平臺(tái)的領(lǐng)先性能。8.1第三代驍龍8的領(lǐng)先智能手機(jī)上Al性能在MLCommonMLPerf推理:MobileV3.1基準(zhǔn)測(cè)試中,與其他智能手機(jī)競(jìng)品相比,第三代驍龍8具有領(lǐng)先性能。例如,在生成式Al語言理解模型MobileBERT上,第三代驍龍83高通技術(shù)公司在搭載驍龍和競(jìng)品B平臺(tái)的手機(jī)上運(yùn)行和收集數(shù)據(jù)。競(jìng)品A數(shù)據(jù)為其自身披露。相關(guān)性能相關(guān)性能(MobilenetEdgeTPU)(MobileDETSSD)(MOSA(MobilenetEdgeTPU)(MobileDETSSD)(MOSA在2023年驍龍峰會(huì)上,高通演示過兩個(gè)生成式Al應(yīng)用,展示了面向大語言模型和大視覺模型通在第三代驍龍8上,個(gè)人助手演示能夠以高達(dá)每秒20個(gè)tokens的速度運(yùn)行Llama2-7B。在不損失太多精度的情況下,F(xiàn)astStableDiffusion能夠在8.2驍龍XElite的領(lǐng)先PC上Al性能驍龍XElite上集成的HexagonNPU算力達(dá)到45TOPS,大幅領(lǐng)先于友商最新X86架構(gòu)芯片NPU的算力數(shù)值。在面向Windows的ULProcyonAl基準(zhǔn)測(cè)試中,與其他PC競(jìng)品相比,驍龍XElite具有領(lǐng)先的性能。例如,驍龍XElite的基準(zhǔn)測(cè)試總分分別為X86架構(gòu)競(jìng)品A的3.4倍和競(jìng)品B的8.6倍。9通過高通軟件棧訪問Al處理器僅有優(yōu)秀的Al硬件還不夠。讓開發(fā)者能夠獲取基于異構(gòu)計(jì)算的Al加速,對(duì)于終端側(cè)AlA框梁高通Al軟件棧全面支持主流Al框架(如TensorFlow、PyTorch、ONNX和Keras)和runtime此外,高通Al軟件棧集成用于推理的高通神經(jīng)網(wǎng)絡(luò)處理SDK,包括面向Android、Linux和序。我們還跨不同產(chǎn)品線支持廣泛的操作系統(tǒng)(包括Android、Windows、Linux和QNX),以及用于部署和監(jiān)控的基礎(chǔ)設(shè)施(比如Prometheus、Kubernetes和Docker)。ExecuTorch

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論