![2024公有云和互聯(lián)網(wǎng)創(chuàng)新實(shí)踐報(bào)告-英特爾中國(guó)_第1頁(yè)](http://file4.renrendoc.com/view6/M01/0B/29/wKhkGWeEW9KASEB2AADLGfgd9mo235.jpg)
![2024公有云和互聯(lián)網(wǎng)創(chuàng)新實(shí)踐報(bào)告-英特爾中國(guó)_第2頁(yè)](http://file4.renrendoc.com/view6/M01/0B/29/wKhkGWeEW9KASEB2AADLGfgd9mo2352.jpg)
![2024公有云和互聯(lián)網(wǎng)創(chuàng)新實(shí)踐報(bào)告-英特爾中國(guó)_第3頁(yè)](http://file4.renrendoc.com/view6/M01/0B/29/wKhkGWeEW9KASEB2AADLGfgd9mo2353.jpg)
![2024公有云和互聯(lián)網(wǎng)創(chuàng)新實(shí)踐報(bào)告-英特爾中國(guó)_第4頁(yè)](http://file4.renrendoc.com/view6/M01/0B/29/wKhkGWeEW9KASEB2AADLGfgd9mo2354.jpg)
![2024公有云和互聯(lián)網(wǎng)創(chuàng)新實(shí)踐報(bào)告-英特爾中國(guó)_第5頁(yè)](http://file4.renrendoc.com/view6/M01/0B/29/wKhkGWeEW9KASEB2AADLGfgd9mo2355.jpg)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
CONTENTCONTENTLargeLanguageModel(LLM)大語(yǔ)言模型 03TraditionalDeepLearning傳統(tǒng)深度學(xué)習(xí) 技術(shù)篇:英特爾AI產(chǎn)品組合 基于英特爾?架構(gòu)的AI軟件工具組合 30英特爾AI實(shí)戰(zhàn)視頻課程 36英特爾中國(guó)AI實(shí)戰(zhàn)資源庫(kù) 37LargeLanguageModel(LLM)33解決方案阿里云引入第五代至強(qiáng)?可擴(kuò)展處理器,實(shí)現(xiàn)ECSg8i解決方案阿里云引入第五代至強(qiáng)?可擴(kuò)展處理器,實(shí)現(xiàn)ECSg8i算力再升級(jí),為大模型AI推理加速添?使用處理器內(nèi)置的AI加速引擎--英特爾?AMX和英特爾?AVX-512,提升并行計(jì)算和浮點(diǎn)運(yùn)算能力;?利用第五代至強(qiáng)?可擴(kuò)展處理器內(nèi)置的英特爾?SGX和英特爾?TDX安全引擎,實(shí)現(xiàn)端到端的數(shù)據(jù)全流程85%整機(jī)性能提升高達(dá)7倍AI推理性能提升高達(dá)50%中小參數(shù)模型起建成本降低CPU也能玩轉(zhuǎn)AI-為AI提速,給安全加碼72B最大可支持參數(shù)規(guī)模72B最大可支持參數(shù)規(guī)模挑戰(zhàn)以針對(duì)工作負(fù)載優(yōu)化的性能實(shí)現(xiàn)業(yè)務(wù)增長(zhǎng)和飛躍為AI加速而生的處理器以高效節(jié)能的計(jì)算助力降低成本與碳排放值得信賴的優(yōu)質(zhì)解決方案和安全功能文生圖創(chuàng)意輔助工具AI生成代碼虛擬助手挑戰(zhàn)以針對(duì)工作負(fù)載優(yōu)化的性能實(shí)現(xiàn)業(yè)務(wù)增長(zhǎng)和飛躍為AI加速而生的處理器以高效節(jié)能的計(jì)算助力降低成本與碳排放值得信賴的優(yōu)質(zhì)解決方案和安全功能文生圖創(chuàng)意輔助工具AI生成代碼虛擬助手g8ig8ig8ig8i第五代英特爾?至強(qiáng)?可擴(kuò)展處理器具備更強(qiáng)通用計(jì)算和AI加速能力阿里云ECSg8i集群可支撐72B參數(shù)級(jí)別的大語(yǔ)言模型分布式推理eRDMA集群g8ig8ieRDMA集群化部署智能化應(yīng)用普及:大模型推理eRDMA集群g8ig8ieRDMA集群化部署44解決方案解決方案?基于至強(qiáng)?可擴(kuò)展處理器不斷提升的算力和內(nèi)存帶寬,有效支持LLM實(shí)現(xiàn)端到端加速;?采用第四代/第五代至強(qiáng)?可擴(kuò)展處理器內(nèi)置的AI加速引擎–英特爾?AMX,最大限度地利用計(jì)算資源,顯著增加AI應(yīng)用程序的每時(shí)鐘指令數(shù)(IPC);?利用大模型推理軟件解決方案xFasterTransformer(xFT),進(jìn)一步加速LLM推理。AI服務(wù)平臺(tái)75%利用充足的CPU資源,降低LLM推理服務(wù)TCO Intel?AVX-512(VNNI)掃碼獲取全文百度智能云千帆大模型平臺(tái)可支持廣泛的英特爾?CPU選擇英特爾?AMX可以更高效地實(shí)現(xiàn)AI加速 Intel?AMX讓更加可及、經(jīng)濟(jì)的AI算力挑戰(zhàn)LLM推理中大量矩陣及向量挑戰(zhàn)滿足行業(yè)離線LLM應(yīng)用需求,解決30B等規(guī)模的LLM使用高端GPU成本較高等問(wèn)題55解決方案中國(guó)電信網(wǎng)絡(luò)大模型方案引入第五代至強(qiáng)?可擴(kuò)展處理器,借助其內(nèi)置的多種結(jié)合英特爾開源的xFT解決方案中國(guó)電信網(wǎng)絡(luò)大模型方案引入第五代至強(qiáng)?可擴(kuò)展處理器,借助其內(nèi)置的多種結(jié)合英特爾開源的xFT分布式推理框架,有效平?采用第五代英特爾?至強(qiáng)?可擴(kuò)展處理器作為方案的算力核心,利用其更多的內(nèi)核數(shù)量、更強(qiáng)的單核性能和更大的三級(jí)緩存容量等,為大模型提供強(qiáng)勁算力支持;?利用英特爾?AMX對(duì)INT8和BF16低精度數(shù)據(jù)類型的支持,在矩陣運(yùn)算中有效提高計(jì)算速度并減少存儲(chǔ)空間占用,更充分地利用計(jì)算資源,大幅提升網(wǎng)絡(luò)大模型推理效能;?采用英特爾AI軟件工具(如xFasterTransformer)提升推理性能、降低部署成本并便捷地遷移模型。新方案已在多個(gè)運(yùn)維場(chǎng)景推理任務(wù)中運(yùn)用,輔助生成時(shí)延可有效滿足業(yè)務(wù)響應(yīng)時(shí)間要求準(zhǔn)備在中國(guó)電信現(xiàn)網(wǎng)各省公司實(shí)現(xiàn)規(guī)模落地>40%與主流GPU相比,CPU平臺(tái)方案可節(jié)省算力資源池建設(shè)成本面向邊緣/用戶現(xiàn)場(chǎng)的中國(guó)電信網(wǎng)絡(luò)大模型推理部署基于CPU平臺(tái)的中國(guó)電信網(wǎng)絡(luò)大模型推理算力方案架構(gòu)掃碼獲取全文用CPU打造智行云網(wǎng)大腦,挑戰(zhàn)網(wǎng)絡(luò)大模型在執(zhí)行云網(wǎng)運(yùn)營(yíng)等應(yīng)用時(shí),需承受巨大的并發(fā)推挑戰(zhàn)本壓力和能耗,且不利于LLM6網(wǎng)絡(luò)大模型運(yùn)行過(guò)程對(duì)內(nèi)存容量有較大需求,而GPU方案6解決方案看如何用CPU加速的AI解決方案看如何用CPU加速的AI京東云推出搭載第五代至強(qiáng)?可擴(kuò)展處理器的新一代云服務(wù)器,以處理器內(nèi)置AI引擎顯著加?利用第五代至強(qiáng)?可擴(kuò)展處理器及其內(nèi)置的AI加速引擎--英特爾?AMX,在提升算力的同時(shí),高效處理大量矩陣乘法運(yùn)算,提升AI推理性能;?使用英特爾?oneDNN對(duì)CPU、GPU或兩者使用相同的API,抽象出指令集的其他復(fù)雜的性能優(yōu)化,實(shí)現(xiàn)深度學(xué)習(xí)構(gòu)建塊的高度優(yōu)化。倍倍挑戰(zhàn)Llama2-13B推理性能(越高越好)挑戰(zhàn)Llama2-13B推理性能(越高越好)TILE2D寄存器文件平鋪矩陣乘法(TMUL) 290 247 每核可存儲(chǔ)更大的數(shù)據(jù)塊 英特爾?AMX可在單次運(yùn)算中計(jì)算更大矩陣的指令專用AI服務(wù)器帶來(lái)的7掃碼獲取全文Llama2-13B推理性能測(cè)試數(shù)據(jù)英特爾?AMX架構(gòu)解決方案解決方案?基于火山引擎最新自研DPU2.0架構(gòu)和第五代至強(qiáng)?可擴(kuò)展處理器顯著提升的代際性能、更高的CPU核心數(shù)、更快的內(nèi)存以及更大的末級(jí)緩存容量,顯著提升g3i算力性能,實(shí)現(xiàn)內(nèi)存擴(kuò)容,有效為L(zhǎng)LM與更?利用第五代至強(qiáng)?可擴(kuò)展處理器及其內(nèi)置的AI加速引擎--英特爾?AMX,在提升算力的同時(shí),高效處理大量矩陣乘法運(yùn)算,提升AI推理性能,勝任80億參數(shù)模型推理,降低中小模型推理成本。122%火山引擎g3i整機(jī)算力提升3.43倍122%火山引擎g3i整機(jī)算力提升3.43倍挑戰(zhàn)3.43倍加速比不斷拉升云實(shí)例算力性能,滿75%LIama-3-8B首包時(shí)延吞吐性能0.75s22Token/sSDXL-Turbo文生圖推理性能火山引擎g3i可勝任80億參數(shù)的模型推理88解決方案解決方案分利用原生AI加速能力,有效提升云上大模型推理性能。?利用第四代至強(qiáng)?可擴(kuò)展處理器提供的強(qiáng)勁底層算力支撐,及內(nèi)置AI加速引擎--英特爾?AMX,以矩陣運(yùn)算顯著提升AI推理性能;?基于英特爾?MKL及英特爾?oneDNN搭建大模型鏡像,在滿足計(jì)算準(zhǔn)確率的前提下,進(jìn)一步提升模型挑戰(zhàn)采用高性能、高經(jīng)濟(jì)性的模型挑戰(zhàn)采用高性能、高經(jīng)濟(jì)性的模型9在LLaMa2-AMX和ChatGLM2-AMX性能測(cè)試中,經(jīng)英特爾Super-Fuse優(yōu)化后,LLM推理性能提升達(dá)有關(guān)性能和基準(zhǔn)測(cè)試結(jié)果的更/采用IPEX2.0BF16優(yōu)化后,StableDi?usion模型推理性能提升達(dá)大語(yǔ)言模型優(yōu)化前后性能對(duì)比\掃碼獲取全文解決方案阿里媽媽引入第五代至強(qiáng)?可擴(kuò)展處理器作為算力核心,并借助處理器內(nèi)置的英特爾?AMX?解決方案阿里媽媽引入第五代至強(qiáng)?可擴(kuò)展處理器作為算力核心,并借助處理器內(nèi)置的英特爾?AMX?利用第五代至強(qiáng)?可擴(kuò)展處理器更大的末級(jí)緩存容量等為推薦系統(tǒng)提供強(qiáng)勁的算力支持;?英特爾?AMX可提供矩陣類型的運(yùn)算且同時(shí)支持INT8和BF16數(shù)據(jù)類型,助力阿里媽媽推薦系統(tǒng)在保證精度影響最小的前提下加速推理過(guò)程;?借助英特爾?oneDNN、算子融合等軟件方案,加速矩陣運(yùn)算,提升內(nèi)存訪問(wèn)效率。倍激發(fā)硬件AI加速潛能,AI模型推理加速挑戰(zhàn)推薦內(nèi)容列表容集合-·召回-·粗排-精排-重排吞吐性能:1.52X挑戰(zhàn)推薦內(nèi)容列表容集合-·召回-·粗排-精排-重排吞吐性能:1.52X掃碼獲取全文典型的阿里媽媽推薦系統(tǒng)架構(gòu)第五代至強(qiáng)?可擴(kuò)展處理器帶來(lái)的吞吐性能提升在有限的算力資源和嚴(yán)格的時(shí)解決方案阿里云攜手英特爾合作改進(jìn)DDR5內(nèi)存可靠性,聯(lián)合開發(fā)了面向DDR5的內(nèi)存故障預(yù)測(cè)和預(yù)?解決方案阿里云攜手英特爾合作改進(jìn)DDR5內(nèi)存可靠性,聯(lián)合開發(fā)了面向DDR5的內(nèi)存故障預(yù)測(cè)和預(yù)?方案在BMC中集成英特爾?MRT技術(shù)提供AI輔助的實(shí)時(shí)預(yù)測(cè)和內(nèi)存故障分析,其利用多維模型和人工智能算法,在微觀層面檢測(cè)內(nèi)存故障,使得數(shù)據(jù)中心提前預(yù)警和主動(dòng)預(yù)測(cè)潛在的內(nèi)存故障風(fēng)險(xiǎn);?在平臺(tái)中引入第五代至強(qiáng)?可擴(kuò)展處理器,助力阿里云數(shù)據(jù)中心為不同工作負(fù)載提供更加強(qiáng)勁的算力支持。57%后,預(yù)期能夠預(yù)測(cè)的不可糾正錯(cuò)誤(UE)達(dá)74%后,預(yù)期能夠預(yù)測(cè)的可糾正錯(cuò)誤(CE)達(dá)AI輔助提升DDR5內(nèi)存可靠AI輔助故障分析OSAlibabaCloudCruiserOSAlibabaCloudCruiserSystem挑戰(zhàn)BMCIntel?MRTBIOS挑戰(zhàn)BMCIntel?MRTBIOS掃碼獲取全文解決方案架構(gòu)圖高效的UE和CE風(fēng)暴預(yù)測(cè)ProcessorDDR5內(nèi)存模塊容量更大,增In-DRAM糾錯(cuò)碼(ECC)導(dǎo)解決方案樂(lè)元素引入基于第五代至強(qiáng)?可擴(kuò)展處理器的新一代騰訊云實(shí)例S8,并采用處理器內(nèi)置的AI加速引擎,軟硬結(jié)合加速AI解決方案樂(lè)元素引入基于第五代至強(qiáng)?可擴(kuò)展處理器的新一代騰訊云實(shí)例S8,并采用處理器內(nèi)置的AI加速引擎,軟硬結(jié)合加速AI推理,提升開發(fā)效率和游戲體驗(yàn)。?利用基于第五代至強(qiáng)?可擴(kuò)展處理器的騰訊云實(shí)例S8獲得平衡、穩(wěn)定的計(jì)算、內(nèi)存和網(wǎng)絡(luò)資源;?采用處理器內(nèi)置AI加速引擎--英特爾?AMX,高效處理矩陣乘法運(yùn)算,加速基于CPU的AI推理,避免使用獨(dú)立加速器帶來(lái)的成本和復(fù)雜性;?借助英特爾?oneDNN這一開源、跨平臺(tái)的庫(kù),開發(fā)人員可對(duì)CPU、GPU使用相同的API,從而抽象出指令集和其他復(fù)雜的性能優(yōu)化,顯著降低編程難度。3.44倍倍新春掃龍字活動(dòng)模型推理性能提升達(dá)更多AI擴(kuò)展應(yīng)用AI模型推理優(yōu)化挑戰(zhàn)《開心消消樂(lè)》新春掃龍字活動(dòng)模型推理吞吐性能(越高越好)挑戰(zhàn)《開心消消樂(lè)》新春掃龍字活動(dòng)模型推理吞吐性能(越高越好)TILE2D寄存器文件平鋪矩陣乘法(TMUL) 290 247 每核可存儲(chǔ)更大的數(shù)據(jù)塊 英特爾?AMX可在單次運(yùn)算中計(jì)算更大矩陣的指令掃碼獲取全文《開心消消樂(lè)》新春掃龍字活動(dòng)模型測(cè)試數(shù)據(jù)英特爾?AMX架構(gòu)滿足模型推理性能需求的同時(shí)服務(wù)器需具備足夠的靈活性,以適應(yīng)不斷變化的游戲內(nèi)容和有關(guān)性能和基準(zhǔn)測(cè)試結(jié)果的更完整信息,請(qǐng)?jiān)L問(wèn):/content/www/cn/zh/arti?cial-intelligence/s8-accelerates-happy-elements-game-ai-inference.html解決方案加速解決方案加速NLP應(yīng)用商業(yè)落地百度ERNIE-Tiny使用內(nèi)置英特爾?AMX的第四代英特爾?至強(qiáng)?可擴(kuò)展處理器,配合多?采用第四代英特爾?至強(qiáng)?可擴(kuò)展處理器作為ERNIE–Tiny推理工作的算力輸出引擎,為高強(qiáng)度工作負(fù)載?以第四代至強(qiáng)?可擴(kuò)展處理器內(nèi)置的AI加速技術(shù)--英特爾?AMX,大幅提升ERNIE-Tiny推理性能;?利用英特爾?oneDNN實(shí)現(xiàn)對(duì)英特爾?AMX的調(diào)用,有效助力用戶提升AI應(yīng)用及框架性能。英特爾?AMX每個(gè)物理核在每個(gè)時(shí)鐘周期可實(shí)現(xiàn)2,0482,048次INT8運(yùn)算ERNIEERNIE–TinyMedium版與基礎(chǔ)版ERNIE挑戰(zhàn)EasyDLBMLERNIEKit ERNIE-Tiny挑戰(zhàn)EasyDLBMLERNIEKit ERNIE-Tiny州p飛槳PaddleNLP與英特爾?AVX-512相比,英特爾?AMX可帶來(lái)8倍以上的效率提升ERNIE-Tiny對(duì)外能力輸出有關(guān)性能和基準(zhǔn)測(cè)試結(jié)果的更完102416X20488X在保持精度的前提下,實(shí)現(xiàn)更短的AI推理運(yùn)算時(shí)間和更少推理任務(wù),減少對(duì)昂貴的專用AI算力設(shè)備的需求,降低TCO掃碼獲取全文技術(shù)篇:英特爾AI產(chǎn)品組合AI推理英特爾英特爾?XPU平臺(tái):滿足AI之旅各階段需求數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理AI模型訓(xùn)練和微調(diào)AI推理集成NPU基礎(chǔ)和共享軟件堆棧實(shí)現(xiàn)更優(yōu)能效滿足高密度和橫向擴(kuò)展工作工作負(fù)載和使用情況P-coreE-core內(nèi)核性能AI工作負(fù)載工作負(fù)載和使用情況P-coreE-core內(nèi)核性能AI工作負(fù)載每顆每顆CPU集成多達(dá)128個(gè)性能核更高內(nèi)存帶寬多達(dá)12更高內(nèi)存帶寬多達(dá)12個(gè)通道DDR5(高達(dá)6400MT/s)采用MRDIMM內(nèi)存(高達(dá)8800MT/s)更大三級(jí)共享緩存高達(dá)504MB多達(dá)96條通道PCIe5.0ComputeExpressLink2.0(CXL2.0)高達(dá)6UPI2.0高達(dá)24GT/s計(jì)算單元(ComputeDie)基于英特爾3制程工藝支持單路到八路設(shè)計(jì)(高端6900P系列最多支持雙路)內(nèi)置AI與科學(xué)計(jì)算加速引擎其它內(nèi)置加速引擎硬件增強(qiáng)型安全特性英特爾?ScalableVectorSearch(SVS)AI和科學(xué)計(jì)算英特爾?高級(jí)矢量擴(kuò)展2(VNNI/INT8)英特爾?數(shù)據(jù)流加速器(英特爾?DSA)AI和科學(xué)計(jì)算英特爾?高級(jí)矢量擴(kuò)展2(VNNI/INT8)英特爾?數(shù)據(jù)流加速器(英特爾?DSA)英特爾?軟件防護(hù)擴(kuò)展(英特爾?SGX)英特爾?信任域擴(kuò)展(英特爾?TDX)英特爾?密碼操作硬件加速英特爾?數(shù)據(jù)流加速器(英特爾?DSA)英特爾?存內(nèi)分析加速器(英特爾?IAA)英特爾?數(shù)據(jù)保護(hù)與壓縮加速技術(shù)(英特爾?QAT)英特爾?數(shù)據(jù)保護(hù)與壓縮加速技術(shù)(英特爾?QAT)英特爾?動(dòng)態(tài)負(fù)載均衡器(英特爾?DLB)AI推理多達(dá)288個(gè)內(nèi)核1(每個(gè)處理器)更大三級(jí)緩存(L3):高達(dá)216MB英特爾?UPI2.0速度:高達(dá)24GT/s多達(dá)188條PCle5.0通道ComputeExpressLink(CXL)2.0通道Type3內(nèi)存支持 Web和微服務(wù)已推出的6700E系列每個(gè)CPU擁有多達(dá)144個(gè)內(nèi)核,25年1Q發(fā)布的6900E系列最高達(dá)288個(gè)內(nèi)核多達(dá)64個(gè)內(nèi)核(每個(gè)處理器)更高內(nèi)存帶寬:高達(dá)5,600MT/s更大三級(jí)緩存(LLC):高達(dá)3倍1(PCIe5)UPI2.0速度:高達(dá)20GT/sType3內(nèi)存支持無(wú)需更改代碼即可直接兼容42%與第四代至強(qiáng)?相比平均性能提升221%42%與第四代至強(qiáng)?相比平均性能提升221%英特爾?AMX更高的AMX頻率,全新許可水平每個(gè)內(nèi)核均內(nèi)置AI加速器英特爾?數(shù)據(jù)保護(hù)與壓縮加速技術(shù)(英特爾?QAT)英特爾?存內(nèi)分析加速器(英特爾?IAA)英特爾?數(shù)據(jù)流加速器(英特爾?DSA)英特爾?動(dòng)態(tài)負(fù)載均衡器(英特爾?DLB)內(nèi)置加速器提供高效計(jì)算/更高的每瓦性能經(jīng)優(yōu)化的電源模式2.0/針對(duì)工作負(fù)載優(yōu)化的SKU無(wú)縫固件升級(jí)縮短停機(jī)時(shí)間英特爾?SGX英特爾?TDX運(yùn)行參數(shù)量在200億以下的LLM運(yùn)行參數(shù)量在200億以下的LLM時(shí),詞元處理時(shí)延低于4AI推理性能提升32020(英特爾?AMX)平均性能增益(與上一代產(chǎn)品比較)內(nèi)置加速器80條PCIe5.0通道更高的單核性能每路多達(dá)60個(gè)內(nèi)核英特爾?UPI2.0增加三級(jí)緩存(LLC)共享容量ComputeExpressLink(CXL)1.18通道DDR5傳輸速率高達(dá)4,800MT/s(1DPC)傳輸速率高達(dá)4,400MT/s(2DPC)每路16個(gè)DIMM全新RAS功能(增強(qiáng)型ECC、ECS)高帶寬內(nèi)存(HBM)(64GB/每路)經(jīng)優(yōu)化的電源模式(英特爾?QAT)英特爾?SGX英特爾?TDX…系列(配備HBM)PyTorch實(shí)時(shí)推理和訓(xùn)練性能提升啟動(dòng)英特爾?AMX(BF16)時(shí)與上一代產(chǎn)品(FP32)的比較結(jié)果更出色的性能與能效,更好滿足客戶所需更出色的性能與能效,更好滿足客戶所需更全面的機(jī)密計(jì)算產(chǎn)品組合創(chuàng)新、設(shè)計(jì)和交付均堅(jiān)持工作負(fù)載優(yōu)先CPU內(nèi)置多種加速器加速深度學(xué)習(xí)?(英特爾QAT)加速深度學(xué)習(xí)?加速加密與壓縮操作提升與網(wǎng)絡(luò)處理集成高內(nèi)存帶寬,為科學(xué)計(jì)算與AI工作負(fù)載幫助保護(hù)數(shù)據(jù)機(jī)密性與代碼完整性2222內(nèi)置內(nèi)置AI加速能力的數(shù)據(jù)中心級(jí)CPU第二代至強(qiáng)第二代至強(qiáng)?可擴(kuò)展處理器(CascadeLake)英特爾?DLBoost(AVX-512_VNNI)全新內(nèi)存存儲(chǔ)層次結(jié)構(gòu)第四代至強(qiáng)?第四代至強(qiáng)?可擴(kuò)展處理器(SapphireRapids)第五代至強(qiáng)?可擴(kuò)展處理器(EmeraldRapids)英特爾?AdvancedMatrixExtensions(AMX)進(jìn)一步擴(kuò)展了至強(qiáng)?可擴(kuò)展處理器上的內(nèi)置AI加速功能第三代至強(qiáng)?可擴(kuò)展處理器(CooperLa英特爾?DLBoost(AVX-512_BF16)英特爾?DLBoost(AVX-512_VNNI)和英特爾?SoftwareGuardExtensions(英特爾?SGX),支持領(lǐng)先AI應(yīng)用,如聯(lián)邦學(xué)習(xí)"Tiles"2DRegisterFiles"TMUL""Tiles"2DRegisterFiles"TMUL"英特爾?DLBoost(VNNI)VPDPBUSDINSTRUCTIONSthatcomputelargermatricesinasingleoperationStorebiggerVPDPBUSDINSTRUCTIONSthatcomputelargermatricesinasingleoperationStorebiggerchunksofDATAineachcore更高效的推理加速英特爾?AVX-512VPMADDUBSWVPMADDWDVPADDD第二代和第三代至強(qiáng)?可擴(kuò)展處理器英特爾?AMX可提供超過(guò)8x推理表現(xiàn)速度提升(BERT,第三代vs第二代)將三條指令合而為一,可最大限度地利用計(jì)算資源,提高緩存利用率領(lǐng)先性能領(lǐng)先性能23TILE2DTILE2D寄存器文件平鋪矩陣乘法(TMUL)290290247可在單次運(yùn)算中計(jì)算更大矩陣的指令每核可存儲(chǔ)更大的數(shù)據(jù)塊倍處理器可使推理工作負(fù)載 英特爾?AMX?市場(chǎng)上的主流框架、工具套件和庫(kù)(PyTorch、Ten-sorFlow),英特爾?oneAPI深度神經(jīng)網(wǎng)絡(luò)庫(kù)(英特爾?oneDNN)?圖像識(shí)別、推薦系統(tǒng)、機(jī)器/語(yǔ)言翻譯、自然語(yǔ)言處理(NLP)、媒體處理和分發(fā)倍實(shí)時(shí)推理性能提升2倍實(shí)時(shí)推理每瓦性能提升3AMX的第五代至強(qiáng)?可擴(kuò)展處理器2424矢量神經(jīng)網(wǎng)絡(luò)指令(VNNI)擴(kuò)展英特爾?AVX-512以加速CPU平臺(tái)上的AI/Input8-bitOutputInput8-bitOutputAVX-512AVX-512--ConstantInput8-bitVPMADDUBSWVPADDDVPMADDWDInput8-bitVPMADDUBSWVPADDDVPMADDWD-ConstantCycle1Cycle1Cycle2Cycle3CompleteCycle1CompleteInput8-bitInput8-bit可最大限度地利用計(jì)算資源,提高緩存利用率,避免潛在的帶可最大限度地利用計(jì)算資源,提高緩存利用率,避免潛在的帶VNNIInput8-bitVPDPBUSD(8-BitNewInstruction)推理性能提升達(dá)(BERT)1借助增強(qiáng)型英特爾?深度學(xué)習(xí)加速技術(shù)實(shí)現(xiàn)(基于面向單路和雙路的第三代英特爾?至強(qiáng)?可擴(kuò)展處理器,相較于上一代)25依據(jù)表示數(shù)字的比特位數(shù),F(xiàn)P32可提供更高的精度許多AI功能并不需要FP32提供的精度水平b?oat16支持基于相同指數(shù)域的相同范圍的數(shù)字,但精度略低從FP32轉(zhuǎn)換到依據(jù)表示數(shù)字的比特位數(shù),F(xiàn)P32可提供更高的精度許多AI功能并不需要FP32提供的精度水平b?oat16支持基于相同指數(shù)域的相同范圍的數(shù)字,但精度略低從FP32轉(zhuǎn)換到b?oat16比轉(zhuǎn)換到FP16更簡(jiǎn)單與FP32相比,使用b?oat16可實(shí)現(xiàn)每周期兩倍的吞吐量Number:0.56580972671508789062596AsFP32:0.56580972671508789062532BitsFP32BF16到FP32的簡(jiǎn)單轉(zhuǎn)換FP16可以提供比b?oat16更高的精度,但用于表示指數(shù)位的符號(hào)–表示正數(shù)或負(fù)數(shù) 0010000110 0010000010000 FP16000000000000002626建立數(shù)據(jù)主權(quán)和控制建立數(shù)據(jù)主權(quán)和控制將數(shù)據(jù)和知識(shí)產(chǎn)權(quán)隔離在保密的虛擬機(jī)中,并將受保護(hù)數(shù)據(jù)的訪問(wèn)通過(guò)在VM內(nèi)的TEE通過(guò)在VM內(nèi)的TEE對(duì)機(jī)密數(shù)據(jù)進(jìn)行硬件增強(qiáng)隔離,幫助減少攻擊保護(hù)數(shù)據(jù)和知識(shí)產(chǎn)權(quán)TD(信任域)虛擬機(jī)級(jí)TEE為傳統(tǒng)應(yīng)用提供實(shí)現(xiàn)出色的安全性、合規(guī)性與控制的直接途徑英特爾?TDX、英特爾英特爾?TDX、英特爾?SGX等可以幫助受嚴(yán)格的數(shù)據(jù)隱私法規(guī)約束簡(jiǎn)化監(jiān)管合規(guī)應(yīng)用客戶操作系統(tǒng)應(yīng)用應(yīng)用在可信環(huán)境中部署AI英特爾?在可信環(huán)境中部署AI英特爾?至強(qiáng)?(TDX) 信任域英特爾?TDX憑借強(qiáng)大的隔離、完整性和保密功能,幫助保護(hù)應(yīng)用程簡(jiǎn)化將現(xiàn)有應(yīng)用程序移植和遷移到機(jī)密計(jì)算環(huán)境的過(guò)程,在大多數(shù)情況下,無(wú)需更改應(yīng)用程序代碼,即可激活虛擬機(jī)內(nèi)由英特爾簡(jiǎn)化將現(xiàn)有應(yīng)用程序移植和遷移到機(jī)密計(jì)算環(huán)境的過(guò)程,在大多數(shù)情況下,無(wú)需更改應(yīng)用程序代碼,即可激活虛擬機(jī)內(nèi)由英特爾?TDX支持的可信域。27采用英特爾?SGX的機(jī)密人工智能應(yīng)用,保護(hù)使用中的數(shù)據(jù)和代碼intelintel·未加密的數(shù)據(jù)和結(jié)果已驗(yàn)證的應(yīng)用未加密的數(shù)據(jù)和結(jié)果已驗(yàn)證的應(yīng)用或模型代碼SGX·加密敏感數(shù)據(jù)云租戶或管理員的影響,即使是惡意的訪問(wèn)加密或匿名的結(jié)果加密驗(yàn)證TEE是否真實(shí)、配置正確且僅運(yùn)行預(yù)期的軟件負(fù)載集中式多方231231模型2828受監(jiān)管的數(shù)據(jù)示例:智慧城市攝像頭捕獲的受嚴(yán)格數(shù)據(jù)處理法規(guī)約束的個(gè)人身份信息(PII)√符合規(guī)定加密的加密的數(shù)據(jù)存儲(chǔ)模型(未加密的數(shù)據(jù)處理)聯(lián)邦學(xué)習(xí)SiteModelSiteModelSiteModelSiteModelGovernor&MasterModelSiteModelECC編解碼基于硬件的SR-IOV英特爾ECC編解碼基于硬件的SR-IOV英特爾Xe矩陣擴(kuò)展架構(gòu)256TOPS(INT8)75W半高PCIe75W半高PCIe4個(gè)X4個(gè)Xe媒體引擎150W全高PCIe32Xe內(nèi)核32光線追蹤單元面向智能視覺(jué)云的GPU解決方案,支持基于標(biāo)準(zhǔn)的開放式軟件堆棧,針對(duì)密度和質(zhì)量進(jìn)行了優(yōu)化,具有關(guān)鍵的服務(wù)器功能,可實(shí)現(xiàn)高可靠性、可用性和可擴(kuò)展性,有助于減少數(shù)據(jù)中心使用不同解決方案并管理異構(gòu)或?qū)S协h(huán)境的需求,支持的工作負(fù)載包括:AI視覺(jué)推理媒體處理和交付云游戲虛擬桌面基礎(chǔ)設(shè)施29數(shù)據(jù)科學(xué)和AI應(yīng)用經(jīng)優(yōu)化的AI模型cnvrg.io大規(guī)模數(shù)據(jù)分析t數(shù)據(jù)標(biāo)注、模型訓(xùn)大規(guī)模數(shù)據(jù)分析t數(shù)據(jù)標(biāo)注、模型訓(xùn)英特爾的優(yōu)化和微工程數(shù)據(jù)模型DirectMLSigOptAutoMLNeuralCompressorWebAssemblyWebGPUWebNN英特爾英特爾?oneAPIDeep英特爾?oneAPI英特爾?oneAPI適用于CPU、GPU和其他加速器的開放式、多架構(gòu)編程模型注:堆棧中每一層的組件均基于預(yù)期的AI使用模型,有針對(duì)性地對(duì)其他層的目標(biāo)組件進(jìn)行優(yōu)化,但并非每個(gè)組件都被最右列的解決方案所使用。3030深度學(xué)習(xí)面向英特爾?架構(gòu)優(yōu)化的TensorFlow面向英特爾?架構(gòu)優(yōu)化的PyTorch深度學(xué)習(xí)面向英特爾?架構(gòu)優(yōu)化的TensorFlow面向英特爾?架構(gòu)優(yōu)化的PyTorch數(shù)據(jù)分析&機(jī)器學(xué)習(xí)加速數(shù)據(jù)庫(kù)面向英特爾?架構(gòu)優(yōu)化的ModinHEAVY.AIBackend(formerlyOmniSci)面向英特爾?架構(gòu)優(yōu)化的PythonNumPyDaal-4PyXGBoostPandasSciPy示例及端到端工作負(fù)載GPU支持的硬件架構(gòu)硬件支持因個(gè)別工具而異。架構(gòu)支持將隨著口CPU點(diǎn)擊或通過(guò)如下鏈接獲取工具包IntelInstallerDocker加速端到端人工智能和數(shù)據(jù)分析管道?利用面向英特爾?架構(gòu)優(yōu)化的深度學(xué)和機(jī)器學(xué)習(xí)工作流提供落地加速性能加速簡(jiǎn)化端到端工作流程···提高生產(chǎn)力加快開發(fā)OpenVINO?工具套件-由oneAPI提供支持旨在使用高性能人工智能和計(jì)算機(jī)視覺(jué)推理實(shí)現(xiàn)更加快速和準(zhǔn)確的實(shí)際結(jié)果旨在使用高性能人工智能和計(jì)算機(jī)視覺(jué)推理實(shí)現(xiàn)更加快速和準(zhǔn)確的實(shí)際結(jié)果,部署在從邊緣到云的、基于英特爾?XPU架構(gòu)(CPU、GPU、FPGA、VPU)的生產(chǎn)環(huán)境中1.BUILD2.OPTIMIZE3.DEPLOYTrainedTrainedModelInferenceEngineCommonAPIthatprogrammingforeachInferenceEngineCommonAPIthatprogrammingforeachhardwareDeploymentCPUPluginPluginPluginPluginPlugin IRDataGPUGNADeepLearningStreamerMyriadOpenCVOpenCLCodeSamples&DemosAccuracyChecker,ModelDownloader)HDDLFGPAManagerModelOptimizerRepresentationConvertsandoptimizestrainedmodelModelOptimizerRepresentationPost-TrainingPost-TrainingOptimizationToolDeepDeepLearningWorkbenchOpenModelZoo3232(內(nèi)置模型和算法)(自動(dòng)構(gòu)建端到端管道(內(nèi)置模型和算法)(自動(dòng)構(gòu)建端到端管道)(將AI模型無(wú)縫擴(kuò)展到分布式大數(shù)據(jù)平臺(tái))AutoMLAutoMLAutomaticClusterS
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年二手車個(gè)體交易策劃合同范本
- 2025年專利權(quán)交換協(xié)議格式
- 2025年個(gè)人信用管理協(xié)議書
- 2025年二手汽車交易未過(guò)戶合同模板
- 2025年農(nóng)資研發(fā)與實(shí)驗(yàn)勞動(dòng)合同
- 2025年體重管理服務(wù)協(xié)議
- 2025年企業(yè)員工住房公積金貸款合同
- 2025年上海市新能源汽車產(chǎn)業(yè)投資合作協(xié)議
- 2025年養(yǎng)殖場(chǎng)租賃協(xié)議正式版本
- 2025年云服務(wù)器租用合同示范
- 安全生產(chǎn)技術(shù)規(guī)范 第25部分:城鎮(zhèn)天然氣經(jīng)營(yíng)企業(yè)DB50-T 867.25-2021
- 現(xiàn)代企業(yè)管理 (全套完整課件)
- 走進(jìn)本土項(xiàng)目化設(shè)計(jì)-讀《PBL項(xiàng)目化學(xué)習(xí)設(shè)計(jì)》有感
- 《網(wǎng)店運(yùn)營(yíng)與管理》整本書電子教案全套教學(xué)教案
- 教師信息技術(shù)能力提升培訓(xùn)課件希沃的課件
- 高端公寓住宅項(xiàng)目營(yíng)銷策劃方案(項(xiàng)目定位 發(fā)展建議)
- 執(zhí)業(yè)獸醫(yī)師聘用協(xié)議(合同)書
- 第1本書出體旅程journeys out of the body精教版2003版
- [英語(yǔ)考試]同等學(xué)力英語(yǔ)新大綱全部詞匯
- 2022年肝動(dòng)脈化療栓塞術(shù)(TACE)
- 形式發(fā)票格式2 INVOICE
評(píng)論
0/150
提交評(píng)論