2023異構(gòu)融合計(jì)算技術(shù)白皮書(shū)_第1頁(yè)
2023異構(gòu)融合計(jì)算技術(shù)白皮書(shū)_第2頁(yè)
2023異構(gòu)融合計(jì)算技術(shù)白皮書(shū)_第3頁(yè)
2023異構(gòu)融合計(jì)算技術(shù)白皮書(shū)_第4頁(yè)
2023異構(gòu)融合計(jì)算技術(shù)白皮書(shū)_第5頁(yè)
已閱讀5頁(yè),還剩98頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

I編寫(xiě)者參編單位:浪潮電子信息產(chǎn)業(yè)股份有限公司、上海矩向科技有限公司、中國(guó)電信研究院、清華大學(xué)、中國(guó)科學(xué)院軟件研究所、國(guó)防科技大學(xué)、復(fù)旦大學(xué)、中國(guó)長(zhǎng)城研究院、中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院、曙光信息產(chǎn)業(yè)(北京)有限公司、同方計(jì)算機(jī)有限公司、上海熠知電子科技有限公司、阿里云技術(shù)有限公司、中參編人員:楊曉明、陳平、劉建、熊婧、李冬、黃朝波、廉建芳、顏秉珩、林顯成、董剛、王洲、蔡彥、陳小文、盧晶雨、任翔、劉娜、張政、李寧、崔士偉、徐揚(yáng)、李璇、劉玉海、尹航、李陽(yáng)、買(mǎi)強(qiáng)、張磊、張震寧、趙立新、左明敏、周鵬、戴少鵬、楊蔚才、李亞軍、伍海龍、陳碩、張陽(yáng)、劉占民、王佑站、版權(quán)聲明:本白皮書(shū)版權(quán)屬于工業(yè)和信息化部電子第五研究所及參編單位,并受法律保護(hù)。轉(zhuǎn)載、摘編或利用其它方式使用本白皮書(shū)文字或者觀點(diǎn)的,應(yīng)注明“來(lái)源:工業(yè)和信息化部電子第五研究所”。違反上述聲明者,將追究其相關(guān)法律責(zé)任。編者序近年來(lái),自動(dòng)駕駛、元宇宙、人工智能等應(yīng)用不斷創(chuàng)新發(fā)展,數(shù)據(jù)規(guī)模、算法復(fù)雜度以及算力需求爆發(fā)式增長(zhǎng)。各類(lèi)加速處理器已成為算力基礎(chǔ)設(shè)施的重要組件,基于和維護(hù)成本增高等問(wèn)題愈發(fā)凸顯,亟需從異構(gòu)融合年開(kāi)始,隨著AI大模型應(yīng)用的涌現(xiàn),算力需求平均每2個(gè)月翻一倍;摩根士丹利估計(jì)“2022年谷歌的3.3萬(wàn)億次搜索,平均成本約于大模型搜索的成本是標(biāo)準(zhǔn)關(guān)鍵詞搜索的10倍”。需求的變化和成本的約束,再加上NoC(Network-on-Chip)和SiP(SysteminP基礎(chǔ)架構(gòu)的變革。計(jì)算架構(gòu)已逐漸從目前各自為政、孤島式的異構(gòu)計(jì)算,走向異構(gòu)融合計(jì)算。同時(shí),以系統(tǒng)設(shè)計(jì)為中心,按照應(yīng)用需求來(lái)設(shè)計(jì)、定義和規(guī)劃計(jì)算架構(gòu),推動(dòng)多層級(jí)狹義的異構(gòu)融合計(jì)算,指的是多種不同類(lèi)型、不同架構(gòu)處理器組成的計(jì)算架構(gòu)。廣義的異構(gòu)融合計(jì)算,是指通過(guò)將處理器、芯片、硬件設(shè)備、操作系統(tǒng)、編程框架、編程語(yǔ)言、網(wǎng)絡(luò)通信協(xié)議、數(shù)據(jù)中心等不同層次、不同類(lèi)型的計(jì)算技術(shù)進(jìn)行整合優(yōu)化,以實(shí)現(xiàn)多種異構(gòu)計(jì)算資源的高效利用。本白皮書(shū)旨在探討異構(gòu)融合計(jì)算技術(shù)的內(nèi)在機(jī)制、應(yīng)用場(chǎng)景和發(fā)展趨勢(shì),通過(guò)概述計(jì)算領(lǐng)域相關(guān)概念,回顧計(jì)算架構(gòu)發(fā)展歷程,分析了異構(gòu)計(jì)算技術(shù)的發(fā)展現(xiàn)狀及面臨的主要問(wèn)題,從硬件層面(芯片級(jí)、設(shè)備級(jí))、軟件層面(操作系統(tǒng)、編程框架)、系統(tǒng)層面分別提出了異構(gòu)融合計(jì)算技術(shù)的探索方案及演進(jìn)方向,引出了異構(gòu)融合計(jì)算技術(shù)的發(fā)展趨勢(shì),并介紹了異構(gòu)融合計(jì)算領(lǐng)域相關(guān)的實(shí)踐案例。同時(shí),指出了異構(gòu)融合計(jì)算發(fā)展面臨的挑戰(zhàn):一是,處理器架構(gòu)的限制,可擴(kuò)展性和靈活性難以滿足,計(jì)算孤島問(wèn)題凸顯;二是,當(dāng)前的編程框架、編程語(yǔ)言、及其他編譯/調(diào)試工具,不足以支撐高效的異構(gòu)代碼編寫(xiě)、優(yōu)化和管理;三是,系統(tǒng)集成和互操作性技術(shù)要求高,難以構(gòu)建統(tǒng)一的在此,對(duì)參與本白皮書(shū)編制的各位專(zhuān)家表示衷心的感謝。我們相信,白皮書(shū)將為讀者提供一個(gè)新的視角和思考方式,希望讀者能夠結(jié)合實(shí)際應(yīng)用場(chǎng)景,對(duì)異構(gòu)融合計(jì)算相關(guān)技術(shù)進(jìn)行深入探索和研究。白皮書(shū)內(nèi)容,不可避免會(huì)存在諸多不足,懇請(qǐng)各界專(zhuān)家批評(píng)指正。當(dāng)今,數(shù)字化技術(shù)作為科技與產(chǎn)業(yè)新一輪變革的核心驅(qū)動(dòng)力,正在加速各行各業(yè)轉(zhuǎn)型升級(jí),一個(gè)以計(jì)算能力為基礎(chǔ)的萬(wàn)物感知、萬(wàn)物互聯(lián)、萬(wàn)物智能的數(shù)字經(jīng)濟(jì)時(shí)代正加速到來(lái)。在這一進(jìn)程中,算力作為數(shù)字經(jīng)濟(jì)的核心生產(chǎn)力,由單一算力演變?yōu)槎鄻有运懔?,如何?shí)現(xiàn)多樣性算力的高質(zhì)量協(xié)同,已成為新型《異構(gòu)融合計(jì)算技術(shù)白皮書(shū)》針對(duì)現(xiàn)有算力基礎(chǔ)設(shè)施無(wú)法滿足算力需求的問(wèn)題,深入刨析了異構(gòu)計(jì)算應(yīng)用場(chǎng)景特點(diǎn)以及計(jì)算架構(gòu)異構(gòu)演進(jìn)歷程,提出了異構(gòu)計(jì)算發(fā)展所面臨的問(wèn)題,引入異構(gòu)融合計(jì)算的概念,并分別從硬件、軟件、系統(tǒng)三大層面概述了異構(gòu)融合趨勢(shì)和關(guān)鍵技術(shù),系統(tǒng)全面地論證了異構(gòu)融合計(jì)算如何解決傳統(tǒng)異構(gòu)計(jì)算的問(wèn)題,并為多樣中國(guó)電信作為云網(wǎng)領(lǐng)域的中央企業(yè),全面深入實(shí)施“云改數(shù)轉(zhuǎn)”戰(zhàn)略,充分發(fā)揮云網(wǎng)融合優(yōu)勢(shì),與產(chǎn)業(yè)鏈上下游廣泛協(xié)同,積極打造云智、訓(xùn)推一體,云網(wǎng)邊端協(xié)同的分布式算力基礎(chǔ)設(shè)施。本白皮書(shū)為算力基礎(chǔ)設(shè)施建設(shè)和算力賦能提供了相關(guān)技術(shù)指引和參考,從基本概念到實(shí)踐案例,再到未來(lái)展望和發(fā)展建議,具有較高的實(shí)踐指導(dǎo)價(jià)值,我們相信該白皮書(shū)能夠?yàn)橄嚓P(guān)企業(yè)和研究機(jī)構(gòu)提供有益的啟示,我們也期待我國(guó)在異構(gòu)融合計(jì)算領(lǐng)域數(shù)字化時(shí)代,創(chuàng)新應(yīng)用爆發(fā)式增長(zhǎng),傳統(tǒng)單一架構(gòu)計(jì)算平臺(tái)已難以滿足多樣性算力需求,異構(gòu)融合計(jì)算技術(shù)的提出顯得尤為重要。該白皮書(shū)深入淺出地解析了異構(gòu)融合計(jì)算技融合在一起,實(shí)現(xiàn)多種處理器的協(xié)同工作,以實(shí)現(xiàn)更高效、更靈活的計(jì)算能力。本白皮書(shū)通過(guò)研判芯粒級(jí)、設(shè)備級(jí)的技術(shù)融合趨勢(shì),為實(shí)現(xiàn)更高計(jì)算能力、更高能效比、更低算力成本的算力硬件實(shí)現(xiàn),提供了一種實(shí)現(xiàn)方案。在軟件及系統(tǒng)層面,闡述了硬件架構(gòu)優(yōu)化、操作系統(tǒng)優(yōu)化、算法定制、統(tǒng)一編程框架、編譯器優(yōu)化等軟硬件高效協(xié)同設(shè)計(jì)的思路,這一點(diǎn)對(duì)硬件和軟件開(kāi)發(fā)都具有重要的引導(dǎo)意義。盡管異構(gòu)融合計(jì)算這一技術(shù)還存在一些挑戰(zhàn)和問(wèn)題,但隨著技術(shù)的進(jìn)步和應(yīng)用的深入,我們可以預(yù)見(jiàn)異構(gòu)融合計(jì)算技術(shù)將在更多領(lǐng)域得到應(yīng)用和發(fā)展。我們有理由相信這一技術(shù)將帶來(lái)更多的社會(huì)和經(jīng)濟(jì)效益。因此,希望未來(lái)的研究能夠繼續(xù)關(guān)注這一領(lǐng)域的發(fā)展動(dòng)態(tài),以推動(dòng)異構(gòu)融合計(jì)算技術(shù)的進(jìn)一步創(chuàng)新和V計(jì)算力就是生產(chǎn)力,智算力就是創(chuàng)新力。智慧時(shí)代的大幕徐徐拉開(kāi),無(wú)論被動(dòng)或主動(dòng),代表的AI應(yīng)用,開(kāi)啟了人機(jī)結(jié)合的新篇章,它的意義不亞于蒸可以媲美人類(lèi)語(yǔ)言的誕生!然而,AI算力的猛增,也讓IT基礎(chǔ)架構(gòu)面臨著前所未有的挑感謝組織方和各位參編人員,適時(shí)地推出了這份前瞻且系統(tǒng)的《異構(gòu)融合計(jì)算技術(shù)白皮書(shū)》。從計(jì)算領(lǐng)域相關(guān)概念出發(fā),系統(tǒng)梳理了異構(gòu)計(jì)算的背景和發(fā)展歷程,剖析了異構(gòu)計(jì)算面臨的問(wèn)題,進(jìn)而引出異構(gòu)融合計(jì)算的提法,在硬件、軟件和系統(tǒng)層面進(jìn)行了充分闡釋?zhuān)詈蠼o出了展望和建議。全文較好地遵循了以系統(tǒng)設(shè)計(jì)為中心的理念,結(jié)合融合架構(gòu)這一發(fā)展方向,指出了異構(gòu)融合計(jì)算的三條演進(jìn)路徑:需要在硬件層面實(shí)現(xiàn)芯片級(jí)和設(shè)備級(jí)的技術(shù)創(chuàng)新,需要在軟件層面實(shí)現(xiàn)跨平臺(tái)的編程框架和運(yùn)行環(huán)境,需要在系統(tǒng)層面實(shí)現(xiàn)白皮書(shū)最大的亮點(diǎn)在于提出了“異構(gòu)融合計(jì)算”的前瞻性概念,強(qiáng)調(diào)實(shí)現(xiàn)更深層次的協(xié)同,突破各異構(gòu)系統(tǒng)之間的鴻溝,實(shí)現(xiàn)通用性和高性能的更高統(tǒng)一,這一觀點(diǎn)前瞻性強(qiáng),值得業(yè)界關(guān)注。異構(gòu)融合計(jì)算通過(guò)多元融合的軟硬件協(xié)同,實(shí)現(xiàn)大規(guī)模計(jì)算資源池化,更總體來(lái)說(shuō),白皮書(shū)對(duì)異構(gòu)融合計(jì)算的概念闡釋和技術(shù)路線給出了參考,相信在實(shí)踐中還需要不斷豐富和發(fā)展。希望大家能夠攜手并進(jìn),共同推動(dòng)異構(gòu)融合計(jì)算理念的傳播,并在產(chǎn)業(yè)中得到更廣泛的應(yīng)用,為中國(guó)的算力產(chǎn)業(yè)和數(shù)字經(jīng)濟(jì)的發(fā)展添磚加推薦序4VI異構(gòu)融合技術(shù)是一種將不同種類(lèi)、不同架構(gòu)、不同性能的計(jì)算或處理單元融合在一起的技術(shù)。這種技術(shù)的目標(biāo)是充分利用各種硬件的優(yōu)勢(shì),以實(shí)現(xiàn)更高的性能、能效或功能擴(kuò)展。異構(gòu)融合技術(shù)通常涉及不同類(lèi)型的處理器、加速器、存儲(chǔ)設(shè)備等的協(xié)同工作,以滿足日益復(fù)雜的計(jì)算需求。從整體出發(fā),“以系統(tǒng)為中心”是異構(gòu)融合的指導(dǎo)思想,浪潮信息的融合架構(gòu)3.0是其中的典型代表??偟膩?lái)說(shuō),異構(gòu)融合技術(shù)在不同領(lǐng)域都發(fā)揮著重要作用,幫助實(shí)現(xiàn)更高效、更強(qiáng)大的計(jì)算能力,從而推動(dòng)了科學(xué)、技術(shù)和應(yīng)用的發(fā)展。因此,在本白皮書(shū)中,編者詳細(xì)介紹了異構(gòu)融合的概念、應(yīng)用場(chǎng)景、現(xiàn)有問(wèn)題以及未來(lái)發(fā)展趨勢(shì)。編者還從需求分析的角度出發(fā),深入探討了異構(gòu)融合技術(shù)在不同領(lǐng)域的應(yīng)用和需求。這些案例涉及不同領(lǐng)域,包括人工智能、高性能計(jì)算等,可以幫助讀者更好地理解異構(gòu)融合的應(yīng)用和價(jià)值。總的來(lái)說(shuō),這本白皮書(shū)對(duì)異構(gòu)融合技術(shù)進(jìn)行了全面的介紹和分析,為讀者提供了深入的了解和洞察。同時(shí),編者也進(jìn)一步探討了異構(gòu)融合技術(shù)的挑戰(zhàn)和問(wèn)題,以----趙雅倩浪潮信息體系結(jié)構(gòu)研究部VII勢(shì)性預(yù)警變成迫切的現(xiàn)實(shí)。在計(jì)算平臺(tái)的半導(dǎo)體PPA、多層級(jí)數(shù)據(jù)訪問(wèn)架構(gòu)、總線網(wǎng)絡(luò)計(jì)算負(fù)載比重等方面,現(xiàn)有以CPU為中心的計(jì)算架構(gòu)難以應(yīng)對(duì)大算力、求的挑戰(zhàn)。圍繞“如何讓數(shù)據(jù)每一跳都產(chǎn)生更多價(jià)值的高效能算力架構(gòu)”科學(xué)發(fā)展問(wèn)題,“異構(gòu)”是指計(jì)算資源或技術(shù)具有不同的體系結(jié)構(gòu)、指令集、算法、工作模式等。“融合”是指將不同種類(lèi)的計(jì)算資源或技術(shù)進(jìn)行組合和優(yōu)化,以實(shí)現(xiàn)更高效、更穩(wěn)定的計(jì)算效果。“異構(gòu)融合”則包含硬件層面(芯片級(jí)、設(shè)備級(jí))軟件層面、系統(tǒng)層面的軟硬件協(xié)同,既有傳統(tǒng)軟件的硬件化卸載,也有總線和網(wǎng)絡(luò)級(jí)的融合,整體上形成多種獨(dú)立的xPU計(jì)算引擎間的異構(gòu)融合互補(bǔ),甚至表現(xiàn)出一些顛覆性的架構(gòu)創(chuàng)新,它將引領(lǐng)計(jì)算技術(shù)《異構(gòu)融合計(jì)算技術(shù)白皮書(shū)(2023年)》首次從芯片、整機(jī)、集群各層級(jí),系統(tǒng)全面的闡述了異構(gòu)計(jì)算技術(shù)全棧的歷史、現(xiàn)狀和前沿探索情況。通過(guò)深入淺出的方式,作者讓我們了解到異構(gòu)融合計(jì)算技術(shù)在提高計(jì)算性能、降低功耗以及節(jié)約成本等方面的優(yōu)勢(shì)。結(jié)合實(shí)際案例分析,我們更加確信該技術(shù)在未來(lái)的發(fā)展前景。希望能引起異構(gòu)計(jì)算業(yè)界對(duì)融力、數(shù)據(jù)的生產(chǎn)資料地位,同時(shí)云計(jì)算、領(lǐng)域?qū)S眉軜?gòu)(DSA)、開(kāi)源和AIoT技術(shù)迅速崛起,種種跡象都在提醒,當(dāng)前正在孕育著新一代信息技術(shù)大變革,我們必須抓住大變革硬件和計(jì)算模式有難以估量的創(chuàng)新發(fā)展空間。摩爾定律失效造成算力增長(zhǎng)緩慢,這是目前信息產(chǎn)業(yè)面臨的重要挑戰(zhàn),對(duì)于我們是機(jī)遇大于挑戰(zhàn)。在后摩爾時(shí)代,產(chǎn)業(yè)界提出了領(lǐng)域?qū)S眉軜?gòu)(DomainSpecificArchitecture,DSA)來(lái)應(yīng)長(zhǎng)的需要。云計(jì)算的業(yè)務(wù)形態(tài)使得其可以通過(guò)將底層異構(gòu)芯片進(jìn)行融合、對(duì)算力進(jìn)行抽象和池化,讓用戶更方便的使用異構(gòu)芯片和DSA架構(gòu),可以操作系統(tǒng)系統(tǒng)軟件迎來(lái)場(chǎng)景驅(qū)動(dòng)的創(chuàng)新發(fā)展大機(jī)遇。操作系統(tǒng)是最為基礎(chǔ)的系統(tǒng)軟件,在異構(gòu)芯片、DSA架構(gòu)的適配,權(quán)衡計(jì)算-數(shù)據(jù)-網(wǎng)絡(luò)的距離達(dá)到最優(yōu)資源利用,實(shí)現(xiàn)異構(gòu)融合有其不可替代的地位。在“硬件芯片+操作系統(tǒng)+編譯器”相結(jié)合的基礎(chǔ)上,將軟硬件協(xié)同的邊界拓展到運(yùn)行時(shí)組件,實(shí)現(xiàn)硬件芯片、操作系統(tǒng)、編譯器等的協(xié)同設(shè)計(jì),可以說(shuō)軟硬件協(xié)同適配是未來(lái)信息技術(shù)的主要發(fā)展“異構(gòu)融合計(jì)算技術(shù)白皮書(shū)”匯聚了領(lǐng)域?qū)<业募w智慧,對(duì)計(jì)算架構(gòu)演化、發(fā)展趨勢(shì)、實(shí)踐案例等進(jìn)行了全方位的梳理,對(duì)信息技術(shù)發(fā)展具有一定的預(yù)見(jiàn)性,必將促使更多----楊勇龍蜥社區(qū)技術(shù)委員會(huì)主席、阿里云操作系統(tǒng)研在當(dāng)今快速發(fā)展的技術(shù)世界中,計(jì)算領(lǐng)域的挑戰(zhàn)和機(jī)遇無(wú)處不在。本白皮書(shū)深入探討了計(jì)算領(lǐng)域的發(fā)展歷程和關(guān)鍵問(wèn)題,提出了異構(gòu)融合作為計(jì)算發(fā)展的重要解決方案,給我眾所周知,自動(dòng)駕駛、元宇宙、人工智能等應(yīng)用正在塑造我們的未來(lái)。然而,這些新興技術(shù)的快速發(fā)展也帶來(lái)了巨大的挑戰(zhàn),尤其是在算力需求方面。本白皮書(shū)詳細(xì)闡述了這些挑戰(zhàn),強(qiáng)調(diào)算力成本不斷上升,對(duì)企業(yè)和研究機(jī)構(gòu)構(gòu)成了重大挑戰(zhàn)。白皮書(shū)中異構(gòu)融合計(jì)算的概念引發(fā)了我們的思考,它為應(yīng)對(duì)算力需求提供了一個(gè)行之有效的途徑。通過(guò)整合多個(gè)異構(gòu)計(jì)算系統(tǒng),我們可以構(gòu)建更強(qiáng)大、高效的計(jì)算架構(gòu),為未來(lái)的技術(shù)應(yīng)用和創(chuàng)新鋪此外,白皮書(shū)強(qiáng)調(diào)了行業(yè)共同努力和協(xié)同創(chuàng)新的重要性。中國(guó)科學(xué)院微電子研究所在智能計(jì)算領(lǐng)域積累了豐富的研究經(jīng)驗(yàn)并取得了一系列重要成就,研究所也在積極推動(dòng)跨學(xué)科合作,與其他學(xué)院、研究機(jī)構(gòu)和行業(yè)合作,以推動(dòng)智能計(jì)算領(lǐng)域的研究和創(chuàng)新。我們相信,只有通過(guò)全行業(yè)的合作,我們才能夠應(yīng)對(duì)當(dāng)前和未來(lái)的計(jì)算挑戰(zhàn),共同推動(dòng)技術(shù)的發(fā)本白皮書(shū)不僅是對(duì)計(jì)算領(lǐng)域的一次深入洞察,也是對(duì)未來(lái)科技趨勢(shì)的一次引導(dǎo)。希望這份白皮書(shū)能夠激發(fā)更多關(guān)于異構(gòu)融合計(jì)算的討論,為我們共同的數(shù)字化未來(lái)打下堅(jiān)實(shí)的----喬樹(shù)山中國(guó)科學(xué)院微電子研究所智能感知研發(fā)中心副主任X 1 1 1 2 2 3 42.1計(jì)算架構(gòu)的發(fā)展歷程 4 4 5 5 62.2.1異構(gòu)計(jì)算技術(shù)成 62.2.2異構(gòu)計(jì)算架構(gòu)品 72.2.3異構(gòu)編程軟件逐 8 82.3.1芯片性能提升陷 82.3.2性能和靈活性難 92.3.3異構(gòu)計(jì)算孤島問(wèn) 92.3.4異構(gòu)計(jì)算編程框 10 12 12 12 17 21 21 24 26 28 28 32 334.1通用性與高性能統(tǒng)一 334.2計(jì)算架構(gòu)走向收斂 344.3編程復(fù)雜度降低 344.4基礎(chǔ)組件優(yōu)化 35 365.1加強(qiáng)政策引導(dǎo),布局 365.2構(gòu)建標(biāo)準(zhǔn)體系,強(qiáng)化 365.3聚焦關(guān)鍵技術(shù),推動(dòng) 365.4加速產(chǎn)業(yè)變革,促進(jìn) 37 3811異構(gòu)計(jì)算領(lǐng)域相關(guān)概念1.1異構(gòu)計(jì)算異構(gòu)計(jì)算(HeterogeneousComputing)是指不同類(lèi)型指令集和體系結(jié)構(gòu)的處理器組成可以獨(dú)立運(yùn)行,其他加速處理器需要在CPU的協(xié)助下運(yùn)行。因此,異構(gòu)計(jì)算通常是指依據(jù)指令的復(fù)雜度,處理器引擎分為CPU、Coprocessor(協(xié)處理器)、GPU、FPGA、圖1-1不同典型處理器間性能與靈活性對(duì)比圖協(xié)處理器集成在CPU內(nèi)部,用于協(xié)助CPU處理特定的計(jì)算任務(wù);加速處理器(如l基于GPU的異構(gòu)并行。GPU異構(gòu)加速本質(zhì)是眾多并行的高效能通用處理器,通過(guò)l基于FPGA的異構(gòu)并行。FPGA具備硬件彈性的特征,可以根據(jù)需要進(jìn)行配置和編程,以實(shí)現(xiàn)不同的計(jì)算任務(wù)和算法加速,具有高并行度和高可靠性,適合進(jìn)行定制計(jì)算。l基于DSA的異構(gòu)并行。CPU和DSA共同構(gòu)成異構(gòu)計(jì)算系統(tǒng),DSA可以在定制異構(gòu)的目標(biāo)是將任務(wù)分解為計(jì)算上同構(gòu)的子任務(wù),然后將每個(gè)子任務(wù)分配給最適合執(zhí)行的計(jì)算資源(或并行模式)。異構(gòu)系統(tǒng)通常是由使用不同類(lèi)型指令集和體系架構(gòu)的計(jì)算單1.2異構(gòu)融合計(jì)算架構(gòu)、工藝和封裝,以及統(tǒng)一的異構(gòu)計(jì)算軟件。但在最核心的系統(tǒng)架構(gòu)層次,Intel僅僅只強(qiáng)調(diào)了“多”,并沒(méi)有進(jìn)一步對(duì)超異構(gòu)計(jì)算進(jìn)行闡述,以及設(shè)計(jì)實(shí)現(xiàn)的進(jìn)一步細(xì)節(jié)說(shuō)“異構(gòu)融合計(jì)算”是一個(gè)全新的概念,目前行業(yè)還沒(méi)有形成統(tǒng)一的定義。從概念上講,“異構(gòu)融合計(jì)算”屬于異構(gòu)計(jì)算的范疇,可以定義為異構(gòu)計(jì)算的一種高2本白皮書(shū)認(rèn)為,狹義的“異構(gòu)融合計(jì)算”,是一種新的計(jì)算架構(gòu)和方法,通過(guò)融合CPU和多種不同類(lèi)型、不同架構(gòu)的加速處理器,以實(shí)現(xiàn)更大規(guī)模、更高性能、更加高效的計(jì)算。而廣義的“異構(gòu)融合計(jì)算”,則通過(guò)不同層次、不同類(lèi)型的技l超異構(gòu):系統(tǒng)中異構(gòu)處理器的數(shù)量為三個(gè)或三個(gè)以上。“一個(gè)稱(chēng)為同構(gòu),兩個(gè)稱(chēng)為l硬件融合:強(qiáng)調(diào)不同處理器之間的深度協(xié)同(指單個(gè)工作任務(wù)由兩個(gè)或兩個(gè)以上處處理器運(yùn)行,也可以跨同類(lèi)型中的不同架構(gòu)處理器運(yùn)行)。各處理器之間可以通過(guò)高速總線或高性能網(wǎng)絡(luò)進(jìn)行通信和數(shù)據(jù)傳輸,通過(guò)更高層次的系統(tǒng)劃分和任務(wù)調(diào)度實(shí)現(xiàn)協(xié)同計(jì)算。l軟件融合:面向異構(gòu)(硬件)計(jì)算環(huán)境,將操作系統(tǒng)、應(yīng)用軟件、編程模型、編程語(yǔ)言、通信協(xié)議、數(shù)據(jù)等技術(shù)資源進(jìn)行融合和優(yōu)化,提供統(tǒng)一的軟件運(yùn)行環(huán)境和編譯開(kāi)發(fā)l系統(tǒng)融合:通過(guò)合理地任務(wù)分配和資源調(diào)度,異構(gòu)融合計(jì)算系統(tǒng)可以實(shí)現(xiàn)更高的計(jì)傳統(tǒng)異構(gòu)計(jì)算,特指CPU+xPU的計(jì)算架構(gòu)。異構(gòu)融合計(jì)算與傳統(tǒng)異構(gòu)計(jì)算的差異點(diǎn)在于:傳統(tǒng)異構(gòu)計(jì)算僅有一種加速處理器類(lèi)型,并且僅關(guān)注CPU和加速處異構(gòu)融合計(jì)算則具有兩種或兩種以上的加速處理器類(lèi)型,并且需要重點(diǎn)關(guān)注所有處理器之1.3其他相關(guān)概念1.3.1ASIC與DSAASIC(Application-SpecificIntegratedCircuit,專(zhuān)用集制造的集成電路,與通用集成電路(GeneralPurposeIC)相比體積更小、功耗更低、成本更低。一般來(lái)說(shuō),ASIC處理引擎的指令復(fù)雜度最高,其理3差異化需求,二是縱向的單個(gè)用戶的長(zhǎng)期快速迭代需求。即使同一場(chǎng)景下,不Architecture,特定領(lǐng)域架構(gòu)),可根據(jù)特定應(yīng)用場(chǎng)景定制處理引擎甚至芯片,支持部分軟件可編程。DSA的設(shè)計(jì)和實(shí)現(xiàn)需要考慮特定領(lǐng)域的特征和需求,包括算法、數(shù)據(jù)結(jié)構(gòu)和最l靈活性問(wèn)題:ASIC由于其功能確定,只能通過(guò)一些簡(jiǎn)單的配置控制硬l應(yīng)用領(lǐng)域擴(kuò)大:DSA支持可編程能力,使得其功能覆蓋的領(lǐng)域范圍DSA架構(gòu)的處理引擎在滿足系統(tǒng)靈活性要求的情況下,可實(shí)現(xiàn)最極性?xún)r(jià)比。SoC(SystemonChip,片上系統(tǒng)),是一種將多種電子組件集成在一個(gè)先進(jìn)的電路設(shè)計(jì)和封裝技術(shù)實(shí)現(xiàn)將不同的組件集成到一個(gè)芯片上。這種集成方式可以減少系統(tǒng)的體積和功耗,提高系統(tǒng)的可靠性和性能。同時(shí),SoC還可以通過(guò)硬件SiP(SysteminPackage,系統(tǒng)級(jí)封裝)是一種先進(jìn)的封裝技術(shù),它能的有源電子元件與可選無(wú)源器件、MEMS(微機(jī)電系統(tǒng))器件、光學(xué)器件等先組裝到一起,實(shí)現(xiàn)一定功能的單個(gè)標(biāo)準(zhǔn)封裝件,形成一個(gè)系統(tǒng)或者子系統(tǒng)。這術(shù)體現(xiàn)了將各種功能芯片,包括處理器、存儲(chǔ)器等芯片集成在一個(gè)l2DSiP:這是最常見(jiàn)的SiP類(lèi)型,通過(guò)在平面上排列多個(gè)芯片實(shí)現(xiàn)不同功能。這些lMIP(Multiple-chip-in-Package):MIPMEMS、光學(xué)元件等)組合在一起的技術(shù),裝尺寸和系統(tǒng)性能方面存在一定的區(qū)別。SiP更注重將不同功能起,實(shí)現(xiàn)一定功能的系統(tǒng)或子系統(tǒng);而SoC則通過(guò)將整42異構(gòu)計(jì)算的發(fā)展及問(wèn)題2.1計(jì)算架構(gòu)的發(fā)展歷程l第一代,晶體管時(shí)代,指令集架構(gòu)出現(xiàn)之前,計(jì)算機(jī)架構(gòu)各不相同;l第二代,小規(guī)模和中等規(guī)模集成電路時(shí)代,出現(xiàn)支持指令集架構(gòu)的CPU處l第三代,大規(guī)模和超大規(guī)模集成電路時(shí)代,指令級(jí)并行以及CISC和RISC混戰(zhàn);l第四代,超大規(guī)模集成電路的多核處理器并行時(shí)代;l第五代,超大規(guī)模的領(lǐng)域?qū)S锰幚砥鳎―SA)時(shí)代。上述計(jì)算機(jī)體系結(jié)構(gòu)的時(shí)代劃分,是站在單處理器引擎視角進(jìn)行的。本白皮書(shū)參考上述五個(gè)時(shí)代的劃分,站在多處理器引擎計(jì)算架構(gòu)從簡(jiǎn)單到復(fù)雜的發(fā)展視角,提出了如下的l第一階段,基于單核CPU的串行計(jì)算;l第二階段,基于多核CPU的同構(gòu)并行計(jì)算;2.1.1基于單核CPU的串行計(jì)算Computer),其線路必須被重設(shè)才能執(zhí)行不同的程序,通常需要花費(fèi)長(zhǎng)達(dá)三周的時(shí)間。而CPU微處理器通過(guò)支持跳轉(zhuǎn)、調(diào)用等控制類(lèi)指令,使得計(jì)算機(jī)可以執(zhí)行各種復(fù)雜的計(jì)算和CPU的這種設(shè)計(jì)理念實(shí)現(xiàn)了軟件與硬件的解耦。即在更在這種架構(gòu)中,軟件開(kāi)發(fā)是基于串行計(jì)算的思維,程序或問(wèn)題被分解成一系列離散的指令,圖2-1單核CPU串行計(jì)算示意圖l指令集架構(gòu):宏觀架構(gòu)有精簡(jiǎn)RISC和復(fù)雜CISC路線之爭(zhēng)。l微架構(gòu)創(chuàng)新:CPU處理器中出現(xiàn)了各種各樣的微架構(gòu)創(chuàng)新技術(shù),如處乘法/除法器等復(fù)雜執(zhí)行單元、指令多發(fā)射、亂序執(zhí)行、l數(shù)據(jù)位寬:處理器數(shù)據(jù)位寬從4位到8位到16位到32位,再到目前主流的64位。52.1.2基于多核CPU的同構(gòu)并行計(jì)算AMD和Intel分別推出了各自的雙核處理器。隨著技術(shù)的創(chuàng)新迭代,更多的C的超高并行計(jì)算能力。圖2-2多核CPU同構(gòu)并行計(jì)算示意圖并行計(jì)算(ParallelComputing)是通過(guò)擴(kuò)大問(wèn)題求解規(guī)模,解決大型而復(fù)雜的計(jì)算問(wèn)題。并行計(jì)算主要分為時(shí)間上的并行和空間上的并行。時(shí)間上的并行是指流水線技術(shù),而空間上的并行則是指用多個(gè)處理器并發(fā)的執(zhí)行計(jì)算,以此擴(kuò)大問(wèn)題求解升受任務(wù)順序部分的限制。阿姆達(dá)爾定律證明了處理器數(shù)量的增加帶來(lái)的收益會(huì)遞減。一方面受系統(tǒng)工作任務(wù)并行特征的約束,另一方面,受單芯片設(shè)計(jì)規(guī)模上限的約束,通過(guò)多2.1.3基于CPU+xPU的異構(gòu)并行計(jì)算基于CPU+xPU的異構(gòu)并行計(jì)算廣泛應(yīng)用于高性能計(jì)算、人工智能等領(lǐng)域。CPU和2006年,NVIDIA發(fā)布了第一款真正意義上的通用GPU:Tesla架構(gòu)GPU;同年,NVIDIA發(fā)布了CUDA框架,這標(biāo)志著基于GPU處理器并行計(jì)算的誕生。單位計(jì)算的功耗面積等成本較高;而GPU單位計(jì)算的功耗面積等成本也較低;CPU擅長(zhǎng)處理串行任務(wù),而GPU則更適合處理并行6),多維度的數(shù)組運(yùn)算,以增強(qiáng)并行計(jì)算的能力。TPU獨(dú)立完成整個(gè)推理模型的運(yùn)算,極大地的指令緩沖區(qū),確保數(shù)據(jù)流暢無(wú)阻。TPU的矩陣乘法單元是其計(jì)算的核心,專(zhuān)門(mén)用于處理性能和功耗之間的關(guān)系是決定計(jì)算設(shè)備選擇的核心因素。為了滿足大規(guī)模計(jì)算的需求,從CPU到GPU,再到TPU(DSA),每一個(gè)技術(shù)進(jìn)步都帶來(lái)了性能的顯著提升?;陉嚵羞壿嫞┑瓤删幊唐骷幕A(chǔ)上的半定制電路,或叫可編程的邏輯列陣。FPGA基本結(jié)構(gòu)包括可編程輸入輸出單元、可配置邏輯塊、數(shù)字時(shí)鐘管理模塊、內(nèi)嵌專(zhuān)用硬核,底層內(nèi)相比,F(xiàn)PGA提供了更大的硬件靈活性,允許開(kāi)發(fā)者根據(jù)需要進(jìn)行硬件編程和定制。這樣的靈活性彌補(bǔ)了定制電路的一些局限性,同時(shí)具備比傳統(tǒng)可編程邏輯更高的邏輯門(mén)數(shù)量,CGRA可重構(gòu)計(jì)算(Coarse-grainedR的并行計(jì)算架構(gòu),它通過(guò)空域硬件結(jié)構(gòu)組織不同粒度和功能的計(jì)算資源。與傳統(tǒng)的指令驅(qū)動(dòng)計(jì)算架構(gòu)不同,CGRA在運(yùn)行時(shí)根據(jù)數(shù)據(jù)流的特點(diǎn)進(jìn)行硬件配置,讓計(jì)算資源形成相對(duì)固定的計(jì)算通路,從而以接近“專(zhuān)用電路”的方式并行計(jì)算。這種結(jié)構(gòu)既減少了取指和譯碼的延時(shí)及能耗,又能以專(zhuān)用電路的方式高效執(zhí)行。當(dāng)面臨不同的算法和應(yīng)用時(shí),可以通過(guò)2.2異構(gòu)計(jì)算技術(shù)蓬勃發(fā)展2.2.1異構(gòu)計(jì)算技術(shù)成為主流處理器性能平均每2年翻一番;隨著登納德縮放定律的逐漸失效、阿姆達(dá)爾定律的充分挖的硅面積,算力密度低,運(yùn)算單元少,不適合人工智能領(lǐng)域的高并發(fā)密集的向量、張量計(jì)7當(dāng)前,人工智能領(lǐng)域主要采用CPU+xPU(GPU/F異構(gòu)計(jì)算技術(shù)已經(jīng)成為超級(jí)計(jì)算機(jī)、嵌入式系統(tǒng)、人工智能等領(lǐng)域的主流計(jì)算模式,未來(lái)2.2.2異構(gòu)計(jì)算架構(gòu)品類(lèi)眾多場(chǎng)景(Scenario)是領(lǐng)域(Domain)的子集。比如AES加解密是一個(gè)具體的場(chǎng)景因此,針對(duì)不同類(lèi)型處理器的領(lǐng)域和場(chǎng)景覆蓋,我們可以得到異構(gòu)計(jì)算架構(gòu)的品類(lèi)眾多,并且不同的品類(lèi)具體的架構(gòu)實(shí)現(xiàn)也不盡相同。按照不同的l基于GPU的異構(gòu):頭部廠商占據(jù)了主要市場(chǎng),GPl基于DSA/ASIC的異構(gòu):面向應(yīng)用領(lǐng)域和場(chǎng)景各異、每個(gè)廠商芯片架構(gòu)實(shí)現(xiàn)的方式各異;甚至,由于業(yè)務(wù)迭代的影響,同一個(gè)廠家不同代產(chǎn)品的架構(gòu)也有可DSA/ASIC異構(gòu)里,異構(gòu)計(jì)算架構(gòu)8在體系結(jié)構(gòu)的黃金年代,異構(gòu)處理器多樣化是時(shí)代的潮流。在眾多異構(gòu)計(jì)算架構(gòu)中,如何實(shí)現(xiàn)平衡性能與靈活性,并從系統(tǒng)層面上以更低的成本獲取更大的算力、更多的領(lǐng)域2.2.3異構(gòu)編程軟件逐漸成熟隨著異構(gòu)計(jì)算的發(fā)展和廣泛應(yīng)用,異構(gòu)編程技術(shù)也逐漸成熟。異構(gòu)編程是指通過(guò)編寫(xiě)軟件來(lái)調(diào)度異構(gòu)計(jì)算平臺(tái)進(jìn)行計(jì)算,其成熟性主要體現(xiàn)在在平臺(tái)支持方面,主流的異構(gòu)計(jì)算平臺(tái)都提供了相應(yīng)的開(kāi)發(fā)工具和編程模型,以支持異構(gòu)編程。例如,NVIDIA提供的CUDA編程模型;Xi在編程模型方面,針對(duì)異構(gòu)計(jì)算的編程模型也在不斷完善和發(fā)展。傳統(tǒng)的編程模型如寒武紀(jì)的MagicMind等。這些編程模型提供了更高層次構(gòu)編程的難度,同時(shí)充分發(fā)揮了異構(gòu)計(jì)算的優(yōu)勢(shì),目的是讓開(kāi)發(fā)者可以更加輕松地進(jìn)行異在優(yōu)化工具和框架方面,為了提高異構(gòu)計(jì)算的效率,研究人員和廠商們開(kāi)發(fā)了各種優(yōu)化工具和框架。這些工具和框架提供了各種編譯、調(diào)度、調(diào)試和優(yōu)化的功能,以幫助開(kāi)發(fā)用于性能分析和調(diào)試;與FPGA相關(guān)的優(yōu)簡(jiǎn)而言之,越來(lái)越多的案例表明了異構(gòu)編程正在逐漸成熟,不僅有全棧的軟硬件平臺(tái)2.3異構(gòu)計(jì)算技術(shù)演進(jìn)困境異構(gòu)計(jì)算技術(shù)已經(jīng)廣泛應(yīng)用于多個(gè)領(lǐng)域,如云計(jì)算、邊緣計(jì)算、高性能計(jì)算等。但異構(gòu)計(jì)算也逐漸面臨性能瓶頸問(wèn)題,同時(shí)面臨性能和靈活性難以兼顧、編程框架不統(tǒng)一等問(wèn)2.3.1芯片性能提升陷入瓶頸升一倍。單個(gè)異構(gòu)計(jì)算設(shè)備的性能提升有限,只能通過(guò)擴(kuò)大計(jì)算集群規(guī)模的方式來(lái)滿足算力快速提升的需求。然而,受限于集群效率,目前上千臺(tái)服務(wù)器和上萬(wàn)張GPU加速卡的單個(gè)計(jì)算芯片的性能提升已經(jīng)陷入瓶頸,主要有如下l摩爾定律放緩:隨著制程工藝不斷縮小,摩爾定律的推進(jìn)速度已經(jīng)放緩,單純依靠l能源和散熱限制:隨著芯片制程工藝的進(jìn)步,晶體管的體積不斷縮小,但同時(shí)也帶來(lái)了更高的功耗和熱量產(chǎn)生。在有限的能源和散熱條件下,單純追求性能提升將導(dǎo)致芯片l軟件和硬件的協(xié)同優(yōu)化不足:為了充分發(fā)揮硬件性能,需要與之相應(yīng)的軟件和算法支持。但在實(shí)際應(yīng)用中,軟件和硬件之間的協(xié)同優(yōu)化并不總是能夠?qū)崿F(xiàn),導(dǎo)致部分硬件性9l阿姆達(dá)爾定律的原則:并行性的理論性能提升受任務(wù)順序部分的限制。在優(yōu)化計(jì)算機(jī)系統(tǒng)性能時(shí),不僅需要考慮單個(gè)處理器的性能,還需要考慮如何并行化計(jì)算任務(wù),以充分利用多核處理器的優(yōu)勢(shì)。也因此,通過(guò)多核并行來(lái)提升綜合性能的收益也在逐漸遞減。為了突破性能瓶頸,未來(lái)的計(jì)算技術(shù)需要從多層次、多方面進(jìn)行創(chuàng)新,包括新型計(jì)算2.3.2性能和靈活性難以兼顧性能與靈活性在不同的加速處理器上呈現(xiàn)出不同的特l性能優(yōu)越:DSA技術(shù)通過(guò)將多個(gè)處理器核心連接到一個(gè)共享內(nèi)存區(qū)域,實(shí)現(xiàn)了處理器之間的高效數(shù)據(jù)交換和協(xié)作。這使得DSA在處理大規(guī)模數(shù)據(jù)和復(fù)雜任務(wù)時(shí)l靈活性高:DSA技術(shù)可以根據(jù)實(shí)際應(yīng)用需求,靈活配置處理器核心和內(nèi)存資源的比例,以滿足不同場(chǎng)景下性能和資源需求的平衡。此外,DSA還支持動(dòng)態(tài)地添加或刪除處理l易于擴(kuò)展:DSA技術(shù)具有良好的可擴(kuò)展性,可以通過(guò)增加處理器核心數(shù)量來(lái)提高系l容錯(cuò)能力強(qiáng):DSA技術(shù)采用了冗余設(shè)計(jì),當(dāng)系統(tǒng)中某個(gè)處理器核心出現(xiàn)故障時(shí),其他核心可以接管其任務(wù),保證整個(gè)系統(tǒng)的正l適用范圍有限:由于DSA技術(shù)針對(duì)特定領(lǐng)域進(jìn)行優(yōu)化,因此其在非定制領(lǐng)域的適l開(kāi)發(fā)和維護(hù)成本高:為了充分發(fā)揮DSA的性能優(yōu)勢(shì),需要針對(duì)具體應(yīng)用進(jìn)行優(yōu)化和適配。這意味著開(kāi)發(fā)者需要投入更多的精力進(jìn)行硬件和軟件設(shè)計(jì),提高了開(kāi)發(fā)和維護(hù)成本。l技術(shù)成熟度較低:相較于傳統(tǒng)架構(gòu),DSA的技術(shù)成熟度較低。在實(shí)際應(yīng)用中,可能l兼容性問(wèn)題:由于DSA技術(shù)采用了特定領(lǐng)域的定制設(shè)計(jì),可能導(dǎo)致與其他硬件和軟件系統(tǒng)的兼容性問(wèn)題。在使用過(guò)程中,可能需要額外的適配和優(yōu)化工在異構(gòu)計(jì)算中,不同的處理器各有優(yōu)勢(shì)和劣勢(shì),選擇最適合的處理器取決于特定應(yīng)用的性能和靈活性需求。盡管DSA提供了一種介于高性能ASIC和靈活的通用處理器之間的解決方案,但其在某些迅速變化的領(lǐng)域中仍面臨著挑戰(zhàn)。未來(lái)的技術(shù)研究應(yīng)集中在如何實(shí)2.3.3異構(gòu)計(jì)算孤島問(wèn)題突顯隨著異構(gòu)計(jì)算在各領(lǐng)域的應(yīng)用落地,多異構(gòu)共存的異構(gòu)計(jì)算孤島問(wèn)題也逐漸突顯。多異構(gòu)計(jì)算的硬件層次高集成度和系統(tǒng)軟件層次多協(xié)同、通用編程模型和開(kāi)發(fā)環(huán)境,已成為圖2-4從同構(gòu)到異構(gòu)再到多異構(gòu)的演進(jìn)l各領(lǐng)域加速器難以全局協(xié)同:不同的加速器在處理特定領(lǐng)域的問(wèn)題時(shí)表現(xiàn)出色,但相互協(xié)同能力差,可能導(dǎo)致系統(tǒng)整體的性能下降。協(xié)同能力差主要體現(xiàn)在兩個(gè)方面:不同的加速器的存儲(chǔ)器和內(nèi)存管理機(jī)制不同,導(dǎo)致數(shù)據(jù)訪問(wèn)和傳輸方式復(fù)雜,數(shù)據(jù)通路難以協(xié)同;多個(gè)加速器的控制機(jī)制不同,導(dǎo)致它們之間的同步和協(xié)調(diào),需要復(fù)雜的并行控制機(jī)制l各領(lǐng)域加速器之間交互困難:不同類(lèi)型的加速器之間進(jìn)行通信和數(shù)據(jù)交換需要使用特定的接口和機(jī)制,增加了開(kāi)發(fā)的復(fù)雜性和難度;頻繁大量的通信和數(shù)據(jù)交換,導(dǎo)致數(shù)據(jù)l中心單元的性能瓶頸問(wèn)題:在異構(gòu)系統(tǒng)中,通常有一個(gè)中心單元(如CPU、DPU)負(fù)責(zé)協(xié)調(diào)和管理其他硬件加速器的工作。然而,當(dāng)加速器數(shù)量增多或任務(wù)復(fù)雜度增加時(shí),l物理空間無(wú)法容納多個(gè)異構(gòu)加速卡:由于物理空間的限制,系統(tǒng)中只能容納有限數(shù)2.3.4異構(gòu)計(jì)算編程框架各異不同的異構(gòu)計(jì)算編程框架都擁有其獨(dú)特的特性和適用環(huán)境,開(kāi)發(fā)者在編寫(xiě)程序時(shí)需要依據(jù)實(shí)際需求和硬件設(shè)備選擇最適合的框架。由于硬件的獨(dú)特性質(zhì),每種硬件都配備了專(zhuān)例如,CUDA是由NVIDIA推出的并行計(jì)算平臺(tái)和編程模型,它允許開(kāi)發(fā)者利用加速的并行計(jì)算。AmpxAI是由AMD開(kāi)發(fā)的基于Python的并行計(jì)算庫(kù),可在AMD的GPU上實(shí)現(xiàn)高效的計(jì)算。這就要求開(kāi)發(fā)者掌握多種編程模型和語(yǔ)言,使得代碼移植面臨巨大的挑戰(zhàn)。例如,專(zhuān)即使有統(tǒng)一編程模型的支持,要實(shí)現(xiàn)高效的代碼仍需要針對(duì)特定硬件進(jìn)行手動(dòng)優(yōu)化,這無(wú)疑增加了編程的復(fù)雜性和開(kāi)發(fā)周期。雖然業(yè)界提出了多種方法試圖建立統(tǒng)一的異構(gòu)計(jì)算編程框架,以簡(jiǎn)化開(kāi)發(fā)過(guò)程并解決這些挑戰(zhàn),但至今仍未找到完美的解決方案。因此,尋找一個(gè)真正統(tǒng)一、能滿足所有硬件和應(yīng)用需求的編程方法,仍然是計(jì)算領(lǐng)域的熱門(mén)研究3異構(gòu)融合計(jì)算技術(shù)探索隨著計(jì)算模式從集中式的單節(jié)點(diǎn)計(jì)算逐漸走向分布式的多節(jié)點(diǎn)協(xié)同計(jì)算,計(jì)算系統(tǒng)變得越來(lái)越復(fù)雜。異構(gòu)融合計(jì)算技術(shù),不僅僅需要芯片級(jí)、設(shè)備級(jí)等硬件層面技術(shù)的支撐,還需要操作系統(tǒng)、編程框架以及跨平臺(tái)等多種軟件層面技術(shù)的支持,以及數(shù)據(jù)中心和新型計(jì)算模式等系統(tǒng)層面技術(shù)的全力配合。通過(guò)整個(gè)系統(tǒng)的全方位軟硬件協(xié)同工作,來(lái)達(dá)到異3.1硬件層面融合技術(shù)探索3.1.1芯片級(jí)融合計(jì)算架構(gòu)2015之后,摩爾定律逐漸放緩,集成電路發(fā)展進(jìn)入后摩爾時(shí)代,集成電路的整體發(fā)展l“MoreMoore”:延續(xù)摩爾定律,在縮小尺寸的同時(shí),集成更多的組件,實(shí)現(xiàn)功能l“MorethanMoore”:擴(kuò)展摩爾定律,通過(guò)先進(jìn)封裝技術(shù),把不同的功能組件封裝l“BeyondMoore”:超越摩爾定律,探索量子計(jì)算、類(lèi)腦計(jì)算、電子器件等新型半l“MuchMoore”:豐富摩爾定律,隨著計(jì)算機(jī)學(xué)與物理學(xué)、數(shù)學(xué)、化學(xué)、生物學(xué)等其中,“BeyondMoore”和“MuchMoore”屬于更加前沿術(shù)、SoC驗(yàn)證技術(shù)、可測(cè)性設(shè)計(jì)技術(shù)、低功耗設(shè)計(jì)技術(shù)、超深亞微米電路實(shí)現(xiàn)技術(shù)等。SoC設(shè)計(jì)技術(shù)可以降低系統(tǒng)板上因信號(hào)在多個(gè)芯片之間進(jìn)出帶來(lái)的延遲而導(dǎo)致的性能局限,NoC是目前大規(guī)模芯片內(nèi)部互聯(lián)的最主要通信架構(gòu),通過(guò)芯片內(nèi)實(shí)現(xiàn)類(lèi)似于網(wǎng)構(gòu),包括目標(biāo)的處理單元(PE)、交換節(jié)點(diǎn)(routers)和互連線(wires),這種互聯(lián)結(jié)構(gòu)相比傳統(tǒng)交叉開(kāi)關(guān)(Crossbar)總線具有可擴(kuò)展性好、并發(fā)性強(qiáng)等特點(diǎn)。隨著SoC集成度越來(lái)越高,NoC拓?fù)浣Y(jié)構(gòu)主要有兩種,直接型拓?fù)浣Y(jié)構(gòu):所有的路由節(jié)點(diǎn)均與計(jì)算資源相連,并通過(guò)雙向鏈路直接連接。常(Hypercube)NoC。網(wǎng)絡(luò)是由交換節(jié)點(diǎn)和互連線構(gòu)成的,每個(gè)節(jié)點(diǎn)連接一個(gè)處理單元(RE)和上下左右四個(gè)相鄰的路由器,每個(gè)處理單元通過(guò)一個(gè)網(wǎng)絡(luò)接口(Net-InterfaceNI)連接著一個(gè)路由器。其中的處理單元可以是處理器核、內(nèi)存、用戶自定義硬件模塊或者其他任何可以插入插槽并且可以和網(wǎng)絡(luò)接口相配的IP(IntellectualProperty路由器之間,路由器和資源之間是由一對(duì)輸入和輸出通道連接。通道是由兩條單向的點(diǎn)對(duì)點(diǎn)總線組成。2D網(wǎng)格型(Mesh)是典型的直接型NoC拓?fù)?,如圖3-2所示:各個(gè)路由節(jié)點(diǎn)之間不一定是直接通過(guò)雙向鏈路相連接,而可能是通過(guò)這些專(zhuān)門(mén)的開(kāi)關(guān)節(jié)點(diǎn)一顆芯片的晶體管數(shù)量為百萬(wàn)級(jí)至百億級(jí)不等;另一方面,SoC可以運(yùn)行處理多任務(wù)的復(fù)移植性等特點(diǎn)。在SoC芯片研發(fā)過(guò)程中,研發(fā)人員SiP是從封裝的立場(chǎng)出發(fā),對(duì)不同芯片進(jìn)行并排或疊加的方式封裝,將多個(gè)具有不同功能的有源電子元件與可選無(wú)源器件,以及諸如MEMS或者光學(xué)器件等其行分解,然后開(kāi)發(fā)出多種具有單一特定功能、可相互進(jìn)行模塊化組裝的裸芯片(如實(shí)現(xiàn)了數(shù)據(jù)存儲(chǔ)、計(jì)算、信號(hào)處理、數(shù)據(jù)流管理等功能),再將這些模塊化的芯粒(裸片)互聯(lián)起來(lái),采用新型封裝技術(shù),將不同功能不同工藝制造的芯粒封裝在一起,成為一個(gè)異構(gòu)集Chiplet芯片設(shè)計(jì)具備三大優(yōu)勢(shì):快速開(kāi)發(fā)、低成本、多功能;借助先進(jìn)的封裝技術(shù),芯??梢约筛鞣N不同的架構(gòu)、不同的工藝節(jié)點(diǎn),特定設(shè)計(jì)部分選擇最先進(jìn)的技術(shù),而在其他部分選擇更成熟、更廉價(jià)的技術(shù),從而節(jié)省整AI加速器等不同處理元素任意組合,為各種應(yīng)用需求提供更豐富的加速選項(xiàng)。Chiplet封裝主要分為2.5D封裝l2.5D封裝:橫向堆疊芯片,在傳統(tǒng)的地基上增加硅中介層(interproser),把芯片之間、芯片與存儲(chǔ)之間的連線封裝在硅中介層中,可提供近似在同一個(gè)芯片內(nèi)的互聯(lián)性能。GPU與CPU。代表技術(shù)有臺(tái)積電的CoWoS、英特爾的EMIB。l3D封裝:縱向堆疊芯片,不同于2.5D封裝,3D封裝是一種晶圓對(duì)晶圓(Wafer-On-Wafer)無(wú)凸起的鍵合(Bonding)技術(shù),在垂直方向上堆疊芯片和存儲(chǔ),各層通過(guò)硅通量,MI300A則把CPU和GPU通過(guò)3D裝的技術(shù),構(gòu)建更高效、更經(jīng)濟(jì)的芯片系統(tǒng)。這種設(shè)計(jì)方法簡(jiǎn)化了芯片設(shè)計(jì)的復(fù)雜性,而晶圓融合技術(shù)核心設(shè)計(jì)理念:在這種架構(gòu)中,充分利用晶圓了適應(yīng)大規(guī)模的計(jì)算需求,重點(diǎn)放在了系統(tǒng)的晶圓內(nèi)互聯(lián)上,而不再追求單核的超高性能。l輕量級(jí)計(jì)算核心/處理單元(PE):架構(gòu)采用輕量級(jí)的計(jì)算核心,不再追求每個(gè)核心l片上/片間互聯(lián)(NoC/NoP):架構(gòu)使用對(duì)稱(chēng)互聯(lián)方式,減少了不同層級(jí)之間的帶寬逐l存儲(chǔ)層次:架構(gòu)在內(nèi)存層次結(jié)構(gòu)上采用了非一致性?xún)?nèi)存訪問(wèn)(NUMA)架構(gòu),結(jié)合l集群互聯(lián):從基于芯片的3D拓?fù)浣Y(jié)構(gòu)轉(zhuǎn)向基于晶圓的2D拓?fù)浣Y(jié)構(gòu),這l硬件冗余設(shè)計(jì)和PartialGood策略:由于晶圓級(jí)l硬件Defect處理:針對(duì)晶圓級(jí)制造過(guò)程中可能出現(xiàn)的硬件缺陷,這種架構(gòu)采取了一根據(jù)算力的快速增長(zhǎng)需求,以及異構(gòu)融合的發(fā)展大趨勢(shì),作為芯片設(shè)計(jì)集成/融合的主l異構(gòu)系統(tǒng)支持:多種類(lèi)型的處理器和加速器的異構(gòu)系統(tǒng)正在普及。NOC技術(shù)能夠l更高的集成度:隨著芯片制造技術(shù)的進(jìn)步,芯片上可以集成更多不同類(lèi)型的處理器核心、存儲(chǔ)單元和功能模塊。NOC技術(shù)將面臨更高的集成度l更高的帶寬和更低的延遲:新型應(yīng)用對(duì)數(shù)據(jù)傳輸帶寬和延遲要求更高。NOC技術(shù)將朝著提供更高的帶寬和更低的通信延遲方向l可編程性和靈活性:越來(lái)越多的應(yīng)用場(chǎng)景需要定制的處理器/加速器,因此NOC技術(shù)需要更大的可編程性,以適應(yīng)不同類(lèi)型的處理器和l能耗和功耗優(yōu)化:NOC技術(shù)需要在提供高性能的同時(shí),優(yōu)化能源效率,減少功耗。l異構(gòu)系統(tǒng)支持:多種類(lèi)型的處理器和加速器的異構(gòu)系統(tǒng)正在普及。NOC技術(shù)需要l安全性和可靠性:隨著互聯(lián)網(wǎng)的普及,芯片的安全性和可靠性變得尤為重要。NOCl虛擬化和云計(jì)算:NOC技術(shù)需要支持虛擬化和資源共享,以便多個(gè)應(yīng)用程序在同l機(jī)器學(xué)習(xí)和自適應(yīng)性:機(jī)器學(xué)習(xí)技術(shù)可以應(yīng)用于NOC,以?xún)?yōu)化通信路由、動(dòng)態(tài)調(diào)總之,NOC技術(shù)的發(fā)展趨勢(shì)將主要關(guān)注高度異構(gòu)集成、高帶寬低延遲、靈活性、能源效率、安全性和適應(yīng)性。隨著新的應(yīng)用場(chǎng)景的出現(xiàn),NOC技術(shù)將按照上述發(fā)展趨勢(shì)持續(xù)在工藝進(jìn)步日益走向物理極限的今天,多種異構(gòu)芯粒的封裝逐漸成為芯片規(guī)模持續(xù)提l異構(gòu)融合:Chiplet技術(shù)為異構(gòu)融合提供了可能性,其中不同類(lèi)型的芯??梢约稍趌模塊化設(shè)計(jì)和快速迭代:Chiplet技術(shù)允許不同芯粒獨(dú)立設(shè)計(jì)和迭代。這使得芯片設(shè)l多樣化和定制化:Chiplet技術(shù)使得不同功能的芯??梢杂刹煌闹圃焐躺a(chǎn),從而l高性能和能效:Chiplet技術(shù)使得不同芯??梢愿鶕?jù)其特定要求進(jìn)行優(yōu)化。如,一個(gè)處理器塊可以專(zhuān)門(mén)針對(duì)高性能,而一個(gè)存儲(chǔ)塊可以專(zhuān)l集成性能提升:通過(guò)將不同功能的芯粒組合在一起,芯片可以實(shí)現(xiàn)更高的整體性能。例如,一個(gè)芯片可以將高性能處理器芯粒與專(zhuān)門(mén)的加速器芯粒相結(jié)合,以提高特定工l低成本制造:Chiplet技術(shù)允許將不同芯粒制造在不同的制造工藝上,從而降低制造成本。例如,高性能處理器塊可以使用先進(jìn)的制造工藝,而輔助模塊可以使用更l應(yīng)用領(lǐng)域擴(kuò)展:Chiplet技術(shù)不僅可以用于傳統(tǒng)的計(jì)算領(lǐng)域,還可以應(yīng)用于物聯(lián)網(wǎng)、綜合來(lái)看,Chiplet技術(shù)的發(fā)展趨勢(shì)包括模塊化設(shè)計(jì)、高性能、能效、低成本制造、標(biāo)準(zhǔn)化和應(yīng)用領(lǐng)域擴(kuò)展。這些趨勢(shì)均有利于推動(dòng)芯片設(shè)計(jì)和制造的變革,走向異構(gòu)融合,為晶圓級(jí)芯片技術(shù)能夠在晶圓級(jí)別上實(shí)現(xiàn)多種異構(gòu)計(jì)算核心的融合,晶圓級(jí)芯片技術(shù)發(fā)l更大規(guī)模的集成:晶圓級(jí)融合計(jì)算架構(gòu)的發(fā)展帶來(lái)更大規(guī)模的集成電路,將更多的計(jì)算核心、內(nèi)存、和互連集成到單個(gè)芯片或l優(yōu)化的通信架構(gòu):隨著集成度的增加,未來(lái)的發(fā)展可能會(huì)著重優(yōu)化晶圓級(jí)芯片內(nèi)部l能效和散熱:隨著集成度的增加,未來(lái)的發(fā)展可能會(huì)關(guān)注如何在更大規(guī)模的晶圓級(jí)芯片上實(shí)現(xiàn)高性能計(jì)算的同時(shí)保持合理的能總的而言,隨著芯片系統(tǒng)的規(guī)模增大,不斷增加的計(jì)算單元數(shù)量,性能提升的主要瓶頸。為了適應(yīng)大規(guī)模的計(jì)算需求,晶圓級(jí)芯片技術(shù)發(fā)展的重點(diǎn)放在統(tǒng)的晶圓內(nèi)互聯(lián)上,實(shí)現(xiàn)更高效的晶圓級(jí)異構(gòu)計(jì)算。這將使得針對(duì)不同應(yīng)用場(chǎng)景的優(yōu)3.1.2設(shè)備級(jí)融合計(jì)算架構(gòu)異構(gòu)計(jì)算架構(gòu)的融合,可以是芯片級(jí)的,也可以是設(shè)備級(jí)的。在采用現(xiàn)有的、非異構(gòu)融合芯片的情況下,可以通過(guò)設(shè)備級(jí)多芯片融合計(jì)算,有效地獲取高性能計(jì)算能力。芯片內(nèi)融合的核心技術(shù)是片內(nèi)總線,類(lèi)似的,設(shè)備級(jí)融合的核心技術(shù)是芯片間互聯(lián)的高速總線,部件互聯(lián)總線)基礎(chǔ)上把傳輸機(jī)制從并行改成了串行,通過(guò)使用差分信號(hào)傳輸,干擾可以很快被發(fā)現(xiàn)和糾正,從而傳輸頻率獲得大幅提升。串行PCIe還線簡(jiǎn)單,線路可以加長(zhǎng),甚至變成線纜連出機(jī)箱,多個(gè)Lanel處理器CPU(通過(guò)PCIeRC)訪問(wèn)PCIeEP;品),每一代的帶寬大致上翻倍。到PCIe5.0,通過(guò)x16組總線,可以支持雙向共約CXL是Intel發(fā)布的一種支持緩存一致性協(xié)議的芯片間互聯(lián)總線,CXL基于PCIe內(nèi)存池,通過(guò)硬件機(jī)制在加速器和處理器之間高效的共享內(nèi)存,提升性能并且降低延遲,lCXL.mem協(xié)議。協(xié)議提供主機(jī)處理器使用Load/Store指令訪問(wèn)設(shè)備內(nèi)存,主機(jī)CPU充當(dāng)主設(shè)備,而設(shè)備充當(dāng)從設(shè)備。并且能夠支持易失性和非易CXL.io協(xié)議用于初始化和鏈接,因此所有CXL設(shè)備都必須支持該協(xié)議。其他兩種協(xié)l類(lèi)型2:包含全部三類(lèi)協(xié)議CXL.io、CXL.cache和CXL.mem。用于設(shè)備也具有獨(dú)立Memory的場(chǎng)景,這樣設(shè)備可以一致性的訪問(wèn)主機(jī)內(nèi)存,主機(jī)也可以一NVLink是NVIDIA針對(duì)GPU加速計(jì)算而開(kāi)發(fā)的全新高速互聯(lián)技術(shù),它大大提升了GPU之間的通信性能,也大大提升了GPUNVLink2.0開(kāi)始支持?jǐn)?shù)據(jù)一致性,允許從CPU直接訪問(wèn)GPU內(nèi)存,允許讀取來(lái)自致性的硬件緩存訪問(wèn),進(jìn)一步的提升CPU和GPU之間的數(shù)據(jù)交互性能。最炙手可熱的服務(wù)器類(lèi)型。通過(guò)QPI、PCIe、NVLink等芯片間總線,在設(shè)備級(jí)實(shí)現(xiàn)了多種異構(gòu)融合,必然是更加龐大的計(jì)算系統(tǒng)。通過(guò)功能強(qiáng)大的芯片間互聯(lián)總線,實(shí)現(xiàn)設(shè)備級(jí)的異構(gòu)融合計(jì)算系統(tǒng),是一個(gè)切實(shí)可行的方式。芯片間高速互聯(lián)總線,是實(shí)現(xiàn)設(shè)備級(jí)異構(gòu)融合的關(guān)鍵。也因此,從異構(gòu)不斷融合的發(fā)展視角,必然對(duì)芯片間互聯(lián)總線提出一l更快計(jì)算速度。在單芯片性能增加有限的情況下,需要異構(gòu)資源協(xié)同效率的快速提l更高的帶寬。除了提升單通道帶寬能力之外,更需要通過(guò)更多的物理通道(Lane)l緩存一致性性能。把多個(gè)芯片或設(shè)備鏈接成更大的單個(gè)系統(tǒng),總線緩存一致性能力l系統(tǒng)的更高擴(kuò)展性。常見(jiàn)的GPU服務(wù)器,最多支持8而不是異構(gòu)融合。如果要想在設(shè)備級(jí)實(shí)現(xiàn)完全異構(gòu)融合的對(duì)等架構(gòu),勢(shì)必需要采用l更高效率的總線交換機(jī)。芯片的總線帶寬和通道數(shù)有限,要想在設(shè)備級(jí)實(shí)現(xiàn)更大數(shù)GPUNVMeSSDCPUGPUNVMeSSDCPU合CPU、GPU、其他各類(lèi)DSA的計(jì)算能力,構(gòu)建設(shè)備級(jí)異構(gòu)融合計(jì)算加速3.2軟件層面融合技術(shù)探索軟件支持在異構(gòu)融合計(jì)算中扮演著至關(guān)重要的角色。通過(guò)統(tǒng)一的軟件設(shè)計(jì),我們不僅可以提升異構(gòu)融合計(jì)算的適用范圍和性能,還能為后續(xù)的硬件開(kāi)發(fā)提供指導(dǎo)。在這一部分,我們首先對(duì)異構(gòu)軟件優(yōu)化的相關(guān)技術(shù)進(jìn)行了深入分析,然后重點(diǎn)討論了兩大關(guān)鍵支持技術(shù)領(lǐng)域,即操作系統(tǒng)和編程框架。我們不僅剖析了當(dāng)前國(guó)內(nèi)外最先進(jìn)的技術(shù),還明確了未來(lái)3.2.1面向異構(gòu)軟件優(yōu)化技術(shù)分析在異構(gòu)融合計(jì)算的背景下,需要進(jìn)行異構(gòu)軟件優(yōu)化技術(shù)的分析,這包括針對(duì)異構(gòu)計(jì)算環(huán)境中的軟件應(yīng)用所設(shè)計(jì)的性能優(yōu)化方法和策略。異構(gòu)計(jì)算環(huán)境通常綜合了不同類(lèi)型的處的性能特點(diǎn)和能力。為了確保在不同類(lèi)型的計(jì)算資源上執(zhí)行的軟件能夠以一致的方式運(yùn)行,避免潛在的錯(cuò)誤和運(yùn)行不一致性問(wèn)題,需要采用特定的優(yōu)化技術(shù)和方法。每種硬件都有其獨(dú)有的架構(gòu)和性能特征。為了充分利用這些硬件資源并確保一致性,軟件不僅需要能夠在不同的平臺(tái)上運(yùn)行,而且應(yīng)該盡可能的利用平臺(tái)硬針對(duì)異構(gòu)計(jì)算設(shè)備,統(tǒng)一的操作系統(tǒng)級(jí)開(kāi)發(fā)工具鏈需要支持針對(duì)不同設(shè)備類(lèi)型的編譯、調(diào)試、鏈接和開(kāi)發(fā)庫(kù)等功能,以簡(jiǎn)化異構(gòu)設(shè)備的編程和開(kāi)發(fā)流程,構(gòu)建一致的開(kāi)發(fā)環(huán)境,在編譯器方面,需要支持針對(duì)不同設(shè)備類(lèi)型的編譯,并為各種硬件架構(gòu)生成高效的代提高程序的性能。例如,編譯器可以使用向量化指令來(lái)加速程序的執(zhí)在調(diào)試器方面,針對(duì)異構(gòu)計(jì)算設(shè)備的調(diào)試器需要支持對(duì)不同設(shè)備類(lèi)型的調(diào)試,以幫助開(kāi)發(fā)人員在異構(gòu)設(shè)備上查找和修復(fù)錯(cuò)誤。例如,對(duì)于GPU,調(diào)試器需要能夠準(zhǔn)確地調(diào)試GPU代碼,同時(shí)能追蹤和分析GPU的內(nèi)存訪問(wèn)和計(jì)算操作。調(diào)試器還應(yīng)該提供全面的調(diào)在開(kāi)發(fā)庫(kù)方面,簡(jiǎn)化編程的工具和庫(kù)對(duì)異構(gòu)計(jì)算設(shè)備至關(guān)重要。針對(duì)異構(gòu)計(jì)算設(shè)備的開(kāi)發(fā)庫(kù)需要提供針對(duì)不同設(shè)備類(lèi)型的抽象接口和函數(shù)庫(kù),以簡(jiǎn)化異構(gòu)設(shè)備的編程。例如,CUDA和OpenCL提供了針對(duì)GPU的函數(shù)庫(kù)和API,幫助開(kāi)發(fā)人員輕松地編寫(xiě)高效的GPU程序。此外,開(kāi)發(fā)庫(kù)還應(yīng)提供豐富的示例代碼和詳盡的文檔,以便開(kāi)發(fā)人員快速上手l跨平臺(tái)的編程語(yǔ)言和工具C/C++一種廣泛用于跨平臺(tái)開(kāi)發(fā)的編程語(yǔ)言,具有高度的移植性,可以在多種硬件上編寫(xiě)和運(yùn)行代碼。Python一種高級(jí)編程語(yǔ)言,具有豐富的庫(kù)和工具生態(tài)系統(tǒng),可以通過(guò)不同的庫(kù)和框架實(shí)現(xiàn)跨平臺(tái)的計(jì)算。Java一種跨平臺(tái)的編程語(yǔ)言,通過(guò)Java虛擬機(jī)(JVM)可以在不同操作系統(tǒng)上運(yùn)行。OpenCL一種開(kāi)放計(jì)算語(yǔ)言,也代表了一種異構(gòu)計(jì)算標(biāo)準(zhǔn),允許在不同類(lèi)型的計(jì)算設(shè)備上進(jìn)行并行編程,包括CPU、GPU和FPGA。選擇合適的編程語(yǔ)言取決于具體的應(yīng)用需求和硬件平臺(tái)。關(guān)鍵是要確保所選編程語(yǔ)言l標(biāo)準(zhǔn)化API和庫(kù)支持OpenMP一種支持共享內(nèi)存并行編程的API,可以在不同操作系統(tǒng)和硬件上使用,用于多線程并行計(jì)算。CUDANVIDIA推出的用于GPU編程的平臺(tái),提供了一套標(biāo)準(zhǔn)化的API和庫(kù),用于在NVIDIAGPU上進(jìn)行并行計(jì)算。OpenCL一種跨平臺(tái)的異構(gòu)計(jì)算標(biāo)準(zhǔn),提供了一致的API,允許在不同硬件上執(zhí)行并行計(jì)算任務(wù)。標(biāo)準(zhǔn)化的API和庫(kù)可以確保在多種硬件之間實(shí)現(xiàn)功能一致性,并能夠簡(jiǎn)化軟和維護(hù)過(guò)程。此外,標(biāo)準(zhǔn)化的API和庫(kù)通常由硬件制造商支持,因此可以提供最佳的算力是指計(jì)算設(shè)備在單位時(shí)間內(nèi)所能完成的計(jì)算量。鑒于異構(gòu)計(jì)算設(shè)備具有不同的硬件特性和架構(gòu),其在計(jì)算能力上也存在差異。不同的計(jì)算單元具有不同的計(jì)算方式和指令與CPU不同,GPU的并行計(jì)算能力非常強(qiáng)l基于計(jì)算密度的等價(jià)轉(zhuǎn)換計(jì)算密度是指設(shè)備在單位面積或單位體積內(nèi)所能完成的計(jì)算量。對(duì)于同一類(lèi)型的異構(gòu)設(shè)備,可以通過(guò)計(jì)算其計(jì)算單元數(shù)量、時(shí)鐘頻率、并行度等參數(shù),來(lái)計(jì)算其計(jì)算密度并進(jìn)行比較。對(duì)于不同類(lèi)型的異構(gòu)設(shè)備,可以將其計(jì)算密度轉(zhuǎn)換為相同的單位l基于通用計(jì)算能力(GPGPU)指標(biāo)的等價(jià)轉(zhuǎn)換畫(huà)為一個(gè)通用的計(jì)算指標(biāo),以便與其他類(lèi)型的計(jì)算設(shè)備進(jìn)行比較。常用的GPGPU指標(biāo)包通過(guò)操作系統(tǒng)、虛擬化和容器等技術(shù),我們可以在軟件層面對(duì)底層異構(gòu)算力設(shè)備(如CPU、GPU等)進(jìn)行抽象和封裝。這使得上層應(yīng)用程序可以方便地訪問(wèn)和管理硬件,同時(shí)隱藏底層不同硬件設(shè)備的差異性,提供統(tǒng)一的計(jì)算運(yùn)行時(shí)環(huán)可變粒度資源技術(shù)是實(shí)現(xiàn)運(yùn)行一致性的關(guān)鍵技術(shù)。由于計(jì)算環(huán)境中的資源具有非常高的動(dòng)態(tài)性和不確定性,這要求對(duì)應(yīng)程序能夠自動(dòng)適應(yīng)不同的計(jì)算負(fù)載和需求。可變粒度資源技術(shù)可以將計(jì)算資源分解為更小的粒度,并能夠根據(jù)實(shí)際需求進(jìn)行動(dòng)態(tài)調(diào)整。這種技術(shù)可以讓計(jì)算資源更加靈活地適應(yīng)不同的應(yīng)用程序需求,從而更好地利用資源。在云計(jì)算環(huán)境中,通常會(huì)將計(jì)算資源分解為裸金屬、虛擬機(jī)、容器、函數(shù)等更小的粒度,并動(dòng)態(tài)調(diào)整資源分配和使用。通過(guò)可變粒度資源技術(shù)可以更好地保證服務(wù)的可靠異構(gòu)計(jì)算設(shè)備因其多樣的硬件架構(gòu)和接口而帶來(lái)了管理、維護(hù)和安全上的挑戰(zhàn)。為了更有效地應(yīng)對(duì)這些挑戰(zhàn),必須提供一種綜合的方法,包括統(tǒng)一的監(jiān)控管理、運(yùn)維管理、安監(jiān)控管理方面,對(duì)于異構(gòu)計(jì)算設(shè)備的監(jiān)控,需要提供統(tǒng)一的監(jiān)控工具,以監(jiān)測(cè)異構(gòu)計(jì)算設(shè)備的性能、溫度、功耗等關(guān)鍵指標(biāo)。通過(guò)對(duì)異構(gòu)計(jì)算設(shè)備的監(jiān)控,可以及時(shí)發(fā)現(xiàn)設(shè)備能分析工具,對(duì)設(shè)備的性能進(jìn)行監(jiān)測(cè)和分析;對(duì)于FPGA等可編程邏輯器件,可以采用邏運(yùn)維管理方面,需要提供統(tǒng)一的運(yùn)維工具,以管理和維護(hù)異構(gòu)計(jì)算設(shè)備的軟硬件環(huán)境。例如,通過(guò)提供統(tǒng)一的操作界面,可以方便地進(jìn)行軟件的安裝、配置和更新,同時(shí)也可以對(duì)硬件進(jìn)行管理和維護(hù)。對(duì)于異構(gòu)計(jì)算設(shè)備的軟件管理,可以采用容器化技術(shù),將不同種安全管理方面,需要提供統(tǒng)一的安全工具,以確保異構(gòu)計(jì)算設(shè)備的安全性。異構(gòu)計(jì)算設(shè)備的安全問(wèn)題主要涉及數(shù)據(jù)安全、身份認(rèn)證、漏洞管理等方面。例如,可以采用統(tǒng)一的身份認(rèn)證機(jī)制,對(duì)設(shè)備的訪問(wèn)進(jìn)行認(rèn)證和授權(quán);同時(shí)可以通過(guò)安全補(bǔ)丁管理工具,及時(shí)對(duì)遷移工具方面,需要提供統(tǒng)一的遷移方案,以便在不同異構(gòu)計(jì)算設(shè)備之間進(jìn)行快速遷移。異構(gòu)計(jì)算設(shè)備之間的遷移涉及到不同的處理器和加速器之間的轉(zhuǎn)換,需要提供一套標(biāo)準(zhǔn)的遷移方案,以確保不同設(shè)備之間的兼容性和互操作性。例如,可以采用虛擬化技術(shù),將不同種類(lèi)的處理器和加速器虛擬化為同一種處理器和加速器,以實(shí)現(xiàn)快速的遷移。3.2.2面向異構(gòu)融合的操作系統(tǒng)人工智能、大數(shù)據(jù)、物聯(lián)網(wǎng)等技術(shù)迅猛發(fā)展,用戶的計(jì)算場(chǎng)景更加多元,計(jì)算類(lèi)型更加復(fù)雜多樣,多CPU、多XPU共存也已然成為長(zhǎng)期趨勢(shì),這將會(huì)顯著增加操作系統(tǒng)對(duì)多元異構(gòu)硬件管理和使用的復(fù)雜性?;谝陨蠁?wèn)題,操作系統(tǒng)需要在多方面進(jìn)行優(yōu)化。首先,操作系統(tǒng)需要能夠?qū)Ξ悩?gòu)設(shè)備進(jìn)行抽象,將不同的異構(gòu)設(shè)備抽象成標(biāo)準(zhǔn)的Linux設(shè)備供程序使用;其次,操作系統(tǒng)需要提供異構(gòu)設(shè)備的統(tǒng)一編程模型,以此簡(jiǎn)化編程方式,提升應(yīng)用程序性能;最后,操作系統(tǒng)需要對(duì)異構(gòu)設(shè)備的調(diào)度使用進(jìn)行優(yōu)化,充分發(fā)揮異構(gòu)設(shè)備的操作系統(tǒng)提供了標(biāo)準(zhǔn)的設(shè)備驅(qū)動(dòng)程序接口,包括字符設(shè)備、塊設(shè)備、網(wǎng)絡(luò)設(shè)備等,異構(gòu)設(shè)備可以通過(guò)編寫(xiě)標(biāo)準(zhǔn)的設(shè)備驅(qū)動(dòng)程序與操作系統(tǒng)進(jìn)行交互,從而實(shí)現(xiàn)異構(gòu)設(shè)備的統(tǒng)一異構(gòu)設(shè)備的管理流程包括:1)硬件檢測(cè),系統(tǒng)啟動(dòng)時(shí)檢測(cè)接入的異構(gòu)設(shè)備,如GPU/DPU/FPGA等,系統(tǒng)創(chuàng)建對(duì)應(yīng)的device。2)驅(qū)動(dòng)程序裝載,操作系統(tǒng)檢測(cè)到異構(gòu)設(shè)備時(shí),會(huì)嘗試加載對(duì)應(yīng)的驅(qū)動(dòng)程序進(jìn)行異構(gòu)設(shè)備的初始化、資源的分配、中斷的注冊(cè)等,最終會(huì)通過(guò)字符設(shè)備、塊設(shè)備、網(wǎng)絡(luò)設(shè)備等方式暴露給用戶態(tài)。3)訪問(wèn)異構(gòu)設(shè)備,用戶態(tài)程序可以通過(guò)相應(yīng)的設(shè)備節(jié)點(diǎn)訪問(wèn)異構(gòu)設(shè)備,比如通過(guò)標(biāo)準(zhǔn)的open/read/write系統(tǒng)調(diào)用對(duì)為了充分利用多種硬件架構(gòu)的性能優(yōu)勢(shì),開(kāi)發(fā)人員需要為不同的硬件平臺(tái)編寫(xiě)不同的代碼,這對(duì)開(kāi)發(fā)人員來(lái)說(shuō)是一個(gè)挑戰(zhàn),同時(shí)也限制了應(yīng)用程序的可移植性,所以需要提供一個(gè)統(tǒng)一的編程模型和一套工具,使開(kāi)發(fā)人員可以使用一種語(yǔ)言和一組庫(kù)來(lái)開(kāi)發(fā)可以在不實(shí)現(xiàn)統(tǒng)一編程模型的關(guān)鍵是提供一種跨多種硬件架構(gòu)的高性能并行計(jì)算編程語(yǔ)言。這種語(yǔ)言能夠支持統(tǒng)一編寫(xiě)可以在各種硬件架構(gòu)上執(zhí)行的代碼,還應(yīng)提供一組性能庫(kù),覆蓋高效的數(shù)學(xué)、數(shù)據(jù)分析和圖形處理等常見(jiàn)的高性能計(jì)算場(chǎng)景,從而能夠針對(duì)特定的硬件架除了編程語(yǔ)言和性能庫(kù),統(tǒng)一編程模型還應(yīng)提供一組性能工具,包括性能分析工具和優(yōu)化器,幫助開(kāi)發(fā)人員找到應(yīng)用程序的性能瓶頸并提供優(yōu)化建議,從而提升應(yīng)用程序的性隨著云計(jì)算技術(shù)的發(fā)展,算力抽象和供給方法從傳統(tǒng)的物理機(jī)方式跨越式發(fā)展到包含虛擬機(jī)、容器、安全容器、裸金屬服務(wù)器等更多粒度基于云計(jì)算的算力抽象方法,以滿足用戶多樣化的資源需求和業(yè)務(wù)訴求。通過(guò)虛擬機(jī)承載穩(wěn)態(tài)業(yè)務(wù),搭配更加靈活敏捷的容器和安全容器承載敏態(tài)業(yè)務(wù),并基于云物理機(jī)提供更高性能的計(jì)算能力,成為越來(lái)越多客戶的首選,與此同時(shí)對(duì)云操作系統(tǒng)提出了可變粒度資源統(tǒng)一池化、統(tǒng)一管理及形態(tài)互轉(zhuǎn)的要求。可變粒度的資源池化需要解決多種粒度的算力抽象在計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等資源的割裂問(wèn)題,構(gòu)建統(tǒng)一的底層資源池,進(jìn)行統(tǒng)一的池化管理。在此基礎(chǔ)上,通過(guò)云操作系統(tǒng)提供的統(tǒng)一門(mén)戶,為租戶提供所需的虛擬機(jī)、容器、云物理機(jī)等資源,資源之間具備網(wǎng)絡(luò)互聯(lián)、數(shù)據(jù)互通的能力。更進(jìn)一步的,實(shí)現(xiàn)資源之間的形態(tài)互轉(zhuǎn),以滿足用戶希望的隨業(yè)務(wù)變化而改變業(yè)務(wù)承載實(shí)體的靈活需求可變粒度的資源管理能夠提升資源調(diào)度的靈活性、業(yè)務(wù)敏l操作系統(tǒng)內(nèi)核調(diào)度器優(yōu)化:調(diào)度器是操作系統(tǒng)中非常重要的組件,它負(fù)責(zé)協(xié)調(diào)和管理各個(gè)進(jìn)程之間的執(zhí)行。由于目前調(diào)度策略不能滿足所有場(chǎng)景需求,通過(guò)修改調(diào)度器實(shí)現(xiàn)新調(diào)度器需要重新編譯內(nèi)核且難度較大,因此,如何能夠在系統(tǒng)運(yùn)行時(shí)動(dòng)態(tài)升級(jí)器成為研究熱點(diǎn)。其中,調(diào)度器熱升級(jí)一種實(shí)現(xiàn)方式可以通過(guò)將調(diào)度器子系統(tǒng)從內(nèi)核取出來(lái),然后針對(duì)不同業(yè)務(wù)對(duì)代碼進(jìn)行定制修改,最終以模塊形式加載到內(nèi)核并動(dòng)態(tài)調(diào)度器。這種做法可以有效解決升級(jí)內(nèi)核成本較高、調(diào)度優(yōu)化無(wú)法快速規(guī)模化部署的問(wèn)題。l面向內(nèi)存冷熱數(shù)據(jù)管理的調(diào)度優(yōu)化:為了提升內(nèi)存的容量和性能,內(nèi)存技術(shù)正在快帶來(lái)了新的挑戰(zhàn)。如果內(nèi)存管理模塊不考慮各內(nèi)存介質(zhì)的訪問(wèn)延遲,將所有內(nèi)存介質(zhì)按照DRAM進(jìn)行管理會(huì)導(dǎo)致內(nèi)存訪問(wèn)性能降低。解決這個(gè)模塊中將不同內(nèi)存介質(zhì)劃分到不同的NUMAnode,然后將同類(lèi)型的NUMAnode劃分到同一個(gè)分層中,以此實(shí)現(xiàn)內(nèi)存的分層管理。后續(xù)基于分層管理可以實(shí)現(xiàn)內(nèi)存數(shù)據(jù)的冷熱遷移,讓熱內(nèi)存保持在快速內(nèi)存中,冷內(nèi)存保持在慢速內(nèi)存中,從而高效的利用不同介質(zhì)的l面向容器混部場(chǎng)景的調(diào)度優(yōu)化:在容器場(chǎng)景,如何最大限度的提高資源利用率,在提升容器部署密度的同時(shí)又不影響業(yè)務(wù)運(yùn)行是重點(diǎn)研究的方向。目前資源隔離技術(shù)主通過(guò)cgroup實(shí)現(xiàn),但在某些場(chǎng)景還需要源優(yōu)先訪問(wèn)。為了解決這些問(wèn)題可以采用多種①基于GroupIdentity技術(shù),提升高優(yōu)先級(jí)組的及②基于處理器的硬件資源管理技術(shù),實(shí)現(xiàn)CPUcache和內(nèi)存帶寬③memcg內(nèi)存回收優(yōu)化,避免應(yīng)用自身陷入直接內(nèi)存回收,適用于對(duì)時(shí)延敏感的容訪問(wèn),同時(shí)具有自適應(yīng)能力,盡可能避免磁盤(pán)資源被浪費(fèi)。l高性能網(wǎng)絡(luò):實(shí)現(xiàn)高性能網(wǎng)絡(luò)的一種方法是基于eBPF。eBPF對(duì)網(wǎng)絡(luò)的加據(jù)包的時(shí)候觸發(fā)執(zhí)行,常用于防火墻和四層負(fù)載均衡;TC候觸發(fā)執(zhí)行,運(yùn)行在內(nèi)核協(xié)議棧中,常用容器之間的網(wǎng)絡(luò)通信加速;套接字程序在套創(chuàng)建、修改、收發(fā)數(shù)據(jù)等變化的時(shí)候觸發(fā)執(zhí)行,運(yùn)行在內(nèi)核協(xié)議棧中,常用于過(guò)濾、RDMA可以將CPU從網(wǎng)絡(luò)傳輸中解放了出來(lái),提升網(wǎng)絡(luò)的性能,但使用RDMA需要修改3.2.3面向異構(gòu)融合的編程框架異構(gòu)融合計(jì)算在計(jì)算機(jī)領(lǐng)域的應(yīng)用將逐步擴(kuò)大,隨著各種新型硬件的出現(xiàn)和異構(gòu)計(jì)算框架的不斷完善,異構(gòu)計(jì)算編程有望成為計(jì)算發(fā)展的重要趨勢(shì)。特別地,在AI領(lǐng)域、HPC科學(xué)計(jì)算領(lǐng)域方面,對(duì)于異構(gòu)和異構(gòu)融合的需求是極為迫切的。軟件的編程框架決定了其適應(yīng)性,從底層標(biāo)準(zhǔn)到上層接口套件,目前已有多種異構(gòu)并行編程框架。特定于底層硬件設(shè)備的標(biāo)準(zhǔn)和框架允許開(kāi)發(fā)者直接針對(duì)特定硬件設(shè)備進(jìn)行編程,包括KhronosGroup組織制定和維護(hù)。它提供了一個(gè)統(tǒng)一的編程模型和接口,方便開(kāi)發(fā)者在各種lSYCL(Single-sourceC用SYCL,開(kāi)發(fā)者可以在異構(gòu)計(jì)算環(huán)境中編寫(xiě)具全棧異構(gòu)框架聚焦于開(kāi)發(fā)適用于多平臺(tái)的編程框架,包含硬件抽象、編程語(yǔ)言、庫(kù)和lOneAPI是由Intel推出的跨架構(gòu)編程模型,旨在簡(jiǎn)化并加速針對(duì)不它提供了統(tǒng)一的編程接口、工具集和庫(kù),可用于開(kāi)發(fā)異構(gòu)lROCm是由AMD推出的一個(gè)開(kāi)源平臺(tái),用于支持多平臺(tái)異構(gòu)編程。它提供了一系列工具、庫(kù)和編程模型,允許開(kāi)發(fā)者使用常見(jiàn)的編編程,支持多種操作系統(tǒng)(如Linux和Windows)。ROCm還與HSA(Heterogeneous在未來(lái),異構(gòu)融合編程框架的發(fā)展在統(tǒng)一性、易用性和廣泛性上還有大幅發(fā)展空間,也就是1)統(tǒng)一編程模型,以簡(jiǎn)化異構(gòu)編程2)向更高級(jí)別的抽象發(fā)展,以降低并行編程的復(fù)雜性3)逐步擴(kuò)大支持的硬件范圍等。近年來(lái),隨著人工智能技術(shù)的飛速發(fā)展,各種深度學(xué)習(xí)框架如雨后春筍般涌現(xiàn)出來(lái)。提供高效的推理服務(wù)。雖然上述框架對(duì)主流的模型類(lèi)型都有支持,但在硬件支持方面,僅限于CPU、GPU和少數(shù)AI芯片,而對(duì)其它AI芯片特別是國(guó)產(chǎn)芯片都不支持,這使得使用這些不被支持的異構(gòu)芯片面臨極大挑戰(zhàn)。深度學(xué)習(xí)框架和推理Server框架提供通用的人工智能編程支持,并在人工智能技術(shù)的應(yīng)用中扮演著至關(guān)重要的角色。除了框架本身外,編譯等技術(shù)對(duì)人工智能編程的效率等方面具有影響,其中一個(gè)趨勢(shì)便是機(jī)器學(xué)習(xí)模型的優(yōu)化技術(shù)。對(duì)于同構(gòu)編程框架,一般的優(yōu)化技術(shù)包括編譯加速、循環(huán)優(yōu)化和指令優(yōu)化、內(nèi)存優(yōu)化、低比特量化、模型壓縮、多線程優(yōu)化等。這些對(duì)異構(gòu)編程的第一是對(duì)于底層異構(gòu)算力的支持。上述編程框架除了支持典型器外,對(duì)別的異構(gòu)處理器并不友好。開(kāi)發(fā)對(duì)新型異構(gòu)算力的支持本身的發(fā)展推廣和新興異構(gòu)處理器的推廣都具有積極的作用。在這方面,已有的一些解決l通過(guò)AI編譯器的方式,可以將前端模型轉(zhuǎn)換為中間表示(IR然后使用相應(yīng)異構(gòu)芯片的代碼生成器生成代碼。這種方法主要用于推理任務(wù),并且通常需要編寫(xiě)適配新異構(gòu)l通過(guò)修改現(xiàn)有框架或使用插件來(lái)支持異構(gòu)芯片。這種方式可以同時(shí)支持訓(xùn)練和推理,都是通用的編程框架。國(guó)產(chǎn)的PaddlePaddle等已經(jīng)考慮了對(duì)包含高維稀疏離散異構(gòu)數(shù)據(jù)的處理。在企業(yè)的實(shí)際應(yīng)用中,可能還存在別的場(chǎng)景。針對(duì)這些場(chǎng)景的擴(kuò)展和優(yōu)化等可以進(jìn)除了注重深度學(xué)習(xí)優(yōu)化、強(qiáng)化學(xué)習(xí)支持、靈活和輕量部署,未來(lái)的異構(gòu)編程框架可能會(huì)向著自適應(yīng)計(jì)算發(fā)展,即在運(yùn)行時(shí)根據(jù)輸入數(shù)據(jù)的特征和任務(wù)需求,動(dòng)態(tài)地選擇最佳的計(jì)算HPC(HighPerformanceComputing)即高性能理器集群,來(lái)處理大規(guī)模計(jì)算、求解復(fù)雜問(wèn)題的技術(shù),對(duì)并行和分布式計(jì)算、大數(shù)據(jù)處理HPC在科研和工程中的許多方面都有廣泛應(yīng)用,例如基因測(cè)序、天氣預(yù)報(bào)、分子動(dòng)力、工程仿真、天文數(shù)據(jù)處理、粒子運(yùn)動(dòng)求解等。隨著高性能計(jì)算集群進(jìn)入E級(jí)運(yùn)算統(tǒng)方式難以實(shí)現(xiàn)性能突破,異構(gòu)融合的方式逐漸成為HPC實(shí)現(xiàn)大規(guī)模擴(kuò)展、流方式之一,勢(shì)必對(duì)異構(gòu)并行編程框架需求更高。那么更加靈活和可編程的加速器以及更加智能的系統(tǒng)優(yōu)化,可以進(jìn)一步提高HPC應(yīng)用的性能和效率,滿足更復(fù)雜、也在發(fā)生變化,從而在各個(gè)層次面向異構(gòu)實(shí)現(xiàn)。典型的轉(zhuǎn)變主要體現(xiàn)在兩個(gè)方面,第一是化和異構(gòu)設(shè)計(jì)需求的出現(xiàn),很多原先使用Fortran編寫(xiě)的程序轉(zhuǎn)為使用C++,以便更好地適l多CPU核計(jì)算框架編程到異構(gòu)計(jì)算框架編程:早期的并行計(jì)算主要采用基于共享內(nèi)存的多CPU核計(jì)算框架,例如使用OpenMP進(jìn)行并行計(jì)算。隨著異構(gòu)計(jì)算設(shè)備的興起,開(kāi)框架,而OpenACC是一種針對(duì)異構(gòu)計(jì)算的并行編程方式。為了使原先使用CUDA編寫(xiě)的算等復(fù)雜計(jì)算領(lǐng)域中,這背后往往是對(duì)指數(shù)級(jí)計(jì)算量需求的不斷增加。隨著網(wǎng)格稠密程度增加、模擬尺度增加,計(jì)算量呈現(xiàn)出了指數(shù)型增長(zhǎng),促使多學(xué)科模擬等正在嘗試和建立異面對(duì)的是復(fù)雜的,涉及大氣、陸地等多模塊的大規(guī)模數(shù)據(jù)和復(fù)雜物理過(guò)程。在版本迭代發(fā)將趨向于支持更多不同類(lèi)型的加速器,因此未來(lái)也將注重高級(jí)別的抽象和編程模型。此外,在HPC系統(tǒng)中,資源管理是一個(gè)重要的挑戰(zhàn),為了提高異構(gòu)計(jì)算系統(tǒng)的性能,未來(lái)的可能會(huì)更加智能化,具備自動(dòng)優(yōu)化和并行化的能力。這將會(huì)推動(dòng)更大規(guī)模的數(shù)據(jù)處理和提此外,未來(lái)HPC和AI可能結(jié)合更加緊密3.3系統(tǒng)層面融合技術(shù)探索系統(tǒng)層面的融合計(jì)算技術(shù)探索,主要討論大規(guī)模數(shù)據(jù)中心級(jí)的融合技術(shù),以及新型計(jì)3.3.1數(shù)據(jù)中心融合隨著新型應(yīng)用的加速演變,數(shù)據(jù)中心正轉(zhuǎn)向從單一規(guī)模擴(kuò)展到復(fù)雜架構(gòu)融合。轉(zhuǎn)變之或FPGA等異構(gòu)計(jì)算加速器。轉(zhuǎn)變之二是數(shù)據(jù)中心的架構(gòu)以系統(tǒng)設(shè)計(jì)為中心,按照業(yè)務(wù)需是一個(gè)邏輯上的單一的“大應(yīng)用”,是數(shù)據(jù)中心級(jí)別的業(yè)務(wù)系統(tǒng);因此硬件重構(gòu)需按照“數(shù)據(jù)中心即計(jì)算機(jī)”的理念來(lái)實(shí)踐。以系統(tǒng)設(shè)計(jì)為中心的原則,需要我們重新思考如何構(gòu)建和部署數(shù)據(jù)中心資源。它意味著要超越硬件和軟件的傳統(tǒng)界限,考慮整個(gè)數(shù)據(jù)中心作為一個(gè)協(xié)同工作的系統(tǒng)。例如,對(duì)于特定的AI工作負(fù)載,我們不僅要考慮芯片的設(shè)計(jì),還要考棧如何相互作用以提高效率。按照業(yè)務(wù)需求來(lái)設(shè)計(jì)包括如下部分:1)針對(duì)性?xún)?yōu)化:傳統(tǒng)的芯片設(shè)計(jì)通常是通用的,不考慮其在特定應(yīng)用場(chǎng)景中的性能。而針對(duì)特定業(yè)務(wù)需求的系統(tǒng)用率:傳統(tǒng)的通用設(shè)計(jì)導(dǎo)致資源在某些應(yīng)用場(chǎng)景中被浪費(fèi)。而按需設(shè)計(jì)可以確保資源在特定的工作負(fù)載下達(dá)到最大的利用率;3)異構(gòu)融合(軟硬件系統(tǒng)級(jí)融合):不改變系統(tǒng)層次結(jié)構(gòu)和組件交互關(guān)系,但打破軟硬件界限,通過(guò)系統(tǒng)級(jí)的協(xié)同設(shè)計(jì),實(shí)現(xiàn)更高效、更靈活Google的TPU是這一理念的經(jīng)典例證。以矩陣運(yùn)算為代表的深度學(xué)習(xí)工作負(fù)載,在Google數(shù)據(jù)中心占比快速增長(zhǎng),已經(jīng)成為主要出發(fā),專(zhuān)門(mén)針對(duì)深度學(xué)習(xí)的特征進(jìn)行了系統(tǒng)設(shè)計(jì)。在芯片層面,通過(guò)定制高密度的8比特運(yùn)算吞吐。同時(shí),TPU還內(nèi)置了大容量的片上緩存,提供數(shù)據(jù)局部性,減少外部存儲(chǔ)訪問(wèn),以滿足深度學(xué)習(xí)應(yīng)用的延遲需求。如下圖,主要的計(jì)算部分是右上角的黃色矩陣乘法單元(MatrixMultiplyUnit其輸入為藍(lán)色的權(quán)重FIFO(Weigh(UnifiedBuffer),輸出是藍(lán)色的累加器(Accumulators);黃色的激活(Activation)單元對(duì)累加器(Accumulators)執(zhí)行非線性函數(shù),這些函數(shù)傳輸至緩沖器(UnifiedBuffer)。TPU的硬件設(shè)計(jì)都緊緊圍繞數(shù)據(jù)中心的業(yè)務(wù)需求進(jìn)行了系統(tǒng)設(shè)計(jì),在矩陣乘法運(yùn)算單元方面實(shí)現(xiàn)了高密度低位寬的設(shè)計(jì),大幅提升了吞吐量;在存儲(chǔ)系統(tǒng)方面采用了大容量片上總之,從系統(tǒng)層面看,TPU不僅單點(diǎn)提升了計(jì)算性能,還通過(guò)軟硬件協(xié)同設(shè)計(jì)提升了數(shù)據(jù)中心整體的計(jì)算效率,降低了系統(tǒng)能耗;充分體現(xiàn)了從業(yè)務(wù)需求出發(fā)的系統(tǒng)設(shè)計(jì)思想。統(tǒng)設(shè)計(jì)為中心、按照業(yè)務(wù)需求來(lái)設(shè)計(jì)”的異構(gòu)融合理念。這種數(shù)據(jù)中心融合的理念,不僅推動(dòng)了數(shù)據(jù)中心從規(guī)模擴(kuò)展到架構(gòu)融合的轉(zhuǎn)變,異構(gòu)計(jì)算的快速發(fā)展,不僅反映了算力資源的多樣性,還驅(qū)動(dòng)著處理器技術(shù)的不斷演進(jìn)和創(chuàng)新。異構(gòu)計(jì)算的融合趨勢(shì),降低了超算中心、數(shù)據(jù)中心和智算中心間的算力服務(wù)邊界,各類(lèi)型算力中心利用相似的異構(gòu)引擎和分布式計(jì)算架構(gòu),實(shí)現(xiàn)更靈活地跨越應(yīng)用算力服務(wù)。談到數(shù)據(jù)中心融合,離不開(kāi)十多年來(lái)一直在發(fā)展的一種趨勢(shì),就是融合架構(gòu)。融合架構(gòu)的本質(zhì)在于硬件重構(gòu)與軟件定義。其核心技術(shù)包括物理層面的“解耦、集中、智能調(diào)1ISCA2017,In-DatacenterPerformanc度”,實(shí)現(xiàn)計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)資源的分類(lèi)和集中化。在邏輯層面,支持資源池化和應(yīng)用驅(qū)動(dòng)的資源動(dòng)態(tài)分配。融合架構(gòu)可以按照軟硬件協(xié)同的方式,分三個(gè)階段逐步發(fā)展,如下圖:l融合架構(gòu)1.0:實(shí)現(xiàn)了散熱、電源、管理資源的集中化和模塊化;運(yùn)用軟件定義技術(shù)進(jìn)行計(jì)算和存儲(chǔ)等資源的池化和集中管理,其典型代表為整機(jī)柜服務(wù)器。融合架構(gòu)1.0相l(xiāng)融合架構(gòu)2.0:機(jī)柜內(nèi)部使用高速互連技術(shù)如PCIe,對(duì)異構(gòu)計(jì)算加速設(shè)備、存儲(chǔ)和(SmartModularCenter,模塊化數(shù)據(jù)中心架構(gòu))。一般意義上的軟件定義網(wǎng)絡(luò),是在三層融合架構(gòu)3.0:在硬件重構(gòu)和軟件定義上更進(jìn)一步的計(jì)算機(jī)通過(guò)軟件形成任意粒度大小的資源樣可以池化和任意分配,形成各種規(guī)模和配置的計(jì)算資源。同時(shí),配合應(yīng)用感知的資源分配技術(shù),將使數(shù)據(jù)中心的資源調(diào)度完全智能化、高效化。融合架構(gòu)3.0提供統(tǒng)一的資源視圖,將硬件資源清晰地組織成不同的功能區(qū),功能區(qū)在軟件定義的控制下形成不同的資源池來(lái)支撐云應(yīng)用和AI應(yīng)用等,智能感知上層業(yè)務(wù)類(lèi)型,自動(dòng)重構(gòu)適合的資源來(lái)為業(yè)務(wù)構(gòu)建最佳的運(yùn)行環(huán)境,讓?xiě)?yīng)用軟件與運(yùn)行環(huán)境之間的契合程度達(dá)到一個(gè)前所未有的水平。這種創(chuàng)新的體系結(jié)構(gòu),能夠?qū)崿F(xiàn)異構(gòu)資源的高效融合,這一階段被視為“數(shù)據(jù)中心即計(jì)算機(jī)”(DataCenterasa資源的邏輯上解耦,構(gòu)建資源池。例如,基于CXL總線協(xié)議,可通過(guò)軟件定義實(shí)現(xiàn)遠(yuǎn)端內(nèi)存多主機(jī)共享與靈活調(diào)配。網(wǎng)絡(luò)可采用非阻塞的多級(jí)CLOS拓?fù)浣Y(jié)構(gòu),可以提供每秒5Tbps的總互聯(lián)帶寬,滿足大規(guī)模資源池互聯(lián)需求。另外,未來(lái)也可以應(yīng)用先進(jìn)的光互連技術(shù),實(shí)現(xiàn)機(jī)柜間乃至數(shù)據(jù)中心級(jí)別的資源互聯(lián),鏈路傳輸距離可達(dá)(2)滿足系統(tǒng)高速信號(hào)完整性。實(shí)際上,解耦架構(gòu)給鏈路拓?fù)湓O(shè)本在服務(wù)器內(nèi)部的互連總線需要在機(jī)柜內(nèi)甚至機(jī)柜間的外部連接;隨著數(shù)據(jù)速率的不斷攀升和系統(tǒng)鏈路變得更加復(fù)雜,互連鏈路延展已經(jīng)接因此,需要應(yīng)用實(shí)驗(yàn)設(shè)計(jì)法和響應(yīng)曲面統(tǒng)計(jì)法等仿真方法論,對(duì)復(fù)雜鏈路高速互連進(jìn)行高精度的擬合仿真研究,充分考慮多變量及公差分布影響(如阻抗公差、芯片性能、制造工藝、溫度等因素準(zhǔn)確分析解耦池化系統(tǒng)多樣化拓?fù)浜蛡鬏斔俾实幕ミB鏈路風(fēng)險(xiǎn)與(3)運(yùn)用新型供電與散熱技術(shù)(如直流供電、液冷),提升計(jì)算密度與系統(tǒng)能效。例如,可構(gòu)建直流母線供電體系,縮短供電鏈路,降低損耗,提升功率密度。采用液冷技術(shù),提升服務(wù)器功率密度,并保證冷卻液零泄漏。優(yōu)化散熱系統(tǒng)流阻,提升傳熱系數(shù),降低PUE值。這些技術(shù)可以有效提高計(jì)算密綜上所述,數(shù)據(jù)中心級(jí)融合架構(gòu)通過(guò)在互聯(lián)、調(diào)度、軟件和基礎(chǔ)設(shè)施等多個(gè)層面進(jìn)行基礎(chǔ)設(shè)施的靈活性和使用效率。這是未來(lái)數(shù)據(jù)中心發(fā)展的重要另外,數(shù)據(jù)中心級(jí)融合架構(gòu)在支持業(yè)務(wù)敏捷性方面也具有發(fā)展?jié)摿?。未?lái)有望通過(guò)應(yīng)用感知調(diào)度技術(shù),實(shí)現(xiàn)業(yè)務(wù)類(lèi)型的智能識(shí)別,然后自動(dòng)調(diào)配匹配的計(jì)算資源。這種技術(shù)手段包括:應(yīng)用特征抽取,通過(guò)分析應(yīng)用程序代碼、通信模式等自動(dòng)提取應(yīng)用特征;資源建模,建立應(yīng)用特征與資源需求之間的映射模型;智能匹配,根據(jù)實(shí)時(shí)業(yè)務(wù)負(fù)載和資源狀況,生成動(dòng)態(tài)資源調(diào)度方案。這種機(jī)制進(jìn)一步提高了數(shù)據(jù)中心資源利用率,也使得業(yè)務(wù)部署和擴(kuò)從戰(zhàn)略高度看,數(shù)據(jù)中心級(jí)融合架構(gòu)已經(jīng)逐步在云計(jì)算中心、智算中心等領(lǐng)域開(kāi)始落地,在助力企業(yè)實(shí)現(xiàn)IT基礎(chǔ)設(shè)施數(shù)字化轉(zhuǎn)型,具有多方面優(yōu)勢(shì)。首先,它支撐云計(jì)算、AI等新業(yè)務(wù)在數(shù)據(jù)中心層面的彈性部署,使企業(yè)IT系統(tǒng)具備敏捷性。其次,它提升資源最后,它通過(guò)軟硬件深度融合創(chuàng)新核心競(jìng)爭(zhēng)3.3.2新型計(jì)算模式融合測(cè),量子計(jì)算有望在3~5年后實(shí)現(xiàn)一些小規(guī)模的實(shí)際應(yīng)用。這些先進(jìn)計(jì)算技術(shù)也面臨著如存算一體的計(jì)算架構(gòu)融合代表著計(jì)算領(lǐng)域的一項(xiàng)重要前沿技術(shù),其潛在影響巨大。傳統(tǒng)的PIM方法將計(jì)算引入了存儲(chǔ)器中,實(shí)現(xiàn)了在的創(chuàng)新。例如,美國(guó)加州大學(xué)的謝源教授在JUMP項(xiàng)目中推動(dòng)一項(xiàng)名為“Intelligentmemoryandstorage”的研究任務(wù),探索如何在存儲(chǔ)器內(nèi)部實(shí)現(xiàn)智能計(jì)算。

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論