2023異構(gòu)融合計(jì)算技術(shù)白皮書(shū)

上傳人：1*** IP屬地：山西上傳時(shí)間：2024-12-19 格式：DOCX 頁(yè)數(shù)：103 大?。?.49MB 積分：15 舉報(bào) 版權(quán)申訴

2023異構(gòu)融合計(jì)算技術(shù)白皮書(shū)_第2頁(yè)

2023異構(gòu)融合計(jì)算技術(shù)白皮書(shū)_第3頁(yè)

2023異構(gòu)融合計(jì)算技術(shù)白皮書(shū)_第4頁(yè)

2023異構(gòu)融合計(jì)算技術(shù)白皮書(shū)_第5頁(yè)

已閱讀5頁(yè)，還剩98頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

I編寫(xiě)者參編單位：浪潮電子信息產(chǎn)業(yè)股份有限公司、上海矩向科技有限公司、中國(guó)電信研究院、清華大學(xué)、中國(guó)科學(xué)院軟件研究所、國(guó)防科技大學(xué)、復(fù)旦大學(xué)、中國(guó)長(zhǎng)城研究院、中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院、曙光信息產(chǎn)業(yè)（北京）有限公司、同方計(jì)算機(jī)有限公司、上海熠知電子科技有限公司、阿里云技術(shù)有限公司、中參編人員：楊曉明、陳平、劉建、熊婧、李冬、黃朝波、廉建芳、顏秉珩、林顯成、董剛、王洲、蔡彥、陳小文、盧晶雨、任翔、劉娜、張政、李寧、崔士偉、徐揚(yáng)、李璇、劉玉海、尹航、李陽(yáng)、買(mǎi)強(qiáng)、張磊、張震寧、趙立新、左明敏、周鵬、戴少鵬、楊蔚才、李亞軍、伍海龍、陳碩、張陽(yáng)、劉占民、王佑站、版權(quán)聲明：本白皮書(shū)版權(quán)屬于工業(yè)和信息化部電子第五研究所及參編單位，并受法律保護(hù)。轉(zhuǎn)載、摘編或利用其它方式使用本白皮書(shū)文字或者觀點(diǎn)的，應(yīng)注明“來(lái)源：工業(yè)和信息化部電子第五研究所”。違反上述聲明者，將追究其相關(guān)法律責(zé)任。編者序近年來(lái)，自動(dòng)駕駛、元宇宙、人工智能等應(yīng)用不斷創(chuàng)新發(fā)展，數(shù)據(jù)規(guī)模、算法復(fù)雜度以及算力需求爆發(fā)式增長(zhǎng)。各類(lèi)加速處理器已成為算力基礎(chǔ)設(shè)施的重要組件，基于和維護(hù)成本增高等問(wèn)題愈發(fā)凸顯，亟需從異構(gòu)融合年開(kāi)始，隨著AI大模型應(yīng)用的涌現(xiàn)，算力需求平均每2個(gè)月翻一倍；摩根士丹利估計(jì)“2022年谷歌的3.3萬(wàn)億次搜索，平均成本約于大模型搜索的成本是標(biāo)準(zhǔn)關(guān)鍵詞搜索的10倍”。需求的變化和成本的約束，再加上NoC（Network-on-Chip）和SiP（SysteminP基礎(chǔ)架構(gòu)的變革。計(jì)算架構(gòu)已逐漸從目前各自為政、孤島式的異構(gòu)計(jì)算，走向異構(gòu)融合計(jì)算。同時(shí)，以系統(tǒng)設(shè)計(jì)為中心，按照應(yīng)用需求來(lái)設(shè)計(jì)、定義和規(guī)劃計(jì)算架構(gòu)，推動(dòng)多層級(jí)狹義的異構(gòu)融合計(jì)算，指的是多種不同類(lèi)型、不同架構(gòu)處理器組成的計(jì)算架構(gòu)。廣義的異構(gòu)融合計(jì)算，是指通過(guò)將處理器、芯片、硬件設(shè)備、操作系統(tǒng)、編程框架、編程語(yǔ)言、網(wǎng)絡(luò)通信協(xié)議、數(shù)據(jù)中心等不同層次、不同類(lèi)型的計(jì)算技術(shù)進(jìn)行整合優(yōu)化，以實(shí)現(xiàn)多種異構(gòu)計(jì)算資源的高效利用。本白皮書(shū)旨在探討異構(gòu)融合計(jì)算技術(shù)的內(nèi)在機(jī)制、應(yīng)用場(chǎng)景和發(fā)展趨勢(shì)，通過(guò)概述計(jì)算領(lǐng)域相關(guān)概念，回顧計(jì)算架構(gòu)發(fā)展歷程，分析了異構(gòu)計(jì)算技術(shù)的發(fā)展現(xiàn)狀及面臨的主要問(wèn)題，從硬件層面（芯片級(jí)、設(shè)備級(jí)）、軟件層面（操作系統(tǒng)、編程框架）、系統(tǒng)層面分別提出了異構(gòu)融合計(jì)算技術(shù)的探索方案及演進(jìn)方向，引出了異構(gòu)融合計(jì)算技術(shù)的發(fā)展趨勢(shì)，并介紹了異構(gòu)融合計(jì)算領(lǐng)域相關(guān)的實(shí)踐案例。同時(shí)，指出了異構(gòu)融合計(jì)算發(fā)展面臨的挑戰(zhàn)：一是，處理器架構(gòu)的限制，可擴(kuò)展性和靈活性難以滿足，計(jì)算孤島問(wèn)題凸顯；二是，當(dāng)前的編程框架、編程語(yǔ)言、及其他編譯/調(diào)試工具，不足以支撐高效的異構(gòu)代碼編寫(xiě)、優(yōu)化和管理；三是，系統(tǒng)集成和互操作性技術(shù)要求高，難以構(gòu)建統(tǒng)一的在此，對(duì)參與本白皮書(shū)編制的各位專(zhuān)家表示衷心的感謝。我們相信，白皮書(shū)將為讀者提供一個(gè)新的視角和思考方式，希望讀者能夠結(jié)合實(shí)際應(yīng)用場(chǎng)景，對(duì)異構(gòu)融合計(jì)算相關(guān)技術(shù)進(jìn)行深入探索和研究。白皮書(shū)內(nèi)容，不可避免會(huì)存在諸多不足，懇請(qǐng)各界專(zhuān)家批評(píng)指正。當(dāng)今，數(shù)字化技術(shù)作為科技與產(chǎn)業(yè)新一輪變革的核心驅(qū)動(dòng)力，正在加速各行各業(yè)轉(zhuǎn)型升級(jí)，一個(gè)以計(jì)算能力為基礎(chǔ)的萬(wàn)物感知、萬(wàn)物互聯(lián)、萬(wàn)物智能的數(shù)字經(jīng)濟(jì)時(shí)代正加速到來(lái)。在這一進(jìn)程中，算力作為數(shù)字經(jīng)濟(jì)的核心生產(chǎn)力，由單一算力演變?yōu)槎鄻有运懔?，如何?shí)現(xiàn)多樣性算力的高質(zhì)量協(xié)同，已成為新型《異構(gòu)融合計(jì)算技術(shù)白皮書(shū)》針對(duì)現(xiàn)有算力基礎(chǔ)設(shè)施無(wú)法滿足算力需求的問(wèn)題，深入刨析了異構(gòu)計(jì)算應(yīng)用場(chǎng)景特點(diǎn)以及計(jì)算架構(gòu)異構(gòu)演進(jìn)歷程，提出了異構(gòu)計(jì)算發(fā)展所面臨的問(wèn)題，引入異構(gòu)融合計(jì)算的概念，并分別從硬件、軟件、系統(tǒng)三大層面概述了異構(gòu)融合趨勢(shì)和關(guān)鍵技術(shù)，系統(tǒng)全面地論證了異構(gòu)融合計(jì)算如何解決傳統(tǒng)異構(gòu)計(jì)算的問(wèn)題，并為多樣中國(guó)電信作為云網(wǎng)領(lǐng)域的中央企業(yè)，全面深入實(shí)施“云改數(shù)轉(zhuǎn)”戰(zhàn)略，充分發(fā)揮云網(wǎng)融合優(yōu)勢(shì)，與產(chǎn)業(yè)鏈上下游廣泛協(xié)同，積極打造云智、訓(xùn)推一體，云網(wǎng)邊端協(xié)同的分布式算力基礎(chǔ)設(shè)施。本白皮書(shū)為算力基礎(chǔ)設(shè)施建設(shè)和算力賦能提供了相關(guān)技術(shù)指引和參考，從基本概念到實(shí)踐案例，再到未來(lái)展望和發(fā)展建議，具有較高的實(shí)踐指導(dǎo)價(jià)值，我們相信該白皮書(shū)能夠?yàn)橄嚓P(guān)企業(yè)和研究機(jī)構(gòu)提供有益的啟示，我們也期待我國(guó)在異構(gòu)融合計(jì)算領(lǐng)域數(shù)字化時(shí)代，創(chuàng)新應(yīng)用爆發(fā)式增長(zhǎng)，傳統(tǒng)單一架構(gòu)計(jì)算平臺(tái)已難以滿足多樣性算力需求，異構(gòu)融合計(jì)算技術(shù)的提出顯得尤為重要。該白皮書(shū)深入淺出地解析了異構(gòu)融合計(jì)算技融合在一起，實(shí)現(xiàn)多種處理器的協(xié)同工作，以實(shí)現(xiàn)更高效、更靈活的計(jì)算能力。本白皮書(shū)通過(guò)研判芯粒級(jí)、設(shè)備級(jí)的技術(shù)融合趨勢(shì)，為實(shí)現(xiàn)更高計(jì)算能力、更高能效比、更低算力成本的算力硬件實(shí)現(xiàn)，提供了一種實(shí)現(xiàn)方案。在軟件及系統(tǒng)層面，闡述了硬件架構(gòu)優(yōu)化、操作系統(tǒng)優(yōu)化、算法定制、統(tǒng)一編程框架、編譯器優(yōu)化等軟硬件高效協(xié)同設(shè)計(jì)的思路，這一點(diǎn)對(duì)硬件和軟件開(kāi)發(fā)都具有重要的引導(dǎo)意義。盡管異構(gòu)融合計(jì)算這一技術(shù)還存在一些挑戰(zhàn)和問(wèn)題，但隨著技術(shù)的進(jìn)步和應(yīng)用的深入，我們可以預(yù)見(jiàn)異構(gòu)融合計(jì)算技術(shù)將在更多領(lǐng)域得到應(yīng)用和發(fā)展。我們有理由相信這一技術(shù)將帶來(lái)更多的社會(huì)和經(jīng)濟(jì)效益。因此，希望未來(lái)的研究能夠繼續(xù)關(guān)注這一領(lǐng)域的發(fā)展動(dòng)態(tài)，以推動(dòng)異構(gòu)融合計(jì)算技術(shù)的進(jìn)一步創(chuàng)新和V計(jì)算力就是生產(chǎn)力，智算力就是創(chuàng)新力。智慧時(shí)代的大幕徐徐拉開(kāi)，無(wú)論被動(dòng)或主動(dòng)，代表的AI應(yīng)用，開(kāi)啟了人機(jī)結(jié)合的新篇章，它的意義不亞于蒸可以媲美人類(lèi)語(yǔ)言的誕生！然而，AI算力的猛增，也讓IT基礎(chǔ)架構(gòu)面臨著前所未有的挑感謝組織方和各位參編人員，適時(shí)地推出了這份前瞻且系統(tǒng)的《異構(gòu)融合計(jì)算技術(shù)白皮書(shū)》。從計(jì)算領(lǐng)域相關(guān)概念出發(fā)，系統(tǒng)梳理了異構(gòu)計(jì)算的背景和發(fā)展歷程，剖析了異構(gòu)計(jì)算面臨的問(wèn)題，進(jìn)而引出異構(gòu)融合計(jì)算的提法，在硬件、軟件和系統(tǒng)層面進(jìn)行了充分闡釋?zhuān)詈蠼o出了展望和建議。全文較好地遵循了以系統(tǒng)設(shè)計(jì)為中心的理念，結(jié)合融合架構(gòu)這一發(fā)展方向，指出了異構(gòu)融合計(jì)算的三條演進(jìn)路徑：需要在硬件層面實(shí)現(xiàn)芯片級(jí)和設(shè)備級(jí)的技術(shù)創(chuàng)新，需要在軟件層面實(shí)現(xiàn)跨平臺(tái)的編程框架和運(yùn)行環(huán)境，需要在系統(tǒng)層面實(shí)現(xiàn)白皮書(shū)最大的亮點(diǎn)在于提出了“異構(gòu)融合計(jì)算”的前瞻性概念，強(qiáng)調(diào)實(shí)現(xiàn)更深層次的協(xié)同，突破各異構(gòu)系統(tǒng)之間的鴻溝，實(shí)現(xiàn)通用性和高性能的更高統(tǒng)一，這一觀點(diǎn)前瞻性強(qiáng)，值得業(yè)界關(guān)注。異構(gòu)融合計(jì)算通過(guò)多元融合的軟硬件協(xié)同，實(shí)現(xiàn)大規(guī)模計(jì)算資源池化，更總體來(lái)說(shuō)，白皮書(shū)對(duì)異構(gòu)融合計(jì)算的概念闡釋和技術(shù)路線給出了參考，相信在實(shí)踐中還需要不斷豐富和發(fā)展。希望大家能夠攜手并進(jìn)，共同推動(dòng)異構(gòu)融合計(jì)算理念的傳播，并在產(chǎn)業(yè)中得到更廣泛的應(yīng)用，為中國(guó)的算力產(chǎn)業(yè)和數(shù)字經(jīng)濟(jì)的發(fā)展添磚加推薦序4VI異構(gòu)融合技術(shù)是一種將不同種類(lèi)、不同架構(gòu)、不同性能的計(jì)算或處理單元融合在一起的技術(shù)。這種技術(shù)的目標(biāo)是充分利用各種硬件的優(yōu)勢(shì)，以實(shí)現(xiàn)更高的性能、能效或功能擴(kuò)展。異構(gòu)融合技術(shù)通常涉及不同類(lèi)型的處理器、加速器、存儲(chǔ)設(shè)備等的協(xié)同工作，以滿足日益復(fù)雜的計(jì)算需求。從整體出發(fā)，“以系統(tǒng)為中心”是異構(gòu)融合的指導(dǎo)思想，浪潮信息的融合架構(gòu)3.0是其中的典型代表?？偟膩?lái)說(shuō)，異構(gòu)融合技術(shù)在不同領(lǐng)域都發(fā)揮著重要作用，幫助實(shí)現(xiàn)更高效、更強(qiáng)大的計(jì)算能力，從而推動(dòng)了科學(xué)、技術(shù)和應(yīng)用的發(fā)展。因此，在本白皮書(shū)中，編者詳細(xì)介紹了異構(gòu)融合的概念、應(yīng)用場(chǎng)景、現(xiàn)有問(wèn)題以及未來(lái)發(fā)展趨勢(shì)。編者還從需求分析的角度出發(fā)，深入探討了異構(gòu)融合技術(shù)在不同領(lǐng)域的應(yīng)用和需求。這些案例涉及不同領(lǐng)域，包括人工智能、高性能計(jì)算等，可以幫助讀者更好地理解異構(gòu)融合的應(yīng)用和價(jià)值。總的來(lái)說(shuō)，這本白皮書(shū)對(duì)異構(gòu)融合技術(shù)進(jìn)行了全面的介紹和分析，為讀者提供了深入的了解和洞察。同時(shí)，編者也進(jìn)一步探討了異構(gòu)融合技術(shù)的挑戰(zhàn)和問(wèn)題，以----趙雅倩浪潮信息體系結(jié)構(gòu)研究部VII勢(shì)性預(yù)警變成迫切的現(xiàn)實(shí)。在計(jì)算平臺(tái)的半導(dǎo)體PPA、多層級(jí)數(shù)據(jù)訪問(wèn)架構(gòu)、總線網(wǎng)絡(luò)計(jì)算負(fù)載比重等方面，現(xiàn)有以CPU為中心的計(jì)算架構(gòu)難以應(yīng)對(duì)大算力、求的挑戰(zhàn)。圍繞“如何讓數(shù)據(jù)每一跳都產(chǎn)生更多價(jià)值的高效能算力架構(gòu)”科學(xué)發(fā)展問(wèn)題，“異構(gòu)”是指計(jì)算資源或技術(shù)具有不同的體系結(jié)構(gòu)、指令集、算法、工作模式等。“融合”是指將不同種類(lèi)的計(jì)算資源或技術(shù)進(jìn)行組合和優(yōu)化，以實(shí)現(xiàn)更高效、更穩(wěn)定的計(jì)算效果。“異構(gòu)融合”則包含硬件層面（芯片級(jí)、設(shè)備級(jí)）軟件層面、系統(tǒng)層面的軟硬件協(xié)同，既有傳統(tǒng)軟件的硬件化卸載，也有總線和網(wǎng)絡(luò)級(jí)的融合，整體上形成多種獨(dú)立的xPU計(jì)算引擎間的異構(gòu)融合互補(bǔ)，甚至表現(xiàn)出一些顛覆性的架構(gòu)創(chuàng)新，它將引領(lǐng)計(jì)算技術(shù)《異構(gòu)融合計(jì)算技術(shù)白皮書(shū)（2023年）》首次從芯片、整機(jī)、集群各層級(jí)，系統(tǒng)全面的闡述了異構(gòu)計(jì)算技術(shù)全棧的歷史、現(xiàn)狀和前沿探索情況。通過(guò)深入淺出的方式，作者讓我們了解到異構(gòu)融合計(jì)算技術(shù)在提高計(jì)算性能、降低功耗以及節(jié)約成本等方面的優(yōu)勢(shì)。結(jié)合實(shí)際案例分析，我們更加確信該技術(shù)在未來(lái)的發(fā)展前景。希望能引起異構(gòu)計(jì)算業(yè)界對(duì)融力、數(shù)據(jù)的生產(chǎn)資料地位，同時(shí)云計(jì)算、領(lǐng)域?qū)Ｓ眉軜?gòu)（DSA）、開(kāi)源和AIoT技術(shù)迅速崛起，種種跡象都在提醒，當(dāng)前正在孕育著新一代信息技術(shù)大變革，我們必須抓住大變革硬件和計(jì)算模式有難以估量的創(chuàng)新發(fā)展空間。摩爾定律失效造成算力增長(zhǎng)緩慢，這是目前信息產(chǎn)業(yè)面臨的重要挑戰(zhàn)，對(duì)于我們是機(jī)遇大于挑戰(zhàn)。在后摩爾時(shí)代，產(chǎn)業(yè)界提出了領(lǐng)域?qū)Ｓ眉軜?gòu)（DomainSpecificArchitecture,DSA）來(lái)應(yīng)長(zhǎng)的需要。云計(jì)算的業(yè)務(wù)形態(tài)使得其可以通過(guò)將底層異構(gòu)芯片進(jìn)行融合、對(duì)算力進(jìn)行抽象和池化，讓用戶更方便的使用異構(gòu)芯片和DSA架構(gòu)，可以操作系統(tǒng)系統(tǒng)軟件迎來(lái)場(chǎng)景驅(qū)動(dòng)的創(chuàng)新發(fā)展大機(jī)遇。操作系統(tǒng)是最為基礎(chǔ)的系統(tǒng)軟件，在異構(gòu)芯片、DSA架構(gòu)的適配，權(quán)衡計(jì)算-數(shù)據(jù)-網(wǎng)絡(luò)的距離達(dá)到最優(yōu)資源利用，實(shí)現(xiàn)異構(gòu)融合有其不可替代的地位。在“硬件芯片+操作系統(tǒng)+編譯器”相結(jié)合的基礎(chǔ)上，將軟硬件協(xié)同的邊界拓展到運(yùn)行時(shí)組件，實(shí)現(xiàn)硬件芯片、操作系統(tǒng)、編譯器等的協(xié)同設(shè)計(jì)，可以說(shuō)軟硬件協(xié)同適配是未來(lái)信息技術(shù)的主要發(fā)展“異構(gòu)融合計(jì)算技術(shù)白皮書(shū)”匯聚了領(lǐng)域?qū)＜业募w智慧，對(duì)計(jì)算架構(gòu)演化、發(fā)展趨勢(shì)、實(shí)踐案例等進(jìn)行了全方位的梳理，對(duì)信息技術(shù)發(fā)展具有一定的預(yù)見(jiàn)性，必將促使更多----楊勇龍蜥社區(qū)技術(shù)委員會(huì)主席、阿里云操作系統(tǒng)研在當(dāng)今快速發(fā)展的技術(shù)世界中，計(jì)算領(lǐng)域的挑戰(zhàn)和機(jī)遇無(wú)處不在。本白皮書(shū)深入探討了計(jì)算領(lǐng)域的發(fā)展歷程和關(guān)鍵問(wèn)題，提出了異構(gòu)融合作為計(jì)算發(fā)展的重要解決方案，給我眾所周知，自動(dòng)駕駛、元宇宙、人工智能等應(yīng)用正在塑造我們的未來(lái)。然而，這些新興技術(shù)的快速發(fā)展也帶來(lái)了巨大的挑戰(zhàn)，尤其是在算力需求方面。本白皮書(shū)詳細(xì)闡述了這些挑戰(zhàn)，強(qiáng)調(diào)算力成本不斷上升，對(duì)企業(yè)和研究機(jī)構(gòu)構(gòu)成了重大挑戰(zhàn)。白皮書(shū)中異構(gòu)融合計(jì)算的概念引發(fā)了我們的思考，它為應(yīng)對(duì)算力需求提供了一個(gè)行之有效的途徑。通過(guò)整合多個(gè)異構(gòu)計(jì)算系統(tǒng)，我們可以構(gòu)建更強(qiáng)大、高效的計(jì)算架構(gòu)，為未來(lái)的技術(shù)應(yīng)用和創(chuàng)新鋪此外，白皮書(shū)強(qiáng)調(diào)了行業(yè)共同努力和協(xié)同創(chuàng)新的重要性。中國(guó)科學(xué)院微電子研究所在智能計(jì)算領(lǐng)域積累了豐富的研究經(jīng)驗(yàn)并取得了一系列重要成就，研究所也在積極推動(dòng)跨學(xué)科合作，與其他學(xué)院、研究機(jī)構(gòu)和行業(yè)合作，以推動(dòng)智能計(jì)算領(lǐng)域的研究和創(chuàng)新。我們相信，只有通過(guò)全行業(yè)的合作，我們才能夠應(yīng)對(duì)當(dāng)前和未來(lái)的計(jì)算挑戰(zhàn)，共同推動(dòng)技術(shù)的發(fā)本白皮書(shū)不僅是對(duì)計(jì)算領(lǐng)域的一次深入洞察，也是對(duì)未來(lái)科技趨勢(shì)的一次引導(dǎo)。希望這份白皮書(shū)能夠激發(fā)更多關(guān)于異構(gòu)融合計(jì)算的討論，為我們共同的數(shù)字化未來(lái)打下堅(jiān)實(shí)的----喬樹(shù)山中國(guó)科學(xué)院微電子研究所智能感知研發(fā)中心副主任X 1 1 1 2 2 3 42.1計(jì)算架構(gòu)的發(fā)展歷程 4 4 5 5 62.2.1異構(gòu)計(jì)算技術(shù)成 62.2.2異構(gòu)計(jì)算架構(gòu)品 72.2.3異構(gòu)編程軟件逐 8 82.3.1芯片性能提升陷 82.3.2性能和靈活性難 92.3.3異構(gòu)計(jì)算孤島問(wèn) 92.3.4異構(gòu)計(jì)算編程框 10 12 12 12 17 21 21 24 26 28 28 32 334.1通用性與高性能統(tǒng)一 334.2計(jì)算架構(gòu)走向收斂 344.3編程復(fù)雜度降低 344.4基礎(chǔ)組件優(yōu)化 35 365.1加強(qiáng)政策引導(dǎo)，布局 365.2構(gòu)建標(biāo)準(zhǔn)體系，強(qiáng)化 365.3聚焦關(guān)鍵技術(shù)，推動(dòng) 365.4加速產(chǎn)業(yè)變革，促進(jìn) 37 3811異構(gòu)計(jì)算領(lǐng)域相關(guān)概念1.1異構(gòu)計(jì)算異構(gòu)計(jì)算（HeterogeneousComputing）是指不同類(lèi)型指令集和體系結(jié)構(gòu)的處理器組成可以獨(dú)立運(yùn)行，其他加速處理器需要在CPU的協(xié)助下運(yùn)行。因此，異構(gòu)計(jì)算通常是指依據(jù)指令的復(fù)雜度，處理器引擎分為CPU、Coprocessor（協(xié)處理器）、GPU、FPGA、圖1-1不同典型處理器間性能與靈活性對(duì)比圖協(xié)處理器集成在CPU內(nèi)部，用于協(xié)助CPU處理特定的計(jì)算任務(wù)；加速處理器（如l基于GPU的異構(gòu)并行。GPU異構(gòu)加速本質(zhì)是眾多并行的高效能通用處理器，通過(guò)l基于FPGA的異構(gòu)并行。FPGA具備硬件彈性的特征，可以根據(jù)需要進(jìn)行配置和編程，以實(shí)現(xiàn)不同的計(jì)算任務(wù)和算法加速，具有高并行度和高可靠性，適合進(jìn)行定制計(jì)算。l基于DSA的異構(gòu)并行。CPU和DSA共同構(gòu)成異構(gòu)計(jì)算系統(tǒng)，DSA可以在定制異構(gòu)的目標(biāo)是將任務(wù)分解為計(jì)算上同構(gòu)的子任務(wù)，然后將每個(gè)子任務(wù)分配給最適合執(zhí)行的計(jì)算資源(或并行模式)。異構(gòu)系統(tǒng)通常是由使用不同類(lèi)型指令集和體系架構(gòu)的計(jì)算單1.2異構(gòu)融合計(jì)算架構(gòu)、工藝和封裝，以及統(tǒng)一的異構(gòu)計(jì)算軟件。但在最核心的系統(tǒng)架構(gòu)層次，Intel僅僅只強(qiáng)調(diào)了“多”，并沒(méi)有進(jìn)一步對(duì)超異構(gòu)計(jì)算進(jìn)行闡述，以及設(shè)計(jì)實(shí)現(xiàn)的進(jìn)一步細(xì)節(jié)說(shuō)“異構(gòu)融合計(jì)算”是一個(gè)全新的概念，目前行業(yè)還沒(méi)有形成統(tǒng)一的定義。從概念上講，“異構(gòu)融合計(jì)算”屬于異構(gòu)計(jì)算的范疇，可以定義為異構(gòu)計(jì)算的一種高2本白皮書(shū)認(rèn)為，狹義的“異構(gòu)融合計(jì)算”，是一種新的計(jì)算架構(gòu)和方法，通過(guò)融合CPU和多種不同類(lèi)型、不同架構(gòu)的加速處理器，以實(shí)現(xiàn)更大規(guī)模、更高性能、更加高效的計(jì)算。而廣義的“異構(gòu)融合計(jì)算”，則通過(guò)不同層次、不同類(lèi)型的技l超異構(gòu)：系統(tǒng)中異構(gòu)處理器的數(shù)量為三個(gè)或三個(gè)以上。“一個(gè)稱(chēng)為同構(gòu)，兩個(gè)稱(chēng)為l硬件融合：強(qiáng)調(diào)不同處理器之間的深度協(xié)同（指單個(gè)工作任務(wù)由兩個(gè)或兩個(gè)以上處處理器運(yùn)行，也可以跨同類(lèi)型中的不同架構(gòu)處理器運(yùn)行）。各處理器之間可以通過(guò)高速總線或高性能網(wǎng)絡(luò)進(jìn)行通信和數(shù)據(jù)傳輸，通過(guò)更高層次的系統(tǒng)劃分和任務(wù)調(diào)度實(shí)現(xiàn)協(xié)同計(jì)算。l軟件融合：面向異構(gòu)（硬件）計(jì)算環(huán)境，將操作系統(tǒng)、應(yīng)用軟件、編程模型、編程語(yǔ)言、通信協(xié)議、數(shù)據(jù)等技術(shù)資源進(jìn)行融合和優(yōu)化，提供統(tǒng)一的軟件運(yùn)行環(huán)境和編譯開(kāi)發(fā)l系統(tǒng)融合：通過(guò)合理地任務(wù)分配和資源調(diào)度，異構(gòu)融合計(jì)算系統(tǒng)可以實(shí)現(xiàn)更高的計(jì)傳統(tǒng)異構(gòu)計(jì)算，特指CPU+xPU的計(jì)算架構(gòu)。異構(gòu)融合計(jì)算與傳統(tǒng)異構(gòu)計(jì)算的差異點(diǎn)在于：傳統(tǒng)異構(gòu)計(jì)算僅有一種加速處理器類(lèi)型，并且僅關(guān)注CPU和加速處異構(gòu)融合計(jì)算則具有兩種或兩種以上的加速處理器類(lèi)型，并且需要重點(diǎn)關(guān)注所有處理器之1.3其他相關(guān)概念1.3.1ASIC與DSAASIC（Application-SpecificIntegratedCircuit，專(zhuān)用集制造的集成電路，與通用集成電路（GeneralPurposeIC）相比體積更小、功耗更低、成本更低。一般來(lái)說(shuō)，ASIC處理引擎的指令復(fù)雜度最高，其理3差異化需求，二是縱向的單個(gè)用戶的長(zhǎng)期快速迭代需求。即使同一場(chǎng)景下，不Architecture，特定領(lǐng)域架構(gòu)），可根據(jù)特定應(yīng)用場(chǎng)景定制處理引擎甚至芯片，支持部分軟件可編程。DSA的設(shè)計(jì)和實(shí)現(xiàn)需要考慮特定領(lǐng)域的特征和需求，包括算法、數(shù)據(jù)結(jié)構(gòu)和最l靈活性問(wèn)題：ASIC由于其功能確定，只能通過(guò)一些簡(jiǎn)單的配置控制硬l應(yīng)用領(lǐng)域擴(kuò)大：DSA支持可編程能力，使得其功能覆蓋的領(lǐng)域范圍DSA架構(gòu)的處理引擎在滿足系統(tǒng)靈活性要求的情況下，可實(shí)現(xiàn)最極性?xún)r(jià)比。SoC(SystemonChip，片上系統(tǒng))，是一種將多種電子組件集成在一個(gè)先進(jìn)的電路設(shè)計(jì)和封裝技術(shù)實(shí)現(xiàn)將不同的組件集成到一個(gè)芯片上。這種集成方式可以減少系統(tǒng)的體積和功耗，提高系統(tǒng)的可靠性和性能。同時(shí)，SoC還可以通過(guò)硬件SiP（SysteminPackage，系統(tǒng)級(jí)封裝）是一種先進(jìn)的封裝技術(shù)，它能的有源電子元件與可選無(wú)源器件、MEMS（微機(jī)電系統(tǒng)）器件、光學(xué)器件等先組裝到一起，實(shí)現(xiàn)一定功能的單個(gè)標(biāo)準(zhǔn)封裝件，形成一個(gè)系統(tǒng)或者子系統(tǒng)。這術(shù)體現(xiàn)了將各種功能芯片，包括處理器、存儲(chǔ)器等芯片集成在一個(gè)l2DSiP：這是最常見(jiàn)的SiP類(lèi)型，通過(guò)在平面上排列多個(gè)芯片實(shí)現(xiàn)不同功能。這些lMIP（Multiple-chip-in-Package）：MIPMEMS、光學(xué)元件等）組合在一起的技術(shù)，裝尺寸和系統(tǒng)性能方面存在一定的區(qū)別。SiP更注重將不同功能起，實(shí)現(xiàn)一定功能的系統(tǒng)或子系統(tǒng)；而SoC則通過(guò)將整42異構(gòu)計(jì)算的發(fā)展及問(wèn)題2.1計(jì)算架構(gòu)的發(fā)展歷程l第一代，晶體管時(shí)代，指令集架構(gòu)出現(xiàn)之前，計(jì)算機(jī)架構(gòu)各不相同;l第二代，小規(guī)模和中等規(guī)模集成電路時(shí)代，出現(xiàn)支持指令集架構(gòu)的CPU處l第三代，大規(guī)模和超大規(guī)模集成電路時(shí)代，指令級(jí)并行以及CISC和RISC混戰(zhàn)；l第四代，超大規(guī)模集成電路的多核處理器并行時(shí)代；l第五代，超大規(guī)模的領(lǐng)域?qū)Ｓ锰幚砥鳎―SA）時(shí)代。上述計(jì)算機(jī)體系結(jié)構(gòu)的時(shí)代劃分，是站在單處理器引擎視角進(jìn)行的。本白皮書(shū)參考上述五個(gè)時(shí)代的劃分，站在多處理器引擎計(jì)算架構(gòu)從簡(jiǎn)單到復(fù)雜的發(fā)展視角，提出了如下的l第一階段，基于單核CPU的串行計(jì)算；l第二階段，基于多核CPU的同構(gòu)并行計(jì)算；2.1.1基于單核CPU的串行計(jì)算Computer），其線路必須被重設(shè)才能執(zhí)行不同的程序，通常需要花費(fèi)長(zhǎng)達(dá)三周的時(shí)間。而CPU微處理器通過(guò)支持跳轉(zhuǎn)、調(diào)用等控制類(lèi)指令，使得計(jì)算機(jī)可以執(zhí)行各種復(fù)雜的計(jì)算和CPU的這種設(shè)計(jì)理念實(shí)現(xiàn)了軟件與硬件的解耦。即在更在這種架構(gòu)中，軟件開(kāi)發(fā)是基于串行計(jì)算的思維，程序或問(wèn)題被分解成一系列離散的指令，圖2-1單核CPU串行計(jì)算示意圖l指令集架構(gòu)：宏觀架構(gòu)有精簡(jiǎn)RISC和復(fù)雜CISC路線之爭(zhēng)。l微架構(gòu)創(chuàng)新：CPU處理器中出現(xiàn)了各種各樣的微架構(gòu)創(chuàng)新技術(shù)，如處乘法/除法器等復(fù)雜執(zhí)行單元、指令多發(fā)射、亂序執(zhí)行、l數(shù)據(jù)位寬：處理器數(shù)據(jù)位寬從4位到8位到16位到32位，再到目前主流的64位。52.1.2基于多核CPU的同構(gòu)并行計(jì)算AMD和Intel分別推出了各自的雙核處理器。隨著技術(shù)的創(chuàng)新迭代，更多的C的超高并行計(jì)算能力。圖2-2多核CPU同構(gòu)并行計(jì)算示意圖并行計(jì)算（ParallelComputing）是通過(guò)擴(kuò)大問(wèn)題求解規(guī)模，解決大型而復(fù)雜的計(jì)算問(wèn)題。并行計(jì)算主要分為時(shí)間上的并行和空間上的并行。時(shí)間上的并行是指流水線技術(shù)，而空間上的并行則是指用多個(gè)處理器并發(fā)的執(zhí)行計(jì)算，以此擴(kuò)大問(wèn)題求解升受任務(wù)順序部分的限制。阿姆達(dá)爾定律證明了處理器數(shù)量的增加帶來(lái)的收益會(huì)遞減。一方面受系統(tǒng)工作任務(wù)并行特征的約束，另一方面，受單芯片設(shè)計(jì)規(guī)模上限的約束，通過(guò)多2.1.3基于CPU+xPU的異構(gòu)并行計(jì)算基于CPU+xPU的異構(gòu)并行計(jì)算廣泛應(yīng)用于高性能計(jì)算、人工智能等領(lǐng)域。CPU和2006年，NVIDIA發(fā)布了第一款真正意義上的通用GPU：Tesla架構(gòu)GPU；同年，NVIDIA發(fā)布了CUDA框架，這標(biāo)志著基于GPU處理器并行計(jì)算的誕生。單位計(jì)算的功耗面積等成本較高；而GPU單位計(jì)算的功耗面積等成本也較低；CPU擅長(zhǎng)處理串行任務(wù)，而GPU則更適合處理并行6），多維度的數(shù)組運(yùn)算，以增強(qiáng)并行計(jì)算的能力。TPU獨(dú)立完成整個(gè)推理模型的運(yùn)算，極大地的指令緩沖區(qū)，確保數(shù)據(jù)流暢無(wú)阻。TPU的矩陣乘法單元是其計(jì)算的核心，專(zhuān)門(mén)用于處理性能和功耗之間的關(guān)系是決定計(jì)算設(shè)備選擇的核心因素。為了滿足大規(guī)模計(jì)算的需求，從CPU到GPU，再到TPU（DSA），每一個(gè)技術(shù)進(jìn)步都帶來(lái)了性能的顯著提升?；陉嚵羞壿嫞┑瓤删幊唐骷幕A(chǔ)上的半定制電路，或叫可編程的邏輯列陣。FPGA基本結(jié)構(gòu)包括可編程輸入輸出單元、可配置邏輯塊、數(shù)字時(shí)鐘管理模塊、內(nèi)嵌專(zhuān)用硬核，底層內(nèi)相比，F(xiàn)PGA提供了更大的硬件靈活性，允許開(kāi)發(fā)者根據(jù)需要進(jìn)行硬件編程和定制。這樣的靈活性彌補(bǔ)了定制電路的一些局限性，同時(shí)具備比傳統(tǒng)可編程邏輯更高的邏輯門(mén)數(shù)量，CGRA可重構(gòu)計(jì)算（Coarse-grainedR的并行計(jì)算架構(gòu)，它通過(guò)空域硬件結(jié)構(gòu)組織不同粒度和功能的計(jì)算資源。與傳統(tǒng)的指令驅(qū)動(dòng)計(jì)算架構(gòu)不同，CGRA在運(yùn)行時(shí)根據(jù)數(shù)據(jù)流的特點(diǎn)進(jìn)行硬件配置，讓計(jì)算資源形成相對(duì)固定的計(jì)算通路，從而以接近“專(zhuān)用電路”的方式并行計(jì)算。這種結(jié)構(gòu)既減少了取指和譯碼的延時(shí)及能耗，又能以專(zhuān)用電路的方式高效執(zhí)行。當(dāng)面臨不同的算法和應(yīng)用時(shí)，可以通過(guò)2.2異構(gòu)計(jì)算技術(shù)蓬勃發(fā)展2.2.1異構(gòu)計(jì)算技術(shù)成為主流處理器性能平均每2年翻一番；隨著登納德縮放定律的逐漸失效、阿姆達(dá)爾定律的充分挖的硅面積，算力密度低，運(yùn)算單元少，不適合人工智能領(lǐng)域的高并發(fā)密集的向量、張量計(jì)7當(dāng)前，人工智能領(lǐng)域主要采用CPU+xPU（GPU/F異構(gòu)計(jì)算技術(shù)已經(jīng)成為超級(jí)計(jì)算機(jī)、嵌入式系統(tǒng)、人工智能等領(lǐng)域的主流計(jì)算模式，未來(lái)2.2.2異構(gòu)計(jì)算架構(gòu)品類(lèi)眾多場(chǎng)景（Scenario）是領(lǐng)域（Domain）的子集。比如AES加解密是一個(gè)具體的場(chǎng)景因此，針對(duì)不同類(lèi)型處理器的領(lǐng)域和場(chǎng)景覆蓋，我們可以得到異構(gòu)計(jì)算架構(gòu)的品類(lèi)眾多，并且不同的品類(lèi)具體的架構(gòu)實(shí)現(xiàn)也不盡相同。按照不同的l基于GPU的異構(gòu)：頭部廠商占據(jù)了主要市場(chǎng)，GPl基于DSA/ASIC的異構(gòu)：面向應(yīng)用領(lǐng)域和場(chǎng)景各異、每個(gè)廠商芯片架構(gòu)實(shí)現(xiàn)的方式各異；甚至，由于業(yè)務(wù)迭代的影響，同一個(gè)廠家不同代產(chǎn)品的架構(gòu)也有可DSA/ASIC異構(gòu)里，異構(gòu)計(jì)算架構(gòu)8在體系結(jié)構(gòu)的黃金年代，異構(gòu)處理器多樣化是時(shí)代的潮流。在眾多異構(gòu)計(jì)算架構(gòu)中，如何實(shí)現(xiàn)平衡性能與靈活性，并從系統(tǒng)層面上以更低的成本獲取更大的算力、更多的領(lǐng)域2.2.3異構(gòu)編程軟件逐漸成熟隨著異構(gòu)計(jì)算的發(fā)展和廣泛應(yīng)用，異構(gòu)編程技術(shù)也逐漸成熟。異構(gòu)編程是指通過(guò)編寫(xiě)軟件來(lái)調(diào)度異構(gòu)計(jì)算平臺(tái)進(jìn)行計(jì)算，其成熟性主要體現(xiàn)在在平臺(tái)支持方面，主流的異構(gòu)計(jì)算平臺(tái)都提供了相應(yīng)的開(kāi)發(fā)工具和編程模型，以支持異構(gòu)編程。例如，NVIDIA提供的CUDA編程模型；Xi在編程模型方面，針對(duì)異構(gòu)計(jì)算的編程模型也在不斷完善和發(fā)展。傳統(tǒng)的編程模型如寒武紀(jì)的MagicMind等。這些編程模型提供了更高層次構(gòu)編程的難度，同時(shí)充分發(fā)揮了異構(gòu)計(jì)算的優(yōu)勢(shì)，目的是讓開(kāi)發(fā)者可以更加輕松地進(jìn)行異在優(yōu)化工具和框架方面，為了提高異構(gòu)計(jì)算的效率，研究人員和廠商們開(kāi)發(fā)了各種優(yōu)化工具和框架。這些工具和框架提供了各種編譯、調(diào)度、調(diào)試和優(yōu)化的功能，以幫助開(kāi)發(fā)用于性能分析和調(diào)試；與FPGA相關(guān)的優(yōu)簡(jiǎn)而言之，越來(lái)越多的案例表明了異構(gòu)編程正在逐漸成熟，不僅有全棧的軟硬件平臺(tái)2.3異構(gòu)計(jì)算技術(shù)演進(jìn)困境異構(gòu)計(jì)算技術(shù)已經(jīng)廣泛應(yīng)用于多個(gè)領(lǐng)域，如云計(jì)算、邊緣計(jì)算、高性能計(jì)算等。但異構(gòu)計(jì)算也逐漸面臨性能瓶頸問(wèn)題，同時(shí)面臨性能和靈活性難以兼顧、編程框架不統(tǒng)一等問(wèn)2.3.1芯片性能提升陷入瓶頸升一倍。單個(gè)異構(gòu)計(jì)算設(shè)備的性能提升有限，只能通過(guò)擴(kuò)大計(jì)算集群規(guī)模的方式來(lái)滿足算力快速提升的需求。然而，受限于集群效率，目前上千臺(tái)服務(wù)器和上萬(wàn)張GPU加速卡的單個(gè)計(jì)算芯片的性能提升已經(jīng)陷入瓶頸，主要有如下l摩爾定律放緩：隨著制程工藝不斷縮小，摩爾定律的推進(jìn)速度已經(jīng)放緩，單純依靠l能源和散熱限制：隨著芯片制程工藝的進(jìn)步，晶體管的體積不斷縮小，但同時(shí)也帶來(lái)了更高的功耗和熱量產(chǎn)生。在有限的能源和散熱條件下，單純追求性能提升將導(dǎo)致芯片l軟件和硬件的協(xié)同優(yōu)化不足：為了充分發(fā)揮硬件性能，需要與之相應(yīng)的軟件和算法支持。但在實(shí)際應(yīng)用中，軟件和硬件之間的協(xié)同優(yōu)化并不總是能夠?qū)崿F(xiàn)，導(dǎo)致部分硬件性9l阿姆達(dá)爾定律的原則：并行性的理論性能提升受任務(wù)順序部分的限制。在優(yōu)化計(jì)算機(jī)系統(tǒng)性能時(shí)，不僅需要考慮單個(gè)處理器的性能，還需要考慮如何并行化計(jì)算任務(wù)，以充分利用多核處理器的優(yōu)勢(shì)。也因此，通過(guò)多核并行來(lái)提升綜合性能的收益也在逐漸遞減。為了突破性能瓶頸，未來(lái)的計(jì)算技術(shù)需要從多層次、多方面進(jìn)行創(chuàng)新，包括新型計(jì)算2.3.2性能和靈活性難以兼顧性能與靈活性在不同的加速處理器上呈現(xiàn)出不同的特l性能優(yōu)越：DSA技術(shù)通過(guò)將多個(gè)處理器核心連接到一個(gè)共享內(nèi)存區(qū)域，實(shí)現(xiàn)了處理器之間的高效數(shù)據(jù)交換和協(xié)作。這使得DSA在處理大規(guī)模數(shù)據(jù)和復(fù)雜任務(wù)時(shí)l靈活性高：DSA技術(shù)可以根據(jù)實(shí)際應(yīng)用需求，靈活配置處理器核心和內(nèi)存資源的比例，以滿足不同場(chǎng)景下性能和資源需求的平衡。此外，DSA還支持動(dòng)態(tài)地添加或刪除處理l易于擴(kuò)展：DSA技術(shù)具有良好的可擴(kuò)展性，可以通過(guò)增加處理器核心數(shù)量來(lái)提高系l容錯(cuò)能力強(qiáng)：DSA技術(shù)采用了冗余設(shè)計(jì)，當(dāng)系統(tǒng)中某個(gè)處理器核心出現(xiàn)故障時(shí)，其他核心可以接管其任務(wù)，保證整個(gè)系統(tǒng)的正l適用范圍有限：由于DSA技術(shù)針對(duì)特定領(lǐng)域進(jìn)行優(yōu)化，因此其在非定制領(lǐng)域的適l開(kāi)發(fā)和維護(hù)成本高：為了充分發(fā)揮DSA的性能優(yōu)勢(shì)，需要針對(duì)具體應(yīng)用進(jìn)行優(yōu)化和適配。這意味著開(kāi)發(fā)者需要投入更多的精力進(jìn)行硬件和軟件設(shè)計(jì)，提高了開(kāi)發(fā)和維護(hù)成本。l技術(shù)成熟度較低：相較于傳統(tǒng)架構(gòu)，DSA的技術(shù)成熟度較低。在實(shí)際應(yīng)用中，可能l兼容性問(wèn)題：由于DSA技術(shù)采用了特定領(lǐng)域的定制設(shè)計(jì)，可能導(dǎo)致與其他硬件和軟件系統(tǒng)的兼容性問(wèn)題。在使用過(guò)程中，可能需要額外的適配和優(yōu)化工在異構(gòu)計(jì)算中，不同的處理器各有優(yōu)勢(shì)和劣勢(shì)，選擇最適合的處理器取決于特定應(yīng)用的性能和靈活性需求。盡管DSA提供了一種介于高性能ASIC和靈活的通用處理器之間的解決方案，但其在某些迅速變化的領(lǐng)域中仍面臨著挑戰(zhàn)。未來(lái)的技術(shù)研究應(yīng)集中在如何實(shí)2.3.3異構(gòu)計(jì)算孤島問(wèn)題突顯隨著異構(gòu)計(jì)算在各領(lǐng)域的應(yīng)用落地，多異構(gòu)共存的異構(gòu)計(jì)算孤島問(wèn)題也逐漸突顯。多異構(gòu)計(jì)算的硬件層次高集成度和系統(tǒng)軟件層次多協(xié)同、通用編程模型和開(kāi)發(fā)環(huán)境，已成為圖2-4從同構(gòu)到異構(gòu)再到多異構(gòu)的演進(jìn)l各領(lǐng)域加速器難以全局協(xié)同：不同的加速器在處理特定領(lǐng)域的問(wèn)題時(shí)表現(xiàn)出色，但相互協(xié)同能力差，可能導(dǎo)致系統(tǒng)整體的性能下降。協(xié)同能力差主要體現(xiàn)在兩個(gè)方面：不同的加速器的存儲(chǔ)器和內(nèi)存管理機(jī)制不同，導(dǎo)致數(shù)據(jù)訪問(wèn)和傳輸方式復(fù)雜，數(shù)據(jù)通路難以協(xié)同；多個(gè)加速器的控制機(jī)制不同，導(dǎo)致它們之間的同步和協(xié)調(diào)，需要復(fù)雜的并行控制機(jī)制l各領(lǐng)域加速器之間交互困難：不同類(lèi)型的加速器之間進(jìn)行通信和數(shù)據(jù)交換需要使用特定的接口和機(jī)制，增加了開(kāi)發(fā)的復(fù)雜性和難度；頻繁大量的通信和數(shù)據(jù)交換，導(dǎo)致數(shù)據(jù)l中心單元的性能瓶頸問(wèn)題：在異構(gòu)系統(tǒng)中，通常有一個(gè)中心單元（如CPU、DPU）負(fù)責(zé)協(xié)調(diào)和管理其他硬件加速器的工作。然而，當(dāng)加速器數(shù)量增多或任務(wù)復(fù)雜度增加時(shí)，l物理空間無(wú)法容納多個(gè)異構(gòu)加速卡：由于物理空間的限制，系統(tǒng)中只能容納有限數(shù)2.3.4異構(gòu)計(jì)算編程框架各異不同的異構(gòu)計(jì)算編程框架都擁有其獨(dú)特的特性和適用環(huán)境，開(kāi)發(fā)者在編寫(xiě)程序時(shí)需要依據(jù)實(shí)際需求和硬件設(shè)備選擇最適合的框架。由于硬件的獨(dú)特性質(zhì)，每種硬件都配備了專(zhuān)例如，CUDA是由NVIDIA推出的并行計(jì)算平臺(tái)和編程模型，它允許開(kāi)發(fā)者利用加速的并行計(jì)算。AmpxAI是由AMD開(kāi)發(fā)的基于Python的并行計(jì)算庫(kù)，可在AMD的GPU上實(shí)現(xiàn)高效的計(jì)算。這就要求開(kāi)發(fā)者掌握多種編程模型和語(yǔ)言，使得代碼移植面臨巨大的挑戰(zhàn)。例如，專(zhuān)即使有統(tǒng)一編程模型的支持，要實(shí)現(xiàn)高效的代碼仍需要針對(duì)特定硬件進(jìn)行手動(dòng)優(yōu)化，這無(wú)疑增加了編程的復(fù)雜性和開(kāi)發(fā)周期。雖然業(yè)界提出了多種方法試圖建立統(tǒng)一的異構(gòu)計(jì)算編程框架，以簡(jiǎn)化開(kāi)發(fā)過(guò)程并解決這些挑戰(zhàn)，但至今仍未找到完美的解決方案。因此，尋找一個(gè)真正統(tǒng)一、能滿足所有硬件和應(yīng)用需求的編程方法，仍然是計(jì)算領(lǐng)域的熱門(mén)研究3異構(gòu)融合計(jì)算技術(shù)探索隨著計(jì)算模式從集中式的單節(jié)點(diǎn)計(jì)算逐漸走向分布式的多節(jié)點(diǎn)協(xié)同計(jì)算，計(jì)算系統(tǒng)變得越來(lái)越復(fù)雜。異構(gòu)融合計(jì)算技術(shù)，不僅僅需要芯片級(jí)、設(shè)備級(jí)等硬件層面技術(shù)的支撐，還需要操作系統(tǒng)、編程框架以及跨平臺(tái)等多種軟件層面技術(shù)的支持，以及數(shù)據(jù)中心和新型計(jì)算模式等系統(tǒng)層面技術(shù)的全力配合。通過(guò)整個(gè)系統(tǒng)的全方位軟硬件協(xié)同工作，來(lái)達(dá)到異3.1硬件層面融合技術(shù)探索3.1.1芯片級(jí)融合計(jì)算架構(gòu)2015之后，摩爾定律逐漸放緩，集成電路發(fā)展進(jìn)入后摩爾時(shí)代，集成電路的整體發(fā)展l“MoreMoore”：延續(xù)摩爾定律，在縮小尺寸的同時(shí)，集成更多的組件，實(shí)現(xiàn)功能l“MorethanMoore”：擴(kuò)展摩爾定律，通過(guò)先進(jìn)封裝技術(shù)，把不同的功能組件封裝l“BeyondMoore”：超越摩爾定律，探索量子計(jì)算、類(lèi)腦計(jì)算、電子器件等新型半l“MuchMoore”：豐富摩爾定律，隨著計(jì)算機(jī)學(xué)與物理學(xué)、數(shù)學(xué)、化學(xué)、生物學(xué)等其中，“BeyondMoore”和“MuchMoore”屬于更加前沿術(shù)、SoC驗(yàn)證技術(shù)、可測(cè)性設(shè)計(jì)技術(shù)、低功耗設(shè)計(jì)技術(shù)、超深亞微米電路實(shí)現(xiàn)技術(shù)等。SoC設(shè)計(jì)技術(shù)可以降低系統(tǒng)板上因信號(hào)在多個(gè)芯片之間進(jìn)出帶來(lái)的延遲而導(dǎo)致的性能局限，NoC是目前大規(guī)模芯片內(nèi)部互聯(lián)的最主要通信架構(gòu)，通過(guò)芯片內(nèi)實(shí)現(xiàn)類(lèi)似于網(wǎng)構(gòu)，包括目標(biāo)的處理單元（PE）、交換節(jié)點(diǎn)（routers）和互連線（wires），這種互聯(lián)結(jié)構(gòu)相比傳統(tǒng)交叉開(kāi)關(guān)（Crossbar）總線具有可擴(kuò)展性好、并發(fā)性強(qiáng)等特點(diǎn)。隨著SoC集成度越來(lái)越高，NoC拓?fù)浣Y(jié)構(gòu)主要有兩種，直接型拓?fù)浣Y(jié)構(gòu)：所有的路由節(jié)點(diǎn)均與計(jì)算資源相連，并通過(guò)雙向鏈路直接連接。常（Hypercube）NoC。網(wǎng)絡(luò)是由交換節(jié)點(diǎn)和互連線構(gòu)成的，每個(gè)節(jié)點(diǎn)連接一個(gè)處理單元（RE）和上下左右四個(gè)相鄰的路由器，每個(gè)處理單元通過(guò)一個(gè)網(wǎng)絡(luò)接口（Net-InterfaceNI）連接著一個(gè)路由器。其中的處理單元可以是處理器核、內(nèi)存、用戶自定義硬件模塊或者其他任何可以插入插槽并且可以和網(wǎng)絡(luò)接口相配的IP（IntellectualProperty路由器之間，路由器和資源之間是由一對(duì)輸入和輸出通道連接。通道是由兩條單向的點(diǎn)對(duì)點(diǎn)總線組成。2D網(wǎng)格型（Mesh）是典型的直接型NoC拓?fù)?，如圖3-2所示：各個(gè)路由節(jié)點(diǎn)之間不一定是直接通過(guò)雙向鏈路相連接，而可能是通過(guò)這些專(zhuān)門(mén)的開(kāi)關(guān)節(jié)點(diǎn)一顆芯片的晶體管數(shù)量為百萬(wàn)級(jí)至百億級(jí)不等；另一方面，SoC可以運(yùn)行處理多任務(wù)的復(fù)移植性等特點(diǎn)。在SoC芯片研發(fā)過(guò)程中，研發(fā)人員SiP是從封裝的立場(chǎng)出發(fā)，對(duì)不同芯片進(jìn)行并排或疊加的方式封裝，將多個(gè)具有不同功能的有源電子元件與可選無(wú)源器件，以及諸如MEMS或者光學(xué)器件等其行分解，然后開(kāi)發(fā)出多種具有單一特定功能、可相互進(jìn)行模塊化組裝的裸芯片（如實(shí)現(xiàn)了數(shù)據(jù)存儲(chǔ)、計(jì)算、信號(hào)處理、數(shù)據(jù)流管理等功能），再將這些模塊化的芯粒（裸片）互聯(lián)起來(lái)，采用新型封裝技術(shù)，將不同功能不同工藝制造的芯粒封裝在一起，成為一個(gè)異構(gòu)集Chiplet芯片設(shè)計(jì)具備三大優(yōu)勢(shì)：快速開(kāi)發(fā)、低成本、多功能；借助先進(jìn)的封裝技術(shù)，芯?？梢约筛鞣N不同的架構(gòu)、不同的工藝節(jié)點(diǎn)，特定設(shè)計(jì)部分選擇最先進(jìn)的技術(shù)，而在其他部分選擇更成熟、更廉價(jià)的技術(shù)，從而節(jié)省整AI加速器等不同處理元素任意組合，為各種應(yīng)用需求提供更豐富的加速選項(xiàng)。Chiplet封裝主要分為2.5D封裝l2.5D封裝：橫向堆疊芯片，在傳統(tǒng)的地基上增加硅中介層（interproser），把芯片之間、芯片與存儲(chǔ)之間的連線封裝在硅中介層中，可提供近似在同一個(gè)芯片內(nèi)的互聯(lián)性能。GPU與CPU。代表技術(shù)有臺(tái)積電的CoWoS、英特爾的EMIB。l3D封裝：縱向堆疊芯片，不同于2.5D封裝，3D封裝是一種晶圓對(duì)晶圓（Wafer-On-Wafer）無(wú)凸起的鍵合（Bonding）技術(shù)，在垂直方向上堆疊芯片和存儲(chǔ)，各層通過(guò)硅通量，MI300A則把CPU和GPU通過(guò)3D裝的技術(shù)，構(gòu)建更高效、更經(jīng)濟(jì)的芯片系統(tǒng)。這種設(shè)計(jì)方法簡(jiǎn)化了芯片設(shè)計(jì)的復(fù)雜性，而晶圓融合技術(shù)核心設(shè)計(jì)理念：在這種架構(gòu)中，充分利用晶圓了適應(yīng)大規(guī)模的計(jì)算需求，重點(diǎn)放在了系統(tǒng)的晶圓內(nèi)互聯(lián)上，而不再追求單核的超高性能。l輕量級(jí)計(jì)算核心/處理單元(PE)：架構(gòu)采用輕量級(jí)的計(jì)算核心，不再追求每個(gè)核心l片上/片間互聯(lián)(NoC/NoP)：架構(gòu)使用對(duì)稱(chēng)互聯(lián)方式，減少了不同層級(jí)之間的帶寬逐l存儲(chǔ)層次：架構(gòu)在內(nèi)存層次結(jié)構(gòu)上采用了非一致性?xún)?nèi)存訪問(wèn)（NUMA）架構(gòu)，結(jié)合l集群互聯(lián)：從基于芯片的3D拓?fù)浣Y(jié)構(gòu)轉(zhuǎn)向基于晶圓的2D拓?fù)浣Y(jié)構(gòu)，這l硬件冗余設(shè)計(jì)和PartialGood策略：由于晶圓級(jí)l硬件Defect處理：針對(duì)晶圓級(jí)制造過(guò)程中可能出現(xiàn)的硬件缺陷，這種架構(gòu)采取了一根據(jù)算力的快速增長(zhǎng)需求，以及異構(gòu)融合的發(fā)展大趨勢(shì)，作為芯片設(shè)計(jì)集成/融合的主l異構(gòu)系統(tǒng)支持：多種類(lèi)型的處理器和加速器的異構(gòu)系統(tǒng)正在普及。NOC技術(shù)能夠l更高的集成度：隨著芯片制造技術(shù)的進(jìn)步，芯片上可以集成更多不同類(lèi)型的處理器核心、存儲(chǔ)單元和功能模塊。NOC技術(shù)將面臨更高的集成度l更高的帶寬和更低的延遲：新型應(yīng)用對(duì)數(shù)據(jù)傳輸帶寬和延遲要求更高。NOC技術(shù)將朝著提供更高的帶寬和更低的通信延遲方向l可編程性和靈活性：越來(lái)越多的應(yīng)用場(chǎng)景需要定制的處理器/加速器，因此NOC技術(shù)需要更大的可編程性，以適應(yīng)不同類(lèi)型的處理器和l能耗和功耗優(yōu)化：NOC技術(shù)需要在提供高性能的同時(shí)，優(yōu)化能源效率，減少功耗。l異構(gòu)系統(tǒng)支持：多種類(lèi)型的處理器和加速器的異構(gòu)系統(tǒng)正在普及。NOC技術(shù)需要l安全性和可靠性：隨著互聯(lián)網(wǎng)的普及，芯片的安全性和可靠性變得尤為重要。NOCl虛擬化和云計(jì)算：NOC技術(shù)需要支持虛擬化和資源共享，以便多個(gè)應(yīng)用程序在同l機(jī)器學(xué)習(xí)和自適應(yīng)性：機(jī)器學(xué)習(xí)技術(shù)可以應(yīng)用于NOC，以?xún)?yōu)化通信路由、動(dòng)態(tài)調(diào)總之，NOC技術(shù)的發(fā)展趨勢(shì)將主要關(guān)注高度異構(gòu)集成、高帶寬低延遲、靈活性、能源效率、安全性和適應(yīng)性。隨著新的應(yīng)用場(chǎng)景的出現(xiàn)，NOC技術(shù)將按照上述發(fā)展趨勢(shì)持續(xù)在工藝進(jìn)步日益走向物理極限的今天，多種異構(gòu)芯粒的封裝逐漸成為芯片規(guī)模持續(xù)提l異構(gòu)融合：Chiplet技術(shù)為異構(gòu)融合提供了可能性，其中不同類(lèi)型的芯?？梢约稍趌模塊化設(shè)計(jì)和快速迭代：Chiplet技術(shù)允許不同芯粒獨(dú)立設(shè)計(jì)和迭代。這使得芯片設(shè)l多樣化和定制化：Chiplet技術(shù)使得不同功能的芯?？梢杂刹煌闹圃焐躺a(chǎn)，從而l高性能和能效：Chiplet技術(shù)使得不同芯?？梢愿鶕?jù)其特定要求進(jìn)行優(yōu)化。如，一個(gè)處理器塊可以專(zhuān)門(mén)針對(duì)高性能，而一個(gè)存儲(chǔ)塊可以專(zhuān)l集成性能提升：通過(guò)將不同功能的芯粒組合在一起，芯片可以實(shí)現(xiàn)更高的整體性能。例如，一個(gè)芯片可以將高性能處理器芯粒與專(zhuān)門(mén)的加速器芯粒相結(jié)合，以提高特定工l低成本制造：Chiplet技術(shù)允許將不同芯粒制造在不同的制造工藝上，從而降低制造成本。例如，高性能處理器塊可以使用先進(jìn)的制造工藝，而輔助模塊可以使用更l應(yīng)用領(lǐng)域擴(kuò)展：Chiplet技術(shù)不僅可以用于傳統(tǒng)的計(jì)算領(lǐng)域，還可以應(yīng)用于物聯(lián)網(wǎng)、綜合來(lái)看，Chiplet技術(shù)的發(fā)展趨勢(shì)包括模塊化設(shè)計(jì)、高性能、能效、低成本制造、標(biāo)準(zhǔn)化和應(yīng)用領(lǐng)域擴(kuò)展。這些趨勢(shì)均有利于推動(dòng)芯片設(shè)計(jì)和制造的變革，走向異構(gòu)融合，為晶圓級(jí)芯片技術(shù)能夠在晶圓級(jí)別上實(shí)現(xiàn)多種異構(gòu)計(jì)算核心的融合，晶圓級(jí)芯片技術(shù)發(fā)l更大規(guī)模的集成：晶圓級(jí)融合計(jì)算架構(gòu)的發(fā)展帶來(lái)更大規(guī)模的集成電路，將更多的計(jì)算核心、內(nèi)存、和互連集成到單個(gè)芯片或l優(yōu)化的通信架構(gòu)：隨著集成度的增加，未來(lái)的發(fā)展可能會(huì)著重優(yōu)化晶圓級(jí)芯片內(nèi)部l能效和散熱：隨著集成度的增加，未來(lái)的發(fā)展可能會(huì)關(guān)注如何在更大規(guī)模的晶圓級(jí)芯片上實(shí)現(xiàn)高性能計(jì)算的同時(shí)保持合理的能總的而言，隨著芯片系統(tǒng)的規(guī)模增大，不斷增加的計(jì)算單元數(shù)量，性能提升的主要瓶頸。為了適應(yīng)大規(guī)模的計(jì)算需求，晶圓級(jí)芯片技術(shù)發(fā)展的重點(diǎn)放在統(tǒng)的晶圓內(nèi)互聯(lián)上，實(shí)現(xiàn)更高效的晶圓級(jí)異構(gòu)計(jì)算。這將使得針對(duì)不同應(yīng)用場(chǎng)景的優(yōu)3.1.2設(shè)備級(jí)融合計(jì)算架構(gòu)異構(gòu)計(jì)算架構(gòu)的融合，可以是芯片級(jí)的，也可以是設(shè)備級(jí)的。在采用現(xiàn)有的、非異構(gòu)融合芯片的情況下，可以通過(guò)設(shè)備級(jí)多芯片融合計(jì)算，有效地獲取高性能計(jì)算能力。芯片內(nèi)融合的核心技術(shù)是片內(nèi)總線，類(lèi)似的，設(shè)備級(jí)融合的核心技術(shù)是芯片間互聯(lián)的高速總線，部件互聯(lián)總線）基礎(chǔ)上把傳輸機(jī)制從并行改成了串行，通過(guò)使用差分信號(hào)傳輸，干擾可以很快被發(fā)現(xiàn)和糾正，從而傳輸頻率獲得大幅提升。串行PCIe還線簡(jiǎn)單，線路可以加長(zhǎng)，甚至變成線纜連出機(jī)箱，多個(gè)Lanel處理器CPU（通過(guò)PCIeRC）訪問(wèn)PCIeEP；品），每一代的帶寬大致上翻倍。到PCIe5.0，通過(guò)x16組總線，可以支持雙向共約CXL是Intel發(fā)布的一種支持緩存一致性協(xié)議的芯片間互聯(lián)總線，CXL基于PCIe內(nèi)存池，通過(guò)硬件機(jī)制在加速器和處理器之間高效的共享內(nèi)存，提升性能并且降低延遲，lCXL.mem協(xié)議。協(xié)議提供主機(jī)處理器使用Load/Store指令訪問(wèn)設(shè)備內(nèi)存，主機(jī)CPU充當(dāng)主設(shè)備，而設(shè)備充當(dāng)從設(shè)備。并且能夠支持易失性和非易CXL.io協(xié)議用于初始化和鏈接，因此所有CXL設(shè)備都必須支持該協(xié)議。其他兩種協(xié)l類(lèi)型2：包含全部三類(lèi)協(xié)議CXL.io、CXL.cache和CXL.mem。用于設(shè)備也具有獨(dú)立Memory的場(chǎng)景，這樣設(shè)備可以一致性的訪問(wèn)主機(jī)內(nèi)存，主機(jī)也可以一NVLink是NVIDIA針對(duì)GPU加速計(jì)算而開(kāi)發(fā)的全新高速互聯(lián)技術(shù)，它大大提升了GPU之間的通信性能，也大大提升了GPUNVLink2.0開(kāi)始支持?jǐn)?shù)據(jù)一致性，允許從CPU直接訪問(wèn)GPU內(nèi)存，允許讀取來(lái)自致性的硬件緩存訪問(wèn)，進(jìn)一步的提升CPU和GPU之間的數(shù)據(jù)交互性能。最炙手可熱的服務(wù)器類(lèi)型。通過(guò)QPI、PCIe、NVLink等芯片間總線，在設(shè)備級(jí)實(shí)現(xiàn)了多種異構(gòu)融合，必然是更加龐大的計(jì)算系統(tǒng)。通過(guò)功能強(qiáng)大的芯片間互聯(lián)總線，實(shí)現(xiàn)設(shè)備級(jí)的異構(gòu)融合計(jì)算系統(tǒng)，是一個(gè)切實(shí)可行的方式。芯片間高速互聯(lián)總線，是實(shí)現(xiàn)設(shè)備級(jí)異構(gòu)融合的關(guān)鍵。也因此，從異構(gòu)不斷融合的發(fā)展視角，必然對(duì)芯片間互聯(lián)總線提出一l更快計(jì)算速度。在單芯片性能增加有限的情況下，需要異構(gòu)資源協(xié)同效率的快速提l更高的帶寬。除了提升單通道帶寬能力之外，更需要通過(guò)更多的物理通道（Lane）l緩存一致性性能。把多個(gè)芯片或設(shè)備鏈接成更大的單個(gè)系統(tǒng)，總線緩存一致性能力l系統(tǒng)的更高擴(kuò)展性。常見(jiàn)的GPU服務(wù)器，最多支持8而不是異構(gòu)融合。如果要想在設(shè)備級(jí)實(shí)現(xiàn)完全異構(gòu)融合的對(duì)等架構(gòu)，勢(shì)必需要采用l更高效率的總線交換機(jī)。芯片的總線帶寬和通道數(shù)有限，要想在設(shè)備級(jí)實(shí)現(xiàn)更大數(shù)GPUNVMeSSDCPUGPUNVMeSSDCPU合CPU、GPU、其他各類(lèi)DSA的計(jì)算能力，構(gòu)建設(shè)備級(jí)異構(gòu)融合計(jì)算加速3.2軟件層面融合技術(shù)探索軟件支持在異構(gòu)融合計(jì)算中扮演著至關(guān)重要的角色。通過(guò)統(tǒng)一的軟件設(shè)計(jì)，我們不僅可以提升異構(gòu)融合計(jì)算的適用范圍和性能，還能為后續(xù)的硬件開(kāi)發(fā)提供指導(dǎo)。在這一部分，我們首先對(duì)異構(gòu)軟件優(yōu)化的相關(guān)技術(shù)進(jìn)行了深入分析，然后重點(diǎn)討論了兩大關(guān)鍵支持技術(shù)領(lǐng)域，即操作系統(tǒng)和編程框架。我們不僅剖析了當(dāng)前國(guó)內(nèi)外最先進(jìn)的技術(shù)，還明確了未來(lái)3.2.1面向異構(gòu)軟件優(yōu)化技術(shù)分析在異構(gòu)融合計(jì)算的背景下，需要進(jìn)行異構(gòu)軟件優(yōu)化技術(shù)的分析，這包括針對(duì)異構(gòu)計(jì)算環(huán)境中的軟件應(yīng)用所設(shè)計(jì)的性能優(yōu)化方法和策略。異構(gòu)計(jì)算環(huán)境通常綜合了不同類(lèi)型的處的性能特點(diǎn)和能力。為了確保在不同類(lèi)型的計(jì)算資源上執(zhí)行的軟件能夠以一致的方式運(yùn)行，避免潛在的錯(cuò)誤和運(yùn)行不一致性問(wèn)題，需要采用特定的優(yōu)化技術(shù)和方法。每種硬件都有其獨(dú)有的架構(gòu)和性能特征。為了充分利用這些硬件資源并確保一致性，軟件不僅需要能夠在不同的平臺(tái)上運(yùn)行，而且應(yīng)該盡可能的利用平臺(tái)硬針對(duì)異構(gòu)計(jì)算設(shè)備，統(tǒng)一的操作系統(tǒng)級(jí)開(kāi)發(fā)工具鏈需要支持針對(duì)不同設(shè)備類(lèi)型的編譯、調(diào)試、鏈接和開(kāi)發(fā)庫(kù)等功能，以簡(jiǎn)化異構(gòu)設(shè)備的編程和開(kāi)發(fā)流程，構(gòu)建一致的開(kāi)發(fā)環(huán)境，在編譯器方面，需要支持針對(duì)不同設(shè)備類(lèi)型的編譯，并為各種硬件架構(gòu)生成高效的代提高程序的性能。例如，編譯器可以使用向量化指令來(lái)加速程序的執(zhí)在調(diào)試器方面，針對(duì)異構(gòu)計(jì)算設(shè)備的調(diào)試器需要支持對(duì)不同設(shè)備類(lèi)型的調(diào)試，以幫助開(kāi)發(fā)人員在異構(gòu)設(shè)備上查找和修復(fù)錯(cuò)誤。例如，對(duì)于GPU，調(diào)試器需要能夠準(zhǔn)確地調(diào)試GPU代碼，同時(shí)能追蹤和分析GPU的內(nèi)存訪問(wèn)和計(jì)算操作。調(diào)試器還應(yīng)該提供全面的調(diào)在開(kāi)發(fā)庫(kù)方面，簡(jiǎn)化編程的工具和庫(kù)對(duì)異構(gòu)計(jì)算設(shè)備至關(guān)重要。針對(duì)異構(gòu)計(jì)算設(shè)備的開(kāi)發(fā)庫(kù)需要提供針對(duì)不同設(shè)備類(lèi)型的抽象接口和函數(shù)庫(kù)，以簡(jiǎn)化異構(gòu)設(shè)備的編程。例如，CUDA和OpenCL提供了針對(duì)GPU的函數(shù)庫(kù)和API，幫助開(kāi)發(fā)人員輕松地編寫(xiě)高效的GPU程序。此外，開(kāi)發(fā)庫(kù)還應(yīng)提供豐富的示例代碼和詳盡的文檔，以便開(kāi)發(fā)人員快速上手l跨平臺(tái)的編程語(yǔ)言和工具C/C++一種廣泛用于跨平臺(tái)開(kāi)發(fā)的編程語(yǔ)言，具有高度的移植性，可以在多種硬件上編寫(xiě)和運(yùn)行代碼。Python一種高級(jí)編程語(yǔ)言，具有豐富的庫(kù)和工具生態(tài)系統(tǒng)，可以通過(guò)不同的庫(kù)和框架實(shí)現(xiàn)跨平臺(tái)的計(jì)算。Java一種跨平臺(tái)的編程語(yǔ)言，通過(guò)Java虛擬機(jī)（JVM）可以在不同操作系統(tǒng)上運(yùn)行。OpenCL一種開(kāi)放計(jì)算語(yǔ)言，也代表了一種異構(gòu)計(jì)算標(biāo)準(zhǔn)，允許在不同類(lèi)型的計(jì)算設(shè)備上進(jìn)行并行編程，包括CPU、GPU和FPGA。選擇合適的編程語(yǔ)言取決于具體的應(yīng)用需求和硬件平臺(tái)。關(guān)鍵是要確保所選編程語(yǔ)言l標(biāo)準(zhǔn)化API和庫(kù)支持OpenMP一種支持共享內(nèi)存并行編程的API，可以在不同操作系統(tǒng)和硬件上使用，用于多線程并行計(jì)算。CUDANVIDIA推出的用于GPU編程的平臺(tái)，提供了一套標(biāo)準(zhǔn)化的API和庫(kù)，用于在NVIDIAGPU上進(jìn)行并行計(jì)算。OpenCL一種跨平臺(tái)的異構(gòu)計(jì)算標(biāo)準(zhǔn)，提供了一致的API，允許在不同硬件上執(zhí)行并行計(jì)算任務(wù)。標(biāo)準(zhǔn)化的API和庫(kù)可以確保在多種硬件之間實(shí)現(xiàn)功能一致性，并能夠簡(jiǎn)化軟和維護(hù)過(guò)程。此外，標(biāo)準(zhǔn)化的API和庫(kù)通常由硬件制造商支持，因此可以提供最佳的算力是指計(jì)算設(shè)備在單位時(shí)間內(nèi)所能完成的計(jì)算量。鑒于異構(gòu)計(jì)算設(shè)備具有不同的硬件特性和架構(gòu)，其在計(jì)算能力上也存在差異。不同的計(jì)算單元具有不同的計(jì)算方式和指令與CPU不同，GPU的并行計(jì)算能力非常強(qiáng)l基于計(jì)算密度的等價(jià)轉(zhuǎn)換計(jì)算密度是指設(shè)備在單位面積或單位體積內(nèi)所能完成的計(jì)算量。對(duì)于同一類(lèi)型的異構(gòu)設(shè)備，可以通過(guò)計(jì)算其計(jì)算單元數(shù)量、時(shí)鐘頻率、并行度等參數(shù)，來(lái)計(jì)算其計(jì)算密度并進(jìn)行比較。對(duì)于不同類(lèi)型的異構(gòu)設(shè)備，可以將其計(jì)算密度轉(zhuǎn)換為相同的單位l基于通用計(jì)算能力（GPGPU）指標(biāo)的等價(jià)轉(zhuǎn)換畫(huà)為一個(gè)通用的計(jì)算指標(biāo)，以便與其他類(lèi)型的計(jì)算設(shè)備進(jìn)行比較。常用的GPGPU指標(biāo)包通過(guò)操作系統(tǒng)、虛擬化和容器等技術(shù)，我們可以在軟件層面對(duì)底層異構(gòu)算力設(shè)備（如CPU、GPU等）進(jìn)行抽象和封裝。這使得上層應(yīng)用程序可以方便地訪問(wèn)和管理硬件，同時(shí)隱藏底層不同硬件設(shè)備的差異性，提供統(tǒng)一的計(jì)算運(yùn)行時(shí)環(huán)可變粒度資源技術(shù)是實(shí)現(xiàn)運(yùn)行一致性的關(guān)鍵技術(shù)。由于計(jì)算環(huán)境中的資源具有非常高的動(dòng)態(tài)性和不確定性，這要求對(duì)應(yīng)程序能夠自動(dòng)適應(yīng)不同的計(jì)算負(fù)載和需求。可變粒度資源技術(shù)可以將計(jì)算資源分解為更小的粒度，并能夠根據(jù)實(shí)際需求進(jìn)行動(dòng)態(tài)調(diào)整。這種技術(shù)可以讓計(jì)算資源更加靈活地適應(yīng)不同的應(yīng)用程序需求，從而更好地利用資源。在云計(jì)算環(huán)境中，通常會(huì)將計(jì)算資源分解為裸金屬、虛擬機(jī)、容器、函數(shù)等更小的粒度，并動(dòng)態(tài)調(diào)整資源分配和使用。通過(guò)可變粒度資源技術(shù)可以更好地保證服務(wù)的可靠異構(gòu)計(jì)算設(shè)備因其多樣的硬件架構(gòu)和接口而帶來(lái)了管理、維護(hù)和安全上的挑戰(zhàn)。為了更有效地應(yīng)對(duì)這些挑戰(zhàn)，必須提供一種綜合的方法，包括統(tǒng)一的監(jiān)控管理、運(yùn)維管理、安監(jiān)控管理方面，對(duì)于異構(gòu)計(jì)算設(shè)備的監(jiān)控，需要提供統(tǒng)一的監(jiān)控工具，以監(jiān)測(cè)異構(gòu)計(jì)算設(shè)備的性能、溫度、功耗等關(guān)鍵指標(biāo)。通過(guò)對(duì)異構(gòu)計(jì)算設(shè)備的監(jiān)控，可以及時(shí)發(fā)現(xiàn)設(shè)備能分析工具，對(duì)設(shè)備的性能進(jìn)行監(jiān)測(cè)和分析；對(duì)于FPGA等可編程邏輯器件，可以采用邏運(yùn)維管理方面，需要提供統(tǒng)一的運(yùn)維工具，以管理和維護(hù)異構(gòu)計(jì)算設(shè)備的軟硬件環(huán)境。例如，通過(guò)提供統(tǒng)一的操作界面，可以方便地進(jìn)行軟件的安裝、配置和更新，同時(shí)也可以對(duì)硬件進(jìn)行管理和維護(hù)。對(duì)于異構(gòu)計(jì)算設(shè)備的軟件管理，可以采用容器化技術(shù)，將不同種安全管理方面，需要提供統(tǒng)一的安全工具，以確保異構(gòu)計(jì)算設(shè)備的安全性。異構(gòu)計(jì)算設(shè)備的安全問(wèn)題主要涉及數(shù)據(jù)安全、身份認(rèn)證、漏洞管理等方面。例如，可以采用統(tǒng)一的身份認(rèn)證機(jī)制，對(duì)設(shè)備的訪問(wèn)進(jìn)行認(rèn)證和授權(quán)；同時(shí)可以通過(guò)安全補(bǔ)丁管理工具，及時(shí)對(duì)遷移工具方面，需要提供統(tǒng)一的遷移方案，以便在不同異構(gòu)計(jì)算設(shè)備之間進(jìn)行快速遷移。異構(gòu)計(jì)算設(shè)備之間的遷移涉及到不同的處理器和加速器之間的轉(zhuǎn)換，需要提供一套標(biāo)準(zhǔn)的遷移方案，以確保不同設(shè)備之間的兼容性和互操作性。例如，可以采用虛擬化技術(shù)，將不同種類(lèi)的處理器和加速器虛擬化為同一種處理器和加速器，以實(shí)現(xiàn)快速的遷移。3.2.2面向異構(gòu)融合的操作系統(tǒng)人工智能、大數(shù)據(jù)、物聯(lián)網(wǎng)等技術(shù)迅猛發(fā)展，用戶的計(jì)算場(chǎng)景更加多元，計(jì)算類(lèi)型更加復(fù)雜多樣，多CPU、多XPU共存也已然成為長(zhǎng)期趨勢(shì)，這將會(huì)顯著增加操作系統(tǒng)對(duì)多元異構(gòu)硬件管理和使用的復(fù)雜性?；谝陨蠁?wèn)題，操作系統(tǒng)需要在多方面進(jìn)行優(yōu)化。首先，操作系統(tǒng)需要能夠?qū)Ξ悩?gòu)設(shè)備進(jìn)行抽象，將不同的異構(gòu)設(shè)備抽象成標(biāo)準(zhǔn)的Linux設(shè)備供程序使用；其次，操作系統(tǒng)需要提供異構(gòu)設(shè)備的統(tǒng)一編程模型，以此簡(jiǎn)化編程方式，提升應(yīng)用程序性能；最后，操作系統(tǒng)需要對(duì)異構(gòu)設(shè)備的調(diào)度使用進(jìn)行優(yōu)化，充分發(fā)揮異構(gòu)設(shè)備的操作系統(tǒng)提供了標(biāo)準(zhǔn)的設(shè)備驅(qū)動(dòng)程序接口，包括字符設(shè)備、塊設(shè)備、網(wǎng)絡(luò)設(shè)備等，異構(gòu)設(shè)備可以通過(guò)編寫(xiě)標(biāo)準(zhǔn)的設(shè)備驅(qū)動(dòng)程序與操作系統(tǒng)進(jìn)行交互，從而實(shí)現(xiàn)異構(gòu)設(shè)備的統(tǒng)一異構(gòu)設(shè)備的管理流程包括：1）硬件檢測(cè)，系統(tǒng)啟動(dòng)時(shí)檢測(cè)接入的異構(gòu)設(shè)備，如GPU/DPU/FPGA等，系統(tǒng)創(chuàng)建對(duì)應(yīng)的device。2）驅(qū)動(dòng)程序裝載，操作系統(tǒng)檢測(cè)到異構(gòu)設(shè)備時(shí)，會(huì)嘗試加載對(duì)應(yīng)的驅(qū)動(dòng)程序進(jìn)行異構(gòu)設(shè)備的初始化、資源的分配、中斷的注冊(cè)等，最終會(huì)通過(guò)字符設(shè)備、塊設(shè)備、網(wǎng)絡(luò)設(shè)備等方式暴露給用戶態(tài)。3）訪問(wèn)異構(gòu)設(shè)備，用戶態(tài)程序可以通過(guò)相應(yīng)的設(shè)備節(jié)點(diǎn)訪問(wèn)異構(gòu)設(shè)備，比如通過(guò)標(biāo)準(zhǔn)的open/read/write系統(tǒng)調(diào)用對(duì)為了充分利用多種硬件架構(gòu)的性能優(yōu)勢(shì)，開(kāi)發(fā)人員需要為不同的硬件平臺(tái)編寫(xiě)不同的代碼，這對(duì)開(kāi)發(fā)人員來(lái)說(shuō)是一個(gè)挑戰(zhàn)，同時(shí)也限制了應(yīng)用程序的可移植性，所以需要提供一個(gè)統(tǒng)一的編程模型和一套工具，使開(kāi)發(fā)人員可以使用一種語(yǔ)言和一組庫(kù)來(lái)開(kāi)發(fā)可以在不實(shí)現(xiàn)統(tǒng)一編程模型的關(guān)鍵是提供一種跨多種硬件架構(gòu)的高性能并行計(jì)算編程語(yǔ)言。這種語(yǔ)言能夠支持統(tǒng)一編寫(xiě)可以在各種硬件架構(gòu)上執(zhí)行的代碼，還應(yīng)提供一組性能庫(kù)，覆蓋高效的數(shù)學(xué)、數(shù)據(jù)分析和圖形處理等常見(jiàn)的高性能計(jì)算場(chǎng)景，從而能夠針對(duì)特定的硬件架除了編程語(yǔ)言和性能庫(kù)，統(tǒng)一編程模型還應(yīng)提供一組性能工具，包括性能分析工具和優(yōu)化器，幫助開(kāi)發(fā)人員找到應(yīng)用程序的性能瓶頸并提供優(yōu)化建議，從而提升應(yīng)用程序的性隨著云計(jì)算技術(shù)的發(fā)展，算力抽象和供給方法從傳統(tǒng)的物理機(jī)方式跨越式發(fā)展到包含虛擬機(jī)、容器、安全容器、裸金屬服務(wù)器等更多粒度基于云計(jì)算的算力抽象方法，以滿足用戶多樣化的資源需求和業(yè)務(wù)訴求。通過(guò)虛擬機(jī)承載穩(wěn)態(tài)業(yè)務(wù)，搭配更加靈活敏捷的容器和安全容器承載敏態(tài)業(yè)務(wù)，并基于云物理機(jī)提供更高性能的計(jì)算能力，成為越來(lái)越多客戶的首選，與此同時(shí)對(duì)云操作系統(tǒng)提出了可變粒度資源統(tǒng)一池化、統(tǒng)一管理及形態(tài)互轉(zhuǎn)的要求。可變粒度的資源池化需要解決多種粒度的算力抽象在計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等資源的割裂問(wèn)題，構(gòu)建統(tǒng)一的底層資源池，進(jìn)行統(tǒng)一的池化管理。在此基礎(chǔ)上，通過(guò)云操作系統(tǒng)提供的統(tǒng)一門(mén)戶，為租戶提供所需的虛擬機(jī)、容器、云物理機(jī)等資源，資源之間具備網(wǎng)絡(luò)互聯(lián)、數(shù)據(jù)互通的能力。更進(jìn)一步的，實(shí)現(xiàn)資源之間的形態(tài)互轉(zhuǎn)，以滿足用戶希望的隨業(yè)務(wù)變化而改變業(yè)務(wù)承載實(shí)體的靈活需求可變粒度的資源管理能夠提升資源調(diào)度的靈活性、業(yè)務(wù)敏l操作系統(tǒng)內(nèi)核調(diào)度器優(yōu)化：調(diào)度器是操作系統(tǒng)中非常重要的組件，它負(fù)責(zé)協(xié)調(diào)和管理各個(gè)進(jìn)程之間的執(zhí)行。由于目前調(diào)度策略不能滿足所有場(chǎng)景需求，通過(guò)修改調(diào)度器實(shí)現(xiàn)新調(diào)度器需要重新編譯內(nèi)核且難度較大，因此，如何能夠在系統(tǒng)運(yùn)行時(shí)動(dòng)態(tài)升級(jí)器成為研究熱點(diǎn)。其中，調(diào)度器熱升級(jí)一種實(shí)現(xiàn)方式可以通過(guò)將調(diào)度器子系統(tǒng)從內(nèi)核取出來(lái)，然后針對(duì)不同業(yè)務(wù)對(duì)代碼進(jìn)行定制修改，最終以模塊形式加載到內(nèi)核并動(dòng)態(tài)調(diào)度器。這種做法可以有效解決升級(jí)內(nèi)核成本較高、調(diào)度優(yōu)化無(wú)法快速規(guī)模化部署的問(wèn)題。l面向內(nèi)存冷熱數(shù)據(jù)管理的調(diào)度優(yōu)化：為了提升內(nèi)存的容量和性能，內(nèi)存技術(shù)正在快帶來(lái)了新的挑戰(zhàn)。如果內(nèi)存管理模塊不考慮各內(nèi)存介質(zhì)的訪問(wèn)延遲，將所有內(nèi)存介質(zhì)按照DRAM進(jìn)行管理會(huì)導(dǎo)致內(nèi)存訪問(wèn)性能降低。解決這個(gè)模塊中將不同內(nèi)存介質(zhì)劃分到不同的NUMAnode，然后將同類(lèi)型的NUMAnode劃分到同一個(gè)分層中，以此實(shí)現(xiàn)內(nèi)存的分層管理。后續(xù)基于分層管理可以實(shí)現(xiàn)內(nèi)存數(shù)據(jù)的冷熱遷移，讓熱內(nèi)存保持在快速內(nèi)存中，冷內(nèi)存保持在慢速內(nèi)存中，從而高效的利用不同介質(zhì)的l面向容器混部場(chǎng)景的調(diào)度優(yōu)化：在容器場(chǎng)景，如何最大限度的提高資源利用率，在提升容器部署密度的同時(shí)又不影響業(yè)務(wù)運(yùn)行是重點(diǎn)研究的方向。目前資源隔離技術(shù)主通過(guò)cgroup實(shí)現(xiàn)，但在某些場(chǎng)景還需要源優(yōu)先訪問(wèn)。為了解決這些問(wèn)題可以采用多種①基于GroupIdentity技術(shù)，提升高優(yōu)先級(jí)組的及②基于處理器的硬件資源管理技術(shù)，實(shí)現(xiàn)CPUcache和內(nèi)存帶寬③memcg內(nèi)存回收優(yōu)化，避免應(yīng)用自身陷入直接內(nèi)存回收，適用于對(duì)時(shí)延敏感的容訪問(wèn)，同時(shí)具有自適應(yīng)能力，盡可能避免磁盤(pán)資源被浪費(fèi)。l高性能網(wǎng)絡(luò)：實(shí)現(xiàn)高性能網(wǎng)絡(luò)的一種方法是基于eBPF。eBPF對(duì)網(wǎng)絡(luò)的加據(jù)包的時(shí)候觸發(fā)執(zhí)行，常用于防火墻和四層負(fù)載均衡；TC候觸發(fā)執(zhí)行，運(yùn)行在內(nèi)核協(xié)議棧中，常用容器之間的網(wǎng)絡(luò)通信加速；套接字程序在套創(chuàng)建、修改、收發(fā)數(shù)據(jù)等變化的時(shí)候觸發(fā)執(zhí)行，運(yùn)行在內(nèi)核協(xié)議棧中，常用于過(guò)濾、RDMA可以將CPU從網(wǎng)絡(luò)傳輸中解放了出來(lái)，提升網(wǎng)絡(luò)的性能，但使用RDMA需要修改3.2.3面向異構(gòu)融合的編程框架異構(gòu)融合計(jì)算在計(jì)算機(jī)領(lǐng)域的應(yīng)用將逐步擴(kuò)大，隨著各種新型硬件的出現(xiàn)和異構(gòu)計(jì)算框架的不斷完善，異構(gòu)計(jì)算編程有望成為計(jì)算發(fā)展的重要趨勢(shì)。特別地，在AI領(lǐng)域、HPC科學(xué)計(jì)算領(lǐng)域方面，對(duì)于異構(gòu)和異構(gòu)融合的需求是極為迫切的。軟件的編程框架決定了其適應(yīng)性，從底層標(biāo)準(zhǔn)到上層接口套件，目前已有多種異構(gòu)并行編程框架。特定于底層硬件設(shè)備的標(biāo)準(zhǔn)和框架允許開(kāi)發(fā)者直接針對(duì)特定硬件設(shè)備進(jìn)行編程，包括KhronosGroup組織制定和維護(hù)。它提供了一個(gè)統(tǒng)一的編程模型和接口，方便開(kāi)發(fā)者在各種lSYCL（Single-sourceC用SYCL，開(kāi)發(fā)者可以在異構(gòu)計(jì)算環(huán)境中編寫(xiě)具全棧異構(gòu)框架聚焦于開(kāi)發(fā)適用于多平臺(tái)的編程框架，包含硬件抽象、編程語(yǔ)言、庫(kù)和lOneAPI是由Intel推出的跨架構(gòu)編程模型，旨在簡(jiǎn)化并加速針對(duì)不它提供了統(tǒng)一的編程接口、工具集和庫(kù)，可用于開(kāi)發(fā)異構(gòu)lROCm是由AMD推出的一個(gè)開(kāi)源平臺(tái)，用于支持多平臺(tái)異構(gòu)編程。它提供了一系列工具、庫(kù)和編程模型，允許開(kāi)發(fā)者使用常見(jiàn)的編編程，支持多種操作系統(tǒng)（如Linux和Windows）。ROCm還與HSA（Heterogeneous在未來(lái)，異構(gòu)融合編程框架的發(fā)展在統(tǒng)一性、易用性和廣泛性上還有大幅發(fā)展空間，也就是1）統(tǒng)一編程模型，以簡(jiǎn)化異構(gòu)編程2）向更高級(jí)別的抽象發(fā)展，以降低并行編程的復(fù)雜性3）逐步擴(kuò)大支持的硬件范圍等。近年來(lái)，隨著人工智能技術(shù)的飛速發(fā)展，各種深度學(xué)習(xí)框架如雨后春筍般涌現(xiàn)出來(lái)。提供高效的推理服務(wù)。雖然上述框架對(duì)主流的模型類(lèi)型都有支持，但在硬件支持方面，僅限于CPU、GPU和少數(shù)AI芯片，而對(duì)其它AI芯片特別是國(guó)產(chǎn)芯片都不支持，這使得使用這些不被支持的異構(gòu)芯片面臨極大挑戰(zhàn)。深度學(xué)習(xí)框架和推理Server框架提供通用的人工智能編程支持，并在人工智能技術(shù)的應(yīng)用中扮演著至關(guān)重要的角色。除了框架本身外，編譯等技術(shù)對(duì)人工智能編程的效率等方面具有影響，其中一個(gè)趨勢(shì)便是機(jī)器學(xué)習(xí)模型的優(yōu)化技術(shù)。對(duì)于同構(gòu)編程框架，一般的優(yōu)化技術(shù)包括編譯加速、循環(huán)優(yōu)化和指令優(yōu)化、內(nèi)存優(yōu)化、低比特量化、模型壓縮、多線程優(yōu)化等。這些對(duì)異構(gòu)編程的第一是對(duì)于底層異構(gòu)算力的支持。上述編程框架除了支持典型器外，對(duì)別的異構(gòu)處理器并不友好。開(kāi)發(fā)對(duì)新型異構(gòu)算力的支持本身的發(fā)展推廣和新興異構(gòu)處理器的推廣都具有積極的作用。在這方面，已有的一些解決l通過(guò)AI編譯器的方式，可以將前端模型轉(zhuǎn)換為中間表示（IR然后使用相應(yīng)異構(gòu)芯片的代碼生成器生成代碼。這種方法主要用于推理任務(wù)，并且通常需要編寫(xiě)適配新異構(gòu)l通過(guò)修改現(xiàn)有框架或使用插件來(lái)支持異構(gòu)芯片。這種方式可以同時(shí)支持訓(xùn)練和推理，都是通用的編程框架。國(guó)產(chǎn)的PaddlePaddle等已經(jīng)考慮了對(duì)包含高維稀疏離散異構(gòu)數(shù)據(jù)的處理。在企業(yè)的實(shí)際應(yīng)用中，可能還存在別的場(chǎng)景。針對(duì)這些場(chǎng)景的擴(kuò)展和優(yōu)化等可以進(jìn)除了注重深度學(xué)習(xí)優(yōu)化、強(qiáng)化學(xué)習(xí)支持、靈活和輕量部署，未來(lái)的異構(gòu)編程框架可能會(huì)向著自適應(yīng)計(jì)算發(fā)展，即在運(yùn)行時(shí)根據(jù)輸入數(shù)據(jù)的特征和任務(wù)需求，動(dòng)態(tài)地選擇最佳的計(jì)算HPC（HighPerformanceComputing）即高性能理器集群，來(lái)處理大規(guī)模計(jì)算、求解復(fù)雜問(wèn)題的技術(shù)，對(duì)并行和分布式計(jì)算、大數(shù)據(jù)處理HPC在科研和工程中的許多方面都有廣泛應(yīng)用，例如基因測(cè)序、天氣預(yù)報(bào)、分子動(dòng)力、工程仿真、天文數(shù)據(jù)處理、粒子運(yùn)動(dòng)求解等。隨著高性能計(jì)算集群進(jìn)入E級(jí)運(yùn)算統(tǒng)方式難以實(shí)現(xiàn)性能突破，異構(gòu)融合的方式逐漸成為HPC實(shí)現(xiàn)大規(guī)模擴(kuò)展、流方式之一，勢(shì)必對(duì)異構(gòu)并行編程框架需求更高。那么更加靈活和可編程的加速器以及更加智能的系統(tǒng)優(yōu)化，可以進(jìn)一步提高HPC應(yīng)用的性能和效率，滿足更復(fù)雜、也在發(fā)生變化，從而在各個(gè)層次面向異構(gòu)實(shí)現(xiàn)。典型的轉(zhuǎn)變主要體現(xiàn)在兩個(gè)方面，第一是化和異構(gòu)設(shè)計(jì)需求的出現(xiàn)，很多原先使用Fortran編寫(xiě)的程序轉(zhuǎn)為使用C++，以便更好地適l多CPU核計(jì)算框架編程到異構(gòu)計(jì)算框架編程：早期的并行計(jì)算主要采用基于共享內(nèi)存的多CPU核計(jì)算框架，例如使用OpenMP進(jìn)行并行計(jì)算。隨著異構(gòu)計(jì)算設(shè)備的興起，開(kāi)框架，而OpenACC是一種針對(duì)異構(gòu)計(jì)算的并行編程方式。為了使原先使用CUDA編寫(xiě)的算等復(fù)雜計(jì)算領(lǐng)域中，這背后往往是對(duì)指數(shù)級(jí)計(jì)算量需求的不斷增加。隨著網(wǎng)格稠密程度增加、模擬尺度增加，計(jì)算量呈現(xiàn)出了指數(shù)型增長(zhǎng)，促使多學(xué)科模擬等正在嘗試和建立異面對(duì)的是復(fù)雜的，涉及大氣、陸地等多模塊的大規(guī)模數(shù)據(jù)和復(fù)雜物理過(guò)程。在版本迭代發(fā)將趨向于支持更多不同類(lèi)型的加速器，因此未來(lái)也將注重高級(jí)別的抽象和編程模型。此外，在HPC系統(tǒng)中，資源管理是一個(gè)重要的挑戰(zhàn)，為了提高異構(gòu)計(jì)算系統(tǒng)的性能，未來(lái)的可能會(huì)更加智能化，具備自動(dòng)優(yōu)化和并行化的能力。這將會(huì)推動(dòng)更大規(guī)模的數(shù)據(jù)處理和提此外，未來(lái)HPC和AI可能結(jié)合更加緊密3.3系統(tǒng)層面融合技術(shù)探索系統(tǒng)層面的融合計(jì)算技術(shù)探索，主要討論大規(guī)模數(shù)據(jù)中心級(jí)的融合技術(shù)，以及新型計(jì)3.3.1數(shù)據(jù)中心融合隨著新型應(yīng)用的加速演變，數(shù)據(jù)中心正轉(zhuǎn)向從單一規(guī)模擴(kuò)展到復(fù)雜架構(gòu)融合。轉(zhuǎn)變之或FPGA等異構(gòu)計(jì)算加速器。轉(zhuǎn)變之二是數(shù)據(jù)中心的架構(gòu)以系統(tǒng)設(shè)計(jì)為中心，按照業(yè)務(wù)需是一個(gè)邏輯上的單一的“大應(yīng)用”，是數(shù)據(jù)中心級(jí)別的業(yè)務(wù)系統(tǒng)；因此硬件重構(gòu)需按照“數(shù)據(jù)中心即計(jì)算機(jī)”的理念來(lái)實(shí)踐。以系統(tǒng)設(shè)計(jì)為中心的原則，需要我們重新思考如何構(gòu)建和部署數(shù)據(jù)中心資源。它意味著要超越硬件和軟件的傳統(tǒng)界限，考慮整個(gè)數(shù)據(jù)中心作為一個(gè)協(xié)同工作的系統(tǒng)。例如，對(duì)于特定的AI工作負(fù)載，我們不僅要考慮芯片的設(shè)計(jì)，還要考棧如何相互作用以提高效率。按照業(yè)務(wù)需求來(lái)設(shè)計(jì)包括如下部分：1）針對(duì)性?xún)?yōu)化：傳統(tǒng)的芯片設(shè)計(jì)通常是通用的，不考慮其在特定應(yīng)用場(chǎng)景中的性能。而針對(duì)特定業(yè)務(wù)需求的系統(tǒng)用率：傳統(tǒng)的通用設(shè)計(jì)導(dǎo)致資源在某些應(yīng)用場(chǎng)景中被浪費(fèi)。而按需設(shè)計(jì)可以確保資源在特定的工作負(fù)載下達(dá)到最大的利用率；3）異構(gòu)融合（軟硬件系統(tǒng)級(jí)融合）：不改變系統(tǒng)層次結(jié)構(gòu)和組件交互關(guān)系，但打破軟硬件界限，通過(guò)系統(tǒng)級(jí)的協(xié)同設(shè)計(jì)，實(shí)現(xiàn)更高效、更靈活Google的TPU是這一理念的經(jīng)典例證。以矩陣運(yùn)算為代表的深度學(xué)習(xí)工作負(fù)載，在Google數(shù)據(jù)中心占比快速增長(zhǎng)，已經(jīng)成為主要出發(fā)，專(zhuān)門(mén)針對(duì)深度學(xué)習(xí)的特征進(jìn)行了系統(tǒng)設(shè)計(jì)。在芯片層面，通過(guò)定制高密度的8比特運(yùn)算吞吐。同時(shí)，TPU還內(nèi)置了大容量的片上緩存，提供數(shù)據(jù)局部性，減少外部存儲(chǔ)訪問(wèn)，以滿足深度學(xué)習(xí)應(yīng)用的延遲需求。如下圖，主要的計(jì)算部分是右上角的黃色矩陣乘法單元（MatrixMultiplyUnit其輸入為藍(lán)色的權(quán)重FIFO（Weigh（UnifiedBuffer），輸出是藍(lán)色的累加器（Accumulators）；黃色的激活（Activation）單元對(duì)累加器（Accumulators）執(zhí)行非線性函數(shù)，這些函數(shù)傳輸至緩沖器（UnifiedBuffer）。TPU的硬件設(shè)計(jì)都緊緊圍繞數(shù)據(jù)中心的業(yè)務(wù)需求進(jìn)行了系統(tǒng)設(shè)計(jì)，在矩陣乘法運(yùn)算單元方面實(shí)現(xiàn)了高密度低位寬的設(shè)計(jì)，大幅提升了吞吐量;在存儲(chǔ)系統(tǒng)方面采用了大容量片上總之，從系統(tǒng)層面看，TPU不僅單點(diǎn)提升了計(jì)算性能，還通過(guò)軟硬件協(xié)同設(shè)計(jì)提升了數(shù)據(jù)中心整體的計(jì)算效率，降低了系統(tǒng)能耗；充分體現(xiàn)了從業(yè)務(wù)需求出發(fā)的系統(tǒng)設(shè)計(jì)思想。統(tǒng)設(shè)計(jì)為中心、按照業(yè)務(wù)需求來(lái)設(shè)計(jì)”的異構(gòu)融合理念。這種數(shù)據(jù)中心融合的理念，不僅推動(dòng)了數(shù)據(jù)中心從規(guī)模擴(kuò)展到架構(gòu)融合的轉(zhuǎn)變，異構(gòu)計(jì)算的快速發(fā)展，不僅反映了算力資源的多樣性，還驅(qū)動(dòng)著處理器技術(shù)的不斷演進(jìn)和創(chuàng)新。異構(gòu)計(jì)算的融合趨勢(shì)，降低了超算中心、數(shù)據(jù)中心和智算中心間的算力服務(wù)邊界，各類(lèi)型算力中心利用相似的異構(gòu)引擎和分布式計(jì)算架構(gòu)，實(shí)現(xiàn)更靈活地跨越應(yīng)用算力服務(wù)。談到數(shù)據(jù)中心融合，離不開(kāi)十多年來(lái)一直在發(fā)展的一種趨勢(shì)，就是融合架構(gòu)。融合架構(gòu)的本質(zhì)在于硬件重構(gòu)與軟件定義。其核心技術(shù)包括物理層面的“解耦、集中、智能調(diào)1ISCA2017，In-DatacenterPerformanc度”，實(shí)現(xiàn)計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)資源的分類(lèi)和集中化。在邏輯層面，支持資源池化和應(yīng)用驅(qū)動(dòng)的資源動(dòng)態(tài)分配。融合架構(gòu)可以按照軟硬件協(xié)同的方式，分三個(gè)階段逐步發(fā)展，如下圖：l融合架構(gòu)1.0：實(shí)現(xiàn)了散熱、電源、管理資源的集中化和模塊化；運(yùn)用軟件定義技術(shù)進(jìn)行計(jì)算和存儲(chǔ)等資源的池化和集中管理，其典型代表為整機(jī)柜服務(wù)器。融合架構(gòu)1.0相l(xiāng)融合架構(gòu)2.0：機(jī)柜內(nèi)部使用高速互連技術(shù)如PCIe，對(duì)異構(gòu)計(jì)算加速設(shè)備、存儲(chǔ)和（SmartModularCenter，模塊化數(shù)據(jù)中心架構(gòu)）。一般意義上的軟件定義網(wǎng)絡(luò)，是在三層融合架構(gòu)3.0：在硬件重構(gòu)和軟件定義上更進(jìn)一步的計(jì)算機(jī)通過(guò)軟件形成任意粒度大小的資源樣可以池化和任意分配，形成各種規(guī)模和配置的計(jì)算資源。同時(shí)，配合應(yīng)用感知的資源分配技術(shù)，將使數(shù)據(jù)中心的資源調(diào)度完全智能化、高效化。融合架構(gòu)3.0提供統(tǒng)一的資源視圖，將硬件資源清晰地組織成不同的功能區(qū)，功能區(qū)在軟件定義的控制下形成不同的資源池來(lái)支撐云應(yīng)用和AI應(yīng)用等，智能感知上層業(yè)務(wù)類(lèi)型，自動(dòng)重構(gòu)適合的資源來(lái)為業(yè)務(wù)構(gòu)建最佳的運(yùn)行環(huán)境，讓?xiě)?yīng)用軟件與運(yùn)行環(huán)境之間的契合程度達(dá)到一個(gè)前所未有的水平。這種創(chuàng)新的體系結(jié)構(gòu)，能夠?qū)崿F(xiàn)異構(gòu)資源的高效融合，這一階段被視為“數(shù)據(jù)中心即計(jì)算機(jī)”(DataCenterasa資源的邏輯上解耦，構(gòu)建資源池。例如，基于CXL總線協(xié)議，可通過(guò)軟件定義實(shí)現(xiàn)遠(yuǎn)端內(nèi)存多主機(jī)共享與靈活調(diào)配。網(wǎng)絡(luò)可采用非阻塞的多級(jí)CLOS拓?fù)浣Y(jié)構(gòu)，可以提供每秒5Tbps的總互聯(lián)帶寬，滿足大規(guī)模資源池互聯(lián)需求。另外，未來(lái)也可以應(yīng)用先進(jìn)的光互連技術(shù)，實(shí)現(xiàn)機(jī)柜間乃至數(shù)據(jù)中心級(jí)別的資源互聯(lián)，鏈路傳輸距離可達(dá)（2）滿足系統(tǒng)高速信號(hào)完整性。實(shí)際上，解耦架構(gòu)給鏈路拓?fù)湓O(shè)本在服務(wù)器內(nèi)部的互連總線需要在機(jī)柜內(nèi)甚至機(jī)柜間的外部連接；隨著數(shù)據(jù)速率的不斷攀升和系統(tǒng)鏈路變得更加復(fù)雜，互連鏈路延展已經(jīng)接因此，需要應(yīng)用實(shí)驗(yàn)設(shè)計(jì)法和響應(yīng)曲面統(tǒng)計(jì)法等仿真方法論，對(duì)復(fù)雜鏈路高速互連進(jìn)行高精度的擬合仿真研究，充分考慮多變量及公差分布影響（如阻抗公差、芯片性能、制造工藝、溫度等因素準(zhǔn)確分析解耦池化系統(tǒng)多樣化拓?fù)浜蛡鬏斔俾实幕ミB鏈路風(fēng)險(xiǎn)與（3）運(yùn)用新型供電與散熱技術(shù)(如直流供電、液冷），提升計(jì)算密度與系統(tǒng)能效。例如，可構(gòu)建直流母線供電體系，縮短供電鏈路，降低損耗，提升功率密度。采用液冷技術(shù)，提升服務(wù)器功率密度，并保證冷卻液零泄漏。優(yōu)化散熱系統(tǒng)流阻，提升傳熱系數(shù)，降低PUE值。這些技術(shù)可以有效提高計(jì)算密綜上所述，數(shù)據(jù)中心級(jí)融合架構(gòu)通過(guò)在互聯(lián)、調(diào)度、軟件和基礎(chǔ)設(shè)施等多個(gè)層面進(jìn)行基礎(chǔ)設(shè)施的靈活性和使用效率。這是未來(lái)數(shù)據(jù)中心發(fā)展的重要另外，數(shù)據(jù)中心級(jí)融合架構(gòu)在支持業(yè)務(wù)敏捷性方面也具有發(fā)展?jié)摿?。未?lái)有望通過(guò)應(yīng)用感知調(diào)度技術(shù)，實(shí)現(xiàn)業(yè)務(wù)類(lèi)型的智能識(shí)別，然后自動(dòng)調(diào)配匹配的計(jì)算資源。這種技術(shù)手段包括:應(yīng)用特征抽取，通過(guò)分析應(yīng)用程序代碼、通信模式等自動(dòng)提取應(yīng)用特征;資源建模，建立應(yīng)用特征與資源需求之間的映射模型;智能匹配，根據(jù)實(shí)時(shí)業(yè)務(wù)負(fù)載和資源狀況，生成動(dòng)態(tài)資源調(diào)度方案。這種機(jī)制進(jìn)一步提高了數(shù)據(jù)中心資源利用率，也使得業(yè)務(wù)部署和擴(kuò)從戰(zhàn)略高度看，數(shù)據(jù)中心級(jí)融合架構(gòu)已經(jīng)逐步在云計(jì)算中心、智算中心等領(lǐng)域開(kāi)始落地，在助力企業(yè)實(shí)現(xiàn)IT基礎(chǔ)設(shè)施數(shù)字化轉(zhuǎn)型，具有多方面優(yōu)勢(shì)。首先，它支撐云計(jì)算、AI等新業(yè)務(wù)在數(shù)據(jù)中心層面的彈性部署，使企業(yè)IT系統(tǒng)具備敏捷性。其次，它提升資源最后，它通過(guò)軟硬件深度融合創(chuàng)新核心競(jìng)爭(zhēng)3.3.2新型計(jì)算模式融合測(cè)，量子計(jì)算有望在3~5年后實(shí)現(xiàn)一些小規(guī)模的實(shí)際應(yīng)用。這些先進(jìn)計(jì)算技術(shù)也面臨著如存算一體的計(jì)算架構(gòu)融合代表著計(jì)算領(lǐng)域的一項(xiàng)重要前沿技術(shù)，其潛在影響巨大。傳統(tǒng)的PIM方法將計(jì)算引入了存儲(chǔ)器中，實(shí)現(xiàn)了在的創(chuàng)新。例如，美國(guó)加州大學(xué)的謝源教授在JUMP項(xiàng)目中推動(dòng)一項(xiàng)名為“Intelligentmemoryandstorage”的研究任務(wù)，探索如何在存儲(chǔ)器內(nèi)部實(shí)現(xiàn)智能計(jì)算。

人人文庫(kù)> 全部分類(lèi)> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

2023異構(gòu)融合計(jì)算技術(shù)白皮書(shū)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

2023異構(gòu)融合計(jì)算技術(shù)白皮書(shū)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔