異構融合計算技術白皮書 2023_第1頁
異構融合計算技術白皮書 2023_第2頁
異構融合計算技術白皮書 2023_第3頁
異構融合計算技術白皮書 2023_第4頁
異構融合計算技術白皮書 2023_第5頁
已閱讀5頁,還剩100頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

點中國賽寶智庫I編寫者參編單位:浪潮電子信息產業(yè)股份有限公司、上海矩向科技有限公司、中國電信研究院、清華大學、中國科學院軟件研究所、國防科技大學、復旦大學、中國長城研究院、中國電子技術標準化研究院、曙光信息產業(yè)(北京)有限公司、同方計算機有限公司、上海熠知電子科技有限公司、阿里云技術有限公司、中參編人員:楊曉明、陳平、劉建、熊婧、李冬、黃朝波、廉建芳、顏秉珩、林顯成、董剛、王洲、蔡彥、陳小文、盧晶雨、任翔、劉娜、張政、李寧、崔士偉、徐揚、李璇、劉玉海、尹航、李陽、買強、張磊、張震寧、趙立新、左明敏、周鵬、戴少鵬、楊蔚才、李亞軍、伍海龍、陳碩、張陽、劉占民、王佑站、版權聲明:本白皮書版權屬于工業(yè)和信息化部電子第五研究所及參編單位,并受法律保護。轉載、摘編或利用其它方式使用本白皮書文字或者觀點的,應注明“來源:工業(yè)和信息化部電子第五研究所”。違反上述聲明者,將追究其相關法律責任。編者序近年來,自動駕駛、元宇宙、人工智能等應用不斷創(chuàng)新發(fā)展,數據規(guī)模、算法復雜度以及算力需求爆發(fā)式增長。各類加速處理器已成為算力基礎設施的重要組件,基于和維護成本增高等問題愈發(fā)凸顯,亟需從異構年開始,隨著AI大模型應用的涌現,算力需求平均每2個月翻一倍;摩根士丹利估計“2022年谷歌的3.3萬億次搜索,平均成本約于大模型搜索的成本是標準關鍵詞搜索的10倍”。需求的變化和成本的約束,再加上基礎架構的變革。計算架構已逐漸從目前各自為政、孤島式的異構計算,走向異構融合計算。同時,以系統(tǒng)設計為中心,按照應用需求來設計、定義和規(guī)劃計算架構,推動多層級狹義的異構融合計算,指的是多種不同類型、不同架構處理器組成的計算架構。廣義的異構融合計算,是指通過將處理器、芯片、硬件設備、操作系統(tǒng)、編程框架、編程語言、網絡通信協(xié)議、數據中心等不同層次、不同類型的計算技術進行整合優(yōu)化,以實現多種異構計算資源的高效利用。本白皮書旨在探討異構融合計算技術的內在機制、應用場景和發(fā)展趨勢,通過概述計算領域相關概念,回顧計算架構發(fā)展歷程,分析了異構計算技術的發(fā)展現狀及面臨的主要問題,從硬件層面(芯片級、設備級框架)、系統(tǒng)層面分別提出了異構融合計算技術的探索方案及演進方向,引出了異構融合計算技術的發(fā)展趨勢,并介紹了異構融合計算領域相關的實踐案例。同時,指出了異構融合計算發(fā)展面臨的挑戰(zhàn):一是,處理器架構的限制,可擴的異構代碼編寫、優(yōu)化和管理;三是,系統(tǒng)集成和互操作性技術要求高,難以構建統(tǒng)一的在此,對參與本白皮書編制的各位專家表示衷心的感謝。我們相信,白皮書將為讀者提供一個新的視角和思考方式,希望讀者能夠結合實際應用場景,對異構融合計算當今,數字化技術作為科技與產業(yè)新一輪變革的核心驅動力,正在加速各行各業(yè)轉型升級,一個以計算能力為基礎的萬物感知、萬物互聯、萬物智能的數字經濟時代正加速到來。在這一進程中,算力作為數字經濟的核心生產力,由單一算力演變?yōu)槎鄻有运懔Γ纭懂悩嬋诤嫌嬎慵夹g白皮書》針對現有算力基礎設施無法滿足算力需求的問題,深入刨析了異構計算應用場景特點以及計算架構異構演進歷程,提出了異構計算發(fā)展所面臨的問題,引入異構融合計算的概念,并分別從硬件、軟件、系統(tǒng)三大層面概述了異構融合趨勢和關鍵技術,系統(tǒng)全面地論證了異構融合計算如何解決傳統(tǒng)異構計算的問題,并融合優(yōu)勢,與產業(yè)鏈上下游廣泛協(xié)同,積極打造云智、訓推一體,云網邊端協(xié)同的分算力基礎設施。本白皮書為算力基礎設施建設和算力賦能提供了相關技術指引和參考,從基本概念到實踐案例,再到未來展望和發(fā)展建議,具有較高的實踐指導價值,我們相信該白皮書能夠為相關企業(yè)和研究機構提供有益的啟示,我們也期待我國在異構融合計算領域數字化時代,創(chuàng)新應用爆發(fā)式增長,傳統(tǒng)單一架構計算平臺已難以滿足多樣性算力需求,異構融合計算技術的提出顯得尤為重要。該白皮書深入淺出地解析了異構融合計算技融合在一起,實現多種處理器的協(xié)同工作,以實現更高效、更靈活的計算能力。本白皮書通過研判芯粒級、設備級的技術融合趨勢,為實現更高計算能力、更高能效比、更低算力成本的算力硬件實現,提供了一種實現方案。在軟件及操作系統(tǒng)優(yōu)化、算法定制、統(tǒng)一編程框架、編譯器優(yōu)化等軟硬件高效協(xié)同設計的思路,這一點對硬件和軟件開發(fā)都具有重要的引導意義。盡管異構融合計算這一技術還存在一些挑域得到應用和發(fā)展。我們有理由相信這一技術將帶來更多的社會和經濟效益。因此,希望未來的研究能夠繼續(xù)關注這一領域的發(fā)展動態(tài),以推動異構融合計算技術的進一步創(chuàng)新和V可以媲美人類語言的誕生!然而,AI算力的猛增,也讓IT基礎架構面臨著前所未有的挑感謝組織方和各位參編人員,適時地推出了這份前瞻且系統(tǒng)的《異構融合計算技術白皮書》。從計算領域相關概念出發(fā),系統(tǒng)梳理了異構計算的背景和發(fā)展歷程,剖析了異構計算面臨的問題,進而引出異構融合計算的提法,在硬件、軟件和系統(tǒng)層面進行了充分闡釋,最后給出了展望和建議。全文較好地遵循了以系統(tǒng)設計為中心的理念,結合融合架構這一發(fā)展方向,指出了異構融合計算的三條演進路徑:需要在硬件層面實現芯片級和級的技術創(chuàng)新,需要在軟件層面實現跨平臺的編程框架和運行環(huán)境,需要在系統(tǒng)層面白皮書最大的亮點在于提出了“異構融合計算”的前瞻性概念,強調實現更深層次的協(xié)同,突破各異構系統(tǒng)之間的鴻溝,實現通用性和高性能的更高統(tǒng)一,這一觀點前瞻性強,值得業(yè)界關注。異構融合計算通過多元融合的軟硬件協(xié)同,實現大規(guī)模計算資源池化,更總體來說,白皮書對異構融合計算的概念闡釋和技術路線給出了參考,相信在實踐中還需要不斷豐富和發(fā)展。希望大家能夠攜手并進,共同推動異構融合計算理念的傳播,并推薦序4VI異構融合技術是一種將不同種類、不同架構、不同性能的計算或處理單元融合在一起的技術。這種技術的目標是充分利用各種硬件的優(yōu)勢,以實現更高的性能、能效或功能擴展。異構融合技術通常涉及不同類型的處理器、加速器、存儲設備等的協(xié)同工作,以滿足日益復雜的計算需求。從整體出發(fā),“以系統(tǒng)為中心”是異構融合的指導思想,浪潮信息的融合架構3.0是其中的典型代表??偟膩碚f,異構融合技術在不同領域都發(fā)揮著重要作用,幫助實現更高效、更強大的計算能力,從而推動了科學、技術和應用的發(fā)展。因此,在本白皮書中,編者詳細介紹了異構融合的概念、應用場景、現有問題以及未來發(fā)展這些案例涉及不同領域,包括人工智能、高性能計算等,可以幫助讀者更好地理解異構融合的應用和價值??偟膩碚f,這本白皮書對異構融合技術進行了全面的介紹和分析,為讀者提供了深入的了解和洞察。同時,編者也進一步探討了異構融合技術的挑戰(zhàn)和問題,以----趙雅倩浪潮信息體系結構研究部VII勢性預警變成迫切的現實。在計算平臺的半導體PPA、多層級數據訪問架構、總線網絡計求的挑戰(zhàn)。圍繞“如何讓數據每一跳都產生更多價值的高效能算力架構”科學發(fā)展問題,“異構”是指計算資源或技術具有不同的體系結構、指令集、算法、工作模式等?!叭诤稀笔侵笇⒉煌N類的計算資源或技術進行組合和優(yōu)化,以實現更高效、更穩(wěn)定的計算效果?!爱悩嬋诤稀眲t包含硬件層面(芯片級、設備級)軟件層面、系統(tǒng)層面的軟硬件協(xié)同,既有傳統(tǒng)軟件的硬件化卸載,也有總線和網絡級的融合,整體上形成多種獨立的xPU計算引擎間的異構融合互補,甚至表現出一些顛覆性的架構創(chuàng)新,它將引領計算技術的闡述了異構計算技術全棧的歷史、現狀和前沿探索情況。通過深入淺出的方式,作者讓我們了解到異構融合計算技術在提高計算性能、降低功耗以及節(jié)約成本等方面的優(yōu)勢。結合實際案例分析,我們更加確信該技術在未來的發(fā)展前景。希望能引起異構計算業(yè)界對融崛起,種種跡象都在提醒,當前正在孕育著新一代信息技術大變革,我們必硬件和計算模式有難以估量的創(chuàng)新發(fā)展空間。摩爾定律失效造成算力增長緩慢,這是目前信息產業(yè)面臨的重要挑戰(zhàn),對于我們是機遇大于挑戰(zhàn)。在后摩爾時代,產業(yè)界提出了領域專用架構(DomainSpecificArchitecture,DSA)來應長的需要。云計算的業(yè)務形態(tài)使得其可以通過將底層異構芯片進行融合、對算力進行抽象和池化,讓用戶更方便的使用異構芯片和DSA架構,可操作系統(tǒng)系統(tǒng)軟件迎來場景驅動的創(chuàng)新發(fā)展大機遇。操作系統(tǒng)是最為基礎的系統(tǒng)軟件,協(xié)同的邊界拓展到運行時組件,實現硬件芯片、操作系統(tǒng)、編譯器等的協(xié)同設計,可以說“異構融合計算技術白皮書”匯聚了領域專家的集體智慧,對計算架構演化、發(fā)展趨勢、實踐案例等進行了全方位的梳理,對信息技術發(fā)展具有一定的預見性,必將促使更多----楊勇龍蜥社區(qū)技術委員會主席、阿里云操作系統(tǒng)研在當今快速發(fā)展的技術世界中,計算領域的挑戰(zhàn)和機遇無處不在。本白皮書深入探討了計算領域的發(fā)展歷程和關鍵問題,提出了異構融合作為計算發(fā)展的重要解決方案,給我眾所周知,自動駕駛、元宇宙、人工智能等應用正在塑造我們的未來。然而,這些新興技術的快速發(fā)展也帶來了巨大的挑戰(zhàn),尤其是在算力需求方面。本白皮書詳細闡述些挑戰(zhàn),強調算力成本不斷上升,對企業(yè)和研究機構構成了重大挑戰(zhàn)。白皮書中異構融合計算的概念引發(fā)了我們的思考,它為應對算力需求提供了一個行之有效的途徑。通過整合多個異構計算系統(tǒng),我們可以構建更強大、高效的計算架構,為未來的技術應用和創(chuàng)新鋪此外,白皮書強調了行業(yè)共同努力和協(xié)同創(chuàng)新的重要性。中國科學院微電子研究所在智能計算領域積累了豐富的研究經驗并取得了一系列重要成就,研究所也在積極推動跨學科合作,與其他學院、研究機構和行業(yè)合作,以推動智能計算領域的研究和創(chuàng)新。我們相信,只有通過全行業(yè)的合作,我們才能夠應對當前和未來的計算挑戰(zhàn),共同推動技術的發(fā)這份白皮書能夠激發(fā)更多關于異構融合計算的討論,為我們共同的數字化未來打下----喬樹山中國科學院微電子研究所智能感知研發(fā)中心副主任X 1 1 1 2 2 3 42.1計算架構的發(fā)展歷程 4 4 5 5 62.2.1異構計算技術成 62.2.2異構計算架構品 72.2.3異構編程軟件逐 8 82.3.1芯片性能提升陷 82.3.2性能和靈活性難 92.3.3異構計算孤島問 92.3.4異構計算編程框 10 12 12 12 17 21 21 24 26 28 28 32 334.1通用性與高性能統(tǒng)一 334.2計算架構走向收斂 344.3編程復雜度降低 344.4基礎組件優(yōu)化 35 36 36 36 36 37 3811異構計算領域相關概念1.1異構計算異構計算(HeterogeneousComputing)是指不同類型指令集和體系結構的處理器組成可以獨立運行,其他加速處理器需要在CPU的協(xié)助下運行。因此,異構計算通常是指依據指令的復雜度,處理器引擎分為CPU、Coprocessor(協(xié)處理器)、GPU、FPGA、圖1-1不同典型處理器間性能與靈活性對比圖協(xié)處理器集成在CPU內部,用于協(xié)助CPU處理特定的計算任務;加速處理器(如.基于DSA的異構并行。CPU和DSA共同構成異構計算系統(tǒng),DSA可以在定制異構的目標是將任務分解為計算上同構的子任務,然后將每個子任務分配給最適合執(zhí)行的計算資源(或并行模式)。異構系統(tǒng)通常是由使用不同類型指令集和體系架構的計算單1.2異構融合計算“異構融合計算”是一個全新的概念,目前行業(yè)還沒有形成統(tǒng)一的定義。從概念上講,2本白皮書認為,狹義的“異構融合計算”,是一種新的計算架構和方法,通過融合CPU和多種不同類型、不同架構的加速處理器,以實現更大規(guī)模、更高性能、更加高效的計算。而廣義的“異構融合計算”,則通過不同層次、不同類型的技.超異構:系統(tǒng)中異構處理器的數量為三個或三個以上。“一個稱為同構.硬件融合:強調不同處理器之間的深度協(xié)同(指單處理器運行,也可以跨同類型中的不同架構處理器運行)。各處理器之間可以通過高速總.軟件融合:面向異構(硬件)計算環(huán)境,將操作系統(tǒng)、應用軟件、編程模型、語言、通信協(xié)議、數據等技術資源進行融合和優(yōu)化,提供統(tǒng)一的軟件運行環(huán)境和編譯.系統(tǒng)融合:通過合理地任務分配和資源調度,異構融合計算系統(tǒng)可以實現更高傳統(tǒng)異構計算,特指CPU+xPU的計算架構。異構融合計算與傳統(tǒng)異構計算的差異點異構融合計算則具有兩種或兩種以上的加速處理器類型,并且需要重點關注所有處理器之1.3其他相關概念1.3.1ASIC與DSAASIC(Application-SpecificIntegratedCircuit,專用集成電路)是指應特定需求而設計、3Architecture,特定領域架構),可根據特定應用場景定制處理引擎甚至芯片,支持部分軟性價比。SoC(SystemonChip,片上系統(tǒng)),是一種將多種電子組件集成在一個先進的電路設計和封裝技術實現將不同的組件集成到一個芯片上。這種集成方式可以SiP(SysteminPackage,系統(tǒng)級封裝)是一種先進的封裝技術,它):MEMS、光學元件等)組合在一起的技術,42異構計算的發(fā)展及問題2.1計算架構的發(fā)展歷程上述計算機體系結構的時代劃分,是站在單處理器引擎視角進行的。本白皮書參考上述五個時代的劃分,站在多處理器引擎計算架構從簡單到復雜的發(fā)展視角,提出了如下的2.1.1基于單核CPU的串行計算Computer),其線路必須被重設才能執(zhí)行不同的程序,通常需要花費長達三周的時間。而CPU微處理器通過支持跳轉、調用等控制類指令,使得計算機可以執(zhí)行各種復雜的計算和CPU的這種設計理念實現了軟件與硬件的解耦。即在更在這種架構中,軟件開發(fā)是基于串行計算的思維,程序或問題被分解成一系列離散的指令,圖2-1單核CPU串行計算示意圖乘法/除法器等復雜執(zhí)行單元、指令多發(fā)射、亂序執(zhí)行、52.1.2基于多核CPU的同構并行計算的超高并行計算能力。圖2-2多核CPU同構并行計算示意圖并行計算(ParallelComputing)是通過擴大問題求解規(guī)模,解決大型而復雜的計算問題。并行計算主要分為時間上的并行和空間上的并行。時間上的并行是指流水線技術,而空間上的并行則是指用多個處理器并發(fā)的執(zhí)行計算,以此擴大問題求解1967年,吉恩·阿姆達爾(GeneAmdahl)提出阿姆達爾定律。并行性的理論性能提升受任務順序部分的限制。阿姆達爾定律證明了處理器數量的增加帶來的收益會遞減。一方面受系統(tǒng)工作任務并行特征的約束,另一方面,受單芯片設計規(guī)模上限的約束,通過多2.1.3基于CPU+xPU的異構并行計算基于CPU+xPU的異構并行計算廣泛應用于高性能計算、人工智能等領域。CPU和單位計算的功耗面積等成本也較低;CPU擅長處理串行任務,而GPU則更適合處理并行6),性能和功耗之間的關系是決定計算設備選擇的核心因素。為了滿足大規(guī)模計算的需求,從CPU到GPU,再到TPU(DSA),每一個技術進步都帶來了性能的顯著提升?;陉嚵羞壿嫞┑瓤删幊唐骷幕A上的半定制電路,或叫可編程的邏輯列陣。FPGA基本結構包括可編程輸入輸出單元、可配置邏輯塊、數字時鐘管理模塊、內嵌專用硬核,底層內相比,FPGA提供了更大的硬件靈活性,允許開發(fā)者根據需要進行硬件編程和定制。這樣CGRA可重構計算(Coarse-grainedReconfigurableArchitecture)是一種以空域為基礎的并行計算架構,它通過空域硬件結構組織不同粒度和功能的計算資源。與傳統(tǒng)的指令驅動計算架構不同,CGRA在運行時根據數據流的特點進行硬件配置,讓計算資源形成相對固定的計算通路,從而以接近“專用電路”的方式并行計算。這種結構既減少了取指和譯碼的延時及能耗,又能以專用電路的方式高效執(zhí)行。當面臨不同的算法和應用時,可2.2異構計算技術蓬勃發(fā)展2.2.1異構計算技術成為主流處理器性能平均每2年翻一番;隨著登納德縮放定律的逐漸失效、阿姆達爾定律的充分挖的硅面積,算力密度低,運算單元少,不適合人工智能領域的高并發(fā)密集的向量、張量計7的算力需求和密集多樣計算需求,單純依賴CPU一種計算架構已經無法滿足,結合不同架異構計算技術已經成為超級計算機、嵌入式系統(tǒng)、人工智能等領域的主流計算模式,未來2.2.2異構計算架構品類眾多場景(Scenario)是領域(Domain)的子集。比如AES加解密是一個具體的場景異構計算架構的品類眾多,并且不同的品類具體的架構實現也不盡相同。按照不同的DSA/ASIC異構里,異構計算架構8如何實現平衡性能與靈活性,并從系統(tǒng)層面上以更低的成本獲取更大的算力、更多的領域2.2.3異構編程軟件逐漸成熟隨著異構計算的發(fā)展和廣泛應用,異構編程技術也逐漸成熟。異構編程是指通過編寫在平臺支持方面,主流的異構計算平臺都提供了相應的開發(fā)工具和編程模型,以支持異構編程。例如,NVIDIA提供的CUDA編程模型;Xi),在編程模型方面,針對異構計算的編程模型也在不斷完善和發(fā)展。傳統(tǒng)的編程模型如構編程的難度,同時充分發(fā)揮了異構計算的優(yōu)勢,目的是讓開發(fā)者可以更加輕松地進行異在優(yōu)化工具和框架方面,為了提高異構計算的效率,研究人員和廠商們開發(fā)了各種優(yōu)化工具和框架。這些工具和框架提供了各種編譯、調度、調試和優(yōu)化的功能,以幫助開發(fā)簡而言之,越來越多的案例表明了異構編程正在逐漸成熟,不僅有全棧的軟硬件平臺2.3異構計算技術演進困境異構計算技術已經廣泛應用于多個領域,如云計算、邊緣計算、高性能計算等。但異構計算也逐漸面臨性能瓶頸問題,同時面臨性能和靈活性難以兼顧、編程框架不統(tǒng)一等問2.3.1芯片性能提升陷入瓶頸升一倍。單個異構計算設備的性能提升有限,只能通過擴大計算集群規(guī)模的方式來滿足算力快速提升的需求。然而,受限于集群效率,目前上千臺服務器和上萬張GPU加速卡的.摩爾定律放緩:隨著制程工藝不斷縮小,摩爾定律的推進速度已經放緩,單純依靠.能源和散熱限制:隨著芯片制程工藝的進步,晶體管的體積不斷縮小,但同時也帶來了更高的功耗和熱量產生。在有限的能源和散熱條件下,單純追求性能提升將導致芯片.軟件和硬件的協(xié)同優(yōu)化不足:為了充分發(fā)揮硬件性能,需要與之相應的軟件和算法支持。但在實際應用中,軟件和硬件之間的協(xié)同優(yōu)化并不總是能夠實現,導致部分硬件性9機系統(tǒng)性能時,不僅需要考慮單個處理器的性能,還需要考慮如何并行化計算任務,2.3.2性能和靈活性難以兼顧性能與靈活性在不同的加速處理器上呈現出不同的特器之間的高效數據交換和協(xié)作。這使得DSA在處理大規(guī)模數據和復雜任務時例,以滿足不同場景下性能和資源需求的平衡。此外,DSA還支持動態(tài)地添加或刪除處理適配。這意味著開發(fā)者需要投入更多的精力進行硬件和軟件設計,提高了開發(fā)和維護成本。件系統(tǒng)的兼容性問題。在使用過程中,可能需要額外的適配和優(yōu)化工在異構計算中,不同的處理器各有優(yōu)勢和劣勢,選擇最適合的處理器取決于特定應用的性能和靈活性需求。盡管DSA提供了一種介于高性能ASIC和靈活的通用處理器之間的解決方案,但其在某些迅速變化的領域中仍面臨著挑戰(zhàn)。未來的技術研究應集中在如何實2.3.3異構計算孤島問題突顯隨著異構計算在各領域的應用落地,多異構共存的異構計算孤島問題也逐漸突顯。多異構計算的硬件層次高集成度和系統(tǒng)軟件層次多協(xié)同、通用編程模型和開發(fā)環(huán)境,已成為圖2-4從同構到異構再到多異構的演進.各領域加速器難以全局協(xié)同:不同的加速器在處理特定領域的問題時表現出色,但相互協(xié)同能力差,可能導致系統(tǒng)整體的性能下降。協(xié)同能力差主要體現在兩個方面:不同的加速器的存儲器和內存管理機制不同,導致數據訪問和傳輸方式復雜,數據通路難同;多個加速器的控制機制不同,導致它們之間的同步和協(xié)調,需要復雜的并行控制機制.各領域加速器之間交互困難:不同類型的加速器之間進行通信和數據交換需要使用特定的接口和機制,增加了開發(fā)的復雜性和難度;頻繁大量的通信和數據交換,導致數據負責協(xié)調和管理其他硬件加速器的工作。然而,當加速器數量增多或任務復雜度增加時,.物理空間無法容納多個異構加速卡:由于物理空間的限制,系統(tǒng)中只能容納有限數2.3.4異構計算編程框架各異不同的異構計算編程框架都擁有其獨特的特性和適用環(huán)境,開發(fā)者在編寫程序時需要依據實際需求和硬件設備選擇最適合的框架。由于硬件的獨特性質,每種硬件都配備了專例如,CUDA是由NVIDIA推出的并行計算平臺和編程模型,它允許開發(fā)者利用加速的并行計算。AmpxAI是由AMD開發(fā)的基于Python的并行計算庫,可在AMD的GPU上實現高效的計算。這就要求開發(fā)者掌握多種編程模型和語言,使得代碼移植面臨巨大的挑戰(zhàn)。例如,專即使有統(tǒng)一編程模型的支持,要實現高效的代碼仍需要針對特定硬件進行手動優(yōu)化,這無疑增加了編程的復雜性和開發(fā)周期。雖然業(yè)界提出了多種方法試圖建立統(tǒng)一的異構計算編程框架,以簡化開發(fā)過程并解決這些挑戰(zhàn),但至今仍未找到完美的解決方案。因此,尋找一個真正統(tǒng)一、能滿足所有硬件和應用需求的編程方法,仍然是計算領域的熱門研究3異構融合計算技術探索隨著計算模式從集中式的單節(jié)點計算逐漸走向分布式的多節(jié)點協(xié)同計算,計算系統(tǒng)變得越來越復雜。異構融合計算技術,不僅僅需要芯片級、設備級等硬件層面技術的支撐,還需要操作系統(tǒng)、編程框架以及跨平臺等多種軟件層面技術的支持,以及數據中心和新型計算模式等系統(tǒng)層面技術的全力配合。通過整個系統(tǒng)的全方位軟硬件協(xié)同工作,來達到異3.1硬件層面融合技術探索3.1.1芯片級融合計算架構2015之后,摩爾定律逐漸放緩,集成電路發(fā)展進入后摩爾時代,集成電路的整體發(fā)展術、SoC驗證技術、可測性設計技術、低功耗設計技術、超深亞微米電路實現技術等。SoC設計技術可以降低系統(tǒng)板上因信號在多個芯片之間進出帶來的延遲而導致的性能局限,NoC是目前大規(guī)模芯片內部互聯的最主要通信架構,通過芯片內實現類似于網構,包括目標的處理單元(PE)、交換節(jié)點(routers)和互連線(wires),這種互聯結構相比傳統(tǒng)交叉開關(Crossbar)總線具有可擴展性好、并發(fā)性強等特點。隨著SoC集成度直接型拓撲結構:所有的路由節(jié)點均與計算資源相連,并通過雙向鏈路直接連接。常(Hypercube)NoC。網絡是由交換節(jié)點和互連線構成的,每個節(jié)點連接一個處理單元(RE)和上下左右四個相鄰的路由器,每個處理單元通過一個網絡接口(Net-InterfaceNI)連接著一個路由器。其中的處理單元可以是處理器核、內存、用戶自定義硬件模塊或者其他任何可以插入插槽并且可以和網絡接口相配的IP(IntellectualProperty路由器之間,路由器和資源之間是由一對輸入和輸出通道連接。通道是由兩條單向的點對各個路由節(jié)點之間不一定是直接通過雙向鏈路相連接,而可能是通過這些專門的開關節(jié)點SiP是從封裝的立場出發(fā),對不同芯片進行并排或疊加的方式封裝,將多個具有不同功能的有源電子元件與可選無源器件,以及諸如MEMS或者光學器件等其行分解,然后開發(fā)出多種具有單一特定功能、可相互進行模塊化組裝的裸芯片(如實現了數據存儲、計算、信號處理、數據流管理等功能再將這些模塊化的芯粒(裸片)互聯起來,采用新型封裝技術,將不同功能不同工藝制造的芯粒封裝在一起,成為一個異構集Chiplet芯片設計具備三大優(yōu)勢:快速開發(fā)、低成本、多功能;借助先進的封裝技術,特定設計部分選擇最先進的技術,而在其他部分選擇更成熟、更廉價的技術,從而節(jié)省整間、芯片與存儲之間的連線封裝在硅中介層中,可提供近似在同一個芯片內的互聯性能。量,MI300A則把CPU和GPU通過3D裝的技術,構建更高效、更經濟的芯片系統(tǒng)。這種設計方法簡化了芯片設計的復雜性,而根據算力的快速增長需求,以及異構融合的發(fā)展大趨勢,作為芯片設計集成/融合的主將朝著提供更高的帶寬和更低的通信延遲方向總之,NOC技術的發(fā)展趨勢將主要關注高度異構集成、高帶寬低延遲、靈活性、能在工藝進步日益走向物理極限的今天,多種異構芯粒的封裝逐漸成為芯片規(guī)模持續(xù)提綜合來看,Chiplet技術的發(fā)展趨勢包括模塊化設計、高性能、能效、低成本制造、標準化和應用領域擴展。這些趨勢均有利于推動芯片設計和制造的變革,走向異構融合,為計算核心、內存、和互連集成到單個芯片或芯片上實現高性能計算的同時保持合理的能性能提升的主要瓶頸。為了適應大規(guī)模的計算需求,晶圓級芯片技術發(fā)展的重點放在3.1.2設備級融合計算架構異構計算架構的融合,可以是芯片級的,也可以是設備級的。在采用現有的、非異構融合芯片的情況下,可以通過設備級多芯片融合計算,有效地獲取高性能計算能力。芯片內融合的核心技術是片內總線,類似的,設備級融合的核心技術是芯片間互聯的高速總線,部件互聯總線)基礎上把傳輸機制從并行改成了串行,通過使用差分信號傳輸,干擾可以品),每一代的帶寬大致上翻倍。到PCIe5.0,通過x16組總線,可以支持雙向共約CXL是Intel發(fā)布的一種支持緩存一致性協(xié)議的芯片間互聯總線,CXL基于PCIe內存池,通過硬件機制在加速器和處理器之間高效的共享內存,提升性能并且降低延遲,充當主設備,而設備充當從設備。并且能夠支持易失性和非易CXL.io協(xié)議用于初始化和鏈接,因此所有CXL設備都必須支持該協(xié)議。其他兩種協(xié)NVLink是NVIDIA針對GPU加速計算而開發(fā)的全新高速互聯技術,它大大提升了NVLink2.0開始支持數據一致性,允許從CPU直接訪問GPU內存,允許讀取來自最炙手可熱的服務器類型。通過QPI、PCIe、NVLink等芯片間總線,在設備級實現了(二)設備級融合計算架構技術探索多種異構融合,必然是更加龐大的計算系統(tǒng)。通過功能強大的芯片間互聯總線,實現設備級的異構融合計算系統(tǒng),是一個切實可行的方式。芯片間高速互聯總線,級異構融合的關鍵。也因此,從異構不斷融合的發(fā)展視角,必然對芯片間互聯總線提出一而不是異構融合。如果要想在設備級實現完全異構融合的對等架構,勢必需要采用CPUCPUGPUNVMeNVMeSSD合CPU、GPU、其他各類DSA的計算能力,構建設備級異構3.2軟件層面融合技術探索可以提升異構融合計算的適用范圍和性能,還能為后續(xù)的硬件開發(fā)提供指導。在這一部分,我們首先對異構軟件優(yōu)化的相關技術進行了深入分析,然后重點討論了兩大關鍵支持技術領域,即操作系統(tǒng)和編程框架。我們不僅剖析了當前國內外最先進的技術,還明確了未來3.2.1面向異構軟件優(yōu)化技術分析在異構融合計算的背景下,需要進行異構軟件優(yōu)化技術的分析,這包括針對異構計算環(huán)境中的軟件應用所設計的性能優(yōu)化方法和策略。異構計算環(huán)境通常綜合了不同類型的處的性能特點和能力。為了確保在不同類型的計算資源上執(zhí)行的軟件能夠以一致的方式運行,避免潛在的錯誤和運行不一致性問題,需要采用特定的優(yōu)化技術和方法。每種硬件都有其獨有的架構和性能特征。為了充分利用這些硬件資源并確保一致性,軟件不僅需要能夠在不同的平臺上運行,而且應該盡可能的利用平臺硬針對異構計算設備,統(tǒng)一的操作系統(tǒng)級開發(fā)工具鏈需要支持針對不同設備類型的編譯、在編譯器方面,需要支持針對不同設備類型的編譯,并為各種硬件架構生成高效的代在調試器方面,針對異構計算設備的調試器需要支持對不同設備類型的調試,以幫助開發(fā)人員在異構設備上查找和修復錯誤。例如,對于GPU,調試器需要能夠準確地調試GPU代碼,同時能追蹤和分析GPU的內存訪問和計算操作。調試器還應該提供全面的調在開發(fā)庫方面,簡化編程的工具和庫對異構計算設備至關重要。針對異構計算設備的開發(fā)庫需要提供針對不同設備類型的抽象接口和函數庫,以簡化異構設備的編程。例如,CUDA和OpenCL提供了針對GPU的函數庫和API,幫助開發(fā)人員輕松地編寫高效的GPU程序。此外,開發(fā)庫還應提供豐富的示例代碼和詳盡的文檔,以便開發(fā)人員快速上手C/C++一種廣泛用于跨平臺開發(fā)的編程語言,具有高度的移植性,可以在多種硬件上編寫和運行代碼。Python一種高級編程語言,具有豐富的庫和工具生態(tài)系統(tǒng),可以通過不同的庫和框架實現跨平臺的計算。Java一種跨平臺的編程語言,通過Java虛擬機(JVM)可以在不同操作系統(tǒng)上運行。OpenCL一種開放計算語言,也代表了一種異構計算標準,允許在不同類型的計算設備上進行并行編程,包括CPU、GPU和FPGA。選擇合適的編程語言取決于具體的應用需求和硬件平臺。關鍵是要確保所選編程語言OpenMP一種支持共享內存并行編程的API,可以在不同操作系統(tǒng)和硬件上使用,用于多線程并行計算。CUDANVIDIA推出的用于GPU編程的平臺,提供了一套標準化的API和庫,用于在NVIDIAGPU上進行并行計算。OpenCL一種跨平臺的異構計算標準,提供了一致的API,允許在不同硬件上執(zhí)行并行計算任務。標準化的API和庫可以確保在多種硬件之間實現功能一致性,并能夠簡化軟算力是指計算設備在單位時間內所能完成的計算量。鑒于異構計算設備具有不同的硬件特性和架構,其在計算能力上也存在差異。不同的計算單元具有不同的計算方式和計算密度是指設備在單位面積或單位體積內所能完成的計算量。對于同一類型的異構設備,可以通過計算其計算單元數量、時鐘頻率、并行度等參數,來計算其通過操作系統(tǒng)、虛擬化和容器等技術,我們可以在軟件層面對底層異構算力設備(如隱藏底層不同硬件設備的差異性,提供統(tǒng)一的計算運行時環(huán)可變粒度資源技術是實現運行一致性的關鍵技術。由于計算環(huán)境中的資源具有非常高的動態(tài)性和不確定性,這要求對應程序能夠自動適應不同的計算負載和需求??勺兞6荣Y源技術可以將計算資源分解為更小的粒度,并能夠根據實際需求進行動態(tài)調整。這種技術可以讓計算資源更加靈活地適應不同的應用程序需求,從而更好地利用資源。在云計算環(huán)境中,通常會將計算資源分解為裸金屬、虛擬機、容器、函數等更小的粒度,并動態(tài)調整資源分配和使用。通過可變粒度資源技術可以更好地保證服務的可靠異構計算設備因其多樣的硬件架構和接口而帶來了管理、維護和安全上的挑戰(zhàn)。為了更有效地應對這些挑戰(zhàn),必須提供一種綜合的方法,包算設備的性能、溫度、功耗等關鍵指標。通過對異構計算設備的監(jiān)控,可以及時發(fā)現設備例如,通過提供統(tǒng)一的操作界面,可以方便地進行軟件的安裝、配置和更新,同時對硬件進行管理和維護。對于異構計算設備的軟件管理,可以采用容器化技術,將不同種安全管理方面,需要提供統(tǒng)一的安全工具,以確保異構計算設備的安全性。異構計算設備的安全問題主要涉及數據安全、身份認證、漏洞管理等方面。例如,可以采用統(tǒng)一的身份認證機制,對設備的訪問進行認證和授權;同時可以通過安全補丁管理遷移工具方面,需要提供統(tǒng)一的遷移方案,以便在不同異構計算設備之間進行快速遷移。異構計算設備之間的遷移涉及到不同的處理器和加速器之間的轉換,需要提供一套標將不同種類的處理器和加速器虛擬化為同一種處理器和加速器,以實現快速的遷移。3.2.2面向異構融合的操作系統(tǒng)元異構硬件管理和使用的復雜性。基于以上問題,操作系統(tǒng)需要在多方面進行優(yōu)化。首先,操作系統(tǒng)需要能夠對異構設備進行抽象,將不同的異構設備抽象成標準的Linux設備供程用程序性能;最后,操作系統(tǒng)需要對異構設備的調度使用進行優(yōu)化,充分發(fā)揮異構設備的操作系統(tǒng)提供了標準的設備驅動程序接口,包括字符設備、塊設備、網絡設備等,異構設備可以通過編寫標準的設備驅動程序與操作系統(tǒng)進行交互,從而實現異構設備的統(tǒng)一異構設備的管理流程包括:1)硬件檢測,系統(tǒng)啟動時檢測接入的異構設備,如GPU/DPU/FPGA等,系統(tǒng)創(chuàng)建對應的device。2)驅動程序裝載,操作系統(tǒng)檢測到異構設備時,會嘗試加載對應的驅動程序進行異構設備的初始化、資源的分配、中斷的注冊等,程序可以通過相應的設備節(jié)點訪問異構設備,比如通過標準的open/read/write系統(tǒng)調用對為了充分利用多種硬件架構的性能優(yōu)勢,開發(fā)人員需要為不同的硬件平臺編寫不同的代碼,這對開發(fā)人員來說是一個挑戰(zhàn),同時也限制了應用程序的可移植性,所以需要提供一個統(tǒng)一的編程模型和一套工具,使開發(fā)人員可以使用一種語言和一組庫來開發(fā)可以在不實現統(tǒng)一編程模型的關鍵是提供一種跨多種硬件架構的高性能并行計算編程語言。這種語言能夠支持統(tǒng)一編寫可以在各種硬件架構上執(zhí)行的代碼,還應提供一組性能庫,覆蓋高效的數學、數據分析和圖形處理等常見的高性能計算場景,從而能夠針對特定的硬件架除了編程語言和性能庫,統(tǒng)一編程模型還應提供一組性能工具優(yōu)化器,幫助開發(fā)人員找到應用程序的性能瓶頸并提供優(yōu)化建議,從而提升應用程序虛擬機、容器、安全容器、裸金屬服務器等更多粒度基于云計算的算力抽象方法,以滿足用戶多樣化的資源需求和業(yè)務訴求。通過虛擬機承載穩(wěn)態(tài)業(yè)務,搭配更加靈活敏捷的容器和安全容器承載敏態(tài)業(yè)務,并基于云物理機提供更高性能的計算能力的首選,與此同時對云操作系統(tǒng)提出了可變粒度資源統(tǒng)一池化、統(tǒng)一管理及形態(tài)互轉的要求??勺兞6鹊馁Y源池化需要解決多種粒度的算力抽象在計算、存儲、網絡等資源的割裂問題,構建統(tǒng)一的底層資源池,進行統(tǒng)一的池化管理。在此基礎上,通過云操作系統(tǒng)提供數據互通的能力。更進一步的,實現資源之間的形態(tài)互轉,以滿足用戶希望的隨業(yè)務變化而改變業(yè)務承載實體的靈活需求可變粒度的資源管理能夠提升資源調度的靈活性、業(yè)務敏理各個進程之間的執(zhí)行。由于目前調度策略不能滿足所有調度器。這種做法可以有效解決升級內核成本較高、調度優(yōu)化無法快速規(guī)?;渴鸬膯栴}。模塊中將不同內存介質劃分到不同的NUMAnode,然后將同類型的NUMAnode劃分到同提升容器部署密度的同時又不影響業(yè)務運行是重點研究的方向。目前資源隔離技術主源優(yōu)先訪問。為了解決這些問題可以采用多種①基于GroupIdentity技術,提升高優(yōu)先級組的及②基于處理器的硬件資源管理技術,實現CPUcache和內存帶寬③memcg內存回收優(yōu)化,避免應用自身陷入直接內存回收,適用于對時延敏感的容3.2.3面向異構融合的編程框架異構融合計算在計算機領域的應用將逐步擴大,隨著各種新型硬件的出現和異構計算框架的不斷完善,異構計算編程有望成為計算發(fā)展的重要趨勢。特別地,在AI領域、HPC科學計算領域方面,對于異構和異構融合的需求是極為迫切的。軟件的編程框架決定了其適應性,從底層標準到上層接口套件,目前已有多種異構并行編程框架。特定于底層硬件設備的標準和框架允許開發(fā)者直接針對特定硬件設備進行編程,包括全棧異構框架聚焦于開發(fā)適用于多平臺的編程框架,包含硬件抽象、編程語言、庫和在未來,異構融合編程框架的發(fā)展在統(tǒng)一性、易用性和廣泛性上還有大幅發(fā)展空間,也就是1)統(tǒng)一編程模型,以簡化異構編程2)向更高級別的抽象發(fā)展,以降低并行編程的復雜性3)逐步擴大支持的硬件范圍等。近年來,隨著人工智能技術的飛速發(fā)展,各種深度學習框架如雨后春筍般涌現出來。提供高效的推理服務。雖然上述框架對主流的模型類型都有支持,但在硬件支持方面,僅這些不被支持的異構芯片面臨極大挑戰(zhàn)。深度學習框架和推理Server框便是機器學習模型的優(yōu)化技術。對于同構編程框架,一般的優(yōu)化技術包括編譯加速、循環(huán)優(yōu)化和指令優(yōu)化、內存優(yōu)化、低比特量化、模型壓縮、多線程優(yōu)化等。這些對異構編程的第一是對于底層異構算力的支持。上述編程框架除了支持典型本身的發(fā)展推廣和新興異構處理器的推廣都具有積極的作用。在這方面,已有的一些解決),芯片的代碼生成器生成代碼。這種方法主要用于推理任務,并且通常需要編寫適配新異構都是通用的編程框架。國產的PaddlePaddle等已經考慮了對包含高維稀疏離散異構數據的處理。在企業(yè)的實際應用中,可能還存在別的場景。針對這些場景的擴展和優(yōu)化等可以進除了注重深度學習優(yōu)化、強化學習支持、靈活和輕量部署,未來的異構編程框架可能會向著自適應計算發(fā)展,即在運行時根據輸入數據的特征和任務需求,動態(tài)地選擇最佳的理器集群,來處理大規(guī)模計算、求解復雜問題的技術,對并行和分布式計算、大數據處理HPC在科研和工程中的許多方面都有廣泛應用,例如基因測序、天氣預報、分子動力、工程仿真、天文數據處理、粒子運動求解等。隨著高性統(tǒng)方式難以實現性能突破,異構融合的方式逐漸成為流方式之一,勢必對異構并行編程框架需求更高。那么更加靈活和可編程的加速器以及更也在發(fā)生變化,從而在各個層次面向異構實現。典型的轉變主要體現在兩個方面,第一是化和異構設計需求的出現,很多原先使用Fortran算等復雜計算領域中,這背后往往是對指數級計算量需求的不斷增加。隨著網格稠密程度增加、模擬尺度增加,計算量呈現出了指數型增長,促使多學科模擬等正在嘗試和建立異面對的是復雜的,涉及大氣、陸地等多模塊的大規(guī)模數據和復雜物理過程。在版本迭代發(fā)將趨向于支持更多不同類型的加速器,因此未來也將注重高級別的抽象和編程模型。此外,可能會更加智能化,具備自動優(yōu)化和并行化的能力。這將會推動更大規(guī)模的數據處理和提3.3系統(tǒng)層面融合技術探索系統(tǒng)層面的融合計算技術探索,主要討論大規(guī)模數據中心級的融合技術3.3.1數據中心融合隨著新型應用的加速演變,數據中心正轉向從單一規(guī)模擴展到復雜架構融合。轉變之是一個邏輯上的單一的“大應用”,是數據中心級別的業(yè)務系統(tǒng);因此硬件重構需按照“數據中心即計算機”的理念來實踐。以系統(tǒng)設計為中心的原則,需要我們重新思考如何構建和部署數據中心資源。它意味著要超越硬件和軟件的傳統(tǒng)界限,考慮整個數據中心作為一個協(xié)同工作的系統(tǒng)。例如,對棧如何相互作用以提高效率。按照業(yè)務需求來設計包括如下部分:1)針對性優(yōu)化:傳統(tǒng)的芯片設計通常是通用的,不考慮其在特定應用場景中的性能。而針對特定業(yè)務需求的系統(tǒng)用率:傳統(tǒng)的通用設計導致資源在某些應用場景中被浪費。而按需設計可以確保資源在特結構和組件交互關系,但打破軟硬件界限,通過系統(tǒng)級的協(xié)同設計,實現更高效、更靈活出發(fā),專門針對深度學習的特征進行了系統(tǒng)設計。在芯片層面,通過定制高密度的8比特以滿足深度學習應用的延遲需求。如下圖,主要的計算部分是右上角的黃色矩陣乘法單元(MatrixMultiplyUnit其輸入為藍色的權重(UnifiedBuffer),輸出是藍色的累加器(Accumulators);黃色的激活(Activation)單元對累加器(Accumulators)執(zhí)行非線性函數,這些函數傳輸至緩沖器(UnifiedBuffer)。TPU的硬件設計都緊緊圍繞數據中心的業(yè)務需求進行了系統(tǒng)設計,在矩陣乘法運算單元方面實現了高密度低位寬的設計,大幅提升了吞吐量;在存儲系統(tǒng)方面采用了大容量片上推動了數據中心從規(guī)模擴展到架構融合的轉變,異構計算的快速發(fā)展,不僅反映了算力資源的多樣性,還驅動著處理器技術的不斷演進和創(chuàng)新。異構計算的融合趨勢,降低了超算中心、數據中心和智算中心間的算力服務邊界,各類型算力中心利用相似的異構引擎和分布式計算架構,實現更靈活地跨越應用算力架構的本質在于硬件重構與軟件定義。其核心技術包括物理層面的“解耦、集中、智能調ISCA2017,In-DatacenterPerformance動的資源動態(tài)分配。融合架構可以按照軟硬件協(xié)同的方式,分三個階段逐步發(fā)展,如下圖:進行計算和存儲等資源的池化和集中管理,其典型代表為整機柜服務器。融合架構1.0相樣可以池化和任意分配,形成各種規(guī)模和配置的計算資源。同時,配合應用感知的資源分圖,將硬件資源清晰地組織成不同的功能區(qū),功能區(qū)在軟件定義的控制下形成不同的資源最佳的運行環(huán)境,讓應用軟件與運行環(huán)境之間的契合程度達到一個前所未有的水平。這種創(chuàng)新的體系結構,能夠實現異構資源的高效融合,這一階段被視為“數據中心即計算 ),通過軟件定義實現遠端內存多主機共享與靈活調配。網絡可采用非阻塞的多級CLOS拓撲以應用先進的光互連技術,實現機柜間乃至數據中心級別的資源互聯,鏈路傳輸距離可達本在服務器內部的互連總線需要在機柜內甚至機柜間的外部連接;隨著數據速率的升和系統(tǒng)鏈路變得更加復雜,互連鏈路延展已經接因此,需要應用實驗設計法和響應曲面統(tǒng)計法等仿真方法論,對復雜鏈路高速互連進行高精度的擬合仿真研究,充分考慮多變量及造工藝、溫度等因素),準確分析解耦池化系統(tǒng)多樣化拓撲和傳輸速率的互連鏈路風險與(3)運用新型供電與散熱技術(如直流供電、液冷),提升計算密度與系統(tǒng)能效。例提升服務器功率密度,并保證冷卻液零泄漏。優(yōu)化散熱系統(tǒng)流阻,提升傳熱系數,降低PUE值。這些技術可以有效提高計算密綜上所述,數據中心級融合架構通過在互聯、調度、軟件和基礎設施等多個層面進行基礎設施的靈活性和使用效率。這是未來數據中心發(fā)展的重要另外,數據中心級融合架構在支持業(yè)務敏捷性方面也具有發(fā)展?jié)摿ΑN磥碛型ㄟ^應用感知調度技術,實現業(yè)務類型的智能識別,然后自動調配匹配的計算資源。這種技術手段包括:應用特征抽取,通過分析應用程序代碼、通信模式等自動提取應用特征;資源建模,成動態(tài)資源調度方案。這種機制進一步提高了數據中心資源利用率,也使得業(yè)務部署和擴從戰(zhàn)略高度看,數據中心級融合架構已經逐步在云計算中心、智算中心等領域開始落地,在助力企業(yè)實現IT基礎設施數字化轉型,具有多方面優(yōu)勢。首先,它支撐云計算、AI等新業(yè)務在數據中心層面的彈性部署,使企業(yè)IT系統(tǒng)具備敏捷性。其次,它提升資源3.3.2新型計算模式融合測,量子計算有望在3~5年后實現一些小規(guī)模的實際應用。這些先進計算技術也面臨著如存算一體的計算架構融合代表著計算領域的一項重要前沿技術,其潛在影響巨大。傳統(tǒng)的PIM方法將計算引入了存儲器中,實現了在的創(chuàng)新。例如,美國加州大學的謝源教授在JUMP項目中推動一項名為“Intelligentmemoryandstorage”的研究任務,探索如何在存儲器內部實現智能計算。三星電子在業(yè)內率先將存算一體化(PIM)融合集成到高帶寬內存(HBM)的進一步計算架構融合方案,(PCU)將性能提高4倍,同時降低能耗高達70%。AMD將這合,在其InstinctMI100GPU計算加速卡中搭載了三星HBM存算一體技術領域取得了顯著的進展,推出了基于SRAM的存算一體芯片,如“摩鴻途的典型功耗。與量子計算的架構融合是另一個關鍵方向。與傳統(tǒng)計算機相比,量子計算機具有天然的量子并行計算能力,已被證明在若干場景上具有相對于傳統(tǒng)計算的極大優(yōu)勢。全球有超過20家公司正在開展量子計算相關的研究。其中,在分布式超導量子計算方面,2019科學技術大學研究團隊推出了包含66個比特的“祖沖之號”超導量子處理器;2021年40比特量子芯片。在光學量子計算方面,美國國家標準與技術研究院、代爾夫特大學、中國科學院上海微系統(tǒng)與信息技術研究所等機構可以生產兼具高探測效率(>90%)、高重復頻率(>150MHz)的超導納米線單光子探測器,光學量子計算的基本操作(如概率性的控制邏輯門)、各種量子算法的簡單演示驗證均已實現。中國科學技術大學研究團隊構建了光量子計算原型機“九章”及其升級版“九章2.0”,據此實現了量子優(yōu)越性這一4異構融合計算發(fā)展趨勢NVIDIA市值超過了萬億美金。從同構走向異構,再進一步走向異構融合,是計算架構從簡單到復雜的必然演進趨勢。異構融合計算方向的早期探索中,國際巨頭Intel、NVIDIA4.1通用性與高性能統(tǒng)一計算架構一直存在通用和專用的矛盾,即系統(tǒng)越復雜,計算模式越發(fā)展快速,越需要通用性較強的靈活計算平臺;但系統(tǒng)算力需求越來越高,就需要盡可能把業(yè)務邏輯固化成硬件加速電路,也就越需要專用性高的定制計算平臺。解決這個矛盾的思路是:為不型的系統(tǒng)內計算工作任務,匹配最合適的計算處理器類型,同時不同的計算處理器組整的通用性較強的整體系統(tǒng)。通俗的講,就是通過工作任務專業(yè)分工,實現系統(tǒng)整體圖4-1根據靈活性特征的系統(tǒng)工作任務分類系統(tǒng)可以看作是多項工作任務的組合,這些工作任務雖然各有特點,但整體上具備“二八定律”的特點,即不同系統(tǒng)中大約80%的工作任務是相似甚至相同的。針對任務的針對不同任務的靈活性/性能特征,把任務劃分到這三個層次,然后采取各自特征能力4.2計算架構走向收斂圖4-2根據指令復雜度的典型處理器類型劃分型、不同領域、不同場景、不同廠家、不同架構的處理器,如果不加以約束,會導致處理異構融合計算,會面臨多種處理器類型和架構;并且,隨著云網邊端逐漸走向融合,4.3編程復雜度降低要想推動異構融合計算的編程適配,核心的思路跟異構計算架構一致,就是要簡化異全跟不上軟件的更新節(jié)奏。需要更進一步的系統(tǒng)架構創(chuàng)新,把傳統(tǒng)的軟件層面的能力(如4.4基礎組件優(yōu)化常規(guī)的系統(tǒng)棧是分層的,即系統(tǒng)的多個基礎組件組成單個系統(tǒng)層,多個系統(tǒng)層成系統(tǒng)棧。異構融合計算的軟硬件系統(tǒng)棧,是在縱向的單個異構軟硬件系統(tǒng)棧的基礎上,進行的橫向整合和優(yōu)化。單個縱向的異構計算軟硬件系統(tǒng)棧性能,決定了異構融合系統(tǒng)最應用層框架層系統(tǒng)層硬件層圖4-3系統(tǒng)棧分層示意圖以人工智能領域為例。隨著人工智能技術的快速發(fā)展,基于自研芯片算力服務平臺進行訓練已經成為趨勢。然而,這種訓練方式不可避免地會帶來更多的移植與調優(yōu)工作。在這個過程中,除了在集群、并行策略、算子和工具包等方面的優(yōu)化外,還需要完成包括DeepSpeed/Megatron/Colossal-AI/a程序系統(tǒng)調度也需要進行調整,包括操作系統(tǒng)配置和網絡協(xié)議參數等。其中訓練的優(yōu)化工作主要包含以下三個方面:能,提升硬件使用率。通過這種方式,可以更有效地利用硬件多級并行策略,實現超大規(guī)模訓練。這樣不僅可以提高訓練速度,還可以擴大模型的規(guī)模,組配比等進行定制優(yōu)化,提升訓練擴展比。這樣可以進一步提高訓練效率,擴大訓練規(guī)模。在針對每一個縱向的單個異構系統(tǒng)全棧優(yōu)化的基礎上,進一步對橫向的整個異構融合系統(tǒng)進行全棧協(xié)同優(yōu)化。異構融合全棧協(xié)同優(yōu)化將幫助我們更好地利用硬件資源,提高系5異構融合計算發(fā)展建議異構融合計算是未來計算領域的重要趨勢,它將不同架構、硬件和技術融合在一起,以實現更高性能、更低能耗和更廣泛應用的計算。為了推動異構融合計算的發(fā)展,以下是5.1加強政策引導,布局重點項目建設稅收優(yōu)惠、人才引進等舉措。此外,應該加強對異構融合計算領域的專業(yè)人才培養(yǎng)和支持,包括設立相關課程、提供創(chuàng)業(yè)支持、建立培訓和獎勵機制,培養(yǎng)具備交叉學科背景的復合同時,積極推動產業(yè)合作,鼓勵企業(yè)、高校和科研機構建立“異構融合計算產業(yè)聯盟”。通過組織技術論壇、舉辦創(chuàng)新賽事等方式,加強異構融合計算技術的市場推廣和宣傳,以吸引更多開發(fā)者參與該領域的研發(fā)和應用。此外,還應引導國家基金與社會資本有明確定義異構融合計算領域的發(fā)展目標,制定中長期技術攻關研究規(guī)劃,為技術研發(fā)和應用提供明確的指導方向。重點涵蓋通用大芯片、普適互聯操作系統(tǒng)、高性能數學庫、卓越性能圖形庫、異構統(tǒng)一編程框架、異構任務調度軟件、下一代存儲技術、以及下一代網絡通信協(xié)議等關鍵研發(fā)項目。并在實際中落地這些項目,包括建設智算中心、超算中心等新型基礎設施,特別關注支持具備競爭優(yōu)勢的項目,積極推動產業(yè)、學術界和研究機構5.2構建標準體系,強化融合技術牽引建立異構融合計算的標準組織,制定相關標準和規(guī)范,引導企業(yè)和研究機構關注前沿為核心理念的基礎上,依托“異構融合計算產業(yè)聯盟”和其他平臺組織,與算力生態(tài)的上下游標準化組織共同制定硬件、軟件以及軟硬件層面的異構融合計算技術標準規(guī)范,覆蓋指令集架構、產品參數規(guī)格、通信協(xié)議、數據交換、系統(tǒng)架構、交互接口、外觀形態(tài)、服建立適用于異構融合計算的標準體系,積極與國際標準化組織合作,特別在NOC技術、SiP技術、融合架構技術、統(tǒng)一編程框架等領域,促進異構融合計算技術的規(guī)范化和普及,以避免碎片化研究和低質量的重復工作。我們鼓勵開放的發(fā)展模式,推動計算產業(yè)鏈中各環(huán)節(jié)主體的協(xié)同參與,促進標準與科技的互動和協(xié)調,以促進標準體系建設的開源5.3聚焦關鍵技術,推動計算技術創(chuàng)新包括微架構設計(例如指令集、邏輯單元、邏輯單元布局、流水線、分支預測、緩存設計、內存管理等)、芯片封裝、內核與線程設計(包括多核心、超線程、并發(fā)管理等)、低功耗設計(例如節(jié)能模式、動態(tài)頻率調整等)、安全性與可靠性(如加密技術、錯誤檢測與糾正等)、芯片調試與性能優(yōu)化以及制造工藝等方面的投入。加速通用大芯片的設計進程,實現不同類型計算單元的協(xié)同設計,研究最佳任務映射和調度策略,以提升芯片性能和能務能力(包括資源管理、并行計算、交叉編譯、異構兼容等)。同時,開發(fā)統(tǒng)一的編程模型和語言,設計領域特定語言,突破多層次編譯優(yōu)化技術,開發(fā)輕量級運行時調度系統(tǒng),研究高效的資源管理和調度技術,實現統(tǒng)一的系統(tǒng)管理和監(jiān)控工具以實現動態(tài)的任務調度和資源管理,以實現不同計算單元之間的最優(yōu)任務分配和資源共享,從而提高系統(tǒng)的探索新的系統(tǒng)集成和驗證技術,開發(fā)系統(tǒng)集成和驗證工具,以確保不同計算單元之間的有效集成和驗證,保證系統(tǒng)的穩(wěn)定性和可靠性。通過電路級優(yōu)化、算法級優(yōu)化、系統(tǒng)級優(yōu)化等多種手段,提高異構計算系統(tǒng)的能效和性能,將異構融合計算技術應用到實際場景中,通過實踐驗證技術的可行性和有效性,推動技術的推廣和應5.4加速產業(yè)變革,促進新型技術應用物計算等,推動包括更高性能的融合芯片、更高效的算法、更優(yōu)化的編譯器、更快速的內存/網絡訪問等異構計算技術的研發(fā)和創(chuàng)新,以滿足未來計算需求的增長。將異構融合計算技術應用到具體的行業(yè)和領域,如自動駕駛、人工智能、元宇宙等,通過實際應用來推動技術的進步,促進產業(yè)鏈上下游企業(yè)的合作,建立健全的產業(yè)生態(tài)系統(tǒng),推動多產業(yè)的變案,并進行宣傳推廣,推動異構融合計算技術在這些領域的應用和推廣,形成良好的應用附錄異構融合計算實踐案例1CPU+XPU技術融合案例硬件架構的演變和基于XPU的軟件生態(tài)系統(tǒng)的發(fā)展代,相應的軟件生態(tài)系統(tǒng)也進行了跨平臺、開源聯盟等嘗試,主要應用于工業(yè)自動化、網將不同類型和功能的芯片部署在同一平臺上,采用先進的封裝技術實現多節(jié)點部署,同時Intel目前在芯片和異構融合方案上的重要成果是2023年推出的第四代至強可擴展處理器。這款處理器增加了多種加速引擎,以提供AI、高性能計算、安全、網絡、數據分析Intel推出的oneAPI是一種基于CPU+XPU異oneAPI,開發(fā)者可以獲得一致的編程接口,覆蓋了庫、工具和解決方案等多個層面,實現了OpenVINO、AnalyticsZoo、BigDL等技術,從而實現應用的跨平臺復用,降低軟件開為IPDK的社區(qū)驅動的基礎設施層編程開發(fā)框架,提供了基礎設施應用接口和目標抽象接口,用于工作任務應用和硬件能力供應。此外,2022年,Intel聯合Linux基金會發(fā)起了OPI(開放可編程基礎設施項目),為IPU等下一代架構和框架培養(yǎng)社區(qū)驅動的開放生態(tài)下表總結了Intel在基礎設施和應用加速上的全面推進,并分12適應全新的工作負載。沒有歷史包3IntelFPGA是全球第二大FPGA平456等,融合+重構到超異構計算7任務可運行在云端、邊緣甚至終端,運行在不同廠家的硬件8從完全可編程網絡,擴展到完全可編9OneAPI(框架)、IPDK(框架)+OPI(開2GPU+DPU融合案例和垃圾郵件過濾等應用卸載字符串搜索,同時還提供公鑰加密引擎、真隨機數發(fā)生器圖1BlueField系列產品圖DOCA對于DPU就像是CUDA對于GPU。為了使ISV、服務提庫文件、運行時組件和服務組成的框架,建立在一套經過驗證的驅動程序之上。其中的一絡數據包的實時GPU處理為例。在原來的處理過程中,CPU是協(xié)調人,也是主要瓶頸。它在同步NIC和GPU任務以及管理多個網絡隊列方面承擔了太多的責任。因為它必須使圖2CPU協(xié)調原理圖以協(xié)調發(fā)送或接收網絡操作,CUDA內核可以直接向GPU發(fā)送和接收數據包,而無需CPU核心或內存。圖3GPU協(xié)調原理圖3CPU+DSA技術融合案例上海熠知電子科技有限公司(以下簡稱“熠知電子”)定位高端計業(yè)務,并具備芯片架構設計、前端邏輯設計、后端布圖設計、產品板級設計、驅動集成構融合的方式在單芯片內集成了40核的ARMv8.2CPU(主頻2.5GHz~3.0GHz)、基于DSA架構的自研NPU(40TOPS@INT8算力)、視頻編解TF7000系列選用了新型的MESH片上網絡(Network-on-Chip確保數據可以圖4MESH片上網絡架構然有助于提示性能,但其價格昂貴且存在供應鏈風險。TF7000系列的設計采用片上內存NPU之間共享地址訪問空間,這使得需要以便快速交接處理。使用這種存算一體和共享存儲空間的設計之后,基于普遍可以買到的圖5片上內存SRAM架構人工智能推理運算的計算模式通常是可預測的,因此采用DSA芯片面積、更低的功耗、更高的運行速度下面實現人工智能的圖6TF7000片內局部圖圖7TF7000系列異構處理器連接拓撲Chiplet是目前行業(yè)內實現芯片算圖8TF7000系列TF7000系統(tǒng)異構處理器可廣泛應用于電信、金融、作系統(tǒng)、云平臺、集中式數據庫、分布式數據庫、中間件、大數據平臺、數據安全等軟件4DPU+云原生技術融合案例但大量sidercar容器的使用,不僅導致系統(tǒng)資源消耗較高,也讓容器網絡存在實現負載,圖9

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論