機(jī)器學(xué)習(xí)方法集成到實(shí)驗(yàn)數(shù)據(jù)加速科學(xué)發(fā)現(xiàn)的處理過(guò)程_第1頁(yè)
機(jī)器學(xué)習(xí)方法集成到實(shí)驗(yàn)數(shù)據(jù)加速科學(xué)發(fā)現(xiàn)的處理過(guò)程_第2頁(yè)
機(jī)器學(xué)習(xí)方法集成到實(shí)驗(yàn)數(shù)據(jù)加速科學(xué)發(fā)現(xiàn)的處理過(guò)程_第3頁(yè)
機(jī)器學(xué)習(xí)方法集成到實(shí)驗(yàn)數(shù)據(jù)加速科學(xué)發(fā)現(xiàn)的處理過(guò)程_第4頁(yè)
機(jī)器學(xué)習(xí)方法集成到實(shí)驗(yàn)數(shù)據(jù)加速科學(xué)發(fā)現(xiàn)的處理過(guò)程_第5頁(yè)
已閱讀5頁(yè),還剩8頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

機(jī)器學(xué)習(xí)方法集成到實(shí)驗(yàn)數(shù)據(jù)加速科學(xué)發(fā)

現(xiàn)的處理過(guò)程本篇報(bào)告主要討論了機(jī)器學(xué)習(xí)在科學(xué)研究中的技術(shù)與應(yīng)用一一將強(qiáng)大的機(jī)器學(xué)習(xí)方法集成到實(shí)驗(yàn)數(shù)據(jù)處理過(guò)程有助于加速科學(xué)發(fā)現(xiàn)。內(nèi)容涵蓋三個(gè)方面:機(jī)器學(xué)習(xí)在多個(gè)科學(xué)領(lǐng)域的應(yīng)用;高效訓(xùn)練、高資源利用率算法;用于部署這些算法的計(jì)算架構(gòu)和平臺(tái)。本文還展示了多科學(xué)領(lǐng)域共同面臨的挑戰(zhàn)和應(yīng)對(duì)策略,希望通過(guò)集成和加速的機(jī)器學(xué)習(xí)解決方案為科學(xué)發(fā)現(xiàn)提供更多示例和靈感。越來(lái)越復(fù)雜的實(shí)驗(yàn)和日益增長(zhǎng)的數(shù)據(jù)為科學(xué)探索帶來(lái)了新的挑戰(zhàn),而實(shí)驗(yàn)表明,機(jī)器學(xué)習(xí),尤其是深度神經(jīng)網(wǎng)絡(luò)架構(gòu)的通用性能夠解決廣泛且復(fù)雜的問(wèn)題,ImageNet等大型數(shù)據(jù)集的激增,引導(dǎo)了許多不同深度學(xué)習(xí)方法的深入探索。這篇綜述論文重點(diǎn)關(guān)注機(jī)器學(xué)習(xí)和實(shí)驗(yàn)設(shè)計(jì)的融合,以及如何通過(guò)加速數(shù)據(jù)處理、實(shí)時(shí)決策來(lái)解決關(guān)鍵的科學(xué)問(wèn)題。在過(guò)去幾年,許多機(jī)器學(xué)習(xí)的進(jìn)步源于異構(gòu)計(jì)算硬件的使用,特別是圖形處理器(GPUs)使大型機(jī)器學(xué)習(xí)算法得以快速進(jìn)步。經(jīng)過(guò)大數(shù)據(jù)集訓(xùn)練的AI模型已經(jīng)能夠執(zhí)行復(fù)雜的任務(wù),同時(shí),以減少計(jì)算量而實(shí)現(xiàn)快速和高效訓(xùn)練的新型深度學(xué)習(xí)算法也開(kāi)始越來(lái)越多的出現(xiàn)。強(qiáng)大的機(jī)器學(xué)習(xí)技術(shù)與實(shí)驗(yàn)設(shè)計(jì)的結(jié)合,可以縮短科學(xué)發(fā)現(xiàn)的時(shí)間,從嵌入實(shí)時(shí)特征到跨分布式網(wǎng)絡(luò),計(jì)算數(shù)據(jù)中心的大規(guī)模機(jī)器學(xué)習(xí)在許多不同的科學(xué)應(yīng)用實(shí)驗(yàn)上取得大的跨越。不過(guò),高效的解決方案依然需要領(lǐng)域?qū)<摇C(jī)器學(xué)習(xí)研究人員和計(jì)算機(jī)架構(gòu)設(shè)計(jì)師之間的共同合作。隨著機(jī)器學(xué)習(xí)工具變得越來(lái)越復(fù)雜,如何構(gòu)建大模型來(lái)解決復(fù)雜的問(wèn)題成為了新得關(guān)注點(diǎn),例如語(yǔ)言翻譯和語(yǔ)音識(shí)別,它們的出現(xiàn)使得科學(xué)應(yīng)用在快速發(fā)展中廣泛收益。目前這些應(yīng)用已經(jīng)出現(xiàn)多樣化,因?yàn)槿藗儾坏貌灰庾R(shí)到如何調(diào)整他們的科學(xué)方法從而更好地利用人工智能的好處,包括人工智能對(duì)事件的實(shí)時(shí)分類能力,如識(shí)別粒子碰撞或引力波合并;包括系統(tǒng)控制,如來(lái)自等離子體和粒子加速器的反饋機(jī)制的響應(yīng)控制。在這些所有情況下,機(jī)器學(xué)習(xí)都是以設(shè)計(jì)目標(biāo)為驅(qū)動(dòng)因素的??紤]到文章篇幅,我們將從三個(gè)部分對(duì)整篇綜述報(bào)告進(jìn)行呈現(xiàn),第一,機(jī)器學(xué)習(xí)如何探索廣泛的科學(xué)問(wèn)題;第二,快速機(jī)器學(xué)習(xí)作為一種顛覆性技術(shù),如何改變我們處理數(shù)據(jù)的方式,通用的數(shù)據(jù)表示法和實(shí)驗(yàn)程序有哪些。第三,從算法設(shè)計(jì)到系統(tǒng)架構(gòu)的硬件對(duì)機(jī)器學(xué)習(xí)進(jìn)行整體設(shè)計(jì)。1機(jī)器學(xué)習(xí)應(yīng)用:從基礎(chǔ)物理,醫(yī)學(xué)工程到邊緣計(jì)算隨著科學(xué)生態(tài)系統(tǒng)規(guī)模的快速增長(zhǎng),數(shù)據(jù)處理和新范式需要集成到系統(tǒng)設(shè)計(jì)層面來(lái)完成。通過(guò)復(fù)雜數(shù)據(jù)處理過(guò)程的研究,作者發(fā)現(xiàn),不同領(lǐng)域和架構(gòu)之間實(shí)現(xiàn)機(jī)器學(xué)習(xí)可能會(huì)有很大差異,但仍然具有相似的底層數(shù)據(jù)表示和集成機(jī)器學(xué)習(xí)的需求。報(bào)告中列舉了大量科學(xué)領(lǐng)域的應(yīng)用案例,涵蓋現(xiàn)有技術(shù)和未來(lái)需求。接下來(lái),我們將重點(diǎn)介紹機(jī)器學(xué)習(xí)在物理學(xué)、生物醫(yī)學(xué)工程學(xué)以及無(wú)線網(wǎng)絡(luò)和邊緣計(jì)算三個(gè)領(lǐng)域的應(yīng)用現(xiàn)狀和挑戰(zhàn)?;A(chǔ)物理學(xué)正如愛(ài)因斯坦在1916年預(yù)測(cè)的那樣,引力波在廣義相對(duì)論中表現(xiàn)為時(shí)空度量的變化,并在時(shí)空結(jié)構(gòu)中以光速進(jìn)行傳播。例如,美國(guó)激光干涉引力波天文臺(tái)(LIGO)、歐洲“處女座”(Virgo)引力波探測(cè)器和日本神岡引力波探測(cè)器(KAGRA)均采用公里級(jí)激光干涉儀網(wǎng)絡(luò)探測(cè)引力波。引力波為基礎(chǔ)物理研究提供了一種獨(dú)特的方法,包括在強(qiáng)場(chǎng)域測(cè)試廣義相對(duì)論、引力波的傳播速度和極化、物質(zhì)在核密度下的狀態(tài)、黑洞的形成、量子引力效應(yīng)等,它以一種與電磁和中微子天文學(xué)相輔相成的方式,打開(kāi)了全新觀察宇宙的窗口。在未來(lái)的觀察中,LIGO、Virgo和KAGRA將探測(cè)到越來(lái)越多的引力波后備,但這對(duì)當(dāng)前的檢測(cè)框架提出了計(jì)算挑戰(zhàn),該框架依賴于匹配濾波技術(shù),需要將來(lái)自模擬的參數(shù)化波形(模板)與引力波時(shí)間序列數(shù)據(jù)相匹配。隨著儀器低頻靈敏度的提高,以及引力波搜索參數(shù)空間擴(kuò)展到自旋效應(yīng)和低質(zhì)量致密物體,匹配濾波尺度將變差。為了估測(cè)引力波的物理特性,迄今為止一直使用隨機(jī)貝葉斯后驗(yàn)采樣器(比如馬爾可夫鏈蒙特卡羅法和嵌套采樣法)。這些分析方法可能需要數(shù)小時(shí)到數(shù)天才能完成,搜索和參數(shù)估計(jì)也產(chǎn)生了不可避免的延遲,進(jìn)而可能阻礙時(shí)間敏感源(如雙星、超新星和其他未知系統(tǒng))的電磁跟蹤。此外,引力波瞬態(tài)的觀測(cè)也容易受到環(huán)境和儀器噪聲的影響。瞬態(tài)噪聲偽影可能被誤識(shí)為潛在來(lái)源,特別是當(dāng)引力波瞬態(tài)具有未知的形態(tài)時(shí)(例如超新星、中子星故障)。儀器噪聲譜中的線路噪聲會(huì)影響對(duì)連續(xù)引力波(如自旋中子星)和隨機(jī)引力波(例如未解的致密雙星系統(tǒng)引力波的天體物理背景)的搜索。這些噪聲源很難模擬,目前的噪聲減除技術(shù)不足以去除更復(fù)雜的噪聲源,如線路噪聲和非平穩(wěn)噪聲源。近年來(lái),機(jī)器學(xué)習(xí)算法在引力波物理學(xué)的不同領(lǐng)域進(jìn)行了探索。卷積神經(jīng)網(wǎng)絡(luò)已被應(yīng)用于探測(cè)和分類二元結(jié)的引力波、超新星核坍塌的爆發(fā)引力波以及連續(xù)引力波;遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)的自動(dòng)編碼器使用無(wú)監(jiān)督策略檢測(cè)引力波;FPGA遞歸神經(jīng)網(wǎng)絡(luò)在引力波低延遲檢測(cè)方面發(fā)揮著潛力。此外,概率生成機(jī)器學(xué)習(xí)模型用于引力波參數(shù)估計(jì)的后驗(yàn)采樣,在模擬數(shù)據(jù)上取得與貝葉斯采樣器相當(dāng)?shù)男阅?,大大縮短了完成時(shí)間。機(jī)器學(xué)習(xí)算法也被用于提高引力波數(shù)據(jù)質(zhì)量,減少噪聲。瞬態(tài)噪聲偽影可以通過(guò)時(shí)頻變換和恒Q變換或檢查L(zhǎng)IGO的輔助通道來(lái)進(jìn)行識(shí)別和分類。盡管機(jī)器學(xué)習(xí)算法在引力波數(shù)據(jù)分析中顯示出了很大的潛力,但其中許多算法仍處于概念驗(yàn)證階段,尚未成功應(yīng)用于實(shí)時(shí)分析。目前需要努力的方向是,為了降低低延遲分析創(chuàng)建計(jì)算基礎(chǔ)設(shè)施,提高訓(xùn)練數(shù)據(jù)的質(zhì)量(例如擴(kuò)展參數(shù)空間,使用更真實(shí)的噪聲模型),并更好地量化這些算法在較長(zhǎng)的數(shù)據(jù)延伸上的性能。生物醫(yī)學(xué)工程由于高分辨率和高通量生物醫(yī)學(xué)設(shè)備的進(jìn)步,我們已經(jīng)看到生物醫(yī)學(xué)數(shù)據(jù)的爆炸式增長(zhǎng),如生物醫(yī)學(xué)圖像、基因組序列和蛋白質(zhì)結(jié)構(gòu)。各種機(jī)器學(xué)習(xí)算法已經(jīng)被廣泛應(yīng)用于醫(yī)療場(chǎng)景中,如AI增強(qiáng)現(xiàn)實(shí)顯微鏡能夠自動(dòng)分析細(xì)胞圖像和實(shí)時(shí)表征細(xì)胞。機(jī)器學(xué)習(xí)用硅片預(yù)測(cè)熒光標(biāo)記、無(wú)標(biāo)記罕見(jiàn)細(xì)胞分類、形態(tài)表征和 RNA測(cè)序。對(duì)于原位細(xì)胞分選、實(shí)時(shí)治療反應(yīng)預(yù)測(cè)和增強(qiáng)現(xiàn)實(shí)顯微鏡輔助診斷,深度學(xué)習(xí)模型的數(shù)據(jù)結(jié)構(gòu)也能夠大幅提高速度和效率?,F(xiàn)階段,機(jī)器學(xué)習(xí)臨床應(yīng)用面臨的主要挑戰(zhàn)是訓(xùn)練和測(cè)試數(shù)據(jù)不足。對(duì)于需要專家知識(shí)的超大圖像和視頻數(shù)據(jù)集,醫(yī)學(xué)數(shù)據(jù)標(biāo)注過(guò)程既耗時(shí)又昂貴。訓(xùn)練模型推理的延遲也給實(shí)時(shí)診斷和手術(shù)操作帶來(lái)了計(jì)算困難,而時(shí)間關(guān)鍵型醫(yī)療保健的服務(wù)質(zhì)量要求小于300毫秒,就像實(shí)時(shí)視頻通信一樣。為了達(dá)到每秒60幀(FPS)的高質(zhì)量醫(yī)療視頻,深度學(xué)習(xí)模型的效率和性能變得至關(guān)重推理精度和速度是機(jī)器學(xué)習(xí)算法需要改進(jìn)的主要方面。一些先進(jìn)的機(jī)器學(xué)習(xí)模型可以達(dá)到很高的推理速度。如常用于醫(yī)學(xué)成像的對(duì)象檢測(cè)模型Y0L0v3-tiny,可以在標(biāo)準(zhǔn)數(shù)據(jù)集上以超過(guò)200FPS的速度處理圖像;基于GPU和FPGA的分布式無(wú)線傳感器網(wǎng)絡(luò)和基于5G高速Wi-Fi的機(jī)器學(xué)習(xí)模型都部署在醫(yī)療AI應(yīng)用中。用于腦卒中、血栓形成、結(jié)腸息肉、癌癥和癲癇快速診斷的機(jī)器學(xué)習(xí)模型顯著減少了病灶檢測(cè)和臨床決策的時(shí)間。實(shí)時(shí)人工智能輔助手術(shù)可以改進(jìn)圍手術(shù)期工作流程,實(shí)現(xiàn)視頻分割、手術(shù)器械檢測(cè)、組織變形可視化。高速機(jī)器學(xué)習(xí)在遠(yuǎn)程診斷、手術(shù)和監(jiān)測(cè)等數(shù)字健康領(lǐng)域發(fā)揮著至關(guān)重要的作用。無(wú)線網(wǎng)絡(luò)和邊緣計(jì)算在許多科學(xué)研究中,無(wú)線設(shè)備和服務(wù)已經(jīng)成為收集和傳遞大數(shù)據(jù)的關(guān)鍵工具。此外,移動(dòng)信息已被證明在了解人類活動(dòng)及其對(duì)環(huán)境和公共健康的影響方面十分有用。數(shù)據(jù)流量的指數(shù)級(jí)增長(zhǎng)給無(wú)線基礎(chǔ)設(shè)施帶來(lái)了巨大的壓力。特別是,小區(qū)間干擾大大影響了可靠性和延遲性。為了滿足用戶對(duì)數(shù)據(jù)通信和增值A(chǔ)I/機(jī)器學(xué)習(xí)業(yè)務(wù)的需求,無(wú)線提供商必須:1)開(kāi)發(fā)更智能的無(wú)線電資源管理學(xué)習(xí)算法,以適應(yīng)復(fù)雜多變的通信量和干擾條件 ;2)在邊緣設(shè)備上實(shí)現(xiàn)大量機(jī)器學(xué)習(xí)/AI計(jì)算和功能,以達(dá)到更低的延遲和更高的通信效率。機(jī)器學(xué)習(xí)模型的常規(guī)實(shí)現(xiàn),尤其是深度學(xué)習(xí)算法,遠(yuǎn)遠(yuǎn)落后于實(shí)用程序的數(shù)據(jù)包級(jí)動(dòng)態(tài)。為了提高效率,現(xiàn)有的機(jī)器學(xué)習(xí)/AI服務(wù)通常在云中執(zhí)行,但代價(jià)是通信開(kāi)銷大和延遲高。無(wú)線網(wǎng)絡(luò)和邊緣計(jì)算面臨的主要挑戰(zhàn)是如何構(gòu)建可以在小型蜂窩接入點(diǎn)內(nèi)以低于10毫秒的低延遲執(zhí)行復(fù)雜任務(wù)的計(jì)算平臺(tái)。研究人員提出了許多種學(xué)習(xí)算法,希望通過(guò)神經(jīng)網(wǎng)絡(luò)完成特定的無(wú)線電資源管理任務(wù)。最初訓(xùn)練神經(jīng)網(wǎng)絡(luò)控制電力傳輸采用的是監(jiān)督學(xué)習(xí)。最近,有人提議采用深度強(qiáng)化學(xué)習(xí)可以更好地改善通路和網(wǎng)絡(luò)的不確定性問(wèn)題,而且只需要少量先驗(yàn)訓(xùn)練數(shù)據(jù)。后來(lái)許多工作開(kāi)始集中在邊緣計(jì)算和深度學(xué)習(xí)間的融合。有研究人員使用聯(lián)邦學(xué)習(xí)的方式訓(xùn)練AI模型,而不是將所有數(shù)據(jù)發(fā)送給中央控制器進(jìn)行訓(xùn)練。由于缺乏既快速又高效的實(shí)用型ML/AI解決方案,上述工作基本上停留在仿真階段。更具體地說(shuō),開(kāi)發(fā)一種計(jì)算平臺(tái),使得該平臺(tái)能夠以小于10ms的速度執(zhí)行復(fù)雜ML模型,且可以配置在小型小區(qū)接入點(diǎn)是現(xiàn)階段的主要目標(biāo)。2數(shù)據(jù)處理的三種主要形式實(shí)時(shí)、加速的人工智能推理有望在當(dāng)前和未來(lái)的科學(xué)儀器領(lǐng)域提高探測(cè)能力。為設(shè)計(jì)高性能的AI系統(tǒng),我們需要重點(diǎn)關(guān)注目標(biāo)域機(jī)器學(xué)習(xí)算法的性能系數(shù),它可能受到推理延遲、計(jì)算成本、可靠性、安全性和極端環(huán)境下運(yùn)行能力的影響。例如,機(jī)器學(xué)習(xí)在大型強(qiáng)子對(duì)撞機(jī)上觸發(fā)需要延遲100ns的稀有事件采集系統(tǒng)。此外,先進(jìn)科學(xué)儀器的實(shí)時(shí)分析必須不間斷地分配計(jì)算資源,無(wú)線醫(yī)療設(shè)備處理患者敏感信息必須保密。上述特征和特性為人們分辨出域和應(yīng)用程序之間的差異和共性提供了可量化的準(zhǔn)則。這些準(zhǔn)則可以解決不同科學(xué)領(lǐng)域的不同需求。合適的數(shù)據(jù)表達(dá)是設(shè)計(jì)過(guò)程中重要一步,也是第一步,因?yàn)樗軌驔Q定模型的應(yīng)用場(chǎng)景。數(shù)據(jù)表示在特定領(lǐng)域使用的數(shù)據(jù)表達(dá)方式對(duì)計(jì)算系統(tǒng)和數(shù)據(jù)存儲(chǔ)均有影響。國(guó)際上,跨域數(shù)據(jù)表達(dá)可以分為原始數(shù)據(jù)和重構(gòu)數(shù)據(jù)。數(shù)據(jù)表達(dá)方式通常因重建階段和數(shù)據(jù)處理管道中的上游步驟而異。當(dāng)數(shù)據(jù)具有圖像性質(zhì)時(shí),現(xiàn)有的應(yīng)用程序包括完全連接的CNN模型在內(nèi),通常將預(yù)處理的熟練特征變量作為輸入值或 CNN模型?,F(xiàn)有的CNN算法發(fā)展成果得益于變量的精準(zhǔn)性和高效性。為了充分挖掘CNN模型的力量,使其信息損失降到最低水平,需要采用一種合適的原始數(shù)據(jù)表達(dá)方式,例如點(diǎn)云,它根據(jù)不同實(shí)驗(yàn)和測(cè)量系統(tǒng)的原始數(shù)據(jù)可以明顯得出:空間數(shù)據(jù):用于描述幾何空間中的物理對(duì)象。主要有兩種類型:矢量和柵格數(shù)據(jù)。矢量數(shù)據(jù)可以由點(diǎn)、線或多邊形組成;柵格數(shù)據(jù)是指由像素組成的網(wǎng)格,像素相依表示為圖像或其他的值,如強(qiáng)度、電荷、場(chǎng)強(qiáng)等。點(diǎn)云:一種空間數(shù)據(jù)類型。這種數(shù)據(jù)表達(dá)是通過(guò)整理一組空間數(shù)據(jù)(即三維空間中的點(diǎn))創(chuàng)建的,這些數(shù)據(jù)通常在空間中共同構(gòu)成一個(gè)對(duì)象。時(shí)序數(shù)據(jù):用于表示系統(tǒng)/實(shí)驗(yàn)在特定時(shí)間的狀態(tài)。跨時(shí)段收集而來(lái)的數(shù)據(jù)會(huì)按照特定的順序進(jìn)行分類。時(shí)間序列數(shù)據(jù)是上述表達(dá)方式中的一個(gè)子集,其中的數(shù)據(jù)以固定的時(shí)間間隔進(jìn)行采樣。時(shí)空數(shù)據(jù):可在空間和時(shí)間兩個(gè)維度上測(cè)量和觀測(cè)某個(gè)系統(tǒng)。在這種情況下,數(shù)據(jù)可以被認(rèn)為是時(shí)空的。多光譜數(shù)據(jù):用于表達(dá)多個(gè)傳感器中的輸出值,上述傳感器能夠從電磁光譜的多個(gè)頻段捕獲測(cè)量值。多光譜表達(dá)通常用于成像,與能夠識(shí)別波長(zhǎng)各異的光的傳感器有關(guān)。通常會(huì)涉及幾個(gè)到幾十個(gè)光譜的量級(jí)。高光譜數(shù)據(jù):用于表示從大量光譜(如100s)中得到的測(cè)量值。這些從各異的窄帶光譜中采集到的圖像被合并成一個(gè)高光譜立方體,該立方體具有三個(gè)主要維度,前兩個(gè)維度參考了二維空間位置(例如,地球表面),第三個(gè)維度代表了每個(gè)“像素”位置的完整頻譜內(nèi)容。點(diǎn)云點(diǎn)云數(shù)據(jù)表達(dá)是高能粒子領(lǐng)域中一個(gè)常見(jiàn)的概念。在高能粒子領(lǐng)域里,經(jīng)大量探測(cè)器收集而來(lái)的測(cè)量數(shù)據(jù)被合并成一個(gè)數(shù)據(jù)集。在眾多高能粒子應(yīng)用中,點(diǎn)云通常用于表示數(shù)據(jù)尺寸超過(guò) lPb/s的粒子射流。通俗地說(shuō),點(diǎn)云可以用來(lái)捕捉任何三維空間事件和空間中運(yùn)動(dòng)部件的相互作用。質(zhì)子之間發(fā)生碰撞后的殘余物在定制化和優(yōu)化后的探測(cè)器中產(chǎn)生信號(hào),在空間中以點(diǎn)的形式顯示。掃描后的各類圖像數(shù)據(jù)可以按照點(diǎn)云的方式呈現(xiàn),生物醫(yī)學(xué)工程和虛擬實(shí)境中的CT和PET掃描也是利用點(diǎn)云進(jìn)行成像,還有用于產(chǎn)品設(shè)計(jì)、實(shí)體對(duì)象建模、體系結(jié)構(gòu)和基礎(chǔ)設(shè)施設(shè)計(jì)的三維掃描儀。上述成像任務(wù)中,大部分都是按照從GB到TB的順序生成相應(yīng)大小的點(diǎn)云。域共享點(diǎn)云表達(dá)(例如高能粒子和生物醫(yī)學(xué)成像)也會(huì)涉及到空間特性。圖注:Kaggle數(shù)據(jù)集中,Track機(jī)器學(xué)習(xí)在三維空間中將粒子跟蹤命中進(jìn)行可視化多/高光譜數(shù)據(jù)多光譜數(shù)據(jù)在無(wú)線醫(yī)療監(jiān)測(cè)和無(wú)線通信系統(tǒng)之間普遍存在。一組生理傳感器通常代表不同的模式,被合并成一個(gè)多光譜數(shù)據(jù)集,用于醫(yī)療監(jiān)測(cè)和干預(yù)系統(tǒng)。對(duì)于無(wú)線通信而言,通過(guò)多光譜數(shù)據(jù)捕獲信號(hào)干擾情況和網(wǎng)絡(luò)流量狀況,兩個(gè)領(lǐng)域都會(huì)跨時(shí)間捕獲數(shù)據(jù),因此也會(huì)顯示出時(shí)間特性。與其他領(lǐng)域相比,這兩個(gè)領(lǐng)域中生成的數(shù)據(jù)大小可以被認(rèn)為相對(duì)較?。◤?00sMb/s到10sGb/s)。高光譜數(shù)據(jù)被用于許多天文學(xué)應(yīng)用、醫(yī)學(xué)成像和電子顯微鏡領(lǐng)域,用于實(shí)現(xiàn)更多的材料科學(xué)設(shè)計(jì)和發(fā)現(xiàn)應(yīng)用。如圖7所示,電子顯微鏡中顯示的是高光譜數(shù)據(jù)。將電子探針柵格化在所研究的樣品上,并在像素探測(cè)器上捕獲衍射圖。當(dāng)電子探針在樣品上掃描時(shí),像素探測(cè)器進(jìn)行圖像捕捉。新興的多信使天文學(xué)應(yīng)用進(jìn)一步提升了高光譜數(shù)據(jù)表達(dá)的效用,這些數(shù)據(jù)表達(dá)是結(jié)合了大量探測(cè)器和望遠(yuǎn)鏡的觀測(cè)結(jié)果匯總而成。Convergedelectronproberastaredoversample圖7.二硫化物二維材料的4D-STEM實(shí)驗(yàn)測(cè)量。3實(shí)現(xiàn)低延時(shí)、高效率的ML算法作者重點(diǎn)對(duì)如何構(gòu)建高效機(jī)器學(xué)習(xí)算法的技術(shù)和技巧進(jìn)行了簡(jiǎn)要概述。在考慮硬件的情況下,構(gòu)建算法實(shí)現(xiàn)協(xié)同設(shè)計(jì),需要為硬件編程提供高效的平臺(tái)。為實(shí)現(xiàn)這這一點(diǎn)將從三個(gè)部分進(jìn)行介紹:重點(diǎn)討論神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)和訓(xùn)練,以便實(shí)現(xiàn)硬件的有效應(yīng)用;將機(jī)器學(xué)習(xí)硬件計(jì)算平臺(tái)分為“常規(guī)CMOS硬件”和“新興的超CMOS硬件”兩部分進(jìn)行介紹。前者將解決近期的硬件方案,后者專注于頻譜的投機(jī)端。同時(shí),由于編程新硬件領(lǐng)域發(fā)展迅速,作者以一個(gè)具體示例闡明設(shè)備家族面臨的選擇和挑戰(zhàn):即現(xiàn)場(chǎng)可編程門(mén)陣列(FPGA),希望從FPGA的細(xì)節(jié)中,為讀者了解軟件設(shè)計(jì)的基本方法提供幫助。本文將以用于高效部署機(jī)器學(xué)習(xí)模型的系統(tǒng)方法為例進(jìn)行簡(jiǎn)單介紹??茖W(xué)領(lǐng)域中的許多機(jī)器學(xué)習(xí)問(wèn)題要求延遲時(shí)間短,資源較為有限。然而,大多數(shù)現(xiàn)有的先進(jìn)CNN模型延遲度非常高,且占用內(nèi)存大,消耗量高。出于上述原因,實(shí)踐者被迫使用非理想精度的次優(yōu)模型(例如淺層CNN)來(lái)避免這一延遲問(wèn)題。大量的文獻(xiàn)致力于通過(guò)解決上述延遲問(wèn)題,以提升CNN模型有效性,大致歸納如下:1、設(shè)計(jì)全新的高效NN架構(gòu);2、NN架構(gòu)與硬件的協(xié)同設(shè)計(jì);3、量化(低精度推斷);4、剪枝和稀疏推斷;5、知識(shí)蒸餾。作者在文中闡述了需要在高吞吐量和低延遲環(huán)境下的機(jī)器學(xué)習(xí)算法,既包括系統(tǒng)設(shè)計(jì)和培訓(xùn),也包括機(jī)器學(xué)習(xí)模型的高效部署和應(yīng)用。在硬件應(yīng)用方面主要討論了兩類內(nèi)容:現(xiàn)有的傳統(tǒng)CMOS技術(shù)和超CMOS技術(shù)。在常規(guī)的CMOS案例中,在摩爾定律的基礎(chǔ)上,人們重點(diǎn)研究機(jī)器學(xué)習(xí)設(shè)計(jì)的先進(jìn)硬件架構(gòu)。對(duì)于眾多硬件來(lái)說(shuō),機(jī)器學(xué)習(xí)算法的協(xié)同設(shè)計(jì)是特定科學(xué)領(lǐng)域?qū)τ布òㄆ潴w系結(jié)構(gòu)和可編程性)要求的關(guān)鍵,一個(gè)高度相關(guān)和極其重要的硬件平臺(tái)的示例就是FPGA,作者認(rèn)為,這些技術(shù)提供了令人興奮和超級(jí)高效的技術(shù),雖然它們可能具有投機(jī)性,但相對(duì)于常規(guī)技術(shù),已經(jīng)大幅提升了現(xiàn)有的技術(shù)水平??偨Y(jié)與展望這篇綜述報(bào)告主要闡述了高效的機(jī)器學(xué)習(xí)算法的應(yīng)用,如何使跨領(lǐng)域的科學(xué)發(fā)現(xiàn)成為現(xiàn)實(shí)。這個(gè)過(guò)程中,科學(xué)探索時(shí)常產(chǎn)生令人激動(dòng)的新研究和新發(fā)現(xiàn)。然而,這是一個(gè)相對(duì)嶄新的領(lǐng)域,蘊(yùn)藏著豐富的潛力,也面臨著跨領(lǐng)域的開(kāi)放性挑戰(zhàn)。除了報(bào)告中闡述的內(nèi)容之外,我們希望通過(guò)這篇文章對(duì)科學(xué)用例及其交疊的呈現(xiàn)能夠給讀者提供在其他研究中展開(kāi)應(yīng)用的靈感。機(jī)器學(xué)習(xí)的訓(xùn)練和部署手段以及計(jì)算機(jī)體系結(jié)構(gòu)都是一個(gè)非常迅速發(fā)展的領(lǐng)域,新的任務(wù)接踵而至。在機(jī)器學(xué)習(xí)和科學(xué)領(lǐng)域中不斷引入新方法,同時(shí)理解不同硬件下新算法的協(xié)同設(shè)計(jì)以及部署這些算法的工具流的易用性就顯得尤為重要。這里的創(chuàng)新之處將快速和廣泛采用強(qiáng)大的新機(jī)器學(xué)習(xí)硬件得以實(shí)現(xiàn)。在超CMOS技術(shù)的情況下,這些應(yīng)用性設(shè)計(jì)是很重要的,同時(shí)也要考慮到技術(shù)的成熟程度、融入計(jì)算體系結(jié)構(gòu)以及如何編程這類器件。我們期待著在不久的將來(lái)能夠重溫這些話題,看看在應(yīng)用程序、機(jī)器學(xué)習(xí)技術(shù)和硬件平臺(tái)領(lǐng)域的發(fā)展速度――最重要的是它們的融合,在科學(xué)上領(lǐng)域上取得的顛覆性突破。注:這篇綜述報(bào)告是第二屆年度FastMachineLearning大會(huì)的概述,匯集了從粒子物理學(xué)家、材料學(xué)家到健康監(jiān)測(cè)研究人員,以及機(jī)器學(xué)習(xí)學(xué)者和計(jì)算機(jī)系統(tǒng)架構(gòu)師等多個(gè)科學(xué)專家的內(nèi)容,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論