基于共享虛擬存儲(chǔ)系統(tǒng)的波導(dǎo)加載諧振腔諧振頻率的_第1頁
基于共享虛擬存儲(chǔ)系統(tǒng)的波導(dǎo)加載諧振腔諧振頻率的_第2頁
基于共享虛擬存儲(chǔ)系統(tǒng)的波導(dǎo)加載諧振腔諧振頻率的_第3頁
基于共享虛擬存儲(chǔ)系統(tǒng)的波導(dǎo)加載諧振腔諧振頻率的_第4頁
基于共享虛擬存儲(chǔ)系統(tǒng)的波導(dǎo)加載諧振腔諧振頻率的_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基于共享虛擬存儲(chǔ)系統(tǒng)的波導(dǎo)加載諧振腔諧振頻率的的高效并行計(jì)算施巍松+,馬積幅*+中科院計(jì)算所高性能計(jì)算機(jī)研究中心, 北京,100080*中科院高功率微波與電磁輻射開放實(shí)驗(yàn)室, 北京,100080摘 要本文介紹在曙光1000A工作站集群系統(tǒng)上時(shí)域有限差分(FDTD)并行計(jì)算的高效實(shí)現(xiàn),提出了在虛擬共享存儲(chǔ)系統(tǒng)(SVM)上實(shí)現(xiàn)并行的方案,將原來的串行程序移植到這種新的并行計(jì)算平臺(tái)上,具體計(jì)算了波導(dǎo)加載諧振腔的諧振頻率,獲得了正確的結(jié)果。性能分析表明,本文實(shí)現(xiàn)的加速比和公開報(bào)道的基于消息傳遞的同類算法所獲得的加速比可比。由于這種并行化方法幾乎不需要硬件投資(只要把已有的工作站充分利用即可),編程容易

2、(原來的串行程序只需很少改動(dòng)即可),所以是一種值得大力推廣的并行化實(shí)現(xiàn)方法。1需求分析 通常,電磁場(chǎng)的數(shù)值方法有三個(gè)指標(biāo),即計(jì)算的可靠性,準(zhǔn)確性和效率。時(shí)域有限差分算法(Finite Difference Time Domain, FDTD) 能在電磁場(chǎng)輻射和散射、微波和毫米波電路以及電磁兼容和電磁劑量學(xué)等十分廣泛的領(lǐng)域獲得成功的應(yīng)用,說明就可靠性和準(zhǔn)確性而言,它是一種能基本滿足人們需要的有效的數(shù)值方法1,2,3。然而,對(duì)于目前普及使用的PC機(jī)來講,它在計(jì)算效率方面有所欠缺。較長(zhǎng)的計(jì)算時(shí)間和較大的存儲(chǔ)空間是FDTD在這種系統(tǒng)上解決實(shí)際電大尺寸物體電磁場(chǎng)問題的瓶頸(實(shí)際上,這也不是FDTD獨(dú)有的

3、問題。需要較長(zhǎng)的迭代時(shí)間是時(shí)域計(jì)算的共同特點(diǎn)。至于存儲(chǔ)空間,則幾乎所有數(shù)值方法都要求越大越好,比如矩量法(MOM)要求的存儲(chǔ)量正比于N的平方(N為離散網(wǎng)格的數(shù)目),F(xiàn)DTD所需的存儲(chǔ)空間正比于N,有限元(FEM)所需的存儲(chǔ)空間雖然也是正比于N,但是只有基于邊棱元的(Edge-based Element)FEM其要求的存儲(chǔ)空間與FDTD差不多,以往的基于結(jié)點(diǎn)(Node-based Element)的FEM所要求的存儲(chǔ)空間要比FDTD要求的大)。 為了在PC機(jī)上解決比較大的存儲(chǔ)空間的需求問題,人們嘗試了各種計(jì)算技巧。比如利用結(jié)構(gòu)的對(duì)稱性,可以成倍的減少存儲(chǔ)空間4。又如采用虛擬存儲(chǔ)技術(shù)(用一部分硬盤

4、空間虛擬內(nèi)存)或分段計(jì)算(將結(jié)構(gòu)分成數(shù)段,依次調(diào)入內(nèi)存計(jì)算)的方法。常見的第一種方法雖然有效,但是要分析的結(jié)構(gòu)畢竟不是都具備對(duì)稱條件的。 同樣,為了在PC機(jī)上解決比較長(zhǎng)的運(yùn)行時(shí)間問題,人們也嘗試了各種計(jì)算技巧。最常見的就是FDTD與譜估計(jì)結(jié)合的方法5,6,7。需要指出的是,這種方法只能在一定程度上緩解問題,而不能從根本上解決問題。為了克服上述兩個(gè)問題,需要從數(shù)值算法和計(jì)算技術(shù)兩個(gè)方面進(jìn)行探討。從算法上講,并行FDTD算法將是解決電大尺寸電磁問題計(jì)算的重要途徑,已有許多人進(jìn)行了這方面的探索8-11,充分說明了這一途徑的有效性。另一方面,從計(jì)算技術(shù)上講,高性能的計(jì)算技術(shù)是當(dāng)今計(jì)算機(jī)科學(xué)領(lǐng)域的熱點(diǎn)問

5、題之一,追求更快的運(yùn)算速度,追求更大容量的內(nèi)存,是高性能計(jì)算機(jī)努力追求的方向。隨著單處理機(jī)的速度越來越趨近物理極限(如今最高的計(jì)算機(jī)主頻為1000MHz),高性能計(jì)算機(jī)必須走大規(guī)模并行處理之路13。所以對(duì)于從事電磁場(chǎng)計(jì)算的人來說,需要做的是在眾多的并行體系結(jié)構(gòu)中,選取一種合適的并行體系結(jié)構(gòu)進(jìn)行并行運(yùn)算。并且要求,硬件系統(tǒng)應(yīng)是通用的而不是專用的,軟件編程應(yīng)是方便的而不是煩瑣的,獲得的加速比應(yīng)是較高的。2. 背景知識(shí)21 實(shí)驗(yàn)平臺(tái) 在過去的幾年里,MPP在超級(jí)計(jì)算機(jī)市場(chǎng)上取得了很大的成功。進(jìn)入90年代后,隨著RISC技術(shù)的發(fā)展運(yùn)用和高性能網(wǎng)絡(luò)產(chǎn)品的出現(xiàn),機(jī)群系統(tǒng)在性能價(jià)格比(Cost/Perfor

6、mance)、可擴(kuò)展性(Scalability)、可用性(Availability)等方面都顯示了很強(qiáng)的競(jìng)爭(zhēng)力,尤其是它在對(duì)現(xiàn)有單機(jī)上的軟硬件產(chǎn)品的繼承和對(duì)商用軟硬件最新研究成果的快速運(yùn)用這兩方面表現(xiàn)出傳統(tǒng)MPP無法比擬的優(yōu)勢(shì)。目前,機(jī)群系統(tǒng)已在許多領(lǐng)域獲應(yīng)用。隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的發(fā)展,特別是ATM、FastEthernet、Myrinet、千兆位以太網(wǎng)的問世, 以及各種軟硬件支持的增多和系統(tǒng)軟件、應(yīng)用軟件的豐富,新一代高性能機(jī)群系統(tǒng)逐漸成為高性能計(jì)算的一種主流平臺(tái)。 事實(shí)上,一般用戶所關(guān)心的只是編程環(huán)境,對(duì)低層硬件無須知道。目前有兩種編程模式,一種是消息傳遞(Message Passing)

7、的,另一種是共享存儲(chǔ)(Shared Memory)。在消息傳遞的編程模式下,用戶需要自己考慮到數(shù)據(jù)的分布、各個(gè)處理器的負(fù)載平衡和不同的處理器間的通信。而在共享存儲(chǔ)則無須考慮這些問題。消息傳遞的模式比較適合于分布式系統(tǒng)中,共享存儲(chǔ)的模式適合于集中存儲(chǔ)的系統(tǒng)中。 由于分布式存儲(chǔ)系統(tǒng)與集中式存儲(chǔ)系統(tǒng)各有優(yōu)缺點(diǎn), 所以目前的趨勢(shì)是將兩者結(jié)合:系統(tǒng)含有上千個(gè)的處理器,雖然內(nèi)存物理上分布于各個(gè)處理器上,但在邏輯上給用戶提供統(tǒng)一的共享地址空間。這就是分布式共享存儲(chǔ)系統(tǒng)(Distributed Shared Memory: DSM)14。簡(jiǎn)單的說,分布式共享存儲(chǔ)系統(tǒng)就是在邏輯上給用戶提供統(tǒng)一的共享地址空間,提

8、供共享存儲(chǔ)的編程模式,無須考慮在物理上各個(gè)存儲(chǔ)模塊是分布的。分布式共享存儲(chǔ)系統(tǒng)以其方便的編程接口及良好的可擴(kuò)展性而越來越受到學(xué)術(shù)界和工業(yè)界的極大關(guān)注, 從而成為高性能計(jì)算機(jī)體系結(jié)構(gòu)發(fā)展的主流。分布式共享存儲(chǔ)系統(tǒng)包括兩類: 一類是由底層硬件實(shí)現(xiàn)的,具有統(tǒng)一的物理地址空間的系統(tǒng)。目前的共享存儲(chǔ)型MPP機(jī)器多采用這種結(jié)構(gòu)。另一類是由上層軟件實(shí)現(xiàn)的, 具有統(tǒng)一的虛擬地址空間的系統(tǒng),這一類稱為稱為虛擬共享存儲(chǔ)系統(tǒng)(Shared Virtual Memory:SVM), 又稱為軟件分布式共享存儲(chǔ)系統(tǒng)(Software DSM:SDSM)。其中有代表性的系統(tǒng)有Yale 大學(xué)的 Ivy,Rice 大學(xué)的 Tr

9、eadMarks, Munin,Maryland 大學(xué)的 CVM,Carnegie Mellon 大學(xué)的 Midway,中科院計(jì)算所高性能計(jì)算機(jī)研究中心的JIAJIA 系統(tǒng)。 處理機(jī)1處理機(jī)2處理機(jī)n本地存儲(chǔ)器本地存儲(chǔ)器本地存儲(chǔ)器虛擬共享存儲(chǔ)層虛擬共享存儲(chǔ)層虛擬共享存儲(chǔ)層虛擬共享存儲(chǔ)地址空間一個(gè)簡(jiǎn)單的虛擬共享存儲(chǔ)系統(tǒng)如圖1所示。 所有的處理機(jī)可以共享由虛擬共享存儲(chǔ)系統(tǒng)提供的統(tǒng)一地址空間, 從程序員的角度來看, 任何處理機(jī)可以訪問整個(gè)地址空間的任何變量而無需考慮該變量位于哪個(gè)處理機(jī)上。 每個(gè)處理機(jī)都有一個(gè)虛擬共享存儲(chǔ)層, 這個(gè)虛擬共享存儲(chǔ)層不僅要負(fù)責(zé)本地存儲(chǔ)器與虛擬共享地址空間的映射, 而且還要

10、在本機(jī)發(fā)生共享數(shù)據(jù)不命中時(shí), 到遠(yuǎn)地將所需數(shù)據(jù)取回, 并及時(shí)維護(hù)整個(gè)地址空間的一致性。 圖1: 一個(gè)簡(jiǎn)單的虛擬共享存儲(chǔ)系統(tǒng)22 相關(guān)的工作 目前在并行FDTD算法上許多人已作了大量的工作。大多數(shù)工作是在MPP上做的8-10。當(dāng)然在MPP上完成FDTD算法能獲得滿意的高效率,但是它存在這樣三個(gè)個(gè)不足之處:其一是MPP系統(tǒng)一般作為專用系統(tǒng)而遠(yuǎn)非普及,其二是過程復(fù)雜,也就是把原來的串行程序改變?yōu)檫m合并行運(yùn)算的過程復(fù)雜,需要熟悉MPP系統(tǒng)編程人員的專門指導(dǎo)下進(jìn)行,其三是通用性差,因?yàn)椴煌牟⑿袡C(jī)有不同的體系結(jié)構(gòu),相應(yīng)的編程語言和編程策略也不同,所以針對(duì)不同的MPP系統(tǒng)需要分別對(duì)原串行程序進(jìn)行移植。另有

11、一些并行FDTD算法是在陣列機(jī)上實(shí)現(xiàn)的,如11。由于陣列機(jī)是有專門用途的專用設(shè)備,一般是不容易用到的,所以我們不去關(guān)心這種系統(tǒng)上的FDTD并行的實(shí)現(xiàn)。 另一種FDTD并行算法是在工作站集群系統(tǒng)(Cluster)上進(jìn)行的13-14。當(dāng)前在集群系統(tǒng)上的并行實(shí)現(xiàn)都是基于消息傳遞的編程模式。 在這種模式下,僅僅在程序中加入一定的消息傳遞還不足以達(dá)到高性能,原串行程序必須做很大的修改。編程者需要自己考慮數(shù)據(jù)的靜態(tài)分布和動(dòng)態(tài)調(diào)度,在程序中通過調(diào)用函數(shù)來顯式的發(fā)出和接受消息。因此在這種模式下編程對(duì)從事計(jì)算電磁場(chǎng)的人來說是很不方便的。由于虛擬共享存儲(chǔ)系統(tǒng)能在集群系統(tǒng)上提供共享存儲(chǔ)的編程模式, 因此本文在最新的

12、虛擬共享存儲(chǔ)系統(tǒng)JIAJIA系統(tǒng)16,17上實(shí)現(xiàn)并行FDTD計(jì)算,以求解波導(dǎo)加載諧振腔的諧振頻率為例,說明算法的實(shí)際價(jià)值。3. FDTD分塊并行算法 在分布式系統(tǒng)上進(jìn)行FDTD并行運(yùn)算的基本原理是進(jìn)行分塊計(jì)算11-12。具體做法如下。將計(jì)算空間分成N個(gè)區(qū)域(如圖2所示)。一個(gè)處理器對(duì)應(yīng)一個(gè)子空間,這個(gè)處理器負(fù)責(zé)自己子空間內(nèi)場(chǎng)量的運(yùn)算和存儲(chǔ)。按照FDTD算法的特點(diǎn),因?yàn)橄噜徸涌臻g的公共面上的場(chǎng)的迭代涉及相鄰的兩個(gè)子空間,所以相鄰的處理器需要通訊,以交換場(chǎng)量信息、保證整個(gè)場(chǎng)量的迭代同步進(jìn)行。消息傳遞的系統(tǒng)上這個(gè)過程由兩個(gè)方面來完成,一是在計(jì)算場(chǎng)量的公式上,另一個(gè)是編程實(shí)現(xiàn)上。xyEyHxHxKz1

13、圖2: FDTD的區(qū)域分塊 圖3: 沿z向分塊舉N=2的情況說明(如圖3,圖中以kz1為界,大于kz1為II區(qū),小于kz1為I區(qū))。在編程實(shí)現(xiàn)時(shí),首先場(chǎng)分量的數(shù)組和對(duì)應(yīng)的計(jì)算系數(shù)要分開定義,如場(chǎng)量Ex1(k,j,i)和系數(shù)cex1(k,j,i)為第一個(gè)處理器的場(chǎng)量和系數(shù),Hx2(k,j,i)和系數(shù)cux2(k,j,i)為第二個(gè)處理器的場(chǎng)量和系數(shù)。 其次,在計(jì)算公共邊上的Ey分量時(shí),原來的串行的迭代公式(1)Ey(i,j,kz1)=cey(i,j,kz1)*(-dey(i,j,kz1)*Ey(i,j,kz1)(1)+(Hx(i,j,kz1)-Hx(i,j,kz1-1)/dlz-(Hz(i,j,k

14、z1)-Hz(i-1,j,kz1)/dlx)需要改變到并行的(2)Ey2(i,j,kz1)=cey2(i,j,kz1)*(-dey2(i,j,kz1)*Ey2(i,j,kz1)(2)+(Hx2(i,j,kz1)-Hx1(i,j,kz1-1)/dlz-(Hz2(i,j,kz1)-Hz2(i-1,j,kz1)/dlx)同樣,I區(qū)靠近邊界的Hx分量的迭代公式也要改變?yōu)椋?Hx1(i,j,kz1-1)=cux1(i,j,kz1-1)*(-dux1(i,j,kz1-1)*Hx1(i,j,kz1-1)+(Ey2(i,j,kz1)-Ey1(i,j,kz1-1)/dlz(3)-(Ez1(i,j+1,kz1-1

15、)-Ez1(i,j,kz1-1)/dly)最后,并行計(jì)算的過程中,完成相鄰區(qū)域邊界上場(chǎng)分量的計(jì)算所需要的信息交換在以前常采用的消息傳遞的編程模式下,編程者需要在程序中通過調(diào)用函數(shù)來顯式的發(fā)出和接受消息。對(duì)于從事計(jì)算電磁場(chǎng)的編程人員,這顯然是很高的要求了,因?yàn)檫@意味著需要學(xué)習(xí)新的語言環(huán)境??偟恼f來,在消息傳遞的系統(tǒng)中實(shí)現(xiàn)并行,場(chǎng)量和系數(shù)需要以下標(biāo)分開,這導(dǎo)致:1.程序明顯增長(zhǎng),2. 需要考慮公共邊界上的條件,3. 依賴于處理器的個(gè)數(shù),處理器的個(gè)數(shù)不同需要重新修改程序。4. FDTD分塊并行算法的簡(jiǎn)便實(shí)現(xiàn)我們?cè)谧钚碌奶摂M共享存儲(chǔ)系統(tǒng)(Software DSM)JIAJIA系統(tǒng)上實(shí)現(xiàn)FDTD分塊并行

16、運(yùn)算20-25。求解的實(shí)例是波導(dǎo)加載諧振腔,這里僅計(jì)算其諧振頻率,說明算法的實(shí)際價(jià)值。JIAJIA系統(tǒng)由中國(guó)科學(xué)院計(jì)算技術(shù)研究所高性能計(jì)算機(jī)中心研制,既可以運(yùn)行于MPP如IBM SP2,又可以運(yùn)行于工作站集群系統(tǒng)如: SUN SPARC/ULTRA 系列工作站,曙光1000A,Intel x86 系統(tǒng)(運(yùn)行Linux操作系統(tǒng))等硬件平臺(tái)。目前支持C和 Fortran77等高級(jí)語言。其優(yōu)點(diǎn)主要是(1)易于編程,(2)性能較高,(3)可以提供大內(nèi)存。(JIAJIA 軟件系統(tǒng)的詳細(xì)資料可訪問http:/JIAJIA系統(tǒng)是作為一個(gè)運(yùn)行庫,運(yùn)行于操作系統(tǒng)的上層,用戶程序只需在連接時(shí)與庫連上即可。前已提及

17、它有三個(gè)主要的優(yōu)點(diǎn),分別是易于編程、可獲得高性能和可以提供大內(nèi)存。易于編程指的是:原來串行的程序可以很容易的在該系統(tǒng)中實(shí)現(xiàn)并行。JIAJIA提供七個(gè)主要的函數(shù),它們是:jia_init(對(duì)Fortran 77使用jiaf_init), jia_alloc, jia_lock, jia_unlock, jia_barrier, jia_clock, jia_exit. 這些函數(shù)中只有jia_init是所有的程序都需要的,其余的則是可選的。可以獲得高性能指的是:用戶不需要硬件的投資(因?yàn)镴IAJIA系統(tǒng)是免費(fèi)軟件,故亦不需要軟件投資,下載地址: X 8 = 256 MB的主存給用戶使用。 下面具體

18、講述如何將原來串行的FDTD程序移植到JIAJIA并行系統(tǒng)下運(yùn)行。4.1 FDTD算法:激勵(lì)源的和邊界條件的設(shè)置為了盡量減少程序中串行的部分,提高程序的并行程度,我們將腔體的激勵(lì),由原來的由波導(dǎo)入射改變?yōu)樵谇惑w內(nèi)部設(shè)置一電脈沖。由于脈沖時(shí)間寬度很窄,經(jīng)較短的時(shí)間步后,腔內(nèi)即呈現(xiàn)自由振蕩,這樣由振蕩的時(shí)間序列就可以應(yīng)用MP方法18估計(jì)出諧振頻率。我們選取激勵(lì)脈沖為高斯調(diào)制波:(4)通過適當(dāng)?shù)倪x取參數(shù)T(脈沖寬度)和f0(載波頻率),可以方便的控制激勵(lì)源的頻譜,防止過多的頻率成分在腔內(nèi)存在。其次,將原來的完純導(dǎo)體邊界由在程序中直接置零改為由迭代系數(shù)置零,以便導(dǎo)體邊界上的場(chǎng)和其它地方的一樣通過迭代求

19、出,避免了直接置零的串行部分。 JIAJIA提供一個(gè)統(tǒng)一的共享地址空間,從程序員的角度來看,任何處理機(jī)可以訪問整個(gè)地址空間的任何變量而無需考慮該變量位于哪個(gè)處理機(jī)上。這就大大減輕了移植串行程序的負(fù)擔(dān):無須象上一節(jié)提到的那樣對(duì)串行程序進(jìn)行改變。編程就象在PC上編程一樣,只需局部改變串行程序循環(huán)的始末值。假設(shè)只有z向進(jìn)行了分塊,則原來串行的循環(huán)Do k=0,nz將改為Do k = begin,end不同的begin,end的值對(duì)應(yīng)不同的處理器。所有的場(chǎng)分量以及系數(shù)的數(shù)組對(duì)各個(gè)處理器不再區(qū)分,即不用明確的定義不同的數(shù)組如Ex1,Ex2,Ex3等對(duì)應(yīng)不同的處理器。這是一種典型的SPMD(Single

20、Program Multiple Data)編程模式。 之所以能這樣簡(jiǎn)化的關(guān)鍵是JIAJIA系統(tǒng)能自動(dòng)的維持邊界數(shù)據(jù)的一致性,并且提供了靈活的維護(hù)存儲(chǔ)器局部性(Locality)的機(jī)制。這里局部性的含義是:存儲(chǔ)一部分場(chǎng)分量和相應(yīng)系數(shù)的那個(gè)存儲(chǔ)模塊被分配在這樣一個(gè)處理器上:該處理器要用到或計(jì)算數(shù)據(jù)的這一部分??偟牟⑿羞\(yùn)算的框架將是:在程序的開始,加了call jiaf_init作為JIAJIA系統(tǒng)對(duì)FORTRAN的初始化。定義場(chǎng)分量及系數(shù)的數(shù)組并置初值的處理和串行程序一樣。不同的處理器開始同時(shí)計(jì)算分配給它的那部分子空間上的場(chǎng)量,在每一次場(chǎng)量的迭代運(yùn)算進(jìn)行之前,加了jia_barrier(),其目

21、的是使所有的處理器得到它所需要的相鄰區(qū)域的場(chǎng)值。call jiaf_initdefine field arrays and set initial valuetime step Nt =010 compute H componentsNt=Nt+1call jia_barriercompute E componentscall jia_barrierif (Nt .le. Total_steps) goto 105. 并行計(jì)算結(jié)果和性能分析 我們運(yùn)行的底層硬件是國(guó)家智能計(jì)算機(jī)研究中心研制的曙光1000A(DAWNING 1000A),目前它由8個(gè)基于PowerPC的結(jié)點(diǎn)經(jīng)由100Mbps交換以

22、太網(wǎng)(Switch Ethernet)聯(lián)接構(gòu)成,每個(gè)結(jié)點(diǎn)有256M字節(jié)的主存。曙光1000A是一種典型的基于消息傳遞的系統(tǒng),前面我們提到在基于消息傳遞的系統(tǒng)上移植串行程序是很麻煩的。然而有了在這種硬件的頂層運(yùn)行的JIAJIA系統(tǒng)后,我們可以較為輕松的完成并行化工作。 我們采用的計(jì)算模型如圖4所示,模型的尺寸是:a=25.0mm, b=10.00mm, c=50.00mm (腔體), ad=30.0mm, bd=15.0mm (輸出波導(dǎo)), h=3.0mm, r=7.5mm (漂移管深入長(zhǎng)度和半徑). 耦合窗的大小是12.00mm×5.00mm. FDTD網(wǎng)格模型如下:Dx = Dz

23、= Dy = 0.5,Dt=Dy/2v,v為光速,因?yàn)榫W(wǎng)格的尺寸比較大,無法精確地模擬漂移管的細(xì)節(jié)結(jié)構(gòu),所以采取了以下的近似:(a) 漂移管認(rèn)為是實(shí)心柱體,(b) 漂移管圓形截面用鋸齒網(wǎng)格模擬。在FDTD建模時(shí),由于重入腔的第一個(gè)諧振頻率已經(jīng)小于波導(dǎo)基模的截止頻率,所以波導(dǎo)中將有較大的凋落波,為了有效的減少凋落波的影響,我們把現(xiàn)有的PML設(shè)置在離窗口較遠(yuǎn)的地方(D>100)。如果采用對(duì)凋落波有效的修正的PML,那么D可以減小??偟木W(wǎng)格模型的大小是60x30x400,并行分塊是在z軸方向進(jìn)行的,即以垂直于z的平面將網(wǎng)格空間分成N個(gè)子空間, 其中N是處理機(jī)的個(gè)數(shù)。腔波導(dǎo)漂移管abcbdad圖

24、4: 分析的結(jié)構(gòu)5.1驗(yàn)證 為了檢驗(yàn)并行運(yùn)算的正確性,我們先以4機(jī)并行運(yùn)算,將計(jì)算結(jié)果:電場(chǎng)分量的時(shí)域響應(yīng)和由此估計(jì)出的頻率與串行計(jì)算得出的結(jié)果18進(jìn)行對(duì)照。圖5: 電場(chǎng)分量Ey的時(shí)域響應(yīng)圖5所示是腔內(nèi)觀察點(diǎn)處記錄的電場(chǎng)分量Ey的時(shí)間序列,其中實(shí)線是4機(jī)并行運(yùn)算的結(jié)果,而虛線是前面串行程序得出的。這兩條線完全是重合的,因之,由時(shí)域響應(yīng)估計(jì)出的諧振頻率也是完全一樣的(列于表1)。表1: 計(jì)算得出的諧振頻率模式1234頻率4.8795.6129.72510.772 并行程序性能的分析由并行算法的加速比來衡量。我們首先采用固定加速比Sf(Fixed Speedup),其次采用比例加速比Ss(Scal

25、ed Speedup),來評(píng)價(jià)我們的并行方案的實(shí)現(xiàn)。固定加速比衡量的是:在問題規(guī)模固定的情況下,隨著處理器個(gè)數(shù)的增加獲得加速比的情況。而比例加速比衡量的是:隨著處理器個(gè)數(shù)的增加,問題規(guī)模相應(yīng)增大獲得加速比的情況。比例加速比被普遍認(rèn)為是更適合評(píng)價(jià)并行算法11,12,因?yàn)橹挥性诒WC每個(gè)處理器的計(jì)算量不變的情況下,才能評(píng)價(jià)并行計(jì)算的性能,也正是在這種情況下才能發(fā)揮并行的優(yōu)勢(shì)。固定加速比Sf和比例加速比Ss分別為:Sf = T1/Tn,SS = n x T1/Tn,其中T1為單機(jī)運(yùn)行所化的時(shí)間,Tn為n個(gè)處理器運(yùn)行所化的時(shí)間。我們采用了三種規(guī)模的問題:?。?0x30x208),中(120x60x416

26、),大(240x60x832)。其中規(guī)模的增大是通過加大網(wǎng)格密度的方法實(shí)現(xiàn)的。表2給出這三種規(guī)模問題的運(yùn)行時(shí)間(均指運(yùn)行6000步所化的時(shí)間)、固定加速比和內(nèi)存需求。表3給出了固定單機(jī)計(jì)算量為120x60x208時(shí)的比例加速比。由表2和表3可見:1 對(duì)小規(guī)模問題,四機(jī)獲得2.09的加速比,而八機(jī)時(shí)加速比反而下降。其原因是:八機(jī)時(shí)的運(yùn)算/通信比率太低,極大的影響了性能。實(shí)際上并行計(jì)算對(duì)小規(guī)模的問題是體現(xiàn)不出其優(yōu)越性的,因?yàn)檫\(yùn)算的時(shí)間小于通信的時(shí)間,大部分時(shí)間化在不同處理器的通信上了。另一方面,小規(guī)模的問題在PC機(jī)上即可運(yùn)行,如這里的只需要20MB,在PC上運(yùn)行沒有問題。表2: 不同規(guī)模的計(jì)算模型

27、的運(yùn)行時(shí)間、加速比、和內(nèi)存需求規(guī)模串行時(shí)間 (s)4 機(jī) /加速比8 機(jī) /加速比內(nèi)存(MB)60x 30x 2086963.083410.09/2.093600.00/1.9320120x 60x41644710.6619200.00/2.3310920.01/4.09160240x60x832-614760.00/1.0045744.02/13.38660表3: 可變規(guī)模問題的運(yùn)行時(shí)間和比例加速比(120x 60x208)處理器個(gè)數(shù)1248時(shí) 間21661.8023754.6024384.0028650.03比例加速比1001823556052 當(dāng)問題規(guī)模增大時(shí),加速比相應(yīng)的提高。對(duì)這里中

28、規(guī)模的問題,4機(jī)獲得2.33的加速比,這個(gè)值比文獻(xiàn)19,20中的要高,比12中的略低。由于加速比與問題的規(guī)模有關(guān),所以我們認(rèn)為這里實(shí)現(xiàn)的加速比和公開報(bào)道的基于消息傳遞的同類算法所獲得的加速比可比。3 前面提到,JIAJIA系統(tǒng)能提供大內(nèi)存,這對(duì)大規(guī)模問題的解決無疑是很有益處的。表中大規(guī)模的問題需要高達(dá)660MB的內(nèi)存,在曙光的單機(jī)(只有256MB的主存)上已經(jīng)無法運(yùn)行。所以對(duì)這個(gè)問題我們以4機(jī)為基準(zhǔn)衡量8機(jī)的性能。發(fā)現(xiàn)獲得的加速比是超線性的(按理處理器個(gè)數(shù)增加一倍時(shí),加速比理想的應(yīng)為2)。導(dǎo)致這種情況的原因歸于這個(gè)規(guī)模的問題需要的內(nèi)存太大。當(dāng)用4個(gè)處理器時(shí),每個(gè)處理器上分配了約220MB的存儲(chǔ)

29、量,占用了該機(jī)85.9%的內(nèi)存,因此在計(jì)算過程中出現(xiàn)內(nèi)存與磁盤之間不斷進(jìn)行數(shù)據(jù)交換,從而影響了性能。而用8個(gè)處理器時(shí),每個(gè)處理機(jī)的存儲(chǔ)空間只占了42.9%,所以性能就大為提高了。4 比較表2和表3,可見比例加速比更易于被接受。我們所獲得的比例加速比與12在PVM上獲得的結(jié)果是可比的。這反映了軟件式共享存儲(chǔ)系統(tǒng)在性能上與消息傳遞的模式也是可比的。由于軟件式共享存儲(chǔ)系統(tǒng)編程容易,所以非常值得推廣。5.結(jié)論并行計(jì)算是計(jì)算電磁學(xué)發(fā)展的重要趨勢(shì),是解決實(shí)際微波結(jié)構(gòu)的重要途徑。在新的虛擬共享存儲(chǔ)系統(tǒng)JIAJIA上可以非常方便的實(shí)現(xiàn)原來串行程序的并行化,并可以獲得很好的性能。因此在工作站集群系統(tǒng)上利用軟件支

30、持共享存儲(chǔ)的編程界面是十分可行的一個(gè)方向。參考文獻(xiàn)1. Taflove, K. Umashankar, "Review of FDTD numerical modeling of electromagnetic wave scattering and radar cross section," Prod. IEEE, Vol. 77, pp. 682-699, May 1989.2. 王長(zhǎng)清,祝西里,電磁場(chǎng)計(jì)算中的時(shí)域有限差分法,北京:北京大學(xué)出版社,19943. 高本慶,時(shí)域有限差分法,北京:國(guó)防工業(yè)出版社,1995。4. E. K. Miller, "Solv

31、ing bigger problems by decreasing the operation count and increasing the computation bandwidth," Proc. of IEEE Special Issue of Electromagnetics, Vol. 79, pp.1493-1504, Oct. 1991.5. Zhiqiang Bi, Ying Shen, Keli Wu, John Litva, "Fast finite-difference time domain analysis of resonators usin

32、g digital filtering and spectrum estimation techniques," IEEE Trans. Microwave Theory Tech., Vol. 39, 40. 1611-1619, Aug. 1992.6. J. A. Pereda, L. A. Vielva, A. Vegas and A. Prieto, “Computation of resonant frequencies and quality factors of open dielectric resonators by a combination of the FD

33、TD and Pronys method”, IEEE Microwave Guided Wave Lett., vol. 2, pp. 431-433, Nov. 1992.7. Jan Ritter, Fritz Arndt, “Efficient FDTD/Matrix-Pencil method for the full-wave scattering parameter analysis of waveguiding structures,” IEEE Trans. Microwave Theory Tech., vol. 44, Z. M. Liu, Ananda S. Mohan

34、, et al, "Techniques for implementation of the FDTD method on a CM-5 parallel computer," IEEE Antennas and Propag. Magazine, Vol. 37, pp. 64-71, Oct. 1995.8. Z. M. Liu, Ananda S. Mohan, et al, "Techniques for implementation of the FDTD method on a CM-5 parallel computer," IEEE An

35、tennas and Propag. Magazine, Vol. 37, pp. 64-71, Oct. 1995.9. A. Fijany, M. A. Jensen, Y. Rahmart-Samii, J. barhen, "A massively parallel computation strategy for FDTD: time and space parallelism applied to electromagnetic problems," IEEE Trans. on Antenna and Propag. Vol. 43, pp. 1441-144

36、9, Dec. 1995.10. S. Gedney, "Finite-difference Time-domain analysis of microwave circuit devices on high performance vector/parallel computers," IEEE Trans. on Microwave Theory Tech., Vol. 43, pp. 1441-1449, Oct. 1995.11. W. J. Buchanan, N. K. Gupta, "A novel prallel processing synchronization method for observing electric fields in and around PCBs," Int. J. Electronics, Vol. 82, pp.61-76, No. 1 1997.12. V. Varadarajan, R. Mittra, "Finite-difference time-domain analysis using distributed computing," IEEE Microwave Guided Wave Letters, Vol. 4, pp. 144-145, May 1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論