版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
《并行程序設(shè)計(jì)》實(shí)驗(yàn)指導(dǎo)書(shū)之一實(shí)驗(yàn)1.1使用intel編譯器生成優(yōu)質(zhì)代碼實(shí)驗(yàn)?zāi)康?.掌握六步驟的優(yōu)化過(guò)程;2.掌握利用編譯器選項(xiàng)來(lái)優(yōu)化代碼;3.掌握針對(duì)不同CPU使用自動(dòng)向量化進(jìn)行性能調(diào)優(yōu);實(shí)驗(yàn)要求1.熟練掌握C語(yǔ)言;。2、熟練掌握Intel編譯器的使用;3、熟練掌握nmake程序管理工具。實(shí)驗(yàn)內(nèi)容實(shí)驗(yàn)步驟:步驟一:不使用優(yōu)化技術(shù)構(gòu)建應(yīng)用程序1.如果測(cè)試的計(jì)算機(jī)支持TurboBoost或Hyper-Threading技術(shù),最好先關(guān)閉它們,否則CPU時(shí)鐘頻率會(huì)動(dòng)態(tài)調(diào)整。在bios里關(guān)閉:重啟計(jì)算機(jī),開(kāi)機(jī)時(shí)按F2進(jìn)入BIOS設(shè)置頁(yè)面,在advanced里找到cpu電源設(shè)置或speedup設(shè)置,如果沒(méi)有,說(shuō)明計(jì)算機(jī)不支持TurboBoost及Hyper-Threading,那就不需要修改。2.在所有程序->IntelParallelStudioXE2015中,打開(kāi)Intel編譯器的命令行提示符窗口。3.新建一個(gè)文件夾,將code1.1文件夾中的代碼拷貝進(jìn)去。4.用Intel編譯器構(gòu)建intel.noopt.exe應(yīng)用程序(先清理,再編譯):nmakecleannmakeTARGET=intel.nooptCFLAGS=/Od5.運(yùn)行intel.noopt.exe程序并且記錄執(zhí)行結(jié)果,選取最短時(shí)間作為結(jié)果進(jìn)行記錄。步驟二:使用通用優(yōu)化1.參考上述命令,用Intel編譯器構(gòu)建應(yīng)用程序(提示:通用優(yōu)化的CFLAGS選項(xiàng)是"/O1")2.執(zhí)行intel.01.exe應(yīng)用程序并記錄運(yùn)行結(jié)果3.用/O2、/O3、/Ox選項(xiàng)重復(fù)1、2步步驟三:使用處理器相關(guān)的優(yōu)化在這個(gè)步驟中使用自動(dòng)向量化選項(xiàng)來(lái)構(gòu)建樣例應(yīng)用程序。1.不使用選項(xiàng),構(gòu)建和運(yùn)行應(yīng)用程序,這時(shí)的結(jié)果和步驟二一樣。增加Qvec-到CFLAGS選項(xiàng)中以關(guān)閉自動(dòng)向量化4.(可選)通過(guò)產(chǎn)生向量化報(bào)告來(lái)查看向量化的差異(CFLAGS為"/Qvec-report:2")增強(qiáng)自動(dòng)向量化選項(xiàng)5.使用各種/Qx選項(xiàng)(SSE、SSE3、SSSE3、SSE4.1、SSE4.2、及AVX),nmakecleannmakeCFLAGS="-/QxSSE2"target="intel.SSE2"產(chǎn)生可移植的應(yīng)用,并記錄實(shí)驗(yàn)結(jié)果。6.使用QaxAVX選項(xiàng)重新構(gòu)建應(yīng)用程序nmakecleannmakeCFLAGS="-/QaxAVX"target="intel.axAVX"7.運(yùn)行程序,即使所用的CPU不支持AVX,程序也能正常運(yùn)行,記錄實(shí)驗(yàn)結(jié)果。步驟四:增加過(guò)程間優(yōu)化過(guò)程間優(yōu)化(InterproceduralOptimization,IPO)完成對(duì)應(yīng)用程序的靜態(tài)的拓?fù)浞治觥J褂?Qip選項(xiàng)將使得分析工作限于同一個(gè)源代碼內(nèi)部,使用/Qipo選項(xiàng)則會(huì)在命令行列出的所有源代碼中展開(kāi)分析。IPO分析整個(gè)程序,對(duì)于包含許多頻繁調(diào)用的中小型函數(shù)的程序特別有效。IPO消除或減少重復(fù)的計(jì)算、低效的內(nèi)存使用、簡(jiǎn)化循環(huán)。也開(kāi)展其他優(yōu)化,例如別名分析、死函數(shù)的消除、無(wú)用變量的消除、內(nèi)聯(lián)函數(shù)。IPO能重新編排函數(shù)以獲得更好的內(nèi)存布局和局部性。 過(guò)程間優(yōu)化1.使用/Qipo選項(xiàng)來(lái)構(gòu)建和運(yùn)行應(yīng)用程序:2.記錄運(yùn)行時(shí)間3.重復(fù)1、2步,添加使用的平臺(tái)上最高級(jí)別的自動(dòng)向量化(SSE2、SSE3、SSSE3、SSE4.1、SSE4.2和AVX),記錄運(yùn)行時(shí)間步驟五:性能測(cè)評(píng)指導(dǎo)的優(yōu)化到目前為止,前面的所有優(yōu)化都是靜態(tài)的,即分析了代碼但是沒(méi)有運(yùn)行它們。性能測(cè)評(píng)指導(dǎo)的優(yōu)化PGO(Profile-GuidedOptimization)使用動(dòng)態(tài)的方法。用典型數(shù)據(jù)來(lái)運(yùn)行未經(jīng)優(yōu)化的代碼一次或多次,每次都收集性能測(cè)評(píng)的信息。這些測(cè)評(píng)的信息接著被用于優(yōu)化以產(chǎn)生最終可執(zhí)行文件。 使用PGO的3個(gè)步驟打開(kāi)PGO功能nmakereallycleannmakeCFLAGS="/Qprof-gen"TARGET="intel.pgo.gen"執(zhí)行intel.pgo.gen.exe程序,記錄實(shí)驗(yàn)結(jié)果在所運(yùn)行的程序的目錄下查看,應(yīng)當(dāng)能看到剛創(chuàng)建的.dyn文件重新構(gòu)建應(yīng)用程序,告訴編譯器需要使用剛才產(chǎn)生的動(dòng)態(tài)信息:nmakecleannmakeCFLAGS="/Qprof-use"TARGET="intel.pgo"4.運(yùn)行intel.gpo.exe,記錄實(shí)驗(yàn)結(jié)果,對(duì)比一下性能步驟六:自動(dòng)向量化的調(diào)優(yōu)編譯code1.2中的test.cpp程序,要求自動(dòng)向量化器產(chǎn)生報(bào)告:icl/ctest.cpp/Qvec-report2/c查看項(xiàng)目目錄下的.optrpt文件,找到循環(huán)沒(méi)有向量化的提示信息。使用GAP,看看能不能提供一些其他有用的建議。icl/ctest.cpp/Qguide/c根據(jù)GAP建議,用命令行選項(xiàng)/Qno-alias-args選項(xiàng)來(lái)幫助編譯器成功實(shí)現(xiàn)向量化,可以看到這樣做之后就沒(méi)有建議消息了。編譯代碼,要求產(chǎn)生報(bào)告icl/ctest.cpp/Qvec-report:2/Qno-alias-args查看項(xiàng)目目錄下的.optrpt文件,有"REMAINDERLOOPWASVECTORIZED"的提示信息,這樣就有了向量化的循環(huán)!編譯運(yùn)行conde1.2下的所有代碼,并對(duì)比向量化與未向量化的性能icl/offf.exemain.cpptest.cpp/Qvec-report:2icl/offf.exemain.cpptest.cpp/Qvec-report:2/Qno-alias-args實(shí)驗(yàn)1.2ParallelStudioXE快速上手實(shí)驗(yàn)?zāi)康?.學(xué)習(xí)增加并行性的三步驟;2.使用CilkPlus來(lái)增加并行性;3.使用OpenMP來(lái)增加并行性實(shí)驗(yàn)要求1.能編寫(xiě)普通C語(yǔ)言串行程序;2、對(duì)CilpPlus和OpenMP有初步了解;實(shí)驗(yàn)原理用IntelParallelStudio的不同的核心組件來(lái)實(shí)現(xiàn)并行化:利用IntelVTuneAmplifierXE性能測(cè)評(píng)工具來(lái)識(shí)別串行程序的熱點(diǎn)代碼,以及分析并行程序中的同步、效率和負(fù)載平衡;利用ComposerXE創(chuàng)建新的并行化應(yīng)用,然后用IntelInspectorXE2015來(lái)發(fā)現(xiàn)線程和內(nèi)存錯(cuò)誤;最后返回到AmplifierXE工具,檢查線程并發(fā)性,如果需要再進(jìn)行細(xì)節(jié)上的調(diào)優(yōu)。三步驟方法如圖所示:分析串行代碼中可并行化的部分,這可能是最重要的一個(gè)步驟,此處所做的決定將影響最后并行化后的程序;利用所選中的并行模型的語(yǔ)法構(gòu)造來(lái)實(shí)現(xiàn)并行性調(diào)試及檢查是否引入了并行類型的錯(cuò)誤。程序是否能夠正確運(yùn)行?是否有線程或內(nèi)存錯(cuò)誤?并不是所有串行程序都適合并行化。并行化自身將引入時(shí)間開(kāi)銷。在實(shí)施并行化之前,先將串行程序編譯好并運(yùn)行一遍,這樣可以得到該應(yīng)用程序的一個(gè)基準(zhǔn),也可以知道輸出的結(jié)果是什么樣子,在并行化之后,需要檢查程序的輸出和串行版本一致。code2中的代碼將兩個(gè)循環(huán)結(jié)合到一起:外層循環(huán)和內(nèi)層的“工作循環(huán)”。外層循環(huán)執(zhí)行若干次內(nèi)部的被計(jì)時(shí)的內(nèi)層循環(huán),用于體現(xiàn)因計(jì)算機(jī)運(yùn)行的其他后臺(tái)程序而引起的時(shí)間變化,內(nèi)層工作循環(huán)運(yùn)行所花費(fèi)的時(shí)間被記錄下來(lái)并形成報(bào)告。工作循環(huán)本身迭代運(yùn)行多次,每一次循環(huán)迭代內(nèi)部嵌套兩個(gè)更深層的循環(huán)—用于計(jì)算一個(gè)數(shù)列的求和。兩個(gè)數(shù)列的項(xiàng)數(shù)由內(nèi)層的工作循環(huán)計(jì)數(shù)值決定。然后每個(gè)數(shù)列和的平方根的倒數(shù)累加到一個(gè)總和,這個(gè)總和在工作循環(huán)的結(jié)尾處輸出出來(lái)。這將阻止編譯器將這些變量?jī)?yōu)化掉。在每一個(gè)工作循環(huán)結(jié)束處的輸出將顯示工作循環(huán)完成的迭代次數(shù)、執(zhí)行所需花的時(shí)間。實(shí)驗(yàn)內(nèi)容:使用CilkPlus串行版本:在MicrosoftVisualStudio中創(chuàng)建項(xiàng)目:(1)在MicrosoftVisualStudio創(chuàng)建一個(gè)新項(xiàng)目,它是一個(gè)空白的控制臺(tái)應(yīng)用程序項(xiàng)目,不帶有任何預(yù)編譯的頭文件。添加一個(gè)新的C++源代碼文件(如果使用.c文件,后面會(huì)報(bào)錯(cuò))并且將code2中串行版本的代碼粘貼到里面。(2)在屏幕頂端的下拉框中選擇項(xiàng)目的發(fā)行版Release(3)添加相應(yīng)的庫(kù)以便可以使用timeGetTime()函數(shù)。選擇Project->Properties菜單,然后添加名為winmm.lib的庫(kù)到LinkerInput目錄中的AdditionalDependencies域(4)選擇Project->Properties菜單并保證優(yōu)化選項(xiàng)設(shè)置成MaximumSpeed(5)使用Microsoft編譯器,在VisualStudio中按下Ctrl+F5鍵來(lái)啟動(dòng)應(yīng)用程序。切換為使用Intel編譯器:選擇Project->IntelCompiler->UseIntelC++將彈出一個(gè)窗口詢問(wèn)是否將你的項(xiàng)目按照使用IntelC++編譯器的方式重新配置。單擊OK按鈕,只需要檢查項(xiàng)目的屬性保持不變即可。使用Ctrl+F5創(chuàng)建和運(yùn)行程序,可以與前面的結(jié)果相比較三步驟增加并行性:步驟1:分析串行程序本步驟的目的是找到最適合給程序增加并行性的地方。用IntelParallelAmplifierXE進(jìn)行熱點(diǎn)分析,由于AmplifierXE使得程序的運(yùn)行明顯變慢,所以應(yīng)用程序要用小的數(shù)據(jù)量來(lái)執(zhí)行,減少循環(huán)次數(shù)來(lái)減少運(yùn)行時(shí)間。將代碼中的外層循環(huán)縮減到1,重新構(gòu)建項(xiàng)目(Ctrl+F5)從AmplifierXE部分的工具欄上選擇NewAnalysis選擇所分析的熱點(diǎn)的類型,熱點(diǎn)分析將查找消耗CPU活動(dòng)最多的代碼。單擊Start按鈕,Amplifier將在程序上執(zhí)行熱點(diǎn)分析。進(jìn)入Bottom-up視圖,點(diǎn)擊main(),再雙擊main()函數(shù),就可以查看熱點(diǎn)的源代碼,相關(guān)熱點(diǎn)用一個(gè)條狀圖表示,該條的長(zhǎng)度正比于各代碼行所花費(fèi)的時(shí)間。步驟2:用CilkPlus實(shí)現(xiàn)并行性在識(shí)別出熱點(diǎn)代碼之后,下一步就是通過(guò)將熱點(diǎn)包含到并行域中來(lái)實(shí)現(xiàn)代碼的并行化。在程序的開(kāi)頭加入頭文件:#include<cilk/cilk.h>通過(guò)加入cilk_for來(lái)將C++的for循環(huán)替換成cilk_for循環(huán)。需要注意的是,循環(huán)計(jì)數(shù)器必須在循環(huán)控制內(nèi)進(jìn)行聲明。cilk_for(intj=0;j<VERYBIG;j++)修改輸出信息:printf("CilkPlusParallelTimingsfor%diterations\n\n",VERYBIG);將VERYBIG設(shè)置成10000、外層循環(huán)恢復(fù)到6,用Release發(fā)行版本重構(gòu)應(yīng)用程序。觀看實(shí)驗(yàn)結(jié)果,發(fā)現(xiàn)并行版本要慢,甚至可能慢很多,這是因?yàn)橐肓瞬⑿行缘耐瑫r(shí)引入了并發(fā)執(zhí)行問(wèn)題。步驟3:調(diào)試及錯(cuò)誤檢查本步驟的目的是檢查程序中是否有并行類型的錯(cuò)誤,例如死鎖和數(shù)據(jù)競(jìng)爭(zhēng)(會(huì)令程序運(yùn)行變慢)。這些錯(cuò)誤是由于多個(gè)線程并發(fā)地讀寫(xiě)相同的數(shù)據(jù)變量引起的。將配置改成debug版本,但先不要重新構(gòu)建應(yīng)用程序;Inspector的運(yùn)行很慢,直接運(yùn)行將耗費(fèi)太多時(shí)間,由于只是進(jìn)行分析,所以將VERYBIG設(shè)置成1000,同時(shí)將外部循環(huán)設(shè)置成1;同之前的一樣,添加winmm.lib,并設(shè)置成不使用優(yōu)化;(注意在屬性設(shè)置時(shí)也要選擇debug模式進(jìn)行設(shè)置,否則修改仍然在release上進(jìn)行);重新構(gòu)建應(yīng)用程序;啟動(dòng)InspectorXE,選擇NewAnalysis在左側(cè)下拉框中選擇ThreadingErrorAnalysis,右側(cè)選擇LocateDeadlocksandDataRaces單擊Start按鈕。Inspector開(kāi)始運(yùn)行程序,同時(shí)執(zhí)行分析。Inspector被設(shè)置成發(fā)現(xiàn)死鎖和數(shù)據(jù)競(jìng)爭(zhēng),記錄下實(shí)驗(yàn)結(jié)果,如果沒(méi)有發(fā)現(xiàn)錯(cuò)誤,則重復(fù)分析幾次,直至看到錯(cuò)誤。8.雙擊問(wèn)題可以顯示和它相關(guān)的代碼,從代碼中獲知哪些變量有問(wèn)題,哪些沒(méi)有問(wèn)題,并且分析問(wèn)題出現(xiàn)的原因,對(duì)程序進(jìn)行修改,9.通過(guò)添加CilkPlus歸約器進(jìn)行修改,CilkPlus的歸約器用于滿足并行代碼中使用共享變量的要求??梢哉f(shuō)歸約器是一個(gè)共享變量,然而在運(yùn)行時(shí)各個(gè)線程訪問(wèn)改變量的各自私有拷貝(或視圖),并只對(duì)該私有拷貝進(jìn)行操作。當(dāng)并行域結(jié)束時(shí),該變量各自的最終視圖異步地匯總到單個(gè)共享變量中,這就在不使用耗時(shí)的鎖的情況下,避免了數(shù)據(jù)競(jìng)爭(zhēng)出現(xiàn)。(1)增加額外的頭文件聲明:#include<cilk/reducer_opadd.h>(2)在程序的開(kāi)頭刪除sum和total變量的聲明(3)用CilkPlus的歸約器重新聲明sum和total。歸約器默認(rèn)將變量清零,但是最好設(shè)置初值。cilk::reducer_opadd<longint>sum(0);cilk::reducer_opadd<double>total(0.0);將這兩行添加到外部循環(huán),替換以下語(yǔ)句:sum=0;total=0.0;這將保證對(duì)每一次外部循環(huán),sum和total都被復(fù)位為0.(4)修改printf語(yǔ)句,使用歸約器的get_value()函數(shù),它將給出歸約器變量的歸約匯總后的值。printf("TimeElapsed%10dmSecsTotal=%lfCheckSum=%ld\n",(int)elapsedtime,tot
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度廢紙回收與環(huán)保再生資源開(kāi)發(fā)合同
- 2025年度城市公園綠地工程補(bǔ)充協(xié)議書(shū)3篇
- 2025年度合伙酒吧產(chǎn)品研發(fā)與創(chuàng)新合作協(xié)議2篇
- 2025年度大學(xué)生實(shí)習(xí)期間企業(yè)導(dǎo)師指導(dǎo)服務(wù)合同3篇
- 2025年度大學(xué)生就業(yè)實(shí)習(xí)保險(xiǎn)三方合作協(xié)議3篇
- 2025年度房地產(chǎn)項(xiàng)目開(kāi)發(fā)框架合作協(xié)議書(shū)2篇
- 2025年度廠房租賃安全與設(shè)施設(shè)備檢修協(xié)議書(shū)2篇
- 2025年度夫妻雙方婚內(nèi)財(cái)產(chǎn)管理與行為規(guī)范協(xié)議2篇
- 2025年度服裝行業(yè)廣告投放推廣合同
- 2025年度定制化展廳設(shè)計(jì)施工及后期維護(hù)服務(wù)合同3篇
- 2023-2024學(xué)年福建省福州市小學(xué)語(yǔ)文 2023-2024學(xué)年六年級(jí)語(yǔ)文期末試卷期末評(píng)估試卷
- GB/T 22544-2008蛋雞復(fù)合預(yù)混合飼料
- GB/T 12224-2015鋼制閥門(mén)一般要求
- 拒絕毒品珍愛(ài)生命
- GCP-試題含答案及答案2020版
- 特殊焊接作業(yè) 安全要求
- 內(nèi)鏡下鈦夾止血治療課件
- 小學(xué)生血液知識(shí)講座課件
- 變壓器安裝施工工藝-課件
- 一年級(jí)語(yǔ)文上冊(cè)新教材教法講座培訓(xùn)課件
- 保護(hù)投退申請(qǐng)單、登記簿1
評(píng)論
0/150
提交評(píng)論