版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
為了發(fā)揮FPGA硬件實(shí)現(xiàn)的速度優(yōu)勢(shì)算法進(jìn)行優(yōu)化是必須要做的“NoPP,NoWAY”這是個(gè)眼見為實(shí)的世界,這是個(gè)視覺構(gòu)成的信息洪流的世界。大腦處理視覺內(nèi)容的速度比文字內(nèi)容快6萬(wàn)倍,而隨著智能手機(jī)的普及,圖片、視頻的產(chǎn)生和分享已經(jīng)是人們?cè)谏缃黄脚_(tái)上的基本交流方式。用戶通過(guò)手機(jī)、平板、電腦上傳和分享自己的圖片,而且這個(gè)趨勢(shì)是每年都在增長(zhǎng)(參見圖1)。圖1.2016年KPCB統(tǒng)計(jì)報(bào)告
每天QQ相冊(cè)、微信朋友圈上,用戶上傳的圖片數(shù)量有上億張,這些圖片被后臺(tái)服務(wù)器存儲(chǔ)下來(lái),再通過(guò)網(wǎng)絡(luò)分發(fā)出去。如果每張圖片可以進(jìn)行壓縮,使得圖片存儲(chǔ)和傳輸分發(fā)的數(shù)據(jù)量越少,既節(jié)省了用戶帶寬,也提高了用戶下載圖片的速度,用戶體驗(yàn)更好。那么圖片是可以進(jìn)行壓縮的么?1948年,信息論學(xué)說(shuō)的奠基人香農(nóng)曾經(jīng)論證:不論是語(yǔ)音或者圖片,由于其信號(hào)中包含很多的冗余信息,所以可以對(duì)其進(jìn)行壓縮。圖像壓縮算法有:JPEG、WEBP、H264(幀內(nèi)壓縮)、HEVC(幀內(nèi)壓縮),壓縮能力是:JPEG《WEBP/H264(幀內(nèi)壓縮)《HEVC(幀內(nèi)壓縮),這個(gè)壓縮能力是通過(guò)計(jì)算復(fù)雜度的提高來(lái)實(shí)現(xiàn),其中WEBP、HEVC的計(jì)算復(fù)雜度是JPEG壓縮的10倍以上。目前在社交平臺(tái)上用戶上傳的大量圖片是JPEG格式,通過(guò)后臺(tái)服務(wù)器用更加復(fù)雜的算法如WEBP、HEVC(幀內(nèi)壓縮),進(jìn)一步壓縮以節(jié)省存儲(chǔ)和帶寬,所以對(duì)圖像的壓縮,從本質(zhì)上是通過(guò)提高計(jì)算算力來(lái)降低存儲(chǔ)和帶寬。同時(shí)更加復(fù)雜的算法也帶來(lái)計(jì)算算力的大量消耗和處理延時(shí)的增加。從業(yè)務(wù)角度來(lái)看,對(duì)于離線業(yè)務(wù),可以通過(guò)業(yè)務(wù)在波峰和波谷之間閑置的計(jì)算算力進(jìn)行圖片轉(zhuǎn)碼處理;但對(duì)于在線業(yè)務(wù),圖片轉(zhuǎn)碼處理對(duì)于處理延時(shí)的要求就會(huì)有較高要求,為了滿足處理延時(shí)的要求,有時(shí)候會(huì)先進(jìn)行圖片轉(zhuǎn)碼處理,把轉(zhuǎn)碼好的圖片存儲(chǔ)下來(lái),當(dāng)用戶需要的時(shí)候直接傳輸,這樣通過(guò)消耗存儲(chǔ)資源為代價(jià)來(lái)解決處理延時(shí)的要求。但是這又帶來(lái)一個(gè)新問(wèn)題,用戶查看圖片的智能終端屏幕大小不一,如果都傳同樣大小的圖片,顯然不是最優(yōu)。最優(yōu)處理方法還是能夠通過(guò)計(jì)算算力,實(shí)時(shí)進(jìn)行圖片轉(zhuǎn)碼處理。在數(shù)據(jù)中心里面,計(jì)算算力通常由x86CPU來(lái)提供,以前的x86CPU性能每18個(gè)月就能翻倍(眾所周知的“摩爾定律”),但目前工業(yè)界的發(fā)展方向是摩爾定律已經(jīng)走到終點(diǎn)。例如,2016年3月24日,英特爾宣布正式停用“工藝年-架構(gòu)年(Tick-Tock)”處理器研發(fā)模式,未來(lái)研發(fā)周期將從兩年周期向三年期轉(zhuǎn)變。而國(guó)際半導(dǎo)體技術(shù)發(fā)展路線圖(InternationalTechnologyRoadmapforSemiconductors,簡(jiǎn)寫ITRS)在維持了數(shù)十年,每?jī)赡旮乱淮危瑸槿澜绨雽?dǎo)體行業(yè)提供建議和規(guī)劃指南,也在2016年宣布不再做進(jìn)一步的更新。一方面處理器性能再無(wú)法按照摩爾定律進(jìn)行增長(zhǎng),另一方面數(shù)據(jù)增長(zhǎng)對(duì)計(jì)算性能要求超過(guò)了按“摩爾定律”增長(zhǎng)的速度。處理器本身無(wú)法滿足高性能計(jì)算(HPC:HighPerformanceCompute)應(yīng)用軟件的性能需求,導(dǎo)致需求和性能之間出現(xiàn)了缺口(參見圖2)。圖2.計(jì)算需求和計(jì)算能力的缺口發(fā)展形式圖像處理解決方案圖片服務(wù)支持的能力豐富多樣,基礎(chǔ)功能包括多種縮略剪裁方式、文字圖片水印、格式轉(zhuǎn)換、斷點(diǎn)續(xù)傳、鏡像存儲(chǔ)、防盜鏈等。我們結(jié)合當(dāng)前圖文時(shí)代的用戶需求,提供圖片的上傳、存儲(chǔ)、處理、分發(fā)的全方位一體化的解決方案。目前,互聯(lián)網(wǎng)圖片服務(wù)的解決方案中落地存儲(chǔ)和下載大部分圖片格式還是JPEG/WEBP,但隨著新的編碼標(biāo)準(zhǔn)HEVC的出現(xiàn),在同等圖像質(zhì)量下,HEVC的壓縮效率會(huì)比JPEG/WEBP好30%~70%,可以節(jié)省大量的存儲(chǔ)和帶寬,但是HEVC的算法復(fù)雜度高導(dǎo)致CPU的編碼延遲和吞吐在線上環(huán)境中無(wú)法滿足,因此,我們開發(fā)了基于FPGA的新的解決方案。FPGA圖像處理方案可以很好的解決線上環(huán)境的需求,當(dāng)然,F(xiàn)PGA圖像處理解決方案也兼容當(dāng)前用戶線上系統(tǒng)的WEBP等其他圖像轉(zhuǎn)碼格式,可以很好的適應(yīng)不同用戶的需求,提供低延遲,高吞吐,低成本的解決方案。我們以HEVCFPGA圖像處理為例,來(lái)說(shuō)明在互聯(lián)網(wǎng)業(yè)務(wù)中圖片上傳,存儲(chǔ),處理和下載的架構(gòu)。圖3.HEVCFPGA圖片上傳存儲(chǔ),處理,下載解決方案如圖3所示,圖片HEVCFPGA轉(zhuǎn)碼的部署主要是落地存儲(chǔ)前以及下載前的轉(zhuǎn)碼服務(wù)器,使用FPGA做轉(zhuǎn)碼主要有以下優(yōu)勢(shì):FPGA轉(zhuǎn)碼落地存儲(chǔ)HEVC,可有效節(jié)省存儲(chǔ)成本。1.FPGA轉(zhuǎn)碼服務(wù)器和CPU轉(zhuǎn)碼相比可以降低服務(wù)器成本。FPGA轉(zhuǎn)碼HEVC圖片和CPU相比吞吐量可以大大提高。在下載時(shí)實(shí)時(shí)生成HEVC圖片,使用FPGA進(jìn)行圖片轉(zhuǎn)碼加速,會(huì)大大降低轉(zhuǎn)碼延遲,提高用戶體驗(yàn)。圖像編碼算法分析在圖像和視頻編解碼算法中,各個(gè)模塊都是基于像素級(jí)運(yùn)算或者基于塊操作,而且針對(duì)各個(gè)像素或者圖像塊的操作是相同和重復(fù)的。早期的圖片壓縮標(biāo)準(zhǔn)JPEG和JPEG200,原始圖像首先經(jīng)過(guò)基于塊的DCT變換或者小波變換,變換后的系數(shù)經(jīng)過(guò)量化后再進(jìn)行熵編碼(包括Huffman編碼或者自適應(yīng)算術(shù)編碼),進(jìn)而輸出壓縮后的碼流信息。在解碼端,通過(guò)反向操作,可將碼流信息進(jìn)行解碼。在JPEG2000中,DCT變換被小波變換替代,可以更好的消除圖像塊內(nèi)的冗余性,而且量化后的系統(tǒng)按照比特位平面進(jìn)行自適應(yīng)算術(shù)編碼,可以達(dá)到更好的壓縮性能。除了JPEG這類對(duì)原始圖像直接變換的方法,還有一種是基于塊預(yù)測(cè)的方法。也就是對(duì)一個(gè)圖像塊先進(jìn)行預(yù)測(cè),原始圖像塊和預(yù)測(cè)塊的殘差再進(jìn)行變換,量化和編碼。比較典型標(biāo)準(zhǔn)就是從H.264的幀內(nèi)預(yù)測(cè)發(fā)展而來(lái)的WebP。隨著新一代視頻編碼標(biāo)準(zhǔn)HEVC/H.265的推出,其幀內(nèi)編碼的壓縮性能,較上一代標(biāo)準(zhǔn)提升接近一倍[2]。因此,將HEVC的幀內(nèi)編碼用于圖像壓縮也成為一種趨勢(shì)。HEVC的幀內(nèi)編碼過(guò)程如圖4所示。圖4.HEVC幀內(nèi)編碼的過(guò)程在HEVC中,塊劃分的方式是基于非完全四叉樹結(jié)構(gòu),這更適用于不同的圖像場(chǎng)景。每一個(gè)最終確定大小的塊只需要一個(gè)獨(dú)立的預(yù)測(cè)模式。圖5是HEVC圖片編碼中塊劃分和預(yù)測(cè)模式的一個(gè)例子??梢钥闯霎?dāng)一個(gè)塊可以通過(guò)單獨(dú)的某一個(gè)角度進(jìn)行預(yù)測(cè)的時(shí)候,則不需要?jiǎng)澐譃楦〉膲K。而場(chǎng)景信息較為復(fù)雜區(qū)域則需要?jiǎng)澐譃檩^小的塊。編碼器的一項(xiàng)重要任務(wù),就是尋找最佳的塊劃分方式和最優(yōu)的預(yù)測(cè)角度。圖5.HEVC圖片編碼塊劃分及預(yù)測(cè)模式圖6(a)就是根據(jù)最終的塊劃分方式和預(yù)測(cè)模式得到的預(yù)測(cè)圖片。預(yù)測(cè)圖片和原始圖片的差值(殘差)通過(guò)DCT變換,量化之后,最終通過(guò)熵編碼器輸出。圖片預(yù)測(cè)的殘差如圖6(b)所示。在解碼器中,根據(jù)得到的殘差數(shù)據(jù),并進(jìn)行和編碼器相同的預(yù)測(cè),可以得到最終的重構(gòu)圖片,圖6(c)所示的就是重構(gòu)數(shù)據(jù)。由于編碼過(guò)程需要用到重構(gòu)數(shù)據(jù)作為參考數(shù)據(jù),因此在編碼器也需要進(jìn)行重構(gòu)的過(guò)程。原始圖片如圖6(d)所示,可以看出,重構(gòu)的圖片和原始圖片損失非常小。圖6.HEVC圖片編碼過(guò)程中的預(yù)測(cè),殘差,重構(gòu)以及原始數(shù)據(jù)在HEVC的幀內(nèi)編碼中,由于要進(jìn)行最佳編碼模式的搜索,造成編碼器的計(jì)算復(fù)雜度高。傳統(tǒng)的CPU無(wú)法達(dá)到理想的吞吐量。現(xiàn)在的GPU雖然也大量應(yīng)用的圖片和視頻領(lǐng)域,然而GPU的并行化更適用的是各個(gè)像素點(diǎn)進(jìn)行相同操作,完成之后再進(jìn)行下一步的并行化操作。這并不利于HEVC圖片編碼各個(gè)模塊控制較為復(fù)雜的情況。在Nvidia的GPU中,圖片和視頻編解碼也采用的專用的芯片來(lái)處理。而FPGA可以實(shí)現(xiàn)各個(gè)不同的模塊的流水化運(yùn)算,實(shí)現(xiàn)時(shí)間上的并行。同時(shí),由于只是進(jìn)行幀內(nèi)編碼,不同圖像之間是相互獨(dú)立的,在FPGA中也可以設(shè)計(jì)多路的編碼器,對(duì)不同的圖片進(jìn)行并行的編碼壓縮。當(dāng)然,對(duì)于基于塊預(yù)測(cè)的圖像編碼方法,也存在一些限制FPGA并行化實(shí)現(xiàn)因素。但是,這些受到限制的部分,也可以通過(guò)FPGA設(shè)計(jì)的特點(diǎn)來(lái)解決。例如,如圖4所示,幀內(nèi)預(yù)測(cè)的參考點(diǎn)需要通過(guò)重構(gòu)的方法得到,這就增加了不同塊之間的依賴性,限制了塊之間的并行化,和流水化設(shè)計(jì)。在實(shí)際的FPGA設(shè)計(jì)中,可以在進(jìn)行預(yù)測(cè)模式初選時(shí),用原始數(shù)據(jù)替代重構(gòu)數(shù)據(jù)作為參考,而在最終編碼時(shí)用重構(gòu)數(shù)據(jù)在作為參考數(shù)據(jù)。在FPGA的實(shí)現(xiàn)過(guò)程中,也可以更改掃描順序,優(yōu)先處理那些有依賴關(guān)系的像素點(diǎn)。此外,在自適應(yīng)熵編碼部分,由于存在更新碼表和更新概率估計(jì)的過(guò)程,部分比特?cái)?shù)據(jù)進(jìn)行熵編碼時(shí),也存在依賴關(guān)系。在實(shí)際的FPGA設(shè)計(jì)過(guò)程中,可以通過(guò)將這些需要進(jìn)行編碼的數(shù)據(jù)進(jìn)行分組,將沒(méi)有依賴關(guān)系的數(shù)據(jù)分為一組,同時(shí),通過(guò)數(shù)據(jù)緩存,可以預(yù)先判斷接下來(lái)的數(shù)據(jù)是否存在依賴關(guān)系,從而提高熵編碼的吞吐量。HEVC圖像編碼算法的FPGA實(shí)現(xiàn)FPGA圖像編碼架構(gòu)目前,我們圖片業(yè)務(wù)已經(jīng)實(shí)現(xiàn)WEBP和HEVC格式的FPGA硬件加速,下面以HEVCI幀圖像硬件加速舉例,說(shuō)明圖像編碼在FPGA中是如何實(shí)現(xiàn)的。FPGA的邏輯架構(gòu)主要包括平臺(tái)部分和HEVC編碼器IP部分,其中FPGA平臺(tái)主要包括PCIEDMA以及DDR總線相關(guān)邏輯,這部分邏輯主要實(shí)現(xiàn)和hostCPU的數(shù)據(jù)通信以及和FPGA板卡上的DDR通信。如圖7所示,F(xiàn)PGA架構(gòu)上實(shí)例化了4個(gè)HEVCcore(具體幾個(gè)是和FPGA資源有關(guān)),每一個(gè)HEVCcore完成HEVC編碼算法的完整處理,這里4核心并行工作,也就是同一時(shí)刻,4個(gè)編碼任務(wù)可以并行工作,同時(shí)輸出4條HEVC碼流。圖7.FPGA內(nèi)部邏輯架構(gòu)FPGA內(nèi)部邏輯主要包括:HEVCCORE0-3:H265編碼器IP,實(shí)現(xiàn)HEVC的編碼算法;PCIE/DMA:實(shí)現(xiàn)和hostCPU進(jìn)行通信;REGISTERRW/INT:寄存器讀寫以及中斷處理;HEVCRWARBITER:總線讀寫仲裁模塊;AXIINTERCONNECT/DDRC/DDRY:總線控制訪問(wèn)DDR邏輯;FPGA圖像編碼流程FPGAHEVCcore內(nèi)部算法處理流程如圖8所示:分為當(dāng)前圖像載入,intra預(yù)測(cè)初選,intra預(yù)測(cè)精選,CABAC編碼,碼流輸出。圖8.HEVCcore內(nèi)部算法處理流程那么如何設(shè)計(jì)HEVCcore實(shí)現(xiàn)算法功能呢?這里,編碼器模塊流水線設(shè)計(jì)成四級(jí)流水,如圖9所示,四級(jí)流水CURLD/PINTRA/SEL/CABAC處理性能設(shè)計(jì)接近,并行起來(lái)后,平均處理每個(gè)LCU需要8400個(gè)周期,如果按照1080p圖片一共510個(gè)LCU計(jì)算,單核理論上編碼可以達(dá)到編46幀/s(FPGA電路實(shí)現(xiàn)頻率200M),這樣4核并行能達(dá)到184幀/s。具體來(lái)說(shuō),CURLD完成當(dāng)前圖像的載入邏輯,PINTRA完成intra預(yù)測(cè)初選35種模式的遍歷,得到最優(yōu)的預(yù)測(cè)模式,這級(jí)流水算法上做了優(yōu)化,預(yù)測(cè)參考像素沒(méi)有像傳統(tǒng)方式選擇重構(gòu)像素,而是選擇當(dāng)前像素做參考像素,這樣優(yōu)化,使得intra預(yù)測(cè)初選可以單獨(dú)劃分為一級(jí)流水,和intra預(yù)測(cè)精選分開,使得編碼器整體處理性能增加一倍。SEL完成幀內(nèi)預(yù)測(cè)模式精選以及RDO模式選擇,預(yù)測(cè)塊大小支持32/16/8,由于涉及到變換量化等運(yùn)算量大的邏輯,這一級(jí)流水是整個(gè)編碼器的資源消耗大戶,設(shè)計(jì)上在算法上以及邏輯資源消耗上做了權(quán)衡;CABAC模塊完成頭信息的碼流生成以及每個(gè)LCU的語(yǔ)法元素和殘差的編碼,并完成碼流的打包輸出,這一級(jí)流水的主要問(wèn)題在于CABAC的性能是否足夠快,從而應(yīng)對(duì)QP比較小編碼更多bin的處理及時(shí)。圖9.運(yùn)算模塊流水線性能和收益用FPGA完成JPEG格式圖片轉(zhuǎn)成HEVC格式圖片,圖片分辨率大小為1920x1080,F(xiàn)PGA處理延時(shí)相比CPU降低7倍,F(xiàn)PGA處理性能是CPU機(jī)器的10倍,F(xiàn)PGA機(jī)型單位性能成本是CPU機(jī)型的1/3(參見圖10)。圖10.圖片轉(zhuǎn)碼FPGA和CPU對(duì)比總之,圖片算法的FPGA實(shí)現(xiàn),如果不考慮FPGA資源、硬件實(shí)現(xiàn)架構(gòu)和處理性能,CPU圖像壓縮算法可以完全在FPGA進(jìn)行“復(fù)制”實(shí)現(xiàn),F(xiàn)PGA算法壓縮性能可以完全等同CPU。但是現(xiàn)實(shí)沒(méi)那么理想,F(xiàn)PG
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《網(wǎng)店色彩設(shè)計(jì)》課件
- 《神經(jīng)癥年制》課件
- 《證券上市》課件
- 2024年農(nóng)業(yè)部門抗旱工作總結(jié)范文
- 2025年高考數(shù)學(xué)一輪復(fù)習(xí)之冪函數(shù)、指數(shù)函數(shù)、對(duì)數(shù)函數(shù)
- 單位管理制度匯編大全人力資源管理
- 單位管理制度合并匯編【人事管理】
- 單位管理制度分享合集人員管理十篇
- 單位管理制度范例匯編人事管理
- 單位管理制度呈現(xiàn)大全人事管理十篇
- 期末模擬卷 2024-2025學(xué)年人教版數(shù)學(xué)六年級(jí)上冊(cè)(含答案)
- GB/T 44351-2024退化林修復(fù)技術(shù)規(guī)程
- 《比特幣完整介紹》課件
- 江蘇省2023年生物小高考試題含答案解析
- 2019年同等學(xué)力(教育學(xué))真題精選
- [轉(zhuǎn)載]鄭桂華《安塞腰鼓》教學(xué)實(shí)錄
- 泵管清洗專項(xiàng)方案
- 門診手術(shù)室上墻職責(zé)、制度(共6頁(yè))
- 邊坡土壓力計(jì)算(主動(dòng)土壓力法)
- 鉆孔壓水試驗(yàn)計(jì)算EXCEL表格
- 機(jī)電安裝項(xiàng)目施工組織計(jì)劃方案
評(píng)論
0/150
提交評(píng)論