基于深度學習的圖像融合方法綜述_第1頁
基于深度學習的圖像融合方法綜述_第2頁
基于深度學習的圖像融合方法綜述_第3頁
基于深度學習的圖像融合方法綜述_第4頁
基于深度學習的圖像融合方法綜述_第5頁
已閱讀5頁,還剩68頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

t第28卷第1期(總第321期)t第28卷第1期(總第321期)2023年1月16日國圖象圖形學報》投稿,均視為同意在本刊網(wǎng)站及CNKI等全文數(shù)據(jù),所刊載論文已獲得著作權人的本刊所有圖片均為非商業(yè)目的使有內(nèi)容,未經(jīng)許可,不得轉(zhuǎn)載或CopyrightAllrightsreservedbyJournalofImageandGraphics,InstituteofRemoteSensingandDigitalEarth,CAS.Thecontent(includingbutnotlimitedtext,photo,etc)publishedinthisjournalisfornon-commercialuse.刊名題字:宋健月刊(1996年創(chuàng)刊)學院天信息創(chuàng)新研究院與計算數(shù)學研究所編話址《中國圖象圖形學報》編輯出版委員會北京市海淀區(qū)北四環(huán)西路19號100190jig@廣告發(fā)布登記號京朝工商廣登字20170218號總發(fā)行北京報刊發(fā)行局訂購全國各地郵局際圖書貿(mào)易集團有限公司 印刷裝訂北京科信印刷有限公司JournalofImageandGraphicsleinscriptionSongJiantedinSuperintendedbyChineseAcademyofSciencesSponsoredbyAerospaceInformationResearchInstitute,CASinaSocietyofImageandGraphicseofAppliedPhysicsandComputationalMathematicsrinChiefWuYirongditorPublisherEditorialandPublishingBoardofJournalofhicsAddressNo,North4thRingRoadWest,HaidianDistrict,ngPRChinaZipcode100190E-mailjig@TelephonsticAllLocalPostOfficesinChinaverseasChinaInternationalBookTradingCorporationPOBoxBeijing00048,P.R.China))PrintedbyBeijingKexinPrintingCo.,Ltd.CN11-3758/TBISSN1006-8961CODENZTTXFZ2023年1月2023年1月第28卷第1期(總第321期)ZhongguoTuxiangTuxingXuebao紅外與肝臟腫的多光譜遙合(第0290頁)《中國圖象圖形學報》圖像融合??喗槔顦錆?,吳小俊,馬佳義,白相志,劉羽,李輝,韓向娣.....................................................0001的圖像融合方法綜述唐霖峰,張浩,徐涵,馬佳義................................................................................................0003法綜述李成龍,鹿安東,劉磊,湯進................................................................................................0037全色銳化的卷積神經(jīng)網(wǎng)絡方法研究進展鄧良劍,冉燃,吳瀟,張?zhí)砭?...............................................................................................0057焦圖像融合方法綜述王磊,齊爭爭,劉羽..............................................................................................................0080圖像融合技術進展左一帆,方玉明,馬柯德.......................................................................................................0102黃渝萍,李偉生....................................................................................................................0118光圖像融合圖像融合質(zhì)量評價指標分析孫彬,高云翔,諸葛吳為,王梓萱.........................................................................................0144光圖像漸進融合深度網(wǎng)絡邱德粉,胡星宇,梁鵬偉,劉賢明,江俊君...........................................................................0156紅外與可見光圖像分組融合的視覺Transformer孫旭輝,官錚,王學..............................................................................................................0166積相結(jié)合的紅外與可見光圖像融合張子晗,吳小俊,徐天陽.......................................................................................................0179高分辨率可見光圖像引導紅外圖像超分辨率的Transformer網(wǎng)絡邱德粉,江俊君,胡星宇,劉賢明,馬佳義...........................................................................0196紅外與可見光圖像融合王彥舜,聶仁燦,張谷鋮,楊小飛.........................................................................................0207跨模態(tài)圖像融合的并行分解自適應融合模型周濤,劉珊,董雅麗,白靜,陸惠玲.....................................................................................0221應翔,劉振,朱佳琳,姜漢,張瑞璇,高潔...........................................................................0234殘差密集注意力網(wǎng)絡多模態(tài)MR圖像超分辨率重建劉羽,朱文瑜,成娟,陳勛....................................................................................................0248的肝臟腫瘤檢測馬金林,歐陽軻,馬自萍,毛凱績,陳勇..............................................................................0260理光譜與多光譜圖像融合方帥,許漫.............................................................................................................................0277絡的多光譜遙感圖像融合余典,李坤,張瑋,李對對,田昕,江昊..............................................................................0290的漸進增強遙感圖像全色銳化算法賈雅男,郭曉杰....................................................................................................................0305特征融合的音視頻對抗對比學習盛振濤,陳雁翔,齊國君.......................................................................................................0317提供,影像來源于中國高分一號衛(wèi)星。Volume28,Number1PublishedJanuary16,2023JOURNALOFIMAGEANDGRAPHICSInfraredandvisibleimagefus-levelguidednetworkP0207)Multiscaleadaptivefusionnet-workbasedalgorithmforlivertumordetection(P0260)tisensingP0)TangLinfeng,ZhangHao,XuHan,MaJiayi...........................................................................0003yLiChenglong,LuAndong,LiuLei,TangJin...........................................................................0037viewDengLiangjian,RanRan,WuXiao,ZhangTianjing...............................................................0057WangLei,QiZhengzheng,LiuYu..........................................................................................0080ZuoYifanFangYumingMaKede.........................................................................................0102HuangYuping,LiWeisheng...................................................................................................0118SunBinGaoYunxiangZhugeWuweiWangZixuan.............................................0144QiuDefen,HuXingyu,LiangPengwei,LiuXianming,JiangJunjun.......................................0156SunXuhui,GuanZheng,WangXue.......................................................................................0166ZhangZihan,WuXiaojun,XuTianyang.................................................................................0179QiuDefen,JiangJunjun,HuXingyu,LiuXianming,MaJiayi.................................................0196angYanshunNieRencanZhangGuchengYangXiaofeiedicalImageProcessingZhouTaoLiuShanDongYaliBaiJingLuHuiling....................................0221YingXiangLiuZhenZhuJialinJiangHanZhangRuixuanGaoJie.........................0234LiuYuZhuWenyuChengJuan,ChenXun...........................................................................0248MaJinlin,OuyangKe,MaZiping,MaoKaiji,ChenYong........................................................0260mageProcessingFangShuai,XuMan...............................................................................................................0277YuDianLiKunZhangWeiLiDuiduiTianXinJiangHao.........................................0290JiaYanan,GuoXiaojie...........................................................................................................0305dalInformationFusionusionShengZhentao,ChenYanxiang,QiGuojun...........................................................................03173中圖法分類號:TP391文獻標識碼:A文章編號:1006-8961(2023)01-0003-340003-0036(唐霖峰,張浩,徐涵,馬佳義.2023.基于深度學習的圖像融合方法綜述.中國圖象圖形學報,28(01):0003-0036)[DOI:10.11834/基于深度學習的圖像融合方法綜述武漢大學電子信息學院,武漢430072摘要:圖像融合技術旨在將不同源圖像中的互補信息整合到單幅融合圖像中以全面表征成像場景,并促進后續(xù)的視覺任務。隨著深度學習的興起,基于深度學習的圖像融合算法如雨后春筍般涌現(xiàn),特別是自編碼器、生成對抗網(wǎng)絡以及Transformer等技術的出現(xiàn)使圖像融合性能產(chǎn)生了質(zhì)的飛躍。本文對不同融合任務場景下的前沿深度融合算法進行全面論述和分析。首先,介紹圖像融合的基本概念以及不同融合場景的定義。針對多模圖像融合、數(shù)字攝影圖像融合以及遙感影像融合等不同的融合場景,從網(wǎng)絡架構(gòu)和監(jiān)督范式等角度全面闡述各類方法的基本思想,并討論各類方法的特點。其次,總結(jié)各類算法的局限性,并給出進一步的改進方向。再次,簡要介紹不同融合場景中常用的數(shù)據(jù)集,并給出各種評估指標的具體定義。對于每一種融合任務,從定性評估、定量評估和運行效率等多角度全面比較其中代表性算法的性能。本文提及的算法、數(shù)據(jù)集和評估指標已匯總至/Linfeng-Tang/Image-Fusion。最后,給出了本文結(jié)論以及圖像融合研究中存在的一些嚴峻挑戰(zhàn),并對未來可能的研究方向進行了展望。關鍵詞:圖像融合;深度學習;多模圖像;數(shù)字攝影;遙感影像s收稿日期:2022-05-18;修回日期:2022-07-18;預印本日期:2022-07-25基金項目:國家自然科學基金項目(62276192);湖北省自然科學基金項目(2020BAB113)4,,,nd,,,,,,,,,,,,,,,,y,,,,0引言由于成像設備硬件限制,單一類型或單一設置下的傳感器通常無法全面地表征成像場景(Liu等,2018;Zhang等,2021b)。例如可見光圖像通常包含豐富的紋理細節(jié)信息,但卻容易遭受極端環(huán)境和遮擋的影響而丟失場景中的目標。與之相反,紅外傳感器通過捕獲物體散發(fā)的熱輻射信息成像,能夠有效地突出行人、車輛等顯著目標,但是缺乏對場景的細節(jié)描述(Ma等,2019a)。此外,具有不同ISO(in-間的相機只能捕捉在其動態(tài)范圍內(nèi)的場景信息,而不可避免地丟失動態(tài)范圍之外的信息。值得注意的是,不同類型或不同光學設置下的傳感器通常包含大量互補信息,這也啟發(fā)人們將這些互補信息集成5 第28卷/第1期/2023年1月唐霖峰,張浩,徐涵,馬佳義/基于深度學習的圖像融合方法綜述到單一的圖像中。因此,圖像融合技術應運而生。根據(jù)成像設備/成像設置的差異,圖像融合通常字攝影圖像融合和遙感影像融合。1)多模圖像融合。由于成像原理的限制,單一類型的傳感器只能捕獲部分場景信息。多模圖像融合能夠?qū)⒍鄠€傳感器捕獲的有用信息整合到單幅的融合圖像中,以實現(xiàn)對場景有效且全面地表征。典型的多模圖像融合包括紅外和可見光圖像融合以及醫(yī)學圖像融合。2)數(shù)字攝影圖像融合。由于光學器件的限制,數(shù)碼相機通常無法在單一設置下收集成像場景中的所有信息。具體來說,數(shù)碼相機拍攝的圖像通常只能適應一定范圍的光照變化,并且只能清晰地呈現(xiàn)在預定義景深中的場景。多曝光圖像融合和多聚焦圖像融合作為數(shù)字攝影圖像融合中典型的任務能夠?qū)⒉煌O置下拍攝的圖像進行融合,并生成高動態(tài)的融合圖像。3)遙感影像融合。在保證信噪比的前提下,光相互矛盾的(Zhang等,2021b)。這意味著,僅依靠一種傳感器無法同時捕獲高空間分辨率、高光譜分辨率的圖像。遙感影像融合旨在將空間分辨率和光譜分辨率不同的圖像進行融合,得到一幅高空間分辨率和高光譜分辨率兼?zhèn)涞娜诤蠄D像。多光譜與全色圖像融合是最具有代表性的遙感影像融合場景。從源圖像的成像角度來看,遙感影像融合也屬于多模圖像融合。但是遙感影像融合相較于多模圖像融合需要更高的空間和光譜保真度來提升分辨率。因討論。這3種圖像融合場景示意圖如圖1所示。融合圖像能夠吸收源圖像中的互補特性,并具有更好的場景表達和視覺感知效果,從而能夠有效地促進諸等實際計算機視覺應用。圖1各類圖像融合場景示意圖在深度學習席卷計算機視覺領域之前,圖像融合問題已經(jīng)得到了深入研究。傳統(tǒng)的圖像融合算法通常是在空間域或變換域(通過某種數(shù)學變換將圖像轉(zhuǎn)換至變換域)執(zhí)行活動水平測量并手動設計融合規(guī)則來實現(xiàn)圖像融合(Ma等,2019a)。經(jīng)典的傳統(tǒng)圖像融合框架主要包括基于多尺度變換的融合框ue2016;Liu等,2017a;樓建強等,2017;焦姣和吳玲2021)、基于稀疏表示的融合框架(李奕和吳小俊,2014;Liu等,2016;楊培等,2021)、基于子空間的2016)、基于顯著性的融合框架(Ma等,2017;霍星等,2021;楊培等,2021)、基于變分模型的融合框架(馬寧等,2013;周雨薇等,2015;Ma等,2016)等。盡管現(xiàn)有的傳統(tǒng)圖像融合算法在多數(shù)情況下能夠產(chǎn)生較為滿意的結(jié)果,但是仍然存在一些阻礙其進一步發(fā)展的難題。首先,現(xiàn)有的方法通常使用相同的變換或表示從源圖像中提取特征,卻沒能考慮不同源圖像存在本質(zhì)差異。其次,手工9設計的活動水平測量和融合規(guī)則無法適應復雜的融合場景,而且為了追求更好的融合性能,活動水平測量和融合規(guī)則的設計變得越來越復雜(Li等,近年來,深度學習以其強大的特征提取和表達能力主導了計算機視覺領域的發(fā)展,并在諸如圖像HeHuang標檢測(Red-monRen(Ronneberg-er等,2015;Chen等,2018)等視覺任務上展現(xiàn)了顯著的性能優(yōu)勢。為了克服傳統(tǒng)算法的不足,圖像融合領域的研究者也探索了大量基于深度學習的圖像融合算法。現(xiàn)有基于深度學習的圖像融合算法主要關鍵問題:特征提取、特征融合和圖像重建。根據(jù)采用的網(wǎng)絡架構(gòu),基于深度學習的圖像融合算法可分為基于自編碼器(auto-encoder,AE)的圖像融合框架、基于卷積神經(jīng)網(wǎng)絡GAN)的圖像融合框架3類。圖2展示了這3類圖像融合框架的整體流程。圖2不同圖像融合框架示意圖1)基于自編碼器(AE)的圖像融合框架首先在大型數(shù)據(jù)集上預訓練一個自編碼器,用來實現(xiàn)特征提數(shù)據(jù)集(Deng等,2009)。然后采用手工設計的融合策略來整合從不同源圖像中提取的深度特征以實現(xiàn)LiWuLi等,2020a),然而這些手工設計的融合策略并不一定適用于深度特征,從而限制了基于AE的融合框架的性能。2)基于卷積神經(jīng)網(wǎng)絡(CNN)的圖像融合框架通過設計網(wǎng)絡結(jié)構(gòu)和損失函數(shù)來實現(xiàn)端到端的特征提取、特征融合和圖像重建,從而避免手動設計融合規(guī)則的煩瑣(Ma等,2021c)。圖2(b)是一種主流的基于CNN的圖像融合框架,通過度量融合圖像與源圖像之間的相似性來構(gòu)造損失函數(shù),指導網(wǎng)絡進行端到端訓練(Han等,2022)。也有方法利用先驗知識設計一個偽標簽圖像與融合圖像構(gòu)造損失函數(shù)(Deng等,2021)。此外,有部分基于CNN的方法將卷積神經(jīng)網(wǎng)絡作為整體方法的一部分用于特征提取或活動水平測量(Liu等,2017c)。3)基于生成對抗網(wǎng)絡(GAN)的圖像融合框架將圖像融合問題建模為生成器與判別器之間的對抗7 第28卷/第1期/2023年1月唐霖峰,張浩,徐涵,馬佳義/基于深度學習的圖像融合方法綜述博弈問題。如圖2(c)所示,基于GAN的圖像融合框架通過判別器來迫使生成器生成的融合結(jié)果在概率分布上與目標分布趨于一致,從而隱式地實現(xiàn)特征提取、融合和圖像重建?,F(xiàn)有基于GAN的融合方法通過源圖像(Ma等,2020c)或者偽標簽圖像(Xu等,2020b)來構(gòu)造目標分布。根據(jù)訓練過程中使用的監(jiān)督范式,基于深度學習的圖像融合算法還可分為無監(jiān)督圖像融合框架、自監(jiān)督圖像融合框架和有監(jiān)督圖像融合框架。本文根據(jù)網(wǎng)絡架構(gòu)并輔以監(jiān)督范式,全面系統(tǒng)地闡述基于深度學習的多模圖像融合、數(shù)字攝影圖像融合以及遙感影像融合的研究進展,以便人們能夠更好地掌握深度圖像融合領域的研究現(xiàn)狀。本文結(jié)構(gòu)框架如圖3所示。首先結(jié)合網(wǎng)絡架構(gòu)和監(jiān)督范式,討論3大融合場景中有代表性的基于深度學習的方法以及通用的圖像融合算法。然后簡要介紹不同融合任務中的數(shù)據(jù)集和評估指標,并對有代表性的算法進行全面評估分析。最后,對全文進行總結(jié),并結(jié)合圖像融合中存在的挑戰(zhàn)提出展望。圖3本文結(jié)構(gòu)框架1方法回顧多模圖像融合旨在通過整合不同傳感器捕獲的互補信息來全面地表征成像場景,典型的多模圖像融合任務主要包括紅外和可見光圖像融合以及醫(yī)學圖像融合。紅外傳感器通過捕獲物體的熱輻射信息成像,即使在極端條件、惡劣天氣及部分遮擋情況下也能夠有效地突出顯著目標。但是紅外圖像無法提供足夠的環(huán)境信息,如紋理細節(jié)、環(huán)境照明等。與之相反,可見光傳感器通過收集物體表面的反射光成像,因此可見光圖像包含豐富的紋理細節(jié)信息并更加符合人類的視覺感知。紅外和可見光圖像融合旨在整合源圖像中的互補信息,并生成既能突出顯著目標又包含豐富紋理細節(jié)的高對比度融合圖像(Zhang等,2020c),主要包括基于AE、基于CNN和基于GAN的紅外和可見光圖像融合框架。基于AE的方法首先在大規(guī)模自然圖像數(shù)據(jù)集上訓練一個自編碼器,然后預訓練的編碼網(wǎng)絡和解碼網(wǎng)絡分別用于實現(xiàn)特征提取與圖像重建,最后一般使用手工設計的融合策略融合編碼網(wǎng)絡提取的深度特征來實現(xiàn)圖像融合。為了強化編碼網(wǎng)絡提取特和王建中等人(2021)在基于AE的圖像融合框架中及殘差密集塊。此外,(2022)在基于AE的融合框架中引入注意力機制,使網(wǎng)絡能夠更加關注顯著目標以及紋理細節(jié)信息。8(2021b)將解離化表征學習注入到了基于AE的圖像融合框架中。值得一提的是,上述算法均采用手工設計的融合策略(例如逐像素相加、逐像素加權求和以及最大選擇策略)融合深度特征,在傳統(tǒng)方法中取得了不錯的融合效果,但是深度特征通常具有不可解釋性,因此手工設計的融合策略無法為深度特征分配恰當?shù)臋嘀?以至于限制了這類算法的性能提升。Xu等人(2021c)基于像素級顯著性和可解釋重要性評估,提出一種可學習的融合策略,能夠根據(jù)深度特征的重要性和顯著性,為不同源圖像的特征分配恰當?shù)臋嘀?自適應地融合這些深度特征,進而賦予深度融合算法更強的可解釋性。然而,計算像素級顯著性以及執(zhí)行重要性評估十分耗時。所以,進一步研究實時的可學習融合策略將是未來基于AE的圖像融合框架下的研究熱點之一?;贑NN的端到端圖像融合框架是另一種避免手動設計融合規(guī)則弊端的技術路線。這類方法通常依靠設計的網(wǎng)絡結(jié)構(gòu)和損失函數(shù)隱式地實現(xiàn)特征合和圖像重建。一方面,人們提出聚合殘差密集網(wǎng)絡(Long等,2021)、基于雙注意力的特征融合模塊(Li等,2021d)、梯度殘差密集塊(Tang國洋等,2022)和跨模差分感知融合模塊(Tang等,2022b)等網(wǎng)絡結(jié)構(gòu)來提升融合性能,但這些網(wǎng)絡結(jié)構(gòu)通常會增加網(wǎng)絡復雜度,從而影響方法的運行效率。Liu等人(2021b)提出一種基于網(wǎng)絡架構(gòu)搜索法,能夠針對不同融合任務的特點,自適應地構(gòu)造高效且有效的特征提取、特征融合以及。另一方面,人們使用強度損失、梯度M義損失等損失函數(shù)從不同層面約束融合圖像與源圖像的相似性。值得一提的是,Li等人(2021b)結(jié)合元學習實現(xiàn)了不同分辨率條件下,只需重新訓練一個學習模型便能生成任意大小的融合結(jié)果。此外,Tang等人(2022a)結(jié)合高層視覺任務(目標檢測、語義分割等)的需求,提出一種高層視覺任務驅(qū)動的圖像融合框架(SeAFusion)來集成盡可能多的語義信息,以提升高層視覺任務在融合圖像上的性能。盡管考慮了高層視覺任務的需求,但是作為初步的嘗試只考慮了在損失函數(shù)上的改進。如何以一種更加自洽的方式探索圖像融合問題與高層視覺任務之間的內(nèi)在聯(lián)系將是未來圖像融合領域的發(fā)展趨勢之一。督信息的情形下也能夠有效地建模數(shù)據(jù)分布,該特性非常符合紅外和可見光圖像融合的需求。Ma等人(2019b)在FusionGAN中首次將圖像融合問題定義為生成器與判別器之間的對抗博弈。具體來說,生成器負責捕獲源圖像樣本中的潛在分布,并將這些分布特性充分集成到融合圖像中。判別器負責從分布上判別輸入的是源圖像還是融合圖像,從而迫使生成器合成的融合結(jié)果盡可能多地包含源圖像的分布特性。在FusionGAN之后,細節(jié)損失、邊緣增2021b)、視覺顯著性圖(周祎楠和楊曉敏,2021)、條ng2021c)、多分類生成對抗網(wǎng)絡(Ma等,2021d)、聚合紋理圖以及引導濾波器(Yang等,2021a)等新穎的損失和網(wǎng)絡相繼引入到基于GAN的融合框架中,進一步提升了融合性能。然而單判別器容易在訓練過程中造成模態(tài)失衡,導致融合結(jié)果無法保持紅外圖像的對比度或可見光圖像中的紋理細節(jié)信息。Xu等人(2019)和Ma等人(2020c)提出利用雙判別器維持不同模態(tài)間的信息平衡,并更好地約束融合結(jié)果的概率分布。在此基礎上,Li等人(2021c,d)將注意力機制注入到基于GAN的圖像融合框架中,以促使生成器和判別器更關注那些重要區(qū)域。類似于SeAFusion,Zhou等人(2021)將語義標簽引入到基于GAN的圖像融合框架中,從而迫使生成器保留更多的語義信息。盡管基于GAN的圖像融合算法能夠生成較好的融合結(jié)果,但如何在訓練過程中維持生成器與判別器的平衡仍值得深入研究?;谏疃葘W習的多模圖像融合算法歸納如表1所示。根據(jù)源圖像表征的信息,醫(yī)學影像可以分為結(jié)構(gòu)圖像和功能圖像兩大類。結(jié)構(gòu)圖像主要提供結(jié)構(gòu)utedtomography可以很好地反映骨頭和植入物等密質(zhì)結(jié)構(gòu),MRI9 第28卷/第1期/2023年1月唐霖峰,張浩,徐涵,馬佳義/基于深度學習的圖像融合方法綜述表1多模圖像融合研究歸納方法場景基礎框架監(jiān)督范式發(fā)表期刊或會議CNN(Liu等,2017b)MedCNN無監(jiān)督MedCNN無監(jiān)督GFPPC-GAN(Tang等,2019)MedGAN無監(jiān)督CMMMDenseFuse(Li和Wu,2019)VIFAEDDcGAN(Xu等,2019)VIF和MedGAN無監(jiān)督IJCAIFusionGAN(Ma等,2019b)VIFGAN無監(jiān)督CCN-CP(Wang等,2020)MedCNN無監(jiān)督MGMDcGAN(Huang等,2020a)MedGAN無監(jiān)督DDcGAN(Ma等,2020c)VIF和MedGAN無監(jiān)督VIFAETIMEMFusion(Xu和Ma,2021)MedCNN無監(jiān)督MedCNN無監(jiān)督TCIMSPRN(Fu等,2021a)MedCNN無監(jiān)督BSPCVIFCNN無監(jiān)督SDDGAN(Zhou等,2021)VIFGAN無監(jiān)督TMMVIFAECSF(Xu等,2021c)VIFAETCIDRF(Xu等,2021b)VIFAETIMVIFAETIMEAGIFLiub)VIFAETCSVTRXDNFuse(Long等,2021)VIFCNN無監(jiān)督VIF和MedCNN無監(jiān)督VIFCNN無監(jiān)督TIMVIFGAN無監(jiān)督VIFGAN無監(jiān)督VIF和MedCNN無監(jiān)督ACMMMGAN-FM(Zhang等,2021c)VIFGAN無監(jiān)督TCIVIFGAN無監(jiān)督TMMGANMcC(Ma等,2021d)VIFGAN無監(jiān)督TIMMgANFuseLi021d)VIFGAN無監(jiān)督TIMTC-GAN(Yang等,2021a)VIFGAN無監(jiān)督TCSVTVIFGAN無監(jiān)督CVPRVIFCNN無監(jiān)督VIFCNN無監(jiān)督注:場景中的Med代表醫(yī)學圖像融合場景,VIF代表紅外和可見光圖像融合場景。10腫瘤的功能和代謝,SPECT圖像則反映組織器官和Ma能夠反映與生物細胞分子分布相關的功能信息并展現(xiàn)細胞中的蛋白質(zhì)分布。而高分辨率的相襯(phasecontrast,PC)圖像能夠清晰地展現(xiàn)包括細胞核和線粒體在內(nèi)的亞細胞結(jié)構(gòu)信息(Tang等,2021)。醫(yī)學圖像融合旨在將多幅不同類型圖像中重要的、互補的信息整合到一幅信息豐富的融合圖像中,幫助醫(yī)生快速準確地診斷疾病。本文通過基于CNN和基于GAN的圖像融合框架介紹深度學習背景下醫(yī)學圖像融合的研究進展。最初,基于CNN的醫(yī)學圖像融合方法只利用卷積神經(jīng)網(wǎng)絡實現(xiàn)活動水平測量或特征提取。一方面,部分方法基于拉普拉斯金字塔(Liu等,2017b)或?qū)Ρ榷冉鹱炙?Wang等,2020)實現(xiàn)圖像分解和重建,然后使用暹羅卷積神經(jīng)網(wǎng)絡度量源圖像的像素活動水平并生成融合權重圖;另一方面,一些方法(Lahoud和Süsstrunk,2019)采用預訓練的卷積神經(jīng)網(wǎng)絡從源圖像中提取深度特征,并利用高斯濾波器融合這些深度特征來獲得融合圖像,然而采用的網(wǎng)絡并未在醫(yī)學圖像上進行預訓練,因而無法有效捕獲不同類型醫(yī)學圖像中的特性?;诖?人們提出了基于CNN的端到端醫(yī)學圖像融合算法(Liang等,2019;Fu等,2021a)。類似于基于CNN的紅外和可見光圖像融合方法,基于CNN的醫(yī)學圖像融合算法也通過精心設計網(wǎng)絡結(jié)構(gòu)和損失函數(shù),以端到端的特征提取、融合以及圖像重建。具體來說,Tang等人(2021)提出了由結(jié)構(gòu)引導的功能特征提取分支、功能引導的結(jié)構(gòu)特征提取分支以及細節(jié)保留模塊組成的細節(jié)保留交叉網(wǎng)絡(detailpreservingcrossnetwork,DPCN),實現(xiàn)端到端的GFP和PC圖像融合。另外,Xu和Ma(2021)提出的無監(jiān)督的端fusionnetwork,EMFusion)能夠通過施加表層約束和深層約束,實現(xiàn)信息增強以及互補信息聚合。基于GAN的方法通過對抗學習將醫(yī)學圖像中重要信息的潛在分布進行建模,如功能圖像中的強度分布和結(jié)構(gòu)圖像中的空間紋理細節(jié)等。GFPPC-(Tang等,2019)首次將生成對抗網(wǎng)絡引入到醫(yī)學圖像融合任務中,并設計了基于融合圖像與PC圖像之間的對抗學習來強化生成網(wǎng)絡對結(jié)構(gòu)信息保存的能力。此外,Zhao等人(2021a)將密集連接和編—解碼結(jié)構(gòu)注入到基于GAN的醫(yī)學圖像融合框架中,并設計了細節(jié)損失和結(jié)構(gòu)相似度損失來強化生成網(wǎng)絡對功能信息和邊緣細節(jié)的提取能力,然而單個判別器無法在對抗過程中有效維持結(jié)構(gòu)信息與功能信息的平衡。Ma等人(2020c)提出一個多判別器的衡的信息融合。具體來說,DDcGAN通過建立單個生成器與多個判別器的對抗博弈,促使生成網(wǎng)絡同時捕獲源圖像中的功能信息和紋理細節(jié)。在此基礎上,Huang等人(2020a)進一步設計了一個多生成器MGMDcGAN),在更加平衡地融合互補信息的同時,實現(xiàn)跨分辨率醫(yī)學圖像融合。盡管引入多個生成器和判別器能夠提升融合網(wǎng)絡的性能和功能,但有可能導致訓練不穩(wěn)定問題以及模式坍塌。像融合數(shù)字成像設備首先利用光學鏡頭捕獲反射光,錄場景信息,但是由于動態(tài)范圍有限,CCD和CMOS等元件無法承受過大的曝光差異。因此,在曝光差異過大時,單幅圖像無法準確呈現(xiàn)場景中的所有細節(jié)信息。此外,受光學鏡頭景深限制的影響,數(shù)碼相機很難在一幅圖像內(nèi)保證場景中所有目標都在景深范圍內(nèi)。然而只有在景深范圍內(nèi)的物體才能在圖像中清晰地呈現(xiàn),景深外的物體將變得模糊不清。數(shù)字攝影圖像融合旨在將不同光學設置下拍攝的多幅圖像組合在一起,并生成具有高動態(tài)范圍的全聚焦圖像,這是解決上述難題的不二之選。通常成像場景中存在較大的光照變化,此時由于傳感器捕獲的動態(tài)范圍有限,單一光學設置下拍攝的數(shù)字圖像會因過度曝光或曝光不足而不可避免地丟失場景信息。多曝光圖像融合能夠?qū)⒉煌毓獬潭葓D像中的有效信息整合起來并產(chǎn)生曝光合適、CNN和基于GAN的多曝光圖像融合框架,回顧基11 第28卷/第1期/2023年1月唐霖峰,張浩,徐涵,馬佳義/基于深度學習的圖像融合方法綜述于深度學習的多曝光圖像融合的發(fā)展。基于CNN的多曝光圖像融合算法在損失函數(shù)的指導下,利用卷積神經(jīng)網(wǎng)絡直接學習多幅曝光不同的源圖像到正常曝光圖像的映射關系。根據(jù)是否使用監(jiān)督信息,這類算法可以進一步分為有監(jiān)督方案和無監(jiān)督方案。有監(jiān)督方案通常使用手動挑選的良好曝光圖像作為監(jiān)督信息指導融合網(wǎng)絡的訓練Deng等人(2021)設計的深度反饋網(wǎng)絡能夠?qū)⒍嗥毓鈭D像融合與圖像超分問題統(tǒng)一建模到一個框架中,在校正圖像曝光水平的同時提升融合圖像的分辨率。然而人工挑選正常曝光圖像是非常主觀的,會不可避免地為這類技術方案設置性能上限。為了避免人工挑選正常曝光圖像帶來的弊端,無監(jiān)督多曝光圖像融合方法受到廣泛關注。無監(jiān)督方案一般量來構(gòu)造損失函數(shù),并引導融合網(wǎng)絡生成高質(zhì)量的Prabhakar等,2017;Ma等,2020d;Qi出的這類方法,在MEF-SSIM損失的指導下,利用簡單的5層網(wǎng)絡學習多曝光輸入到單幅融合圖像的映射關系??紤]到簡單的網(wǎng)絡無法提取深層語義特征,人們將一些新穎的學習方式如深度強化學習2022)引入到多曝光圖像融合任務中,進一步提升融合性能。與上述技術路線不同,Ma等人(2020d)提出上下文聚合網(wǎng)絡(MEF-Net)來學習不同源圖像的權重圖,最后對源圖像進行加權求和生成最終的融合結(jié)果。然而僅在像素層面對源圖像進行線性加權會不可避免地在融合結(jié)果中引入偽影,因此在精心設計的損失函數(shù)的指導下,直接學習輸入圖像到融合結(jié)果的映射關系仍然是無監(jiān)督方案的主流思想。然而MEF-SSIM度量指標只能衡量融合圖像的對比度和結(jié)構(gòu)信息,忽略了融合圖像的色彩信息。所以上述方法的重心更多在于校正源圖像的曝光水平,對于色彩信息只能采用簡單方式處理。事實上,恰當?shù)纳蕦τ谔嵘龜?shù)字圖像的視覺效果尤為重deepperceptualenhancement)將視覺真實性納入多曝光圖像融合問題的建模過程中,并設計了兩個獨立的模塊,分別負責內(nèi)容細節(jié)信息收集和融合圖像的色彩校正(Han等,2022)。值得注意的是,無監(jiān)督方案的融合性能很大程度上取決于采用的非參考指標能否有效且全面地表征融合結(jié)果的質(zhì)量。因此,研究一種能更加全面表征融合圖像質(zhì)量的評估指標是進一步提升融合效果的關鍵之一。此外,如何使融合網(wǎng)絡自適應感知正常的曝光水平也是未來的研究思路之一?;贕AN的多曝光圖像融合算法將曝光條件建模為概率分布,通過對抗學習使融合結(jié)果的曝光水平趨于正常。因此,這類技術路線的關鍵在于如CNN的方法,基于GAN的方法也分為有監(jiān)督方案和無監(jiān)督方案。其中,無監(jiān)督方案將生成器輸出的融合圖像與手動挑選的偽標簽圖像(一般來自MEFCai,2018),標簽圖像是基于13種多曝光融合和基于堆棧的高動態(tài)范圍算法挑選的)構(gòu)造基于曝光分布的對抗博弈,使生成網(wǎng)絡產(chǎn)生與偽標中,MEF-GAN(Xu等,2020b)引入了自注意力模塊和局部細節(jié)模塊來強化生成器對細節(jié)信息的提取和端曝光條件下的圖像融合,并設計了一個全局與局部相結(jié)合的判別器來平衡融合圖像的像素強度分布并校正色彩失真。但這類技術方案利用手動挑選的偽標簽圖像作為監(jiān)督信息,往往面臨性能受限的困境。為此,Yang等人(2021b)提出一種基于GAN的無監(jiān)督多曝光圖像融合方法,通過引入差分相關性息組合的角度構(gòu)造了融合圖像與源圖像之間的對抗博弈,認為融合圖像與源圖像的差分結(jié)果能夠表征另一幅源圖像的分布。盡管這樣構(gòu)造的對抗模型能夠約束生成器保留盡可能多的信息,但這是基于融合圖像是兩幅源圖像之和這樣一個不準確的假設而實現(xiàn)的,因此研究如何有效利用源圖像中的先驗信息(如曝光條件、場景結(jié)構(gòu))來建立無監(jiān)督對抗模型將是實現(xiàn)高質(zhì)量多曝光圖像融合的良好選擇之一。由于光學鏡頭的局限性,單一光學設置下的數(shù)碼相機很難將不同景深下的物體都集中在一幅圖像中(Zhang,2022)。多聚焦圖像融合能夠?qū)⒉煌?2焦區(qū)域的圖像進行組合并生成全聚焦的融合圖像?;贑NN和基于GAN的融合框架是兩種主流的多聚焦圖像融合框架。此外,由于多聚焦圖像融合可以看做是清晰像素的選擇問題,因此上述框架還可以進一步劃分為基于決策圖的方案和基于整體重建的方案?;跊Q策圖的CNN方法本質(zhì)上是學習一個能夠確定每個像素聚焦與否的二值分類器,然后進一步修正分類結(jié)果以生成融合決策圖,最后根據(jù)融合決策圖對源圖像中的每一個像素進行選擇組合來生成全聚焦的融合圖像。這類方案通常使用高斯模糊核構(gòu)造訓練二值分類器的數(shù)據(jù)集并利用一致性驗證Yang高斯濾波器、保邊濾波器(Ma等,2021a)和條件隨機場(Xiao等,2021a,b)等技術作為后處理來得到最終的融合決策圖。其中,Xiao等人(2021a)將基于離散切比雪夫矩的深度神經(jīng)網(wǎng)絡引入到這類技術方案中,實現(xiàn)實時的多聚焦圖像融合。但是上述方案通常需要使用手工設計的后處理操作來進一步修正神經(jīng)網(wǎng)絡輸出的聚焦圖,而無法實現(xiàn)端到端的圖處理過程,Amin-Naji等人(2019)提出一種基于集成學習的方法,通過組合不同模型的決策圖直接得到最終決策圖。類似地,深度信息納入到聚焦圖的估計過程中,并提出一個直接從源圖像估計決策圖的深度蒸餾模型。除了利用高斯核構(gòu)造訓練數(shù)據(jù)外,Li等人(2020c)和Ma等人(2021b)提出利用二值掩膜來構(gòu)造訓練數(shù)據(jù),并引入梯度損失來引導融合網(wǎng)絡生成清晰的全聚焦圖像。然而基于高斯模糊核或二值掩膜構(gòu)造的訓練數(shù)據(jù)集均無法模擬多聚集圖像真實的成像方式,特別是這兩種方法都沒有考慮現(xiàn)實世界中多聚焦圖像存在的散焦擴散效應。Ma等人(2020a)提出一種α-啞光邊界散焦模型,用于精確模擬散焦擴散效應并生成更加逼真的訓練數(shù)據(jù)。Xu等人(2020c)設計了一個多聚焦結(jié)構(gòu)相似度(MFF-SSIM)指標來衡量融合結(jié)果的質(zhì)量,并使用隨機梯度算法在融合過程中最大化MFF-SSIM。與基于決策圖的方法不同,基于整體重構(gòu)的方法利用一些特殊的度量指標(例如MFF-SSIM)作為損失函數(shù)來引導融合網(wǎng)絡以端到端、無監(jiān)督學習的方式直接實現(xiàn)多聚焦圖像融合(Yan等,2020)。但這類技術方案目前還未將散焦擴散效應納入到建模過程中,因此結(jié)合多聚焦圖像的成像原理,通過整體重構(gòu)的技術路線,在實現(xiàn)有用信息保留的同時消除散焦擴散效應,或許是未來基于CNN的多聚焦圖像融合框架的研究方向之一?;跊Q策圖的GAN方法通常利用生成器學習源圖像到?jīng)Q策圖的映射關系并生成融合結(jié)果,同時通過對抗學習迫使融合結(jié)果在分布上接近參考的全聚焦圖像。具體來說,FuseGAN(Guo等,2019)將人工標注的聚焦掩膜與源圖像堆疊在一起作為正樣本,而生成器輸出的決策圖與源圖像堆疊在一起作為負樣本來構(gòu)造對抗博弈關系,指導生成網(wǎng)絡從兩MFIF-GAN(Wang等,2021b)引入前景區(qū)域的聚焦圖應大于對應的目標這一先驗來改善散焦擴散效應。基于GAN的整體重構(gòu)方法則利用生成器直接輸出全聚焦的融合圖像,然后再利用參考圖像和融部分基于GAN的方法無法有效解決多聚焦圖像融合任務中的散焦擴散效應,而散焦擴散效應會嚴重影響融合圖像的視覺效果。因此如何從分布的角度充分建模散焦擴散效應,在生成更加逼真且細節(jié)清晰的融合圖像的同時,進一步提升融合圖像的視覺質(zhì)量是一個值得進一步探索的研究方向。基于深度學習的數(shù)字攝影圖像融合算法歸納如表2所示,其中MEF表示多曝光圖像融合場景,MFF表示多聚焦圖像融合場景。在遙感成像中,光譜傳感器的光譜/濾波機制需要較大的瞬時視場(IFOV)來滿足信噪比的要求,這意味著在保證成像光譜分辨率的同時必然降低空間分辨率。然而在高精度遙感應用中,空間分辨率和光譜分辨率同等重要,前者描述地物的物理形態(tài),后者反映地面的物質(zhì)組成。因此空間和光譜分辨率不可兼得的特性極大制約了高層遙感任務的精度提升。在此背景下,多光譜與全色圖像融合技術應運而生,通過將全色圖像中的空間信息及多光譜圖像中的光譜信息相融合,生成空間和光譜分辨率并存的高質(zhì)量遙感圖像?;诓捎玫谋O(jiān)督范式,深度多光譜與全色圖像融合方法分為有監(jiān)督的方案和無監(jiān)督的方案兩類。兩類方案采取的網(wǎng)絡架構(gòu)主要有CNN和GAN兩種。13 第28卷/第1期/2023年1月唐霖峰,張浩,徐涵,馬佳義/基于深度學習的圖像融合方法綜述表2數(shù)字攝影圖像融合研究歸納方法場景基礎框架監(jiān)督范式發(fā)表期刊或會議MEFCNN無監(jiān)督ICCVCNNLiu17c)MFFCNN有監(jiān)督CNN(Li和Zhang,2018)MEFCNN無監(jiān)督ECNN(Amin-Naji等,2019)MFFCNN有監(jiān)督MLFCNN(Yang等,2019)MFFCNN有監(jiān)督TCIFuseGAN(Guo等,2019)MFFGAN有監(jiān)督TMMMEF-Net(Ma等,2020e)MEFCNN無監(jiān)督ICENPan)MEFCNN無監(jiān)督NCMEF-GAN(Xu等,2020b)MEFGAN無監(jiān)督DRPLLi020c)MFFCNN有監(jiān)督MMF-Net(Ma等,2020a)MFFCNN有監(jiān)督MFF-SSIM(Xu等,2020c)MFFCNN有監(jiān)督TCIMFNet(Ha等,2017)MFFCNN無監(jiān)督ACGAN(Huang等,2020b)MFFGAN有監(jiān)督NCAAMEFCNN無監(jiān)督UMEF(Qi等,2021)MEFCNN無監(jiān)督PA-GAN(Yin等,2022)MEFGAN無監(jiān)督TMMAGAL(Liu等,2022c)MEFGAN無監(jiān)督TCSVTGANFuse(Yang等,2021b)MEFGAN無監(jiān)督NCAAMFFCNN有監(jiān)督DTMNetXiao2021a)MFFCNN有監(jiān)督ICCVSMFuse(Ma等,2021b)MFFCNNTCID2FMIF(Zhao等,2021b)MFFCNN無監(jiān)督TMMuseMaaMFFCNN無監(jiān)督NCAAMFF-GAN(Zhang等,2021a)MFFGAN無監(jiān)督MFIF-GAN(Wang等,2021b)MFFGAN有監(jiān)督SPICDPE-MEF(Han等,2022)MEFCNN無監(jiān)督TransMEF(Qu等,2022)MEFAAAI有監(jiān)督的多光譜與全色圖像融合方法在銳化結(jié)果與參考圖像間構(gòu)造最小距離損失,引導神經(jīng)網(wǎng)絡的輸出不斷趨近于參考圖像對應的理想分布。PNN使用深度學習解決多光譜與全色圖像融合問題的開創(chuàng)之作,首次引入CNN提取和融合全色和多光譜圖像中的有效信息。然而僅在l2距離損失的約束下,PNN的結(jié)果往往存在局部空間結(jié)構(gòu)平滑的現(xiàn)象。此外,簡單的3層結(jié)構(gòu)限制了PNN的非線性擬合能力,導致一定程度的光譜失真。后續(xù)方法主要從網(wǎng)絡架構(gòu)和約束條件兩方面進行改進來提升融合性能。首先,通過改進網(wǎng)絡架構(gòu)使融合過程中信息的PanNet(deepnetwork14殘差學習將網(wǎng)絡的訓練轉(zhuǎn)換到高通域進行,使網(wǎng)絡專注于高頻結(jié)構(gòu)信息的學習,極大提升了融合結(jié)果同時,PanNet引入ResNet加深網(wǎng)絡深度,強化了非線性擬合能力,在一定程度上緩解了光譜失真。Liu等人(2021a)使用GAN架構(gòu)提升融合性能,提出一個多光譜與全色圖像融合框架PSGAN將參考圖像的概率分布定義為目標分布,并使用連續(xù)的對抗學習迫使融合結(jié)果在分布上逼近參考圖像,保證了信息保留質(zhì)量。與此不同,SRPPNN(su-漸進學習兩種特定的結(jié)構(gòu)設計,使網(wǎng)絡能夠不斷捕獲不同尺度上的空間細節(jié),并連續(xù)注入到上采樣的多光譜圖像中。類似地,基于網(wǎng)絡架構(gòu)改進的有監(jiān)設計網(wǎng)絡架構(gòu)時未考慮輸入數(shù)據(jù)與融合結(jié)果間的內(nèi)在關系,更多的是從圖像超分辨率這個角度進行的。ning)(Xu等,2021d)從全色圖像與多光譜圖像的生成模型出發(fā),探討空間和光譜退化過程,并將其作為先驗來指導神經(jīng)網(wǎng)絡的優(yōu)化,極大提升了融合性能。與上述方法不同,另外一些多光譜與全色圖像融合方法通過額外設計一些更合理的約束條件來改善融合結(jié)果中空間和光譜信息的保留質(zhì)量。SDPNet(Xu等,2021a)除了在參考圖像與融合結(jié)果間建立常用的表觀一致性損失外,還通過訓練兩個多光譜與全色模態(tài)互相轉(zhuǎn)換網(wǎng)絡以及一個自編碼網(wǎng)絡來定義模態(tài)相關的獨特特征,然后在定義的獨特特征上建立一致性損失,進一步保證了融合性能的提升。Zhang(2022)認為只約束融合結(jié)果與參考圖像的一致性無法有效利用全色圖像中的空間信息,且會因為空間結(jié)構(gòu)缺乏顯式約束引發(fā)光譜與空間信息的不平合光譜退化過程,在梯度域中建立了更加準確的多光譜與全色圖像的非線性回歸關系,并將此非線性回歸關系作為一種先驗來約束空間結(jié)構(gòu)的保留,從而保障光譜與空間信息的平衡。然而有監(jiān)督的多光譜與全色圖像融合方法本質(zhì)上是學習輸入圖像到參考圖像的非線性映射,實際性能很大程度上依賴于參考圖像構(gòu)建的合理性。在有監(jiān)督方法中,參考圖像的構(gòu)建遵循Wald協(xié)議,該協(xié)議將全分辨率多光譜與全色圖像進行空間下采樣,得到降分辨率數(shù)據(jù)并作為網(wǎng)絡的輸入,而將原始的全分辨率多光譜圖像作為參考圖像監(jiān)督網(wǎng)絡的優(yōu)化。這種策略面,采取的空間退化模式可能與真實的遙感數(shù)據(jù)退化模式不一致,使網(wǎng)絡學到的映射關系無法推廣到真實遙感數(shù)據(jù)上;另一方面,有監(jiān)督方法遵循的尺度不變性假設可能并不成立,使得在降分辨率數(shù)據(jù)上訓練的模型無法有效地推廣到全分辨率數(shù)據(jù)上。為了擺脫網(wǎng)絡對參考圖像的依賴,進而解決上述難題,無監(jiān)督多光譜與全色圖像融合方法受到了廣泛關注。具體來說,無監(jiān)督方案通過建立融合結(jié)果與輸入多光譜和全色圖像之間的聯(lián)系來分別約束光譜分布與空間結(jié)構(gòu)的保留,生成光譜和空間分辨率兼具的理想圖像。從技術路線來看,無監(jiān)督方案的優(yōu)勢包括兩方面。首先,無監(jiān)督方法不再需要合成配對數(shù)據(jù),使網(wǎng)絡優(yōu)化和學習更加便捷;其次,網(wǎng)絡訓練直接在衛(wèi)星真實捕獲的全分辨率數(shù)據(jù)上進行,在保證數(shù)據(jù)可信度的同時,能夠充分利用有監(jiān)督方法中忽視的全分辨率全色圖像包含的信息。無監(jiān)督方法的研究主要在于如何完善約束光譜保留的空間退化模型和約束空間結(jié)構(gòu)保留的光譜退化模型。Pan-GAN(Ma等,2020d)是首個探索無監(jiān)督多光譜與全色圖像融合的方法,引入了兩個判別器在融合結(jié)果與兩幅源圖像間建立對抗,分別判定光譜與空間信息是否保真。在Pan-GAN中,光譜退化模型定義為平均池化操作,空間退化模型定義為插值采樣譜退化模型定義在高通域并使用最大池化來實現(xiàn)通道合并,空間退化模型定義在低通域并使用插值采樣實現(xiàn)空間分辨率降低。然而這兩種方法都采樣相對粗糙的方式模擬光譜退化模型和空間退化模型,在一定程度上限制了融合質(zhì)量的提升。Luo等人(2020)將光譜退化模型建模為多譜段全局線性加15 第28卷/第1期/2023年1月唐霖峰,張浩,徐涵,馬佳義/基于深度學習的圖像融合方法綜述權,并使用最小二乘法求解加權系數(shù)。對于空間退化模型,采用與MTF相關的高斯模糊以及插值采樣操作來模擬該過程,取得了一定的性能提升。需要強調(diào)的是,光譜退化模型更傾向于局部非線性而不是全局線性,使用最小二乘求解系數(shù)所依賴的尺度不變性假設也可能并不成立。為了實現(xiàn)更準確地估2020)采用卷積神經(jīng)網(wǎng)絡和全連接網(wǎng)絡分別估計空間模糊核以及光譜模糊核,然后結(jié)合插值采樣操作在退化一致性的約束下估計空間和光譜退化模型。值得注意的是,這種無監(jiān)督退化模型估計的解空間是非常大的,僅依賴退化一致性非常容易陷入平凡解或局部最優(yōu)解。類似地,無監(jiān)督多光譜與全色圖r方法,對于無監(jiān)督多光譜與全色圖像融合方法的研究還相對較少,如何估計更準確的觀測模型是未來進一步提升融合性能的關鍵?;谏疃葘W習的遙感影像融合算法歸納如表3合場景。表3遙感影像融合研究歸納方法場景基礎框架監(jiān)督范式發(fā)表期刊或會議PNN(Masi等,2016)CNN有監(jiān)督RSCNN有監(jiān)督ICCVBKL(Guo等,2020)CNN無監(jiān)督IGARSSPan-GAN(Ma等,2020d)GAN無監(jiān)督CNN有監(jiān)督TFNetUCNN(Luo等,2020)CNN無監(jiān)督JSTARSCNN無監(jiān)督ACCESSGPPNN(Xu等,2021d)CNN有監(jiān)督CVPRGTP-PNet(Zhang,2022)CNN有監(jiān)督ISPRSHMCNN(Wang等,2021a)CNN有監(jiān)督CNN無監(jiān)督SDPNetXu等,2021a)CNN有監(jiān)督TGRSCNN有監(jiān)督CVPRSRPPNN(Cai和Huang,2021)CNN有監(jiān)督TGRSPSGAN(Liu等,2021a)GAN有監(jiān)督TGRSMDCNN(Dong等,2021)CNN有監(jiān)督JRSGAN有監(jiān)督ESADPFN(Wang等,2022a)CNN有監(jiān)督TGRSMSGAN(Wang等,2022b)GAN無監(jiān)督ICMMUCGAN(Zhou等,2022)GAN無監(jiān)督TGRS任務特定的圖像融合算法均通過挖掘不同融合問題中的先驗知識來提升融合性能,但忽略了不同融合任務之間的內(nèi)在聯(lián)系。因此,人們致力于開發(fā)等,2020d)是首個基于深度學習的通用圖像融合方法,該方法參考DeepFuse(Prabhakar等,2017)設計網(wǎng)絡結(jié)構(gòu),并在大型的多聚焦圖像數(shù)據(jù)集上通過端到端的方式訓練網(wǎng)絡。特別地,IFCNN通過改變?nèi)?6合層的融合策略,將不同圖像融合任務統(tǒng)一到一個題定義為梯度和強度的比例維持,并設計一個統(tǒng)一的損失函數(shù)形式,根據(jù)不同任務的先驗知識,手動調(diào)整各項損失函數(shù)的加權系數(shù),能夠在一個統(tǒng)一框架下解決不同的圖像融合問題。為了避免手動調(diào)整超參數(shù),Zhang和Ma(2021b)進一步提出了擠壓分解自適應決策塊來提升融合性能。類似地,Jung等人(2020)將多種圖像融合問題統(tǒng)一為對比度保持問題,并引入結(jié)構(gòu)張量來表征圖像對比度以及構(gòu)造損定義為獨特特征與公共特征的集合,并基于多模卷積稀疏編碼模型提出一種用于解決通用多模圖像恢復和多模圖像融合難題的深度卷積神經(jīng)網(wǎng)絡(Cu-學習和解糾纏表示學習將源圖像分解為私有特征和公有特征,并提出一種空間自適應策略融合來自不同源圖像的私有特征,在統(tǒng)一的基于自編碼器的框架下實現(xiàn)多種圖像融合任務。為了學習到特定任務的特征,Li等人(2021e)提出使用多個面向任務的編碼器和一個通用的解碼器來實現(xiàn)多任務圖像融合,并設計一個自適應損失函數(shù)來指導網(wǎng)絡訓練。值得一提的是,考慮到不同的融合任務能夠相互促進,Xu等人(2020a,2022a)結(jié)合可學習信息測量和彈性權重固化,開發(fā)了一種無監(jiān)督圖像融合模型用于解決多場景圖像融合問題。其中,彈性權重固化用于克服多任務持續(xù)學習中的遺忘難題。Ma等人(2022)提出一種融合框架(SwinFusion),通過充分挖掘同一幅源圖像的域內(nèi)上下文信息,以及多源圖像的域間全局交互以充分整合互補信息,在多模圖像融合以及數(shù)字攝影圖像融合上都取得了較好的性能表現(xiàn)。綜合考慮各類圖像融合任務的共性并設計統(tǒng)一的融合框架來同時解決多種融合問題能夠增加融合算法的實用性。因此,設計通用的圖像融合框架仍然是未來的研究熱點之一?;谏疃葘W習的通用圖像融合算法如表4所示。表4通用圖像融合研究歸納方法場景基礎框架監(jiān)督范式發(fā)表期刊或會議IFCNN(Zhang等,2020d)CNN有監(jiān)督DNXuaCNN無監(jiān)督AAAIPMGI(Zhang等,2020b)CNN無監(jiān)督AAAICNN有監(jiān)督TPAMISDNet(Zhang和Ma,2021b)CNN無監(jiān)督IJCVCNN無監(jiān)督AETMMCNN無監(jiān)督ICMEaCNN無監(jiān)督TPAMI無監(jiān)督JAS注:場景中Unified表示通用圖像融合場景。2數(shù)據(jù)集與評估指標各類圖像融合任務中常用的數(shù)據(jù)集主要包括紅外和可見光圖像融合數(shù)據(jù)集、醫(yī)學圖像融合數(shù)據(jù)集、多曝光圖像融合數(shù)據(jù)集、多聚焦圖像融合數(shù)據(jù)集和多光譜與全色圖像融合數(shù)據(jù)集,如圖4所示。17 第28卷/第1期/2023年1月唐霖峰,張浩,徐涵,馬佳義/基于深度學習的圖像融合方法綜述圖4圖像融合常用數(shù)據(jù)集匯總TNO_Image_Fusion_Dataset/1008029)是紅外和可見圖像融合常用數(shù)據(jù)集之一,包含60對軍事相關場景提供,包含12對不同天氣條件拍攝的紅外和可見光視頻。TNO數(shù)據(jù)集和INO數(shù)據(jù)集只包含少量圖像對,無法用來訓練性能優(yōu)異的融合網(wǎng)絡。為此,Xuna-xu/RoadScene),該數(shù)據(jù)集由221對已配準的紅外和可見光圖像組成,包含豐富的道路、車輛以及行人場景。此外,Tang等人(2022b)基于MFNet數(shù)據(jù)集(Ha等,2017)發(fā)布一個新的多光譜數(shù)據(jù)集MSRSLinfeng-Tang/MSRS),用于紅外和可見光圖像融合集包含361對圖像,該數(shù)據(jù)集為每一對圖像提供了語義分割標簽,并提供了80對有目標檢測標簽的圖像。該數(shù)據(jù)集能夠促進高層視覺任務驅(qū)動的圖像融合和基于高層視覺任務的圖像融合評估的發(fā)展。借助于??低晹z像機,Jia等人(2021)在夜間場景收集了visi據(jù)集為每一個場景提供了相應的行人檢測的標簽,能夠用于圖像融合、行人檢測和圖像轉(zhuǎn)換等多項任務。此外,Liu等人(2022a)基于構(gòu)建的同步紅外和可見光傳感器成像系統(tǒng),發(fā)布了一個多場景多模態(tài)JinyuanLiu-CV/TarDAL)。M3FD數(shù)據(jù)集包含4177對已配準的紅外和可見光圖像并標注了23635個目標檢測對象,場景覆蓋白天、陰天、夜間以及一些具有挑戰(zhàn)性的情形。值得強調(diào)的是,LLVIP數(shù)據(jù)集和M3FD數(shù)據(jù)集的發(fā)布能夠促使研究者開展極端條件下的紅外和可見光圖像融合的研究。AANLIB/home.html)是一個用于機器學習的權威醫(yī)療數(shù)據(jù)集,涵蓋醫(yī)學影像、電子健康記錄、UCI數(shù)據(jù)和生物醫(yī)學文獻,提供了大量CT-MRI,PET-MRI、SPECT-MRI、CT-SPECT圖像對,用于醫(yī)學圖像融合模型的訓練和評估以及智慧醫(yī)療診斷。Cai等人(2018)利用7種相機在室內(nèi)和室外場光圖像融合算法或基于堆棧的HDR(highdynamicrange)算法來生成對應的高質(zhì)量參考圖像。Zhang(2021)從互聯(lián)網(wǎng)以及現(xiàn)有的多曝光圖像融合數(shù)據(jù)庫中集了100對具有不同曝光水平的圖像對,并發(fā)布了MEFB用于評估多聚焦圖像融合算法性能的數(shù)據(jù)集(Nejati色多聚焦圖像以及4個具有3種焦距的多聚焦圖像序oZhang1018/MFI-WHU)是Zhang等人(2021a)基于18MEF數(shù)據(jù)集以及MS-COCO數(shù)據(jù)集建立的多聚焦圖像融合數(shù)據(jù)集,包含120對由高斯模糊和手動標注的決策圖合成的多聚焦圖像。值得注意的是,Lytro和MFI-WHU數(shù)據(jù)集都沒能明顯突出散焦擴散效應對多聚焦圖像融合任務的影響。MFFW(multi-focusa69b3c323908e62b45)數(shù)據(jù)集是Xu等人(2020d)提出的一個新基準數(shù)據(jù)集,用于測試多聚焦圖像融合多光譜與全色圖像融合的數(shù)據(jù)通常由商業(yè)衛(wèi)星我國自主研發(fā)的民用光學遙感衛(wèi)星。GaoFen1號衛(wèi)星拍攝的全色(panchromatic,PAN)圖像和多光譜GaoFen2號衛(wèi)星拍攝的全色圖像和多光譜圖像分辨率分別為1m和4m。QuickBird衛(wèi)星和World-rd0.72m,多光譜圖像的分辨率為2.442.88m。WorldView-2衛(wèi)星提供0.5m分辨率的全色圖像和ew31cm分辨率的全色圖像和1.24m分辨率的多光譜圖像。GeoEye系列衛(wèi)星由美國GeoEye衛(wèi)星公司發(fā)射,GeoEye-1衛(wèi)星提供0.41m分辨率的全色圖和1.65m彩色分辨率的多光譜圖像。各種定量評估圖像融合算法的性能指標包括通用的評估指標和為多光譜與全色圖像融合特別設計的評估指標。通用的圖像融合評估指標能夠用于評估多模圖像融合和數(shù)字攝影圖像融合,其中部分指標也能夠用于評估多光譜與全色圖像融合。根據(jù)其定義的不同,通用的指標可以分為基于信息熵的指標、基于圖像特征的指標、基于相關性的指標、基于圖像結(jié)構(gòu)的指標以及基于人類感知的指標等5類。圖5匯總了主流的通用圖像融合評估指標。在通用圖像融合評估指標中,A和B分別表示源圖像A和源圖像B,X泛指所有的源圖像,F代表融合圖像,M和N分別表示圖像的寬和高。圖5通用圖像融合評估指標匯總1)基于信息熵的指標。(1)信息熵(entropy,E

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論