基于Attention機制的U-net的眼底滲出液分割_第1頁
基于Attention機制的U-net的眼底滲出液分割_第2頁
基于Attention機制的U-net的眼底滲出液分割_第3頁
基于Attention機制的U-net的眼底滲出液分割_第4頁
基于Attention機制的U-net的眼底滲出液分割_第5頁
已閱讀5頁,還剩8頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

基于Attention機制的U-net的眼底滲出液分割摘要:糖尿病視網膜病變(DR)是一種嚴重的眼部異常,其嚴重情況下會導致視網膜脫落甚至失明。眼底的滲出液是由于高血糖毒性作用,導致血屏障破壞,血管內的脂質等漏出而造成的。是視網膜病變的并發(fā)癥之一。由于患者與專業(yè)醫(yī)生數量懸殊巨大,設計一個可以自動的檢測滲出液的醫(yī)療助手是十分重要的任務。本文依托于深度學習方法,以U-Net架構為骨架網絡,以準確度(Acc)、靈敏度(SE)、特異性(SP)以及AUC值作為模型性能的評估指標,先測試了原始U-Net在該任務上的分割能力,在該任務上達到99.8%的準確度,73.1%的靈敏度,98.0%的特異性以及0.973的AUC值。根據U-Net網絡架構的固有問題,將Attention機制與U-Net結構,搭建AttentionU-Net。99.8%的準確度,81.5%的靈敏度,99.8%的特異性以及0.985的AUC值。實驗結果表明,AttentionU-Net有更好的特征提取能力。關鍵詞:視網膜病變;深度學習;AttentionU-Net;硬滲出液分割1引言糖尿病視網膜病變(DR)是一種嚴重的眼部異常,這種病變與慢性糖尿病相關,是糖尿病最常見的微血管病癥之一,是慢性糖尿病導致的視網膜微血管滲漏和阻塞而引起的一系列的眼底病變,有微血管瘤、硬性滲出甚至視網膜脫落等等表現。患有它的患者可能會逐漸失去視力,甚至造成失明[1]。近年來,隨著醫(yī)學水平的不斷提高,糖尿病視網膜病變(DR)可以通過及時診斷和干預來治療,但是視力障礙的病變和癥狀很容易在疾病的早期階段被忽視,這會導致之后治療的成本和風險大大提高。與之應對的措施之一就是安排糖尿病患者進行定期檢查以延遲或減輕失明的風險。但是,由于醫(yī)護數量有限,且具有經驗的臨床醫(yī)生目前遠遠不足以進行不間斷的診斷龐大的糖尿病患者群體,截至目前,全球有超過4億糖尿病患者。若想完成對每一位患者的周期性檢查,幾乎是不可能完成的。因此需要開發(fā)一種自動診斷技術幫助醫(yī)學專家減輕負擔,在保證檢測效率的前提下提高精度。硬性滲出液是糖尿病視網膜病變的并發(fā)癥之一。由于高血糖毒性作用,血屏障被破壞,血管內的脂質、蛋白成分漏到視網膜上,留下黃色的點狀深處。圖1.1為眼底硬性滲出液的示意圖。如圖1所示,紅色框內部的點狀異常為眼底滲出液。需要解決的問題就是將該區(qū)域的特征有效的提取出來,輸出一個二值圖片。圖1眼底滲出液示意圖實現眼底圖像分割的方法具有兩大方向[2-3]。一個方向是基于傳統(tǒng)的機器學習以及機器視覺的方法。Fleming等人采用SVM的方法實現了對滲出液的分割[4]。他們首先使用均值和高斯濾波器對RGB圖像的綠色通道進行矯正。采用多種線性結構元素用來檢測滲出液的區(qū)域。最后檢測到的區(qū)域使用SVM分類器將滲出液區(qū)域和背景區(qū)域分割出來。除此以外,Sopharak用樸素貝葉斯分類器實現了該任務[5]。Osareh等人用FCM的方法,實現了對滲出液位置的像素級精準定位[6]。傳統(tǒng)機器學習的方法需要對問題進行特殊的定制,且泛化能力受算法限制,操作過程繁雜,具體問題需要具體分析。隨著深度學習技術的發(fā)展以及GPU運算的速度持續(xù)加快,以神經網絡為代表的圖像分割方式逐漸完善。Gardner等人首次使用反向傳播的神經網絡來檢測眼底滲出液[7]。深度學習發(fā)展后,模型對于大樣本的需求很高。但在醫(yī)學領域,病癥圖片的樣本十分稀少。為了解決小樣本的預測問題,OlafRonneberger等人提出了U-net[8]。U-net基于卷積神經網絡搭建而成,卷積層的運算具有高并行性,且由于權值共享的機制擁有很少的參數量,卻有很強的空間特征提取能力。本文基于U-net的架構,利用深度學習的方法將數據集分為訓練集和測試集。經過數據預處理和網絡訓練調試,網絡可以達到較好的預測結果。2方法2.1數據由于e-ophtha數據集中僅有47個標注數據,且數據的特征屬于正負樣本不均衡問題,為了擴充數據集,采用了兩個方法。首先,進一步加入IDRiD官方的分割數據集。選用分割數據集中的硬分割數據。觀察IDRiD的數據集可以發(fā)現,數據集中的標簽格式為TIF格式,且圖片中的滲出液用紅色作為標注。為了與e-ophtha數據集的標注數據統(tǒng)一,則將其轉化為黑白二值圖像以及相同的圖片格式。接下來進行數據集的擴充和增強。在實驗過程中,一共采用了兩種方式。第一種,單獨對e-ophtha數據集進行處理,對單個圖片切割成很多patches。首先將圖片進行中心裁剪為960×960的圖片,去掉大部分不感興趣的區(qū)域。再將圖片resize到512×512。之后對單個圖片進行切割,嘗試了32×32、64×64、128×128三種不同的patch。40張圖片作為訓練集,7張圖片作為測試集。因此會分別得到10240:1792、2560:448、640:112這三種不同數量級的訓練測試對。搭建U-net對其進行訓練。最后結果輸出時,將裁剪后的圖片重新恢復成原狀。第二種,融合e-ophtha數據集和IDRiD數據集進行數據中心裁剪為960×960,再resize到512×512。以64×64為1個patch對每一張圖像進行切割,得到128×64張patches。Patches以32batchsize大小為單位,輸入網絡進行計算。Labels也做同樣的處理,確保數據集一一對應。同時,對于RGB圖像來說,紅色通道更加飽和,藍色通道則色調更暗,由于綠色通道有更強的對比度,所以選擇該通道最為輸入圖像的通道,完成三通道數據到單通道數據的轉換[13]。2.2模型架構2.2.1Encoder-Decoder架構Encoder-Decoder架構是計算成像領域中的一個經典的架構。在該計算框架下,Encoder負責圖像的特征提取。Decoder負責圖像的信息重建和分割任務。在圖像分割領域中,U-net結構的卷積神經網絡是一種典型的Encoder-Decoder架構。其相比于全連接型的Encoder-Decoder架構有巨大的優(yōu)勢。首先,全連接型神經網絡是一種密集型連接,意味著每一個神經元之間都要進行連接和計算。這無疑在前向傳播和反向傳播的過程中會消耗巨大的計算資源。不僅如此,全連接的神經網絡由于其參數量巨大,面對一些數據集較少的任務時,全連接神經網絡面臨著過擬合的問題。同時,當圖片數據輸入全連接神經網絡時,需要將其打平成一維向量,這樣會丟失相關的空間信息。由于上述原因,在本實驗中采用卷積計算的方式作為神經網絡的基本計算模塊。卷積計算的優(yōu)勢在于,由于權值共享的機制,每一個卷積層所需要的參數量相比于全連接層要小得多。卷積核是一種稀疏的權重連接方式,能一定程度的減輕網絡的過擬合現象。且能較好的根據圖像的空間特征調整自己的權重。卷積核的多通道特性可以使網絡在學習的過程中自己調整每一個通道的權重,每一個通道實質相當于一個特征選擇器,能提取圖片上的不同信息。更重要的是,卷積計算具有不變性。這樣可以讓網絡有更好的泛化性能。卷積核的大小也對網絡的特征提取能力有一定的影響。圖2展示了不同卷積核大小的感受野。圖2.不同大小的卷積核的感受野表2.2.1比較了全連接層與卷積層的計算性能。層FLOPs[1]參數量[2]全連接層7,750,6567,750,656卷積層162,81681表2.2.1比較兩者時需要控制輸入變量的大小。這里假設輸入3×32×32大小的RGB圖像,因此全連接層的輸入神經元個數為3072。令卷積核的大小為3,通道數為1,步長為1,padding為0,則卷積計算后的圖像大小為29×29。則全連接神經網絡的輸出為841。根據本頁下方的計算公式,可以計算得到全連接層的浮點操作數和參數量。當前的U-net正是基于卷積操作的基礎上提出的處理醫(yī)學領域圖像分割的有效模型。本文在當前的U-net上進行了一些改進,即加入了Attention機制,訓練時采用BCEWithLogitsLoss作為損失函數。本文進行了一個對比實驗,首先搭建U-net網絡直接進行訓練。其次加入了Attention機制,進行第二次訓練,效果比原U-net結構明顯提升。下面分別對Attention機制、U-net以及BCE損失函數進行介紹。2.2.2Attention機制Attention機制顧名思義是注意力機制。即將重點集中注意力在某一個區(qū)間而不是全部。這最初借鑒于人類視覺。人類觀察一幅圖片的時候并不會關注每一個細節(jié)部位,而是重點聚焦在圖片的核心內容上。將Attention機制引入計算機視覺、NLP等等領域,都增強了網絡對于重點信息的關注能力和提取能力。在卷積神經網絡處理圖像的問題上,很多人也提出了不同角度的注意力機制。例如,JieHu等人在SEnet網絡提出通道注意力機制[9];SanghyunWoo等人提出CBAM模塊時,引入了空間注意力機制[10]。注意力機制的本質,就是在通道或者空間維度,根據當前信息的計算,得到多個可學習的權重,并附加到對應的通道或者空間上,讓網絡自動根據目標尋找感興趣的通道或區(qū)域。2.2.2U-net本文中U-net結構設計如圖3所示。圖3U-net架構U-net結構參考OlafRonneberger等人提出的標準框架[8]。該結構的三個重要的機制分別為下采樣、上采用和跳層連接。下采樣會以2為倍數對圖片大小進行縮減,這樣做的好處是可以在保持kernel-size不變的情況下,增大卷積核的感受野,能讓卷積操作在不同的視野范圍內提取圖片的特征。上采樣一般有三種方法:最鄰近插值、二次線性插值以及反卷積。在本文實驗時采用的方式為二次線性插值法,這種方法相比與最鄰近插值會有更加精確的結果,同時比用反卷積的網絡有更少的參數量。跳層連接可以結合高維信息和低維信息,實現信息的融合,有效的防止了在上采樣過程中信息的損失。在本文的U-net的卷積計算時,分別采用64、128、256、512、1024五種通道數逐步降采樣。升采樣的過程則以對稱的方式,將圖片和通道數恢復到輸入的形式。2.2.3AttentionU-netAttentionU-net由OzanOkatay等人在2018年提出[11]。圖4展示了在本文中采用的AttentionU-net的基本框架。圖4AttentionU-net網絡架構在該網絡中,每一個模塊由DoubleConv層、BatchNormalization層、ReLU層組成。通道數變化為1、64、128、256、512、1024。下采樣采用MaxPooling,上采樣采用雙線性插值法。同時加入了Skip-connection機制,加入該層的目的是為了更好的結合高維特征和低維特征,便于網絡分割。AttentionGate機制加在Skip-connection路徑中,AG的輸入是對應的下采樣的輸出和上采樣部分的輸入。2.2.3AttentionGate機制OzanOkatay在文章中指出,級聯(lián)框架提取感興趣區(qū)域(ROI)并對該區(qū)域進行預測時現在大多數模型的基石。但這種方法導致過多和冗余地使用計算資源和模型參數。為了解決這個問題,文章提出了AttentionGate方法。該方法存在幾個優(yōu)勢:1.CNN會自動關注有顯著特征的區(qū)域;2.不會引入無關的計算量。其通過抑制無關區(qū)域中特征的激活來提高模型的靈敏度和準確性。圖5示意了本文采用的AttentionGate機制。圖5AttentionGate計算流程上圖中的GateSignal來自還未進行上采樣時的當前層,Skip-Input來自對應下采樣層級的跳層輸入信號。兩種信號經過1×1的卷積核后進行加性融合。融合后的部分通過ReLU激活函數以及Sampler,計算得到α值,也即所謂的Attentioncoefficient。再將Attentioncoefficient與需要上采樣的Skip-Input進行元素相乘。最后輸出,公式1描述了AttentionGate的計算流程。4實驗結果4.1評價指標圖像分割的本質是像素級的二分類問題,因此可以用相關的評估指標對模型性能進行評判。這里選用準確度(Acc)、靈敏度(SE)、特異性(SP)以及AUC值,ROC曲線對兩個網絡的分割結果進行綜合評判。其中,準確度、靈敏度、特異性的計算公式如下:公式中,TP(TruePositive)代表分類正確的像素個數;FP(FalsePositive)代表非滲出液區(qū)域但被分為滲出液的像素個數;TN(TrueNegative)代表分類正確的正常像素個數;FN(FalseNegative)代表滲出液區(qū)域被分為非滲出液區(qū)域的像素個數。ROC(ReceiverOperatingCharacteristic),又稱受試者工作特征曲線。ROC圖像中,橫坐標代表FP,縱坐標代表TP。AUC的值就是ROC覆蓋區(qū)域的面積,可以代表模型分割結果的精準程度。AUC的值越大,則說明模型的效果越好。采用這種方式,可以直觀的對兩種模型進行比較。4.2模型比較表2展示了U-Net以及AttentionU-Net在測試數據集上的表現??梢悦黠@觀察到,加入Attention機制,使網絡擁有了更好的特征提取能力,分割時會集中在感興趣區(qū)域(ROI)上,有效的分割圖片。但是,U-Net模型的參數量為3.38M,而AttentionU-Net模型的參數量高達34.88,要高一個數量級。所以訓練時長要大于U-Net。模型AccSPSEAUCU-Net0.9980.9800.7310.973AttentionU-Net0.9980.9990.8150.985表2不同模型的訓練結果圖11ROC曲線4.3實驗結果實驗過程中共搭建了兩種不同的網絡,在統(tǒng)一數據集上運行相同的Epoch數量。Batchsize為32,學習率為0.0001,設置ratio-decay,每12個epoch減少為原來的0.9倍。最終的實驗結果如圖12所示,其中(a)為輸入圖像,(b)為groundtruth,(c)為U-Net預測結果,(d)為AttentionU-Net預測結果。圖12滲出液分割結果5結論在本研究中,首先分析了卷積操作的可行性,基于該分析,采用卷積形式的Encoder-Decoder架構,以U-Net為骨架進行實驗。實驗過程中發(fā)現了U-Net在分割任務方面的不足,為了讓模型能關注更重要的區(qū)域,減少對非滲出液區(qū)域的冗余計算和無意義的特征提取,將Attention機制應用于U-Net網絡架構中。實驗結果表明,Attention的U-Net網絡模型的特征提取能力、分割能力以及泛化性能要比U-Net優(yōu)越。由于加入Attention機制后,網絡的參數量會比原U-Net的網絡有所增多。在未來的實驗中,將采用Bottleneck機制,在不影響網絡性能的前提下,盡可能的使AttentionU-Net輕量化。此外,實驗仍然表明,增大kernelsize會提升網絡的精度??梢圆捎肈oubleConv與Bottleneck結合的方式,并加入殘差結構,進一步提升模型的性能。6參考文獻1.H.Wang,G.Yuan,X.Zhao,L.Peng,Z.Wang,Y.He,C.Qu,andZ.Peng,‘‘Hardexudatedetectionbasedondeepmodellearnedinformationandmulti-featurejointrepresentationfordiabeticretinopathyscreening,’’Comput.MethodsProgramsBiomed.,vol.191,Jul.2020,Art.no.105398.2.FO,AUR,NEYK,etal.AlgorithmsfortheAutomatedDetectionofDiabeticRetinopathyUsingDigitalFundusImages:AReview[J].JournalofMedicalSystems,2012,36(1):145–157.3.MMRK,AUR,CCK,etal.Computer-aideddiagnosisofdiabeticretinopathy:Areview[J].ComputersinBiologyandMedicine,2013,43(12):2136–2155.4.A.D.Fleming,S.Philip,K.A.Goatman,G.J.Williams,J.A.Olson,P.F.Sharp,Automateddetectionofexudatesfordiabeticretinopathyscreening,Phys.Med.Biol.52(24)(2007)7385.5.A.Sopharak,K.ThetNew,Y.N.AyeMoe,M.Dailey,B.Uyyanonvara,Automaticexudatedetectionwithana?veBayesclassifier,in:InternationalConferenceonEmbeddedSystemsandIntelligentTechnology,2008,pp.139-142.6.A.Osareh,B.Shadgar,R.Markham,Acomputational-intelligence-basedapproachfordetectionofexudatesindiabeticretinopathyimages,IEEETrans.Inf.Technol,Biomed.13(4)(2009)535-545.7.G.G.Gardner,D.Keating,T.H.Williamson,A.T.Elliott,Automaticdetectionofdiabeticretinopathyusinganartificialneuralnetwork:ascreeningtool,Br.J.Ophthalmol,80(1996)940-944.8.OlafRonneberger,PhilippFischer,andThomasBrox,U-Net:ConvolutionalNetworksforBiomedic

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論