現(xiàn)代機器學習 課件 第16章 自監(jiān)督學習_第1頁
現(xiàn)代機器學習 課件 第16章 自監(jiān)督學習_第2頁
現(xiàn)代機器學習 課件 第16章 自監(jiān)督學習_第3頁
現(xiàn)代機器學習 課件 第16章 自監(jiān)督學習_第4頁
現(xiàn)代機器學習 課件 第16章 自監(jiān)督學習_第5頁
已閱讀5頁,還剩65頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第16章自監(jiān)督學習16.1自監(jiān)督學習概述16.2自監(jiān)督學習方法16.3自監(jiān)督學習的應用拓展本章小結(jié)

16.1自監(jiān)督學習概述16.1.1自監(jiān)督學習背景

深度學習方法在計算機視覺領(lǐng)域所取得的巨大成功,要歸功于大型訓練數(shù)據(jù)集的支持。這些帶豐富標注信息的數(shù)據(jù)集能夠幫助網(wǎng)絡學習到可判別性的視覺特征。然而,收集并標注這樣的數(shù)據(jù)集成本太高,而所標注的信息也具有一定的局限性。作為替代,使用完全自監(jiān)督方式學習并設計輔助任務來學習視覺特征的方式,已逐漸成為計算機視覺領(lǐng)域的熱點研究方向。雖然現(xiàn)在也有很多域自適應方法,但深度學習的遷移性能很差。在實際的應用中,最好的方法還是不停地增加標注數(shù)據(jù),因此產(chǎn)生了自監(jiān)督學習方法。

自監(jiān)督學習方法本質(zhì)上是一種無監(jiān)督學習的方法。不同于傳統(tǒng)的Auto-Encoder等方法僅僅以重構(gòu)輸入為目的,沒有包含更多的語義特征,對下游任務沒有很大的幫助,自監(jiān)督學習希望通過前置任務學習到和高層語義信息相關(guān)聯(lián)的特征,通常會設置一個前置任務,根據(jù)數(shù)據(jù)的一些特點,構(gòu)造偽標簽來訓練網(wǎng)絡模型,在前置任務訓練完成后,將學習到的參數(shù)用于預訓練的模型,并通過微調(diào)轉(zhuǎn)移到其他下游計算機視覺任務(比如目標分類、目標識別、語義分割和實例分割等下游任務)。這些下游任務用于評估學習到的特征的質(zhì)量。在

下游任務的知識轉(zhuǎn)移過程中,僅前幾層的一般特征會轉(zhuǎn)移到下游任務。因此,自監(jiān)督學習也可以看作用于學習圖像的通用視覺表示特征。

為了避免耗時且昂貴的數(shù)據(jù)標注,目前產(chǎn)生了許多自監(jiān)督方法,其可以在不使用任何人工標注的情況下從大規(guī)模未標注的圖像或視頻中學習視覺特征。一種常見的解決方案是

利用卷積神經(jīng)網(wǎng)絡解決各種前置任務,同時通過學習前置任務的目標函數(shù)來訓練網(wǎng)絡,并且通過這個過程來學習特征。自監(jiān)督學習提出了各種前置任務,包括給灰度圖像著色、圖

像修復、圖像拼圖等。前置任務有兩個共同的屬性:

①圖像或視頻的視覺特征需要由卷積神經(jīng)網(wǎng)絡捕獲來完成前置任務;

②監(jiān)督信息通過利用其結(jié)構(gòu)由數(shù)據(jù)本身生成。

自監(jiān)督學習的一般流程如圖16.1所示。在自監(jiān)督訓練階段,設計一個前置任務供深度卷積神經(jīng)網(wǎng)絡求解,并且根據(jù)數(shù)據(jù)的某些屬性自動生成前置任務的偽標簽,然后訓練深度卷積神經(jīng)網(wǎng)絡來學習前置任務的目標函數(shù)。圖16.1自監(jiān)督學習的一般流程圖

16.1.2術(shù)語解釋

前置任務:是網(wǎng)絡為解決實際問題而預先設計的。視覺特征是通過學習前置任務的客觀功能而得到的。前置任務可以是預測任務、生成任務、對比任務或它們的組合。前置任務的監(jiān)督信號是根據(jù)數(shù)據(jù)本身的結(jié)構(gòu)生成的。

偽標簽:前置任務中使用的標簽。它是根據(jù)前置任務的數(shù)據(jù)結(jié)構(gòu)生成的。

下游任務:自監(jiān)督訓練產(chǎn)生的權(quán)重,需要遷移到其他任務上,以此來看自監(jiān)督的訓練效果。通常認為自監(jiān)督訓練出來的模型可以學到這個數(shù)據(jù)的一些比較通用的特征,所以通過遷移之后的任務表現(xiàn)來判定這個自監(jiān)督算法是否有效。因此,下游任務是在自監(jiān)督訓練完成后后續(xù)需要遷移自監(jiān)督模型的任務。

監(jiān)督學習:指使用帶精確的人工標注的標簽數(shù)據(jù)來訓練網(wǎng)絡或進行學習的方法。

半監(jiān)督學習:指使用少量標記數(shù)據(jù)和大量未標記數(shù)據(jù)進行學習的學習方法。

弱監(jiān)督學習:指使用粗粒度標簽或不準確標簽進行學習的學習方法。

無監(jiān)督學習:指不使用任何人為標注標簽的學習方法。

自監(jiān)督學習:是無監(jiān)督學習方法的一個子集,指利用數(shù)據(jù)本身的結(jié)構(gòu)和數(shù)據(jù)本身產(chǎn)生的監(jiān)督信號來訓練深度卷積神經(jīng)網(wǎng)絡。

由于在自監(jiān)督訓練期間不需要人工標注來生成偽標簽,因此自監(jiān)督學習方法的主要優(yōu)點是它可以以非常低的成本很容易地擴展到大規(guī)模數(shù)據(jù)集。使用這些偽標簽進行訓練后,

自監(jiān)督方法取得了令人滿意的結(jié)果,并且在下游任務的性能上取得了與監(jiān)督方法差距較小的效果。

16.1.3自監(jiān)督學習前置任務

根據(jù)設計的前置任務的數(shù)據(jù)屬性,可將前置任務的設計方法歸納為三類:基于上下文的方法、基于時序的方法和基于對比的方法。

(1)基于上下文的方法(Context-BasedMethods):主要利用圖像的上下文特征(如上下文相似性、空間上下文結(jié)構(gòu)等)來設計。

①上下文相似性(ContextSimilarity):基于圖像塊之間的背景相似性來設計。這類方法包括基于圖像聚類的方法和基于圖形約束的方法。

②空間上下文結(jié)構(gòu)(SpatialContextStructure):將前置任務用于訓練基于圖像塊之間空間關(guān)系的轉(zhuǎn)換網(wǎng)絡。這類方法包括圖像拼圖、上下文預測和幾何變換識別等。

(2)基于時序的方法:主要利用視頻的時序特征(如視頻幀的先后順序、視頻幀的相似性等來設計。

①視頻幀的先后順序:設計一個模型來判斷當前的視頻序列是否是正確的順序。

②視頻幀的相似性:即認為視頻中的相鄰幀特征是相似的,而相隔較遠的視頻幀是不相似的,通過構(gòu)建這種相似和不相似的樣本來進行自監(jiān)督約束。

(3)基于對比的方法:構(gòu)建正樣本和負樣本,通過度量正負樣本的距離來實現(xiàn)自監(jiān)督學習。

以上我們簡單介紹了三種用于自監(jiān)督學習前置任務的方法,包括基于上下文的方法、基于時序的方法和基于對比的方法,用這些方法設計前置任務都是為了更好地學習圖像特

征,從而得到對下游任務有價值的表征。

下面我們將通過使用GAN生成圖像(生成假圖像)、圖像超分辨(生成高分辨率圖像)、圖像修復(預測缺失的圖像區(qū)域)和圖像著色(將灰度圖像著色為彩色圖像)等方法來簡單介

紹自監(jiān)督學習前置任務的設計。對于這些方法,偽訓練標簽P通常是圖像本身,訓練過程中不需要人工標注標簽,因此這些方法屬于自監(jiān)督學習方法。

1.GAN生成圖像

生成對抗網(wǎng)絡(GAN)是Goodfellow等人提出的一種深層生成模型。一個GAN模型通常由兩種網(wǎng)絡組成:一個是根據(jù)潛在向量(latentvector)生成圖像的生成器,另一個是用來區(qū)分輸入圖像是否由生成器生成的鑒別器。鑒別器強制生成器生成逼真的圖像,而生成器強制鑒別器提高其可分辨性。在訓練過程中,它們的網(wǎng)絡相互競爭,使彼此更強大。圖16.2所示為從隨機噪聲任務中生成圖像的通用架構(gòu)。圖16.2從隨機噪聲任務中生成圖像的通用框架

2.圖像修復

圖像修復是指根據(jù)其余圖像預測任意缺失的區(qū)域。圖16.3是圖像修復任務的定性圖示。要正確地預測缺失區(qū)域,需要網(wǎng)絡來學習常識,包括常見對象的顏色和結(jié)構(gòu)。只有知道了這一知識,網(wǎng)絡才可以基于圖像的其余部分來推斷缺失的區(qū)域。圖16.3圖像修復任務的定性圖示

生成網(wǎng)絡一般由兩部分組成:編碼器和解碼器。編碼器的輸入是需要修復的圖像,上下文編碼器學習圖像的語義特征。上下文解碼器就是根據(jù)這個特征來預測缺失區(qū)域的。生

成網(wǎng)絡需要理解圖像的內(nèi)容,以便生成可實施的假設。通過訓練鑒別網(wǎng)絡可區(qū)分輸入圖像是否是發(fā)生器的輸出。為了完成圖像修復任務,兩個網(wǎng)絡都需要學習圖像的語義特征。

3.圖像超分辨

圖像超分辨(SR)是指增強圖像分辨率。借助全卷積網(wǎng)絡,可以由低分辨率圖像生成更精細、更逼真的高分辨率圖像。SRGAN是Ledig等人提出的用于單圖像超分辨率的生成對

抗網(wǎng)絡。這種方法的獨到之處是利用了包括對抗性損失和內(nèi)容損失在內(nèi)的感知損失。因此SRGAN能夠從大量下采樣的圖像中恢復逼真的紋理,并顯示出明顯的感知質(zhì)量的提升。

圖像超分辨能夠?qū)W習圖像的語義特征,與其他GAN類似,鑒別網(wǎng)絡的參數(shù)可以轉(zhuǎn)移到其他下游任務。

4.圖像著色

圖像著色是指給出給定輸入灰度的圖像對應的彩色圖像。圖16.4顯示了圖像著色的框架。要正確地著色每個像素,網(wǎng)絡需要識別對象并將同一部分的像素分組在一起。因此,可以在完成圖像著色的過程中學習視覺特征。圖16.4圖像著色的架構(gòu)

16.1.4自監(jiān)督學習下游任務

為了通過自監(jiān)督方法評估所學習的圖像或視頻特征的質(zhì)量,通常需要將自監(jiān)督學習所學習的參數(shù)用作預先訓練的模型,然后對下游任務進行微調(diào),如圖像分類、語義分割、對象

檢測和動作識別等。遷移學習在這些高級視覺任務上的表現(xiàn)證明了所學特征的普遍性。如果自監(jiān)督學習的網(wǎng)絡能夠?qū)W習一般特征,那么預處理后的模型可以用作其他視覺任務的良好起點,這些視覺任務需要從圖像或視頻中捕捉相似的特征。

以下是視覺特征評估中常用的高級任務的簡要介紹。

(1)語義分割。

(2)目標檢測。

(3)圖像分類。

(4)人體動作識別。

除了以上學習特征的定量評估之外,還有一些定性可視化方法可用來評估自監(jiān)督學習特征的質(zhì)量。

(1)核可視化:定性地可視化通過前置任務學習的第一個卷積層的卷積核,并比較監(jiān)督模型的內(nèi)核。

(2)特征圖可視化:特征圖被可視化以顯示網(wǎng)絡的注意力區(qū)域。

(3)最近鄰檢索:一般來說,具有相似外觀的圖像通常在特征空間中更接近。最近鄰法用于從自監(jiān)督學習模型所學習的特征空間找到前K個最近鄰。

16.1.5自監(jiān)督學習數(shù)據(jù)集

本節(jié)介紹用于訓練和評估自監(jiān)督視覺特征學習方法的常用數(shù)據(jù)集。為監(jiān)督學習收集的數(shù)據(jù)集可以用于自監(jiān)督訓練,而無須使用它們的人工標注標簽。對所學特征質(zhì)量的評估通

常是通過對具有相對較小的數(shù)據(jù)集(通常具有準確的標簽)的高級視覺任務進行微調(diào)來進行的,如視頻動作識別、對象檢測、語義分割等。

16.2自監(jiān)督學習方法

16.2.1基于對比的自監(jiān)督學習基于對比的自監(jiān)督學習方法通過對兩個事物的相似或不相似進行編碼來構(gòu)建表征,主要思想是構(gòu)建正樣本(positive)和負樣本(negative),然后度量正負樣本的距離來實現(xiàn)自監(jiān)督學習。樣本和正樣本之間的距離應遠遠大于樣本和負樣本之間的距離:

這里的x通常也稱為anchor數(shù)據(jù)。為了優(yōu)化anchor數(shù)據(jù)和其正負樣本的關(guān)系,我們可以使用點積的方式構(gòu)造距離函數(shù),然后構(gòu)造一個softmax分類器,以正確分類正樣本和負樣

本。將相似性度量函數(shù)較大的值分配給正樣本,將較小的值分配給負樣本:

通常這個損失也被稱為InfoNCE損失。最小化InfoNCE損失可最大限度地提高f(x)和f(x+)之間相互信息的下限。后面的很多工作也基本是圍繞這個損失進行的。

DeepInfoMax(DIM)的方法通過最大化互信息來學習期望特征的表示。DIM通過利用圖像中存在的局部結(jié)構(gòu)來學習圖像表示。DIM背后的對比任務其實就是對全局特征和局部特征是否來自同一圖像進行分類。如圖16.5所示,全局特征是卷積編碼器的最終輸出(一個平面向量Y),局部特征是編碼器中的中間層的輸出(一個M×M的特征圖)。每個局部特

征圖都有一個有限的接收域。因此,從直覺上講,這意味著要很好地完成對比任務,全局特征向量必須捕獲來自所有不同局部區(qū)域的信息。

從DIM的損失函數(shù)角度來看,我們可以發(fā)現(xiàn)它與上面描述的對比損失函數(shù)完全一樣。在這里,給定一個錨圖像x,f(x)是全局特征,f(x+)是同一圖像(正樣本)的局部特征,f(x-)是來自其他圖像(負樣本)的局部特征。圖16.5用DIM最大化局部特征和全局特征的互信息

利用點積計算相似度,這里用一種稱為InfoNCE的對比損失函數(shù):

對比方法往往在有大量的負樣本時工作得更好,因為更多數(shù)量的負樣本可以更有效地覆蓋基礎(chǔ)分布,從而提供更好的訓練信號。但是通常的對比學習公式中,梯度反向流過正

樣本和負樣本的編碼器。這意味著負樣本的數(shù)量被限制為小批量。無監(jiān)督視覺表征學習的動量對比(MoCo)方法有效地解決了這一問題。如圖16.6所示,維持大量的負樣本隊列,不

使用反向傳播來更新密鑰編碼器,而使用動量更新的方式更新密鑰編碼器:圖16.6MoCo通過使用對比損失將編碼查詢q與編碼密鑰的字典相匹配來訓練視覺表征編碼器

MoCo使用對比損失,與圖16.7中的兩個現(xiàn)有的一般機制進行比較。它們在字典大小和一致性上表現(xiàn)出了不同的特性。圖16.7三種對比損失機制的概念比較(這里演示一對查詢和鍵。這三種機制在如何維護密鑰和如何更新密鑰編碼器方面有所不同)

SimCLR算法通過組合數(shù)據(jù)增強后的圖像對比來學習特征,這個工作主要是對一個輸入的樣本進行不同的數(shù)據(jù)增廣。對于同一個樣本的不同增廣是正樣本,對于不同樣本的增

廣是負樣本,如圖16.8所示。整個過程比之前動量對比(MoCo)更加簡單,同時省去了數(shù)據(jù)存儲隊列。SimCLR首先在表征層和最后的損失層增加了一個非線性映射以增強性能;其次,數(shù)據(jù)增廣對于自監(jiān)督學習是有益的,不同數(shù)據(jù)增廣方式的結(jié)合比單一增廣更好。與監(jiān)督學習相比,對比學習能夠從更大的批處理大小和更多的訓練步驟中受益。圖16.8SimCLR算法框架圖

16.2.2基于上下文的自監(jiān)督學習

在基于上下文的圖像特征學習中,前置任務的設計主要利用的是圖像的上下文特征,如上下文相似性、空間上下文信息等。當將上下文相似性用作自監(jiān)督學習的監(jiān)督信號時,

數(shù)據(jù)會被聚類成不同的組。在假設數(shù)據(jù)來自同一組的情況下,同一組的數(shù)據(jù)具有較高的上下文相似性,而來自不同組的數(shù)據(jù)具有較低的上下文相似性。

利用空間上下文線索進行自監(jiān)督視覺特征學習是先驅(qū)工作之一,其為圖像的自監(jiān)督學習提供了一種范式,類似于文本的自監(jiān)督學習,對上下文做出預測。通過構(gòu)造上下文預測這樣一個前置任務,可使網(wǎng)絡學到圖像中的上下文信息,而這些信息對于圖像分類、目標檢測和語義分割等計算機視覺任務有幫助。如圖16.9所示

遵循這個想法,許多不同的方法被提出來用于解決空間圖像問題。圖16.10為用卷積神經(jīng)網(wǎng)絡解決圖像拼圖。圖16.10(a)是具有9個采樣圖像塊的圖像,圖(b)是打包圖像塊的

示例,圖(c)顯示了9個采樣塊的正確順序。打包的圖像塊被送到網(wǎng)絡,該網(wǎng)絡經(jīng)過訓練以通過學習圖像的空間上下文結(jié)構(gòu)(如對象顏色、結(jié)構(gòu)和高級語義信息)來識別輸入塊的正確的空間位置。圖16.10圖像拼接的可視化圖16.10圖像拼接的可視化

16.2.3基于時序的自監(jiān)督學習

第一種方法依據(jù)的是幀的相似性。

另一種方法依據(jù)的是無監(jiān)督追蹤方法。

除了基于特征的相似性外,視頻的先后順序也是一種自監(jiān)督信息。視頻由各種長度的幀組成,這些幀具有豐富的空間和時間信息。利用時間上下文關(guān)系提出了各種前置任務,

包括時間順序驗證和時間順序識別。時間順序驗證用于驗證輸入幀序列是否按正確的時間順序進行,而時間順序識別用于識別輸入幀序列的順序。

圖16.12所示為使用時間順序驗證作為2D卷積神經(jīng)網(wǎng)絡的前置任務的視頻特征學習方法。該過程有兩個主要步驟:①從視頻中采樣具有重要運動的幀;②將采樣的幀打亂并饋送到經(jīng)過訓練的網(wǎng)絡以驗證輸入數(shù)據(jù)的順序是否正確。為了成功驗證輸入幀的順序,需要網(wǎng)絡捕獲幀之間的細微差異,如人的移動。因此,可以通過完成此任務的過程來學習語

義特征。時間順序識別任務使用類似體系結(jié)構(gòu)的網(wǎng)絡。但是,這些方法通常要經(jīng)歷大量的數(shù)據(jù)集準備步驟,且需要大量的計算資源。因此,需要更多直接和省時的方法來進行自監(jiān)督視頻特征學習。圖16.12Shuffle和Learn的流程(訓練網(wǎng)絡以驗證輸入幀是否按正確的時間順序排列)

16.3自監(jiān)督學習的應用拓展

16.3.1自監(jiān)督學習輔助的知識蒸餾模型壓縮有很多種選擇,如剪枝、量化、知識蒸餾等。剪枝在維持模型結(jié)構(gòu)不變的同時,試圖剪掉對網(wǎng)絡影響不大的通道。量化可以將32bit的高精度計算降至8bit的低精度計算。知識蒸餾由Hinton在2015年首次提出,不同于剪枝和量化,它并非去修改一個已有的大模型,而是構(gòu)建一個新的小模型,期望在大模型的監(jiān)督下可使小模型的性能得到提升。知識蒸餾的框架如圖16.13所示。通常稱大模型為教師模型(teacher),稱小模型為學生模型(student)。圖16.13知識蒸餾的框架

來自教師模型的輸出被形象化為知識,而從教師模型提取知識并轉(zhuǎn)移至學生模型,與化學中從混合物中蒸餾出某純凈物的過程相似,所以用教師模型監(jiān)督學生模型的方法被稱

作蒸餾。

1.現(xiàn)行蒸餾方法

一個應用于分類任務的CNN通常包含兩部分:

①用于提取特征的網(wǎng)絡主干;

②用于將特征映射到分類結(jié)果的分類器。

一張輸入圖像經(jīng)過整個網(wǎng)絡處理,除了最后一層輸出分類結(jié)果外,還會得到非常多不同尺度、不同語義的中間層特征。在Hinton最早嘗試用最后一層輸出作為knowledge后,

后續(xù)的工作便開始探索中間層特征及其變體作為knowledge的可能性,如FitNet用featuremap本身,AttentionTransfer(AT)用attentionmap,FlowofSolutionProcedure

(FSP)用層之間的gram矩陣等,這些工作可以用一個統(tǒng)一的公式來表達:

2.自監(jiān)督學習輔助的知識蒸餾

現(xiàn)有的知識蒸餾方法的研究主要集中在學生模型應該模仿哪種類型的教師網(wǎng)絡的中間表示上。這些表示包括注意力圖、語法矩陣、梯度、預激活和特征分布統(tǒng)計。盡管網(wǎng)絡的中間表示可以提供更細粒度的信息,但是這些知識的介質(zhì)其共同特征是它們都來自單個任務(通常是原始分類任務)。知識是高度特定于任務的,因此,此類知識可能只反映封裝在煩

瑣網(wǎng)絡中的完整知識的單個方面。為了挖掘更豐富的潛藏知識,我們需要開展除原始分類任務之外的輔助任務,以提取與分類知識互補的更豐富的信息。

圖16.14顯示了使用自監(jiān)督學習作為知識蒸餾的輔助任務的幾個優(yōu)點(我們將組合稱為SSKD(KnowledgeDistillationMeetsSelf-Supervision))。圖16.14傳統(tǒng)的知識蒸餾和自監(jiān)督學習輔助的知識蒸餾

因此,自監(jiān)督學習輔助的知識蒸餾的出發(fā)點便是:通過自監(jiān)督任務,補足teacher模型中原本分類任務無法覆蓋的那部分知識,通過分類任務和自監(jiān)督任務的雙重蒸餾,促進student模型的性能提升,其原理如圖16.15所示。圖16.15自監(jiān)督學習輔助的知識蒸餾的結(jié)構(gòu)框架

16.3.2自監(jiān)督半監(jiān)督學習

自監(jiān)督學習技術(shù)定義了僅使用未標記數(shù)據(jù)就可以制訂的前置任務,因此為解決這些前置任務而訓練的模型可用于解決其他感興趣的下游任務,如圖像識別等。半監(jiān)督學習試圖

從未標記的樣本和標記的樣本中學習,通常假定它們是從相同或相似的分布中采樣的??刹捎貌煌椒▽ξ礃擞洈?shù)據(jù)結(jié)構(gòu)獲得不同的信息。

用于評估半監(jiān)督學習算法的標準協(xié)議的工作原理如下:從標準標記數(shù)據(jù)集開始,只保留該數(shù)據(jù)集上的一部分標簽(如10%),將其余的視為未標記數(shù)據(jù)。深度神經(jīng)網(wǎng)絡半監(jiān)督學

習的許多初步結(jié)果都基于生成模型,如降噪自動編碼器、變分自動編碼器和生成對抗網(wǎng)絡。最近的一系列研究表明,通過對未標記數(shù)據(jù)增加一致性正則化損失,標準基線的結(jié)果得到了改善,這些一致性正則化損失度量了在擾動的未標記數(shù)據(jù)點上所做的預測之間的差異。在測量這些擾動之前,通過平滑預測可以顯示出其他改進。這類方法包括π模型、時間集合和虛擬對抗訓練等。

半監(jiān)督學習的另外一種重要方法(即在深度神經(jīng)網(wǎng)絡和其他類型的模型中均顯示出成功的方法)是偽標簽。偽標簽是一種簡單的方法,它僅在標記的數(shù)據(jù)上訓練模型,然后對未標記的數(shù)據(jù)進行預測,之后使用未標記數(shù)據(jù)點的預測類別擴大其訓練集,最后使用這個放大的標記數(shù)據(jù)集重新訓練模型。而條件熵最小化鼓勵所有未標記的樣本對某類做出有信心的預測。

自監(jiān)督半監(jiān)督方法(S4L)聚焦于半監(jiān)督圖像分類問題。形式上,假設數(shù)據(jù)會在圖像和標簽上生成聯(lián)合分布P(X,Y)。學習算法可以訪問已標記的訓練集Dl(這個訓練集從P(X,Y)中被獨立同分布采樣)和一個未標記的訓練集Du(從邊緣分布P(X)中被獨立同分布采樣),如圖16.16所示。

在這個方法中考慮的半監(jiān)督方法具有以下形式的學習目標:圖16.16一種自監(jiān)督半監(jiān)督方法S4L-Rotation示意圖

需要注意的是,自監(jiān)督半監(jiān)督學習的目標函數(shù)(式(1611))實際上是使用隨機梯度下降或其變體進行優(yōu)化,而隨機梯度下降或者其變體使用小批量數(shù)據(jù)來更新參數(shù)θ。在這種情況下,有監(jiān)督的小批量大小xl,yl?Dl和無監(jiān)督的小批量大小xu?Du的大小可以任意選擇。在S4L算法中,默認采用相同大小的小批量這個最簡單的選擇。

自監(jiān)督半監(jiān)督學習算法通過運用預測圖像旋轉(zhuǎn)和預測示例這兩個突出的自監(jiān)督技術(shù),在具有挑戰(zhàn)性的ILSVRC2012數(shù)據(jù)集上展現(xiàn)出了非常不錯的表現(xiàn)。

S4L-Rotation旋轉(zhuǎn)自監(jiān)督的關(guān)鍵思想是旋轉(zhuǎn)輸入圖像,然后預測這些旋轉(zhuǎn)圖像的旋轉(zhuǎn)角度。損失定義為

式中,R是4個旋轉(zhuǎn)角度的集合,xr

是圖像x經(jīng)過旋轉(zhuǎn)r角度后得到的,fθ(·)是一個帶有參數(shù)θ的模型,L是交叉熵損失。這導致了一個4類分類問題。在單步的優(yōu)化過程中,我們總是應用和預測在一個小batch中每張圖片的所有四個旋轉(zhuǎn)。

我們還將自監(jiān)督的損失應用于每個小批量中的有標記圖像。由于在這種情況下我們處理旋轉(zhuǎn)的有監(jiān)督圖像,因此建議對這些圖像也應用分類損失。當只有少量標記的圖像可用時,這可以視為在方案中對模型進行正則化的另一種方法。

S4L框架可用于將任何自監(jiān)督方法轉(zhuǎn)變?yōu)榘氡O(jiān)督學習模型,彌合了自監(jiān)督學習和半監(jiān)督學習之間的差距。通過實例化S4L-Rotation和S4LExemplar這兩種方法表明,它們在具有挑戰(zhàn)性

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論