機(jī)器學(xué)習(xí)算法與實(shí)踐課件第11章半監(jiān)督學(xué)習(xí)

上傳人：y*** IP屬地：山東上傳時(shí)間：2024-10-31 格式：PPTX 頁數(shù)：25 大小：911.01KB 積分：15 舉報(bào) 版權(quán)申訴

機(jī)器學(xué)習(xí)算法與實(shí)踐課件第11章半監(jiān)督學(xué)習(xí)_第2頁

機(jī)器學(xué)習(xí)算法與實(shí)踐課件第11章半監(jiān)督學(xué)習(xí)_第3頁

機(jī)器學(xué)習(xí)算法與實(shí)踐課件第11章半監(jiān)督學(xué)習(xí)_第4頁

機(jī)器學(xué)習(xí)算法與實(shí)踐課件第11章半監(jiān)督學(xué)習(xí)_第5頁

已閱讀5頁，還剩20頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第十一章半監(jiān)督學(xué)習(xí)半監(jiān)督學(xué)習(xí)（Semi-SupervisedLearning，SSL）是模式識別和機(jī)器學(xué)習(xí)領(lǐng)域研究的重點(diǎn)問題，是監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)相結(jié)合的一種學(xué)習(xí)方法。許多實(shí)例采用無監(jiān)督標(biāo)記來提高預(yù)測精度和學(xué)習(xí)算法的速度；通過引入加權(quán)系數(shù)動態(tài)調(diào)整無類標(biāo)簽樣例的影響，提高了分類準(zhǔn)確度；建立每類中具有多個(gè)混合部分的模型，使貝葉斯偏差減小。半監(jiān)督學(xué)習(xí)使用大量的未標(biāo)記數(shù)據(jù)，同時(shí)使用標(biāo)記數(shù)據(jù)來進(jìn)行模式識別工作。111.1未標(biāo)記樣本

如果圖中有一個(gè)樣本恰好位于正負(fù)實(shí)例中間，可以在圖中看到大體上類似于隨機(jī)猜測。如果觀察到圖中的未標(biāo)記樣本，則可以基于聚類假設(shè)來利用未標(biāo)記樣本，由于待預(yù)測樣本與正例樣本通過未標(biāo)記樣本的“撮合”聚集在一起，與相對分離的反例樣本相比，可以將該樣本判定為正例。211.1未標(biāo)記樣本

311.2半監(jiān)督學(xué)習(xí)方法半監(jiān)督學(xué)習(xí)可進(jìn)一步劃分為純半監(jiān)督學(xué)習(xí)和直推學(xué)習(xí)，前者假設(shè)訓(xùn)練數(shù)據(jù)中的樣本不顯著，而后者則假定學(xué)習(xí)過程中所考慮的未標(biāo)記樣本恰好是待預(yù)測數(shù)據(jù)，學(xué)習(xí)目的就是在這些未標(biāo)記樣本中獲得最優(yōu)泛化性能。4

11.2.1生成式方法

11.2.1生成式方法6

（11-2）

11.2.1生成式方法7

11.2.1生成式方法8

生成式方法簡單，易于實(shí)現(xiàn)，在有標(biāo)記數(shù)據(jù)極少的情形下往往比其他方法性能更好。

然而，此類方法中模型假設(shè)必須準(zhǔn)確，即假設(shè)的生成式模型必須與真是數(shù)據(jù)分布吻合，否則未用未標(biāo)記數(shù)據(jù)反倒會降低泛化性能。現(xiàn)實(shí)任務(wù)中，除非擁有充分可靠的領(lǐng)域知識，否則往往很難事先做出準(zhǔn)確的模型假設(shè)。

11.2.2半監(jiān)督SVM半監(jiān)督支持向量機(jī)（Semi-SupervisedSupportVectorMachine，簡稱S3VM），S3VM是一種在半監(jiān)督學(xué)習(xí)上推廣的廣義支持向量機(jī)。在不考慮未標(biāo)記樣本的情況下，支持向量機(jī)嘗試尋找最大間隔劃分超平面。在考慮未標(biāo)記樣本后，S3VM嘗試尋找能夠劃分開兩類有標(biāo)記樣本，且可以通過低密度區(qū)域分割將它們分開的超平面，如圖所示，其中“+”和“-”分別表示有標(biāo)記的正例和反例，藍(lán)色點(diǎn)表示未標(biāo)記樣本。9

11.2.2半監(jiān)督SVM10

在傳統(tǒng)的支持向量機(jī)有監(jiān)督學(xué)習(xí)中，我們試圖找到超平面的分割點(diǎn)，使得兩個(gè)半監(jiān)督學(xué)習(xí)點(diǎn)之間的距離很小。S3VM考慮了超平面通過區(qū)域的情況，S3VM的主要思想是將每個(gè)標(biāo)記樣本分為陽性樣本和陰性樣本。首先利用標(biāo)記樣本集和初始支持向量機(jī)進(jìn)行訓(xùn)練，然后利用機(jī)器對未標(biāo)記樣本進(jìn)行標(biāo)記，使所有樣本穩(wěn)定然后采用局部迭代搜索最優(yōu)策略。

11.2.3圖半監(jiān)督學(xué)習(xí)基于圖的半監(jiān)督學(xué)習(xí)方法是一種利用數(shù)據(jù)集的圖結(jié)構(gòu)進(jìn)行學(xué)習(xí)的技術(shù)。其主要思想是通過構(gòu)建一個(gè)圖來表示數(shù)據(jù)集，其中節(jié)點(diǎn)代表標(biāo)記和未標(biāo)記的數(shù)據(jù)點(diǎn)，邊表示數(shù)據(jù)點(diǎn)之間的相似性或關(guān)聯(lián)關(guān)系。通過賦予邊權(quán)重來度量數(shù)據(jù)點(diǎn)的相似性，權(quán)重越大表示相似性越高。在該方法中，如果兩個(gè)樣本之間的相似度較高，就可以將它們映射到相應(yīng)的節(jié)點(diǎn)上。通過給已標(biāo)記的樣本節(jié)點(diǎn)著色，未標(biāo)記的樣本節(jié)點(diǎn)不著色，可以觀察到節(jié)點(diǎn)的顏色分布情況，從而進(jìn)行半監(jiān)督學(xué)習(xí)。11

11.2.3圖半監(jiān)督學(xué)習(xí)基于圖的半監(jiān)督學(xué)習(xí)方法通常包括以下步驟：1）構(gòu)建圖：根據(jù)數(shù)據(jù)集的相似性，構(gòu)建一個(gè)圖結(jié)構(gòu)，其中節(jié)點(diǎn)表示數(shù)據(jù)點(diǎn)，邊表示相似性關(guān)系。2）賦權(quán)重：為圖中的邊賦予權(quán)重，以度量數(shù)據(jù)點(diǎn)之間的相似性，常用的距離度量有歐幾里德距離、馬氏距離、切比雪夫距離等。3）標(biāo)記節(jié)點(diǎn)：將已標(biāo)記的樣本節(jié)點(diǎn)著色，表示其已知類別信息。4）擴(kuò)散過程：通過圖的結(jié)構(gòu)和節(jié)點(diǎn)的顏色信息，將標(biāo)記信息擴(kuò)散到未標(biāo)記的節(jié)點(diǎn)上，以獲得它們的預(yù)測標(biāo)簽。5）分類或回歸：使用已標(biāo)記和預(yù)測標(biāo)記的節(jié)點(diǎn)進(jìn)行分類或回歸任務(wù)。12

11.2.4基于分歧的方法基于分歧的方法使用多學(xué)習(xí)器，而學(xué)習(xí)器之間的“分歧”的決策，就需要用到未標(biāo)記數(shù)據(jù)。在某些應(yīng)用任務(wù)中，一個(gè)數(shù)據(jù)集可能包含多個(gè)屬性集，此時(shí)每個(gè)數(shù)據(jù)樣本同時(shí)擁有多個(gè)特征向量描述；這里的每個(gè)屬性集即被稱為數(shù)據(jù)的一個(gè)“視圖（View）”。基于分歧的半監(jiān)督學(xué)習(xí)的起源、也是最著名的代表性方法是“協(xié)同訓(xùn)練法”，由于最初的設(shè)計(jì)是針對多視圖數(shù)據(jù)的，所以也被看作是多視圖學(xué)習(xí)的代表。協(xié)同訓(xùn)練法要求數(shù)據(jù)具有兩個(gè)充分冗余且滿足條件獨(dú)立性的視圖，“充分”是指每個(gè)視圖都包含足夠產(chǎn)生最優(yōu)學(xué)習(xí)器的信息，此時(shí)對其中任一視圖來說，另一個(gè)視圖則是“冗余”的；同時(shí)，對類別標(biāo)記來說這兩個(gè)視圖條件獨(dú)立。13

11.2.4基于分歧的方法協(xié)同訓(xùn)練法的學(xué)習(xí)過程：首先分別在每個(gè)視圖上利用有標(biāo)記樣本訓(xùn)練一個(gè)分類器，然后，每個(gè)分類器從未標(biāo)記樣本中挑選若干標(biāo)記置信度（即對樣本賦予正確標(biāo)記的置信度）高的樣本進(jìn)行標(biāo)記，并把這些“偽標(biāo)記”樣本（即其標(biāo)記是由學(xué)習(xí)器給出的）加入另一個(gè)分類器的訓(xùn)練集中，以便對方利用這些新增的有標(biāo)記樣本進(jìn)行更新。這個(gè)“互相學(xué)習(xí)、共同進(jìn)步”的過程不斷迭代進(jìn)行下去，直到兩個(gè)分類器都不再發(fā)生變化，或達(dá)到預(yù)先設(shè)定的學(xué)習(xí)輪數(shù)為止。1411.3半監(jiān)督聚類半監(jiān)督聚類是一種結(jié)合了無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)思想的聚類方法。它利用有限的標(biāo)記數(shù)據(jù)和大量的未標(biāo)記數(shù)據(jù)，通過將樣本分組成不同的簇來發(fā)現(xiàn)隱藏在數(shù)據(jù)中的結(jié)構(gòu)和模式。傳統(tǒng)的聚類算法通常只利用未標(biāo)記數(shù)據(jù)進(jìn)行無監(jiān)督學(xué)習(xí)，而半監(jiān)督聚類則通過引入標(biāo)記數(shù)據(jù)的先驗(yàn)知識或約束條件來指導(dǎo)聚類過程，從而提高聚類的準(zhǔn)確性和魯棒性。15這類方法使用用戶提供的標(biāo)簽或先驗(yàn)知識作為約束條件來指導(dǎo)聚類過程。常見的約束條件包括“必連”和“勿連”關(guān)系，即將兩個(gè)樣本標(biāo)記為必須屬于同一簇或不能屬于同一簇?；诩s束的方法通常通過優(yōu)化目標(biāo)函數(shù)來確保盡量滿足約束條件。具體可以分為如下幾種：

11.3.1基于約束的方法讓樣本無條件滿足給定的約束條件引入懲罰因子（或罰參數(shù)）施加獨(dú)立的類標(biāo)簽（或種子集）作為約束16約束K均值聚類算法的基本過程：1）初始化：選擇初始的K個(gè)聚類中心。2）聚類分配：根據(jù)當(dāng)前的聚類中心，將每個(gè)樣本分配到最近的聚類中心所代表的簇。3）約束調(diào)整：根據(jù)給定的約束信息，對聚類結(jié)果進(jìn)行調(diào)整?？梢愿鶕?jù)約束條件來判斷當(dāng)前的聚類結(jié)果是否滿足要求，并對不符合約束的樣本進(jìn)行調(diào)整。調(diào)整的具體方式可以根據(jù)具體約束的特點(diǎn)而定，例如將不滿足約束的樣本重新分配到合適的簇中。4）更新聚類中心：根據(jù)調(diào)整后的聚類結(jié)果，更新每個(gè)簇的聚類中心。5）重復(fù)步驟2至步驟4，直到滿足停止條件（例如達(dá)到最大迭代次數(shù)或聚類結(jié)果不再變化）。

11.3.1基于約束的方法17基于距離的半監(jiān)督聚類方法是一種常見的半監(jiān)督聚類算法，它結(jié)合了無標(biāo)簽數(shù)據(jù)和有標(biāo)簽數(shù)據(jù)中的距離信息，來指導(dǎo)聚類過程。通常情況下，已知標(biāo)簽數(shù)據(jù)會提供一些關(guān)于簇之間相對位置或距離的先驗(yàn)知識，從而有助于更準(zhǔn)確地分配無標(biāo)簽數(shù)據(jù)到相應(yīng)的簇中。

11.3.2基于距離的方法18基于距離的半監(jiān)督聚類方法的一般步驟：1）初始化：選擇初始的聚類中心。2）聚類分配：根據(jù)當(dāng)前的聚類中心，將每個(gè)無標(biāo)簽樣本分配到最近的聚類中心所代表的簇。3）標(biāo)簽約束：使用已知標(biāo)簽數(shù)據(jù)來調(diào)整聚類結(jié)果。可以通過計(jì)算帶標(biāo)簽數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)之間的距離，然后將這些距離作為約束引入聚類過程。可以根據(jù)已知標(biāo)簽數(shù)據(jù)的信息，對聚類中心進(jìn)行調(diào)整，或者調(diào)整樣本之間的距離度量方式，以更好地滿足先驗(yàn)的標(biāo)簽約束。4）更新聚類中心：根據(jù)調(diào)整后的聚類結(jié)果，更新每個(gè)簇的聚類中心。5）重復(fù)步驟2至步驟4，直到滿足停止條件（例如達(dá)到最大迭代次數(shù)或聚類結(jié)果不再變化）。

11.3.2基于距離的方法19常見的基于距離的半監(jiān)督聚類方法可以分為以下三種：基于凸優(yōu)化問題調(diào)整樣本間的距離基于最短路徑算法調(diào)節(jié)樣本之間的距離基于譜聚類方法，通過約束信息來控制樣本之間的距離

11.3.2基于距離的方法20

11.3.2基于約束和距離的方法快速K均值算法（FastK-means）該方法使用已知標(biāo)簽數(shù)據(jù)的信息來調(diào)整樣本之間的距離，從而改善聚類結(jié)果。具體而言，該方法通過引入距離約束，將已知標(biāo)簽數(shù)據(jù)限制在其對應(yīng)的簇附近，并根據(jù)這些約束來更新聚類中心。這樣可以更好地利用已知標(biāo)簽的信息，提高聚類的準(zhǔn)確性。21

11.3.2基于約束和距離的方法快速K均值算法的基本過程：

1）隨機(jī)選擇k個(gè)樣本作為初始聚類中心；2）根據(jù)當(dāng)前的聚類中心，計(jì)算每個(gè)樣本與聚類中心的距離，并將樣本分配給距離最近的聚類中心所對應(yīng)的簇；3）對每個(gè)簇，計(jì)算簇內(nèi)所有樣本的均值，并將該均值作為新的聚類中心；4）重復(fù)執(zhí)行步驟2，步驟3直到收斂，即簇的分配不再改變或達(dá)到最大迭代次數(shù)5）在步驟4中將每個(gè)樣本的簇分配結(jié)果進(jìn)行記錄。22

11.3.2基于約束和距離的方法度量學(xué)習(xí)半監(jiān)督聚類（MetricLearningforSemi-SupervisedClustering）

該方法旨在通過學(xué)習(xí)一個(gè)合適的距離度量來改善聚類質(zhì)量。該方法使用已知標(biāo)簽數(shù)據(jù)的信息來訓(xùn)練一個(gè)度量函數(shù)，使得同一類別樣本之間的距離較小，不同類別樣本之間的距離較大。通過優(yōu)化度量函數(shù)，可以調(diào)整樣本之間的距離，從而更好地聚類數(shù)據(jù)。23

11.3.2基于約束和距離的方法度量學(xué)習(xí)半監(jiān)督聚類算法的基本過程：

1）根據(jù)樣本距離矩陣D構(gòu)建簇關(guān)聯(lián)矩陣A；2）將簇關(guān)聯(lián)矩陣A規(guī)范化得到拉普拉斯矩陣L；3）對拉普拉斯矩陣L進(jìn)行特征分解，得到特征值和特征向量；4）根據(jù)前k個(gè)最小的特征值對應(yīng)的特征向量構(gòu)建新的數(shù)據(jù)表示Z；5）使用K-means聚類算法對新的數(shù)據(jù)表示Z進(jìn)行聚類，得到聚類結(jié)果C。24

11.4

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

機(jī)器學(xué)習(xí)算法與實(shí)踐課件第11章半監(jiān)督學(xué)習(xí)

文檔簡介

溫馨提示

最新文檔

評論

機(jī)器學(xué)習(xí)算法與實(shí)踐 課件 第11章 半監(jiān)督學(xué)習(xí)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

機(jī)器學(xué)習(xí)算法與實(shí)踐課件第11章半監(jiān)督學(xué)習(xí)