《人工智能技術(shù)基礎(chǔ)》課件 第10章 機(jī)器學(xué)習(xí)方法_第1頁(yè)
《人工智能技術(shù)基礎(chǔ)》課件 第10章 機(jī)器學(xué)習(xí)方法_第2頁(yè)
《人工智能技術(shù)基礎(chǔ)》課件 第10章 機(jī)器學(xué)習(xí)方法_第3頁(yè)
《人工智能技術(shù)基礎(chǔ)》課件 第10章 機(jī)器學(xué)習(xí)方法_第4頁(yè)
《人工智能技術(shù)基礎(chǔ)》課件 第10章 機(jī)器學(xué)習(xí)方法_第5頁(yè)
已閱讀5頁(yè),還剩55頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

人工智能技術(shù)基礎(chǔ)機(jī)器學(xué)習(xí)第十章機(jī)器學(xué)習(xí)方法本質(zhì)上是利用數(shù)據(jù)確定模型參數(shù)的優(yōu)化方法,類比人類的學(xué)習(xí)方法可以簡(jiǎn)單分為三大類:有監(jiān)督學(xué)習(xí)(SupervisedLearging)、無(wú)監(jiān)督學(xué)習(xí)(UnsupervisedLearning)和強(qiáng)化學(xué)習(xí)(ReinforcementLearning)。有監(jiān)督學(xué)習(xí)是指使用包含標(biāo)簽或期望值的數(shù)據(jù)集確定模型參數(shù)的方法。無(wú)監(jiān)督學(xué)習(xí)是指使用沒(méi)有標(biāo)簽或期望值的數(shù)據(jù)集確定模型參數(shù)的方法。強(qiáng)化學(xué)習(xí)本質(zhì)上也是無(wú)監(jiān)督學(xué)習(xí),所用的數(shù)據(jù)也是沒(méi)有標(biāo)簽或期望值的數(shù)據(jù),但它通過(guò)評(píng)價(jià)機(jī)構(gòu)來(lái)確定學(xué)習(xí)效果,常用于控制與決策的問(wèn)題中10機(jī)器學(xué)習(xí)方法簡(jiǎn)介目錄Contents弱監(jiān)督學(xué)習(xí)自監(jiān)督學(xué)習(xí)遷移學(xué)習(xí)深度強(qiáng)化學(xué)習(xí)元學(xué)習(xí)和?。悖颖緦W(xué)習(xí)持續(xù)學(xué)習(xí)大語(yǔ)言模型中的機(jī)器學(xué)習(xí)方法本章小結(jié)10.110.210.310.410.510.610.710.801弱監(jiān)督學(xué)習(xí)10.1弱監(jiān)督學(xué)習(xí)有監(jiān)督學(xué)習(xí)是最常見的機(jī)器學(xué)習(xí)方法,它要求使用的數(shù)據(jù)集必須是有標(biāo)簽的數(shù)據(jù)集?,F(xiàn)實(shí)中很難保證每一樣本都有標(biāo)簽,也難以保證標(biāo)簽的準(zhǔn)確和正確,這些情況下的監(jiān)督學(xué)習(xí)方法稱為弱監(jiān)督學(xué)習(xí)(WeaklySupervisedLearning)。根據(jù)數(shù)據(jù)樣本標(biāo)簽的情況,弱監(jiān)督學(xué)習(xí)又分為不完全監(jiān)督、不確切監(jiān)督和不準(zhǔn)確監(jiān)督學(xué)習(xí)三種類型。不完全監(jiān)督學(xué)習(xí)是針對(duì)訓(xùn)練樣本集中存在大量無(wú)標(biāo)簽樣本的學(xué)習(xí)方法,它又可以分為主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)兩類弱監(jiān)督不完全監(jiān)督強(qiáng)監(jiān)督不確切監(jiān)督不精確監(jiān)督10.1弱監(jiān)督學(xué)習(xí)10.1.1主動(dòng)學(xué)習(xí)在某些情況下,沒(méi)有類標(biāo)簽的數(shù)據(jù)相當(dāng)豐富而有類標(biāo)簽的數(shù)據(jù)相當(dāng)稀少,并且人工對(duì)數(shù)據(jù)進(jìn)行標(biāo)記的成本又相當(dāng)高昂。此時(shí)可以令學(xué)習(xí)算法主動(dòng)地提出要對(duì)哪些數(shù)據(jù)進(jìn)行標(biāo)注,之后將這些數(shù)據(jù)送到專家那里讓他們進(jìn)行標(biāo)注,再將這些數(shù)據(jù)加入到訓(xùn)練樣本集中對(duì)模型進(jìn)行訓(xùn)練。這一過(guò)程叫做主動(dòng)學(xué)習(xí)(ActiveLearning)衡量選擇的價(jià)值,有兩個(gè)廣泛使用的標(biāo)準(zhǔn),即信息量(Informativeness)和代表性(Representativeness)不確定抽樣:訓(xùn)練單個(gè)學(xué)習(xí)器,選擇學(xué)習(xí)器最不確信的樣本向先知詢問(wèn)標(biāo)簽信息。投票詢問(wèn):生成多個(gè)學(xué)習(xí)器,選擇各個(gè)學(xué)習(xí)器爭(zhēng)議最大的樣本向先知詢問(wèn)標(biāo)簽信息。10.1弱監(jiān)督學(xué)習(xí)10.1.2半監(jiān)督學(xué)習(xí)樣本數(shù)據(jù)類別標(biāo)簽缺失部分特征維缺失噪聲自訓(xùn)練協(xié)同訓(xùn)練02自監(jiān)督學(xué)習(xí)10.2自監(jiān)督學(xué)習(xí)有監(jiān)督、無(wú)監(jiān)督和自監(jiān)督學(xué)習(xí)的區(qū)別自監(jiān)督學(xué)習(xí)的主要思想是利用輸入數(shù)據(jù)本身的特性,通過(guò)對(duì)數(shù)據(jù)進(jìn)行一定的變換或生成,得到新的數(shù)據(jù),然后利用這些新的數(shù)據(jù)對(duì)模型進(jìn)行有監(jiān)督的訓(xùn)練。自監(jiān)督學(xué)習(xí)概括為兩個(gè)經(jīng)典定義:通過(guò)“半自動(dòng)”過(guò)程從數(shù)據(jù)本身獲取“標(biāo)簽”。用數(shù)據(jù)的其他部分預(yù)測(cè)數(shù)據(jù)的一部分。監(jiān)督學(xué)習(xí)可疑標(biāo)簽輸入輸入輸入1輸入2目標(biāo)有限能力無(wú)監(jiān)督學(xué)習(xí)自監(jiān)督學(xué)習(xí)從共同輸入中的相關(guān)信息中派生標(biāo)簽自監(jiān)督上游任務(wù)預(yù)訓(xùn)練無(wú)標(biāo)簽數(shù)據(jù)集有標(biāo)簽有監(jiān)督下游任務(wù)訓(xùn)練10.2自監(jiān)督學(xué)習(xí)10.2.1生成式自監(jiān)督學(xué)習(xí)生成式自監(jiān)督學(xué)習(xí)恢復(fù)原始像素、標(biāo)記信息自編碼器自回歸變形金剛編碼器生成對(duì)抗網(wǎng)絡(luò)10.2自監(jiān)督學(xué)習(xí)10.2.2判別式自監(jiān)督學(xué)習(xí)判別式自監(jiān)督學(xué)習(xí)主要指的是對(duì)比學(xué)習(xí)TexthereDeepInfoMaxSimCLRBYOLMoCoCMC對(duì)比學(xué)習(xí)超越了在ImageNet數(shù)據(jù)集的Top-1的準(zhǔn)確率ResNet50對(duì)比學(xué)習(xí)框架分為兩種類型:上下文-實(shí)例對(duì)比和上下文-上下文對(duì)比10.2自監(jiān)督學(xué)習(xí)10.2.2判別式自監(jiān)督學(xué)習(xí)上下文-上下文:上下文-實(shí)例:預(yù)測(cè)相對(duì)位置(PRP)重點(diǎn)學(xué)習(xí)局部成分之間的相對(duì)位置。全局上下文是預(yù)測(cè)這些關(guān)系的隱含要求(例如了解大象的長(zhǎng)相對(duì)于預(yù)測(cè)其頭尾之間的相對(duì)位置至關(guān)重要)。最大化互信息(MI)關(guān)注學(xué)習(xí)局部和全局內(nèi)容之間關(guān)系的顯式信息。局部成分之間的相對(duì)位置將被忽略。1.基于聚類的判別DeepClustering網(wǎng)絡(luò)將聚類分配和上下文相似度作為偽標(biāo)簽,來(lái)學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)。不同通道間的數(shù)據(jù)也存在空間上的上下文關(guān)聯(lián)規(guī)律,可以利用這種關(guān)系在不同通道間交叉監(jiān)督、預(yù)測(cè),進(jìn)行圖像著色。2.基于通道的上下文方法3.基于圖像空間上下文

圖像的空間上下文信息、連續(xù)性可用于設(shè)計(jì)自監(jiān)督學(xué)習(xí)的先前任務(wù)。4.基于時(shí)序信息的上下文

視頻中蘊(yùn)含著豐富的時(shí)空信息,內(nèi)在的時(shí)間序列邏輯信息可以作為自監(jiān)督學(xué)習(xí)的監(jiān)督信號(hào)。輸入卷積BP分類聚類偽標(biāo)簽原始數(shù)據(jù)原始數(shù)據(jù)通道預(yù)測(cè)數(shù)據(jù)通道預(yù)編碼數(shù)據(jù)自編碼器輸入圖像灰度圖像通道彩色圖像通道預(yù)測(cè)彩色圖像通道預(yù)測(cè)灰度圖像通道預(yù)測(cè)圖像03遷移學(xué)習(xí)10.3遷移學(xué)習(xí)遷移學(xué)習(xí)的思路:令機(jī)器像人那樣從已有知識(shí)中學(xué)習(xí)經(jīng)驗(yàn),從而能夠在新任務(wù)中實(shí)現(xiàn)快速掌握技能的目的。如會(huì)騎自行車的人能夠更快掌握騎電動(dòng)車的要領(lǐng)。會(huì)下圍棋的人在下五子棋時(shí)更容易掌握千變?nèi)f化的招數(shù)。遷移學(xué)習(xí)可以定義為利用已掌握的源域上的學(xué)習(xí)任務(wù)幫助解決目標(biāo)域上的學(xué)習(xí)任務(wù)。源域目標(biāo)域遷移學(xué)習(xí)知識(shí)學(xué)習(xí)任務(wù)學(xué)習(xí)任務(wù)10.3遷移學(xué)習(xí)源域:已具有的知識(shí)或經(jīng)驗(yàn)?zāi)P湍繕?biāo)域:待遷移的任務(wù)源域中篩選出與目標(biāo)域高度相似的數(shù)據(jù),然后對(duì)目標(biāo)域進(jìn)行訓(xùn)練?;趯?shí)例源域和目標(biāo)域有一些交叉特征,通過(guò)特征變換將兩個(gè)域數(shù)據(jù)變換到同一特征空間,然后進(jìn)行訓(xùn)練。基于特征源域與目標(biāo)域是相似的,它們之間存在或可以共享的某種關(guān)系,從而訓(xùn)練目標(biāo)域?;陉P(guān)系源域和目標(biāo)域可以共享一些參數(shù),由源域?qū)W習(xí)到的模型可以用到目標(biāo)域上。相當(dāng)于預(yù)訓(xùn)練+微調(diào)?;谀P?0.3遷移學(xué)習(xí)基于實(shí)例的深度遷移學(xué)習(xí)基于映射關(guān)系的深度遷移學(xué)習(xí)基于網(wǎng)絡(luò)的深度遷移學(xué)習(xí)基于對(duì)抗的深度遷移學(xué)習(xí)目標(biāo)域源域目標(biāo)域源域新數(shù)據(jù)空間映射源域目標(biāo)域源標(biāo)簽?zāi)繕?biāo)標(biāo)簽域標(biāo)簽對(duì)抗層04深度強(qiáng)化學(xué)習(xí)10.4深度強(qiáng)化學(xué)習(xí)強(qiáng)化學(xué)習(xí)(ReinforcementLearning)是一類特殊的機(jī)器學(xué)習(xí)算法,借鑒于行為主義心理學(xué)。與有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的目標(biāo)不同,算法要解決的問(wèn)題是智能體(Agent,即運(yùn)行強(qiáng)化學(xué)習(xí)算法的實(shí)體)在環(huán)境中怎樣執(zhí)行動(dòng)作以獲得最大的累計(jì)獎(jiǎng)勵(lì)。例如,對(duì)于自動(dòng)行駛的汽車,強(qiáng)化學(xué)習(xí)算法控制汽車的動(dòng)作,保證安全行駛到目的地。對(duì)于圍棋算法,算法要根據(jù)當(dāng)前的棋局來(lái)決定如何走子,以贏得這局棋。10.4深度強(qiáng)化學(xué)習(xí)10.4.1強(qiáng)化學(xué)習(xí)系統(tǒng)概述策略(Policy)定義了智能體在特定時(shí)間的行為方式值函數(shù)(ValueFunction)表示了智能體通過(guò)傳感器對(duì)環(huán)境做出了綜合性判斷。模型(Model)是一種對(duì)環(huán)境反映模式的模擬。智能體根據(jù)模型對(duì)外部環(huán)境進(jìn)行推斷,有著獨(dú)立的環(huán)境的認(rèn)知。10.4深度強(qiáng)化學(xué)習(xí)10.4.2基于值函數(shù)的深度強(qiáng)化學(xué)習(xí)基于值函數(shù)的強(qiáng)化學(xué)習(xí)也就是基于價(jià)值估計(jì)的強(qiáng)化學(xué)習(xí),Q-learning算法是最經(jīng)典的強(qiáng)化學(xué)習(xí)算法,它針對(duì)的是離散狀態(tài)、離散動(dòng)作的情況,這里的離散指的是馬爾科夫決策過(guò)程中狀態(tài)和動(dòng)作的數(shù)量都是有限的,在這種情況下,Q-learning直接用一個(gè)表格來(lái)描述所有的最優(yōu)Q值。Deep-Qlearning(DQN)狀態(tài)動(dòng)作網(wǎng)絡(luò)Q值狀態(tài)網(wǎng)絡(luò)Q值1Q值2Q值310.4深度強(qiáng)化學(xué)習(xí)10.4.3基于策略的深度強(qiáng)化學(xué)習(xí)基于值函數(shù)的強(qiáng)化學(xué)習(xí)對(duì)最優(yōu)Q值進(jìn)行估計(jì),而基于策略的強(qiáng)化學(xué)習(xí)則直接對(duì)最優(yōu)策略進(jìn)行估計(jì)。在強(qiáng)化學(xué)習(xí)中,策略分為兩種,一種策略為確定性策略,可以直接對(duì)狀態(tài)到最優(yōu)動(dòng)作之間的映射進(jìn)行估計(jì)。另一種是隨機(jī)性策略,需要對(duì)狀態(tài)到最優(yōu)動(dòng)作概率分布之間的映射進(jìn)行估計(jì),然后從該概率分布中進(jìn)行采樣得到輸出動(dòng)作。10.4深度強(qiáng)化學(xué)習(xí)10.4.4基于演員-評(píng)論家的深度強(qiáng)化學(xué)習(xí)基于演員-評(píng)論家(Actor-Critic)的強(qiáng)化學(xué)習(xí)結(jié)合了值函數(shù)優(yōu)化與策略優(yōu)化方法的特點(diǎn),同時(shí)對(duì)最優(yōu)Q值以及最優(yōu)策略進(jìn)行學(xué)習(xí),最終策略網(wǎng)絡(luò)的輸出即為最優(yōu)動(dòng)作,動(dòng)作空間既可以是離散的,也可以是連續(xù)的。深度確定性策略梯度(DeepDeterministicPolicyGradient,DDPG)算法,適用于解決連續(xù)動(dòng)作空間上的DRL問(wèn)題。DDPG分別使用兩個(gè)深度神經(jīng)網(wǎng)絡(luò)來(lái)表示策略網(wǎng)絡(luò)和值網(wǎng)絡(luò)。策略網(wǎng)絡(luò)用來(lái)更新策略,對(duì)應(yīng)AC框架中的演員;值網(wǎng)絡(luò)用來(lái)逼近狀態(tài)-動(dòng)作對(duì)的值函數(shù),并提供梯度信息,對(duì)應(yīng)AC框架中的評(píng)論家。實(shí)驗(yàn)表明,DDPG不僅在一系列連續(xù)動(dòng)作空間的任務(wù)中表現(xiàn)穩(wěn)定,而且求得最優(yōu)解所需要的時(shí)間步也遠(yuǎn)遠(yuǎn)少于DQN。異步的優(yōu)勢(shì)演員-評(píng)論家算法全局網(wǎng)絡(luò)策略網(wǎng)絡(luò)輸入網(wǎng)絡(luò)1網(wǎng)絡(luò)2網(wǎng)絡(luò)3網(wǎng)絡(luò)n環(huán)境1環(huán)境2環(huán)境3環(huán)境n10.4深度強(qiáng)化學(xué)習(xí)10.4.5多智能體深度強(qiáng)化學(xué)習(xí)多智能體系統(tǒng)中,每個(gè)智能體所對(duì)應(yīng)的環(huán)境包含了其他智能體的策略,此時(shí)智能體狀態(tài)的改變不再只取決于自身的動(dòng)作和狀態(tài),還會(huì)取決于其他智能體的策略,而這些策略在智能體學(xué)習(xí)的過(guò)程中會(huì)不斷地發(fā)生變化,這使得環(huán)境非平穩(wěn)變化,馬爾科夫特性不再滿足,給智能體策略的學(xué)習(xí)帶來(lái)了困難。多智能體強(qiáng)化學(xué)習(xí)05元學(xué)習(xí)和小(零)樣本學(xué)習(xí)10.5元學(xué)習(xí)和?。悖颖緦W(xué)習(xí)元學(xué)習(xí)(Meta-Learning)被稱為學(xué)習(xí)如何學(xué)習(xí)(LearningtoLearn),就是通過(guò)之前任務(wù)的學(xué)習(xí)使得模型具備一些先驗(yàn)知識(shí)或?qū)W習(xí)技巧,從而在面對(duì)新任務(wù)的學(xué)習(xí)時(shí),不至于一無(wú)所知。而?。悖颖緦W(xué)習(xí)(Few/Zero-ShotLearning,FSL),也可稱作低樣本學(xué)習(xí)(Low-ShotLearning,LSL),是通過(guò)有限的訓(xùn)練樣本,甚至缺乏訓(xùn)練樣本條件下,訓(xùn)練模型的方法,是近年來(lái)機(jī)器學(xué)習(xí)方法研究中的熱點(diǎn)之一。訓(xùn)練任務(wù)1訓(xùn)練任務(wù)2……測(cè)試任務(wù)1……支持集支持集支持集查詢集查詢集查詢集10.5元學(xué)習(xí)和小(零)樣本學(xué)習(xí)10.5.1基于模型的元學(xué)習(xí)方法元學(xué)習(xí)的核心是對(duì)先驗(yàn)知識(shí)的利用,小樣本學(xué)習(xí)作為一種元學(xué)習(xí)方法,所能用到的先驗(yàn)知識(shí)只能是少量的訓(xùn)練數(shù)據(jù)。近幾年,小樣本學(xué)習(xí)有較快發(fā)展,提出了多種方法,有直接利用變換的,有利用外部存儲(chǔ)和生成模型的,但它們都是以各種模型為基礎(chǔ)實(shí)現(xiàn)的,本質(zhì)上都是基于模型的元學(xué)習(xí)方法。10.5元學(xué)習(xí)和?。悖颖緦W(xué)習(xí)10.5.1基于模型的元學(xué)習(xí)方法:基于度量學(xué)習(xí)的小樣本學(xué)習(xí)基于度量學(xué)習(xí)的小樣本學(xué)習(xí)通過(guò)學(xué)習(xí)訓(xùn)練一個(gè)模型(嵌入(Embedding)函數(shù)),將輸入空間映射到一個(gè)新的嵌入空間,在嵌入空間中用一個(gè)相似性度量來(lái)區(qū)分不同類別?;趯\生網(wǎng)絡(luò)(SiameseNetwork)的小樣本學(xué)習(xí)使用兩個(gè)具有相同模型參數(shù)值的相同網(wǎng)絡(luò)來(lái)提取兩個(gè)樣本的特征,通過(guò)鑒別器判斷提取出的特征是否屬于同一類對(duì)象。從而期望找到該樣本屬于同一類或?qū)⑺鼈儏^(qū)分開來(lái)的特性。小樣本訓(xùn)練集測(cè)試樣本先驗(yàn)知識(shí)嵌入嵌入相似性預(yù)測(cè)特征提取特征提取鑒別器10.5元學(xué)習(xí)和小(零)樣本學(xué)習(xí)基于原型網(wǎng)絡(luò)(PrototypicalNetworks)的小樣本學(xué)習(xí)孿生網(wǎng)絡(luò)的缺點(diǎn)就是要對(duì)比目標(biāo)和過(guò)去每個(gè)樣本之間的相似度。而原型網(wǎng)絡(luò)則是先把樣本投影到一個(gè)空間,然后計(jì)算每個(gè)樣本類別的中心,在分類的時(shí)候,通過(guò)對(duì)比目標(biāo)到每個(gè)中心的距離,從而分析出目標(biāo)的類別。5-way-1-shot的關(guān)系網(wǎng)絡(luò)(RelationNetwork)小樣本學(xué)習(xí)不論是孿生網(wǎng)絡(luò)還是原型網(wǎng)絡(luò),在分析兩個(gè)樣本的時(shí)候都是通過(guò)嵌入(Embedding)空間中的特征向量距離(比如歐氏距離)來(lái)反映,而關(guān)系網(wǎng)絡(luò)則是通過(guò)構(gòu)建神經(jīng)網(wǎng)絡(luò)來(lái)計(jì)算兩個(gè)樣本之間的距離從而分析匹配程度,與孿生網(wǎng)絡(luò)、原型網(wǎng)絡(luò)相比,關(guān)系網(wǎng)絡(luò)提供了一個(gè)可學(xué)習(xí)的非線性分類器用于判斷關(guān)系,而孿生網(wǎng)絡(luò)、原型網(wǎng)絡(luò)的距離只是線性的關(guān)系分類器。10.5.1基于模型的元學(xué)習(xí)方法:基于度量學(xué)習(xí)的小樣本學(xué)習(xí)小樣本零樣本嵌入模型關(guān)系模型特征圖連接關(guān)系分?jǐn)?shù)獨(dú)熱編碼10.5元學(xué)習(xí)和小(零)樣本學(xué)習(xí)10.5.1基于模型的元學(xué)習(xí)方法:基于外部存儲(chǔ)的小樣本學(xué)習(xí)使用外部存儲(chǔ)器的小樣本學(xué)習(xí)從訓(xùn)練集(Dtrain)中提取知識(shí),并將其存儲(chǔ)在外部存儲(chǔ)器中。然后,每個(gè)新樣本由從內(nèi)存中提取的內(nèi)容的加權(quán)平均值表示。這種方法對(duì)代表先驗(yàn)知識(shí)的映射要求比較高,對(duì)樣本少的類別也要能提取出區(qū)分度高的特征,此外對(duì)外存的容量控制要求也比較高。小樣本訓(xùn)練集測(cè)試樣本先驗(yàn)知識(shí)先驗(yàn)知識(shí)嵌入嵌入內(nèi)存

內(nèi)存

寫入

輸出

讀取相似度

預(yù)測(cè)

10.5元學(xué)習(xí)和?。悖颖緦W(xué)習(xí)10.5.1基于模型的元學(xué)習(xí)方法:基于生成建模(GenerativeModeling)的小樣本學(xué)習(xí)生成建模方法借助先驗(yàn)知識(shí)從觀測(cè)到的x估計(jì)概率分布p(x)。p(x)的估計(jì)通常涉及p(x|y)和p(y)的估計(jì)。通常使用一些大規(guī)模數(shù)據(jù)集對(duì)生成模型進(jìn)行訓(xùn)練,訓(xùn)練完成后學(xué)習(xí),可以直接應(yīng)用于新任務(wù)。生成模型可以使用變分自編碼器(VAE)、自回歸模型、生成對(duì)抗網(wǎng)絡(luò)(GAN)等。小樣本訓(xùn)練集測(cè)試樣本先驗(yàn)知識(shí)先驗(yàn)生成模型模型分配生成預(yù)測(cè)10.5元學(xué)習(xí)和小(零)樣本學(xué)習(xí)10.5.2模型無(wú)關(guān)的元學(xué)習(xí)方法模型無(wú)關(guān)元學(xué)習(xí)(Model-AgnosticMeta-Learning,MAML)的思想是學(xué)習(xí)一組最好的初始化參數(shù),使得它能夠在任意一個(gè)新任務(wù)上只需要使用少量的樣本(Few-ShotLearning)進(jìn)行幾步梯度下降就可以取得很好的效果,再針對(duì)具體的任務(wù)進(jìn)行微調(diào),使得模型在小樣本上也能達(dá)到較好的效果。MAML算法的三個(gè)步驟:對(duì)于給定的任務(wù),隨機(jī)抽取少量樣本組成訓(xùn)練集。內(nèi)層優(yōu)化:針對(duì)每個(gè)任務(wù)計(jì)算對(duì)應(yīng)的損失函數(shù),使用梯度下降法,更新相應(yīng)的模型參數(shù)。外層優(yōu)化:用新模型分別計(jì)算每個(gè)任務(wù)的元測(cè)試類,得到三個(gè)損失函數(shù),再加起來(lái),作為一個(gè)批次(Batch)的總損失。MAML的兩層訓(xùn)練結(jié)構(gòu)06持續(xù)學(xué)習(xí)10.6持續(xù)學(xué)習(xí)如何讓機(jī)器像人一樣具有不斷學(xué)習(xí)的能力是人工智能追求的終極目標(biāo)之一。在許多文獻(xiàn)中,持續(xù)學(xué)習(xí)也被稱為增量學(xué)習(xí)(IncrementalLearn)或終身學(xué)習(xí)(Life-longLearning)。持續(xù)學(xué)習(xí)模擬了人類大腦的學(xué)習(xí)思考方式,既能夠?qū)π聰?shù)據(jù)進(jìn)行利用,又能夠避免遺忘問(wèn)題;對(duì)曾經(jīng)訓(xùn)練過(guò)的任務(wù)依舊保持很高的精度,即具有可塑性和穩(wěn)定性。持續(xù)學(xué)習(xí)的各種算法與常規(guī)的方法一樣都是模型參數(shù)優(yōu)化過(guò)程,但它是逐任務(wù)學(xué)習(xí),追求盡量不要學(xué)新忘舊,學(xué)好的模型要有良好的泛化能力。持續(xù)學(xué)習(xí)框架任務(wù)A任務(wù)B任務(wù)C時(shí)間軸(有限資源)穩(wěn)定性可塑性普遍性數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)損失重裝數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)表征

優(yōu)化

調(diào)整

10.6持續(xù)學(xué)習(xí)10.6.1持續(xù)學(xué)習(xí)的應(yīng)用場(chǎng)景和主要挑戰(zhàn)持續(xù)學(xué)習(xí)的應(yīng)用場(chǎng)景實(shí)例增量學(xué)習(xí)(Instance-IncrementalLearning,IIL):所有各類訓(xùn)練樣本都屬于同類的任務(wù),且都在同批次中到達(dá)。域增量學(xué)習(xí)(Domain-IncrementalLearning,DIL):任務(wù)有相同的數(shù)據(jù)標(biāo)簽,但卻有不同的輸入分布。不同時(shí)刻到達(dá)的數(shù)據(jù)屬于同一任務(wù)的相同類別,但是數(shù)據(jù)分批次到達(dá),且輸入數(shù)據(jù)的分布發(fā)生了變化不再符合靜態(tài)同分布假設(shè)。任務(wù)增量學(xué)習(xí)(Task-IncrementalLearning,TIL):任務(wù)有不相交的數(shù)據(jù)標(biāo)簽空間,且訓(xùn)練集和測(cè)試集都給出了任務(wù)標(biāo)簽。類增量學(xué)習(xí)(Class-IncrementalLearning,CIL):任務(wù)有不同的數(shù)據(jù)標(biāo)簽空間,僅在訓(xùn)練集中有任務(wù)標(biāo)簽。在不同時(shí)間段所收集的數(shù)據(jù)均屬于同一分類任務(wù)的不同類別,且類別沒(méi)有交叉。無(wú)任務(wù)持續(xù)學(xué)習(xí)(Task-FreeContinualLearning,TFCL):任務(wù)有不相交的數(shù)據(jù)標(biāo)簽空間,但訓(xùn)練集和測(cè)試集均沒(méi)有任務(wù)標(biāo)簽,這是難度最大的場(chǎng)景之一。任務(wù)不可知持續(xù)學(xué)習(xí)(Task-agnostic,CL):最有挑戰(zhàn)性的持續(xù)學(xué)習(xí)場(chǎng)景。在該場(chǎng)景下,不同時(shí)刻收集的訓(xùn)練數(shù)據(jù)的數(shù)據(jù)和標(biāo)簽分布不一致,在測(cè)試過(guò)程中,存在測(cè)試數(shù)據(jù)以及對(duì)應(yīng)的分類標(biāo)簽完全不同于任意一個(gè)時(shí)刻的訓(xùn)練數(shù)據(jù)的場(chǎng)景。在線持續(xù)學(xué)習(xí)(OnlineContinualLearning,OCL):任務(wù)有不相交的數(shù)據(jù)標(biāo)簽空間。邊界模糊持續(xù)學(xué)習(xí)(BlurredBoundaryContinualLearning,BBCL):任務(wù)邊界模糊,數(shù)據(jù)標(biāo)簽空間有重疊。持續(xù)預(yù)訓(xùn)練(ContinualPre-training,CPT):預(yù)訓(xùn)練數(shù)據(jù)按順序到達(dá),目的是改善下游任務(wù)的學(xué)習(xí)性能。10.6持續(xù)學(xué)習(xí)10.6.1持續(xù)學(xué)習(xí)的應(yīng)用場(chǎng)景和主要挑戰(zhàn)持續(xù)學(xué)習(xí)中的主要挑戰(zhàn):災(zāi)難性遺忘以及穩(wěn)定性-可塑性權(quán)衡災(zāi)難性遺忘分析災(zāi)難性遺忘是指模型在多個(gè)時(shí)間片分別學(xué)習(xí)不同任務(wù)時(shí),在后來(lái)時(shí)間片中對(duì)新任務(wù)泛化的同時(shí),在先前時(shí)間片的老任務(wù)上表現(xiàn)斷崖式下降。為了解決災(zāi)難性遺忘,通??梢酝ㄟ^(guò)一些方法保留過(guò)去的知識(shí),限制模型權(quán)重的改變。譬如可以用一個(gè)存儲(chǔ)器保留過(guò)去訓(xùn)練中的一些數(shù)據(jù),或者是一些梯度記錄,從而在每次更新時(shí)對(duì)當(dāng)前更新加以限制。但是,這樣的方法也帶來(lái)了一個(gè)新的問(wèn)題:模型的穩(wěn)定性和可塑性的平衡。任務(wù)1損失

任務(wù)2損失

任務(wù)1損失+任務(wù)2損失

10.6持續(xù)學(xué)習(xí)10.6.1持續(xù)學(xué)習(xí)的應(yīng)用場(chǎng)景和主要挑戰(zhàn)持續(xù)學(xué)習(xí)中的主要挑戰(zhàn):災(zāi)難性遺忘以及穩(wěn)定性-可塑性權(quán)衡模型的穩(wěn)定性定義為模型適應(yīng)新場(chǎng)景的時(shí)候在舊場(chǎng)景上的表現(xiàn);而模型的可塑性則指在舊場(chǎng)景中訓(xùn)練的模型是否能通過(guò)優(yōu)化在新場(chǎng)景中表現(xiàn)優(yōu)異。缺乏穩(wěn)定性(遺忘性)

缺乏可塑性

穩(wěn)定性和可塑性

穩(wěn)定性+前向傳遞

雙向傳遞

較好

較差

10.6持續(xù)學(xué)習(xí)10.6.2持續(xù)學(xué)習(xí)的主要方法

持續(xù)學(xué)習(xí)的分類持續(xù)學(xué)習(xí)方法

基于調(diào)整的方法基于重裝的方法基于優(yōu)化的方法基于表征的方法經(jīng)驗(yàn)法生成法特征法元學(xué)習(xí)梯度投影損失分析自監(jiān)督學(xué)習(xí)預(yù)訓(xùn)練下游任務(wù)連續(xù)預(yù)訓(xùn)練基于架構(gòu)的方法參數(shù)分布模型分解分子網(wǎng)絡(luò)權(quán)重調(diào)整功能調(diào)整知識(shí)蒸餾新樣本舊樣本生成數(shù)據(jù)無(wú)標(biāo)簽數(shù)據(jù)10.6持續(xù)學(xué)習(xí)10.6.2持續(xù)學(xué)習(xí)的主要方法基于正則化的方法(Regularization-basedApproach)基于正則化的方法實(shí)質(zhì)上就是在舊模型上添加正則化項(xiàng)來(lái)平衡新舊任務(wù),這通常需要存儲(chǔ)舊模型的凍結(jié)副本以供參考,然后加入正則化損失以在學(xué)習(xí)新數(shù)據(jù)時(shí)限制舊知識(shí)的遺忘。根據(jù)正則化的目標(biāo),這類方法又可以細(xì)分為權(quán)正則化和函數(shù)(數(shù)據(jù))正則化法。凍結(jié)的舊模型權(quán)重調(diào)整特征特征模型調(diào)整損失損失10.6持續(xù)學(xué)習(xí)10.6.2持續(xù)學(xué)習(xí)的主要方法基于回放的方法(Replay-basedApproach)基于回放的方法基本思路為對(duì)之前的關(guān)鍵數(shù)據(jù),或是模型梯度進(jìn)行存儲(chǔ)或壓縮存儲(chǔ)。在學(xué)習(xí)新任務(wù)時(shí),為減少遺忘,可以在訓(xùn)練過(guò)程中重放先前任務(wù)中存儲(chǔ)的樣本,這些樣本/偽樣本既可用于聯(lián)合訓(xùn)練,也可用于約束新任務(wù)損失的優(yōu)化,以避免干擾先前任務(wù)。緩存生成模型訓(xùn)練保存重裝斑馬

大象條紋

長(zhǎng)鼻子噪聲條紋

長(zhǎng)鼻子噪聲斑馬

大象

野兔

小鳥10.6持續(xù)學(xué)習(xí)10.6.2持續(xù)學(xué)習(xí)的主要方法基于優(yōu)化的方法(Optimization-basedApproach)持續(xù)學(xué)習(xí)不僅可以通過(guò)向損失函數(shù)添加額外的項(xiàng)來(lái)實(shí)現(xiàn),還可以通過(guò)顯式地設(shè)計(jì)和操作優(yōu)化程序來(lái)實(shí)現(xiàn)。例如參考舊任務(wù)和新任務(wù)的梯度空間或輸入空間的梯度投影,采用雙層元學(xué)習(xí)方法在內(nèi)環(huán)訓(xùn)練順序到達(dá)的任務(wù),外環(huán)再次對(duì)它們優(yōu)化,使各任務(wù)在梯度空間和損失空間的交集都有較低錯(cuò)誤的綜合最優(yōu)學(xué)習(xí)結(jié)果。梯度投影正交任務(wù)A低錯(cuò)誤任務(wù)A兩者的低誤差低錯(cuò)誤任務(wù)B低錯(cuò)誤任務(wù)A低錯(cuò)誤任務(wù)B兩者的低誤差低損失路徑低損失路徑誤差分析元學(xué)習(xí)內(nèi)循環(huán)其他循環(huán)任務(wù)A任務(wù)B10.6持續(xù)學(xué)習(xí)10.6.2持續(xù)學(xué)習(xí)的主要方法基于表示的方法(Representation-basedApproach)該類方法通常為預(yù)訓(xùn)練+微調(diào)的方法。預(yù)訓(xùn)練通常采用自監(jiān)督學(xué)習(xí)來(lái)完成,微調(diào)則采用有監(jiān)督學(xué)和無(wú)監(jiān)督學(xué)習(xí)(例如,指示學(xué)習(xí)和提示學(xué)習(xí))、多任務(wù)學(xué)習(xí)、小樣本和零樣本學(xué)習(xí)(元學(xué)習(xí))及人類反饋的強(qiáng)化學(xué)習(xí)來(lái)進(jìn)行。預(yù)訓(xùn)練特征轉(zhuǎn)換蒸餾條紋

長(zhǎng)鼻子噪聲斑馬

大象對(duì)比損失凍結(jié)的或可學(xué)習(xí)的模型10.6持續(xù)學(xué)習(xí)10.6.2持續(xù)學(xué)習(xí)的主要方法基于體系結(jié)構(gòu)的方法(Architecture-basedApproach)前述的持續(xù)學(xué)習(xí)主要集中在學(xué)習(xí)所有具有共享參數(shù)集的增量任務(wù)(即單個(gè)模型和一個(gè)參數(shù)空間),這是導(dǎo)致任務(wù)間產(chǎn)生干擾的主要原因?;隗w系結(jié)構(gòu)方法的特點(diǎn)是使用設(shè)計(jì)合理的體系結(jié)構(gòu)構(gòu)造任務(wù)特定/自適應(yīng)參數(shù),例如為每個(gè)任務(wù)分配專用參數(shù)(參數(shù)隔離法),構(gòu)造針對(duì)任務(wù)的自適應(yīng)子模塊或子網(wǎng)絡(luò)(動(dòng)態(tài)體系結(jié)構(gòu)法),和將模型分解為任務(wù)共享和任務(wù)特定組件(模型分解法)。參數(shù)分布分子網(wǎng)絡(luò)模型分配可學(xué)習(xí)可學(xué)習(xí)凍結(jié)掩膜掩膜掩膜掩膜掩膜掩膜斑馬

大象

野兔

小鳥07大語(yǔ)言模型中的機(jī)器學(xué)習(xí)10.7大語(yǔ)言模型中的機(jī)器學(xué)習(xí)大語(yǔ)言模型的成功,使人工智能從專用開始走向通用。機(jī)器學(xué)習(xí)方法在這一過(guò)程中功不可沒(méi),2021年之前大語(yǔ)言模型建模訓(xùn)練都是采用的預(yù)訓(xùn)練+微調(diào)技術(shù),2021年之后隨著提示學(xué)習(xí)和指示學(xué)習(xí)的提出大模型的能力快速提高,2022年11月30日ChatGPT的橫空出世震驚了世界,使人工智能進(jìn)入了大模型時(shí)代現(xiàn)已提出的大模型都是以Transformer為基礎(chǔ),它們對(duì)上游任務(wù)的預(yù)訓(xùn)練都是采用自監(jiān)督學(xué)習(xí)方法。10.7大語(yǔ)言模型中的機(jī)器學(xué)習(xí)10.7.1提示學(xué)習(xí)和指示學(xué)習(xí)在這一方法中下游任務(wù)被重新調(diào)整成類似預(yù)訓(xùn)練任務(wù)的形式。例如,通常的預(yù)訓(xùn)練任務(wù)有MaskedLanguageModel,在文本情感分類任務(wù)中,對(duì)于“Ilovethismovie。”這句輸入,可以在后面加上提示(Prompt):“Themovieis___”,然后讓預(yù)訓(xùn)練語(yǔ)言模型用表示情感的答案填空如“great”、“fantastic”等,最后再將該答案轉(zhuǎn)化成情感分類的標(biāo)簽。這樣通過(guò)選取合適的Prompt,可以控制模型預(yù)測(cè)輸出,從而一個(gè)完全無(wú)監(jiān)督訓(xùn)練的預(yù)訓(xùn)練語(yǔ)言模型可以被用來(lái)解決各種各樣的下游任務(wù)。設(shè)計(jì)預(yù)訓(xùn)練語(yǔ)言模型的任務(wù)。設(shè)計(jì)輸入模板樣式(PromptEngineering)。設(shè)計(jì)標(biāo)簽(Label)樣式及模型的輸出映射到標(biāo)簽(Label)的方式(AnswerEngineering)。提示學(xué)習(xí)10.7大語(yǔ)言模型中的機(jī)器學(xué)習(xí)10.7.1提示學(xué)習(xí)和指示學(xué)習(xí)針對(duì)每個(gè)任務(wù),單獨(dú)生成Instruction(HardToken),通過(guò)在若干個(gè)全樣本(Full-Shot)任務(wù)上進(jìn)行微調(diào),然后在具體的任務(wù)上進(jìn)行評(píng)估泛化能力(ZeroShot),其中預(yù)訓(xùn)練模型參數(shù)是解凍(Unfreeze)的。指示學(xué)習(xí)實(shí)質(zhì)上就是像人一樣直接告訴模型如何進(jìn)行分類任務(wù),讓模型學(xué)習(xí)一些分類規(guī)則和標(biāo)準(zhǔn)的指導(dǎo),例如“如果文章中有比賽得分,那么很可能是體育類”等。這些指導(dǎo)將會(huì)被用于訓(xùn)練模型,從而幫助模型更好地完成分類任務(wù)。再比如,判斷這句話的情感:給女朋友買了這個(gè)項(xiàng)鏈,她很喜歡。選項(xiàng):A=好;B=一般;C=差。指示學(xué)習(xí)10.7大語(yǔ)言模型中的機(jī)器學(xué)習(xí)10.7.1提示學(xué)習(xí)和指示學(xué)習(xí)對(duì)比分析模型微調(diào)提示學(xué)習(xí)指示學(xué)習(xí)10.7大語(yǔ)言模型中的機(jī)器學(xué)習(xí)10.7.2上下文學(xué)習(xí)和思維鏈提示上下文的學(xué)習(xí)核心思想是:從類比中學(xué)習(xí),從示例中學(xué)習(xí)。即像人一樣從題目示例中學(xué)習(xí)解題方法。這種方法并不需要調(diào)整模型參數(shù),僅用幾條下游任務(wù)的示例就可以取得極佳的結(jié)果。上下文學(xué)習(xí)屬于提示學(xué)習(xí),它不需要對(duì)模型參數(shù)更新,使用下游任務(wù)的演示信息學(xué)習(xí)并推理,形式為“實(shí)例-標(biāo)簽”。同樣是2022年初提出的思維鏈(Chain-of-Thought,CoT)提示不同于上下文學(xué)習(xí),它增加了中間過(guò)程,即思維鏈不直接預(yù)測(cè)y,而是將y的“思維過(guò)程”r(學(xué)術(shù)上統(tǒng)稱為relationale)預(yù)測(cè)出來(lái)。這些“思維過(guò)程”只是用來(lái)提示,獲得更好的答案,實(shí)際使用時(shí)不需要展示。思維鏈不再是死板的提供問(wèn)題和答案樣例,而是給出中間推理環(huán)節(jié),讓模型學(xué)習(xí)到中間過(guò)程的推理邏輯和思考方式。上下文學(xué)習(xí)思維鏈提示10.7大語(yǔ)言模型中的機(jī)器學(xué)習(xí)10.7.2上下文學(xué)習(xí)和思維鏈提示基本思維鏈(Few-shot-CoT)標(biāo)準(zhǔn)提示詞思維鏈提示詞模型輸入模型輸入模型輸出模型輸入10.7大語(yǔ)言模型中的機(jī)器學(xué)習(xí)10.7.2上下文學(xué)習(xí)和思維鏈提示零樣本思維鏈(Zero-shot-CoT)提示10.7大語(yǔ)言模型中的機(jī)器學(xué)習(xí)10.7.2上下文學(xué)習(xí)和思維鏈提示零樣本思維鏈(Zero-shot-CoT)提示10.7大語(yǔ)言模型中的機(jī)器學(xué)習(xí)10.7.2上下文學(xué)習(xí)和思維鏈提示思維鏈提示的改進(jìn)及與微調(diào)技術(shù)的結(jié)合思維鏈多思維鏈三思維鏈圖思維鏈基本輸入輸

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論