人工智能 課件 第五章 機器學(xué)習(xí)_第1頁
人工智能 課件 第五章 機器學(xué)習(xí)_第2頁
人工智能 課件 第五章 機器學(xué)習(xí)_第3頁
人工智能 課件 第五章 機器學(xué)習(xí)_第4頁
人工智能 課件 第五章 機器學(xué)習(xí)_第5頁
已閱讀5頁,還剩74頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

人工智能第5章機器學(xué)習(xí)本章提綱5.1機器學(xué)習(xí)基礎(chǔ)5.2神經(jīng)網(wǎng)絡(luò)5.3深度神經(jīng)網(wǎng)絡(luò)5.5機器學(xué)習(xí)在電力工程中的應(yīng)用5.4學(xué)習(xí)技巧本章提綱5.1機器學(xué)習(xí)基礎(chǔ)5.2神經(jīng)網(wǎng)絡(luò)5.3深度神經(jīng)網(wǎng)絡(luò)5.5機器學(xué)習(xí)在電力工程中的應(yīng)用5.4學(xué)習(xí)技巧5.1.1機器學(xué)習(xí)的基本概念什么是學(xué)習(xí)系統(tǒng)改進其性能的過程獲取知識的過程技能的獲取事物規(guī)律的發(fā)現(xiàn)過程綜合來看,學(xué)習(xí)是一個有特定目的的知識獲取過程,具體表現(xiàn)為對知識、經(jīng)驗、規(guī)律進行學(xué)習(xí),以達到性能優(yōu)化、環(huán)境適應(yīng)和自我完善。機器學(xué)習(xí)使計算機完成上述的學(xué)習(xí)功能,通過自動或被動的知識、技能獲取,為之后的人工智能應(yīng)用進行準備。5.1.2機器學(xué)習(xí)的研究歷史20世紀50年代中期研究工作:應(yīng)用決策理論的方法研制可適應(yīng)環(huán)境的通用學(xué)習(xí)系統(tǒng)基本思想:給系統(tǒng)一組刺激、一個反饋源和修改自身組織的自由度,系統(tǒng)就可以自適應(yīng)地趨向最優(yōu)組織代表:羅森布拉特(Rosen-blatt)的感知器20世紀70年代中期研究方向:用邏輯的演繹及歸納推理代替數(shù)值的或統(tǒng)計的方法重要成果舉例:斯托夫的指導(dǎo)式學(xué)習(xí)、溫斯頓和卡鮑尼爾的類比學(xué)習(xí)以及米切爾等人提出的解釋學(xué)習(xí)20世紀80年代到21世紀初研究特點:符號學(xué)習(xí)和連接學(xué)習(xí)取得較大進展,開始把符號學(xué)習(xí)與連接學(xué)習(xí)結(jié)合起來進行研究重要成果舉例:里奇(E.Rich)開發(fā)的集成系統(tǒng)5.1.3機器學(xué)習(xí)的分類演繹學(xué)習(xí)以演繹推理為基礎(chǔ)的學(xué)習(xí)非監(jiān)督學(xué)習(xí)在不提供或不足量提供顯式反饋的情況下,完成對輸入分布的學(xué)習(xí)可分為無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)(1)無監(jiān)督學(xué)習(xí)不依賴任何標簽值,通過挖掘數(shù)據(jù)本身的結(jié)構(gòu)或特征完成任務(wù)主要包括:①聚類(K-means,譜聚類等)②降維(線性降維:PCA等;非線性降維:SOM、KernelPCA等;圖上降維:圖嵌入等)③離散點檢測(主要應(yīng)用于異常檢測)5.1.3機器學(xué)習(xí)的分類非監(jiān)督學(xué)習(xí)(2)半監(jiān)督學(xué)習(xí)讓學(xué)習(xí)器不依賴外界交互,自動利用未標記樣本提升學(xué)習(xí)性能分類:①無標簽數(shù)據(jù)預(yù)訓(xùn)練網(wǎng)絡(luò)后有標簽數(shù)據(jù)微調(diào)②利用從網(wǎng)絡(luò)得到的深度特征來做半監(jiān)督算法(3)自監(jiān)督學(xué)習(xí)標注源于數(shù)據(jù)本身,而非人工標注主要用于特定類型數(shù)據(jù)的生成,其生成的數(shù)據(jù)可用于預(yù)測、調(diào)試優(yōu)化模型等強化學(xué)習(xí)人工智能在強化序列(獎賞和懲罰組合的序列)中學(xué)習(xí)5.1.3機器學(xué)習(xí)的分類監(jiān)督學(xué)習(xí)

本章提綱5.1機器學(xué)習(xí)基礎(chǔ)5.2神經(jīng)網(wǎng)絡(luò)5.3深度神經(jīng)網(wǎng)絡(luò)5.5機器學(xué)習(xí)在電力工程中的應(yīng)用5.4學(xué)習(xí)技巧5.2.1神經(jīng)網(wǎng)絡(luò)的基本特點感知器

神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)成:輸入層、隱藏層、輸出層組成單元:感知器學(xué)習(xí)過程:輸入數(shù)據(jù)的前向傳遞、損失值的反向傳播和梯度優(yōu)化。5.2.2激活函數(shù)

Sigmoid函數(shù)5.2.2激活函數(shù)

ReLU函數(shù)5.2.3神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)機理輸入數(shù)據(jù)在神經(jīng)網(wǎng)絡(luò)中的前向傳遞損失值在神經(jīng)網(wǎng)絡(luò)中的反向傳播基于反向傳播梯度的可訓(xùn)練參數(shù)優(yōu)化神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)步驟

輸入數(shù)據(jù)在神經(jīng)網(wǎng)絡(luò)中的前向傳遞5.2.3神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)機理損失值在神經(jīng)網(wǎng)絡(luò)中的反向傳播反向傳播時,根據(jù)損失函數(shù)對各w和b的導(dǎo)數(shù),可以判斷每個參數(shù)的變化方向,再乘以學(xué)習(xí)率就可以獲得每個參數(shù)的更新方式。以一個三層神經(jīng)網(wǎng)絡(luò)為例:輸出為:損失為:以第一層為例求取損失對網(wǎng)絡(luò)參數(shù)的導(dǎo)數(shù):結(jié)合預(yù)設(shè)的學(xué)習(xí)率進行參數(shù)更新:5.2.3神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)機理基于反向傳播梯度的可訓(xùn)練參數(shù)優(yōu)化傳統(tǒng)梯度下降法存在著兩點缺陷:訓(xùn)練速度慢:每一步都要計算調(diào)整下一步的方向,下山速度變慢容易陷入局部最優(yōu)解:當落入鞍點時梯度為0,參數(shù)不再繼續(xù)更新批訓(xùn)練對于含有n個訓(xùn)練樣本的數(shù)據(jù)集,每次參數(shù)更新,選擇一個大小為m的樣本集作為更新參數(shù)的依據(jù)特點:既保證了訓(xùn)練的速度,又能保證最后收斂的準確率隨機梯度下降法每次利用SGD法更新參數(shù)時,隨機選取一個計算梯度特點:在樣本量很大時也有較快地訓(xùn)練速度;每次迭代方向具有隨機性;不能保證很好的收斂性5.2.3神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)機理自適應(yīng)學(xué)習(xí)率算法

學(xué)習(xí)率學(xué)習(xí)率是對訓(xùn)練影響最大的超參如果學(xué)習(xí)率太小,則梯度很大的參數(shù)會有一個很慢的收斂速度如果學(xué)習(xí)率太大,則參數(shù)可能會出現(xiàn)不穩(wěn)定的情況對于同一模型中的不同參數(shù),最合適的學(xué)習(xí)率很可能并不相同自適應(yīng)學(xué)習(xí)率算法主要有:AdaGrad、RMSProp、AdaDelta、Adam算法及其變體等5.2.3神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)機理自適應(yīng)學(xué)習(xí)率算法

5.2.3神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)機理自適應(yīng)學(xué)習(xí)率算法

5.2.4線性分類器神經(jīng)網(wǎng)絡(luò)在有監(jiān)督的分類任務(wù)中的作用機制以簡單線性模型為例

本章提綱5.1機器學(xué)習(xí)基礎(chǔ)5.2神經(jīng)網(wǎng)絡(luò)5.3深度神經(jīng)網(wǎng)絡(luò)5.5機器學(xué)習(xí)在電力工程中的應(yīng)用5.4學(xué)習(xí)技巧5.3.1神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)前饋神經(jīng)網(wǎng)絡(luò)每個神經(jīng)元只與前一層的神經(jīng)元相連,各層神經(jīng)元之間無連接各層間沒有反饋,數(shù)據(jù)正向流動不考慮輸出與輸入在時間上的滯后效應(yīng),只表達映射關(guān)系學(xué)習(xí)主要采用誤差修止法(如BP算法),計算過程較慢,收斂速度也較慢反饋神經(jīng)網(wǎng)絡(luò)又稱遞歸網(wǎng)絡(luò)、回歸網(wǎng)絡(luò)層間神經(jīng)元有連接數(shù)據(jù)可以在同層間流動或反饋至前層考慮輸出與輸入間在時間上的延遲,需要動態(tài)方程描述系統(tǒng)的模型主要采用Hebb學(xué)習(xí)規(guī)則,一般情況下計算的收斂速度很快更適合應(yīng)用在聯(lián)想記憶和優(yōu)化計算等領(lǐng)域5.3.1神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)循環(huán)神經(jīng)網(wǎng)絡(luò)當前使用最廣泛的反饋神經(jīng)網(wǎng)絡(luò)模型例: Ilikeeatingapple!

TheAppleisagreatcompany!

通過對上下文的綜合考慮,正確識別apple的語義應(yīng)用領(lǐng)域:①自然語言處理②機器翻譯③語音識別④圖像描述生成⑤文本相似度計算⑥音樂推薦、商品推薦、視頻推薦等代表性模型:門控循環(huán)神經(jīng)網(wǎng)絡(luò)、長短期記憶神經(jīng)網(wǎng)絡(luò)5.3.1神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)生成對抗網(wǎng)絡(luò)(GenerativeAdversarialNetwork,GAN)通過分別訓(xùn)練生成模型G和判別模型D,實現(xiàn)更準確的生成生成模型G:生成看起來自然真實的、和原始數(shù)據(jù)相似的實例判別模型D:判斷實例是真實的還是偽造的不需要人為標注的樣本一般用于非監(jiān)督學(xué)習(xí)的樣本生成若實現(xiàn)利用標簽、文本生成圖片等較為復(fù)雜的工作,則需要人為標注來控制模型的學(xué)習(xí)方向5.3.2前饋神經(jīng)網(wǎng)絡(luò)——卷積神經(jīng)網(wǎng)絡(luò)

卷積層5.3.2前饋神經(jīng)網(wǎng)絡(luò)——卷積神經(jīng)網(wǎng)絡(luò)權(quán)值共享:在每個深度切片上的結(jié)果都使用同樣的權(quán)重和偏差擴張:讓濾波器中元素之間有間隙,可以使有效感受野迅速增長卷積層卷積層大小選擇(1)幾個小濾波器卷積層的組合比一個大濾波器卷積層好(2)輸入層應(yīng)該能被2整除很多次。如32,64,96或224,384和5125.3.2前饋神經(jīng)網(wǎng)絡(luò)——卷積神經(jīng)網(wǎng)絡(luò)作用:逐漸降低數(shù)據(jù)體的空間尺寸,減少網(wǎng)絡(luò)參數(shù)的數(shù)量;使得計算資源耗費變少;有效控制過擬合池化方式:最大池化、平均池化、L-2范式池化等反向傳播:池化層5.3.2前饋神經(jīng)網(wǎng)絡(luò)——卷積神經(jīng)網(wǎng)絡(luò)作用:將卷積層、池化層學(xué)到的“分布式特征表示”映射到樣本標記空間全連接層5.3.3前饋神經(jīng)網(wǎng)絡(luò)——圖神經(jīng)網(wǎng)絡(luò)

圖的定義圖神經(jīng)網(wǎng)絡(luò)旨在將卷積推廣到圖領(lǐng)域。在這個方向上的進展通常分為頻譜方法(SpectralMethod)和空間方法(SpatialMethod)。圖神經(jīng)網(wǎng)絡(luò)5.3.3前饋神經(jīng)網(wǎng)絡(luò)——圖神經(jīng)網(wǎng)絡(luò)方法原理:通過計算圖拉普拉斯算子的特征分解,在傅立葉域中定義卷積運算。將原始的處于空域的圖信號變換到頻域上之后,對頻域?qū)傩赃M行濾波,然后再恢復(fù)到原來的圖信號所在的空域中,從而完成了對圖信號的降噪與特征提取的功能。關(guān)鍵缺陷:需要將整個圖的信息載入內(nèi)存中,這使得其在大規(guī)模的圖結(jié)構(gòu)上不能有效的進行應(yīng)用。頻譜方法方法原理:只在空間相鄰的鄰居上進行計算,瞄準圖中的每個子圖,而不是整張圖,在處理大規(guī)模網(wǎng)絡(luò)時更不容易陷入局部最優(yōu)或過擬合。挑戰(zhàn):針對不同節(jié)點度的節(jié)點組成的子網(wǎng),需要分別設(shè)計卷積核,當前有四種常用的網(wǎng)絡(luò)類型,分別是NeuralFPS、LGCN、MoNeT和GraphSAGE。空間方法5.3.3前饋神經(jīng)網(wǎng)絡(luò)——圖神經(jīng)網(wǎng)絡(luò)(1)NeuralFPS方法:對度不同的節(jié)點,使用不同的權(quán)重矩陣。缺點:不能應(yīng)用在大規(guī)模圖結(jié)構(gòu)中,因為它的節(jié)點具有很多不同的度??臻g方法(2)LGCN方法:LGCN基于可學(xué)習(xí)圖卷積層(LGCL)和子圖訓(xùn)練策略。LGCL利用CNN作為聚合器。它對節(jié)點的鄰域矩陣進行最大池化,以獲取前k個要素元素,然后應(yīng)用1-D卷積來計算隱藏表示。5.3.3前饋神經(jīng)網(wǎng)絡(luò)——圖神經(jīng)網(wǎng)絡(luò)(3)MoNet首先對圖中的每個節(jié)點進行特征表示。然后為每個節(jié)點計算偽坐標,這些坐標考慮了節(jié)點及其鄰居節(jié)點的特征。MoNet為節(jié)點與其鄰居之間的關(guān)系確定不同的權(quán)重,這些權(quán)重基于節(jié)點特征通過學(xué)習(xí)得到。通過加權(quán)求和鄰居節(jié)點的偽坐標,更新每個節(jié)點的特征表示,從而捕捉節(jié)點間的復(fù)雜關(guān)系。MoNet方法流暢連貫的處理方式使其能夠適應(yīng)不同的圖結(jié)構(gòu)和應(yīng)用需求,實現(xiàn)高效的圖卷積操作。空間方法5.3.3前饋神經(jīng)網(wǎng)絡(luò)——圖神經(jīng)網(wǎng)絡(luò)(4)GraphSAGE首先在目標節(jié)點的鄰居中進行隨機采樣,以此降低計算量并捕捉局部圖結(jié)構(gòu)。隨后,這些鄰居節(jié)點的特征與目標節(jié)點自身的特征相結(jié)合,通過一個可學(xué)習(xí)的聚合函數(shù)進行特征融合。得到的聚合特征隨后被送入一個轉(zhuǎn)換層,以生成目標節(jié)點的新特征表示。最終,每個節(jié)點都被賦予一個固定大小的嵌入向量。GraphSAGE的優(yōu)勢在于其對大型圖數(shù)據(jù)集的高效處理能力以及生成的節(jié)點嵌入的高質(zhì)量??臻g方法5.3.3前饋神經(jīng)網(wǎng)絡(luò)——圖神經(jīng)網(wǎng)絡(luò)在傳播過程引入注意力機制,這允許模型動態(tài)地關(guān)注不同鄰居節(jié)點的不同程度。節(jié)點-鄰居對的計算是可并行化的,運算效率很高可以處理不同程度的節(jié)點,并為其鄰居分配相應(yīng)的權(quán)重可以很容易地應(yīng)用于歸納學(xué)習(xí)問題。是一種局部網(wǎng)絡(luò),無需了解整個圖結(jié)構(gòu),只需知道每個節(jié)點的鄰節(jié)點即可。圖注意力網(wǎng)絡(luò)(GraphAttentionNetworks,GAT)5.3.4反饋神經(jīng)網(wǎng)絡(luò)反饋神經(jīng)網(wǎng)絡(luò)中,神經(jīng)元可以互連,有些神經(jīng)元的輸出會被反饋至同層甚至前層的神經(jīng)元。代表性網(wǎng)絡(luò):Hopfield神經(jīng)網(wǎng)絡(luò)、Elman神經(jīng)網(wǎng)絡(luò)、玻爾茲曼機等。Hopfield神經(jīng)網(wǎng)絡(luò)一種單層對稱全反饋網(wǎng)絡(luò),該網(wǎng)絡(luò)為一種基于能量的的模型。能量函數(shù)保證了向局部極小的收斂,使神經(jīng)網(wǎng)絡(luò)運行穩(wěn)定性的判斷有了明確的可靠的依據(jù)。根據(jù)激活函數(shù)不同,分為兩種:離散HopfieId網(wǎng)(DHNN)和連續(xù)Hopfield網(wǎng)(CHNN)。DHNN主要用于聯(lián)想記憶,輸入部分信息即可聯(lián)想到完整的輸出,即具有容錯性;CHNN主要用于優(yōu)化計算,如旅行商TSP、調(diào)度等。5.3.4反饋神經(jīng)網(wǎng)絡(luò)Hopfield神經(jīng)網(wǎng)絡(luò)

5.3.4反饋神經(jīng)網(wǎng)絡(luò)Hopfield神經(jīng)網(wǎng)絡(luò)

離散Hopfield網(wǎng)絡(luò)可以用于聯(lián)想記憶,因此又稱聯(lián)想記憶網(wǎng)絡(luò)。Hopfield網(wǎng)絡(luò)實現(xiàn)聯(lián)想記憶需要兩個階段:(1)記憶階段:外界輸入數(shù)據(jù)使系統(tǒng)自動調(diào)整網(wǎng)絡(luò)權(quán)值,最終使系統(tǒng)具有若干個穩(wěn)定狀態(tài),即吸引子。吸引域半徑越大,說明聯(lián)想能力越強。(2)聯(lián)想階段:在聯(lián)想階段,對于給定的輸入模式,系統(tǒng)最終穩(wěn)定收斂于某個吸引子。每個神經(jīng)元的輸出都成為其他神經(jīng)元的輸入,每個神經(jīng)元的輸入都來自于其他神經(jīng)元。5.3.4反饋神經(jīng)網(wǎng)絡(luò)Elman神經(jīng)網(wǎng)絡(luò)承接層:作為一步延時算子,達到記憶的目的,從而使系統(tǒng)具有適應(yīng)時變特性的能力,增強了網(wǎng)絡(luò)的全局穩(wěn)定性;關(guān)聯(lián)層:從隱含層接收反饋信號,每一個隱含層節(jié)點都有一個與之對應(yīng)的關(guān)聯(lián)層節(jié)點連接。通過聯(lián)接記憶將上一個時刻的隱層狀態(tài)連同當前時刻的網(wǎng)絡(luò)輸入一起作為隱層的輸入,相當于狀態(tài)反饋。5.3.4反饋神經(jīng)網(wǎng)絡(luò)門控循環(huán)神經(jīng)網(wǎng)絡(luò)(GRU)提出目的:解決長期記憶和反向傳播中的梯度等問題

5.3.4反饋神經(jīng)網(wǎng)絡(luò)長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)提出目的:解決門控循環(huán)神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中的梯度消失和梯度爆炸問題

5.3.4反饋神經(jīng)網(wǎng)絡(luò)長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)

本章提綱5.1機器學(xué)習(xí)基礎(chǔ)5.2神經(jīng)網(wǎng)絡(luò)5.3深度神經(jīng)網(wǎng)絡(luò)5.5機器學(xué)習(xí)在電力工程中的應(yīng)用5.4學(xué)習(xí)技巧5.4.1自監(jiān)督學(xué)習(xí)自監(jiān)督預(yù)訓(xùn)練預(yù)訓(xùn)練的效果主要取決于5個方面,分別是①準備語料庫;②語料符號化;③設(shè)計預(yù)訓(xùn)練任務(wù);④選擇預(yù)訓(xùn)練模型;⑤選定預(yù)訓(xùn)練學(xué)習(xí)方案。(1)語料庫方面:不同類型的語料庫,其文本特征也不盡相同。官方新聞、百度百科、維基百科等語料的噪音較小,而社交媒體的文本中會有較大的噪聲。此外,許多特定的領(lǐng)域包含許多特定詞匯。因此必須根據(jù)目標領(lǐng)域選擇預(yù)訓(xùn)練語料庫,以達到良好的效果。(2)語料符號化方面:語料在符號化后會生成針對預(yù)訓(xùn)練模型的字典,其中,每個特定的語料都會對應(yīng)一種符號(1-hot向量)。符號化可以分為四類,詞語符號化、字母序列符號化、子詞符號化以及混合符號化。5.4.1自監(jiān)督學(xué)習(xí)自監(jiān)督預(yù)訓(xùn)練(3)預(yù)訓(xùn)練任務(wù)方面:預(yù)訓(xùn)練任務(wù)是自我監(jiān)督的,這些任務(wù)利用了偽標簽。數(shù)據(jù)屬性和預(yù)訓(xùn)練任務(wù)的定義決定了偽標簽。預(yù)訓(xùn)練任務(wù)的指定標準是在有足夠挑戰(zhàn)性的同時,與下游任務(wù)能較好的銜接。常用的預(yù)訓(xùn)練任務(wù)包括:因果語言建模(CLM);掩蔽語言建模(MLM);替換符號檢測(RTD);混亂符號檢測(STD);隨機符號替換(RTS);翻譯語言建模(TLM);交換語言建模;下句預(yù)測(NSP);句序預(yù)測(SOP)等。5.4.1自監(jiān)督學(xué)習(xí)自監(jiān)督預(yù)訓(xùn)練(4)預(yù)訓(xùn)練模型方面:預(yù)訓(xùn)練模型指的就是預(yù)訓(xùn)練任務(wù)所用的神經(jīng)網(wǎng)絡(luò)。Transformer是一個編碼-解碼結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),其中編碼過程用到了復(fù)數(shù)個編碼器。每次編碼都會將所有輸入數(shù)據(jù)輸入編碼器,得到一個或多個輸出,這個輸出將作為下一個編碼器的輸入。依次迭代,最終得到表征輸入數(shù)據(jù)的特征向量或矩陣。解碼部分的每個輸出都會與輸入相拼接,共同作為下一個解碼器的輸入。預(yù)訓(xùn)練模型分為三種,一種只用編碼部分,一種只用解碼部分,還有一種兩個部分都用。5.4.1自監(jiān)督學(xué)習(xí)自監(jiān)督預(yù)訓(xùn)練(5)學(xué)習(xí)方案方面:①從頭開始訓(xùn)練:對沒有任何預(yù)處理的、參數(shù)隨機初始化的預(yù)訓(xùn)練模型進行預(yù)訓(xùn)練;對語料庫規(guī)模和訓(xùn)練成本有著極大的需求。②連續(xù)預(yù)訓(xùn)練:利用不對稱的專業(yè)語料對常見語料訓(xùn)練出的預(yù)訓(xùn)練模型進行進一步預(yù)訓(xùn)練。③同時預(yù)訓(xùn)練:在專業(yè)語料過少的情況下,從頭對通用語料和專業(yè)語料并行預(yù)訓(xùn)練,用通用語料輔助訓(xùn)練專業(yè)語料。④知識繼承訓(xùn)練:將專業(yè)語料庫和已有通用語料預(yù)訓(xùn)練模型的輸入輸出對共同用于訓(xùn)練一個較小的預(yù)訓(xùn)練模型。5.4.1自監(jiān)督學(xué)習(xí)自監(jiān)督預(yù)訓(xùn)練預(yù)訓(xùn)練模型適應(yīng)下游任務(wù)的方法:(1)直接將預(yù)訓(xùn)練模型的輸出作為下游任務(wù)的輸入特征;(2)將模型部分神經(jīng)層進行微調(diào)后與下游任務(wù)的模型進行結(jié)合;(3)利用提示法對預(yù)訓(xùn)練模型進行微調(diào)。GPT系列使用的方法就是提示法微調(diào)。具體做法為:將人為的規(guī)則給到預(yù)訓(xùn)練模型,使模型可以更好地理解人的指令,以便更好地利用預(yù)訓(xùn)練模型。例:輸入為"Ilovethismovie.",希望輸出的是"positive/negative"設(shè)置提示形如:"Themovieis___",然后讓模型用來表示情感狀態(tài)的答案(label),如positive/negative,甚至更細粒度一些的“fantastic”、“boring”等,將空補全作為輸出。5.4.1自監(jiān)督學(xué)習(xí)自監(jiān)督預(yù)訓(xùn)練提示方法與微調(diào)方法的特點:提示更依賴預(yù)訓(xùn)練模型中的任務(wù);微調(diào)更依賴下游任務(wù)模型的再訓(xùn)練。微調(diào)方法中:預(yù)訓(xùn)練語言模型“遷就“各種下游任務(wù)。引入各種輔助任務(wù)損失值,將其添加到預(yù)訓(xùn)練模型中,然后繼續(xù)預(yù)訓(xùn)練,以便讓其更加適配下游任務(wù)。這個過程中,預(yù)訓(xùn)練語言模型做出了更多的犧牲。提示方法中:利用各種下游任務(wù)使預(yù)訓(xùn)練語言模型“回憶起”學(xué)習(xí)過的內(nèi)容。需要對不同任務(wù)進行重構(gòu),使得它達到適配預(yù)訓(xùn)練語言模型的效果,這個過程中,是下游任務(wù)做出了更多的犧牲。5.4.1自監(jiān)督學(xué)習(xí)自監(jiān)督預(yù)訓(xùn)練提示方法的優(yōu)點:給定一組合適提示,以完全無監(jiān)督的方式訓(xùn)練的單個語言建模就能夠用于解決大量任務(wù)。提示方法的設(shè)計:從提示的位置數(shù)量、模板的設(shè)計方法兩個方面完成。位置數(shù)量:主要取決于任務(wù)的形式和模型的類別。設(shè)計方法:手工設(shè)計一般基于人類自然語言知識,力求得到語義流暢且高效的模板;自動學(xué)習(xí)模板可以利用計算機技術(shù)自動學(xué)習(xí)并設(shè)計適配目標任務(wù)的模板,其中又可分為離散提示和連續(xù)提示。自動生成離散提示:自動生成由自然語言的詞組成的提示,因此其搜索空間是離散的。GPT系列模型使用的使離散生成提示。連續(xù)生成提示:直接用字典中的標記作為提示,將提示變成了可以簡單梯度下降求解的連續(xù)參數(shù)問題,實現(xiàn)機器對提示更直接的理解。5.4.1自監(jiān)督學(xué)習(xí)自監(jiān)督預(yù)訓(xùn)練指示調(diào)整(instructiontuning)指示學(xué)習(xí)的問題更接近于選擇題,它的選項來自一個更小的集合,對于GPT-3.5而言,這個選項由GPT-3生成,通過人為標注GPT-3給出推測結(jié)果的準確性,并將這一結(jié)果凝聚成樣本,最終能用于GPT-3.5的學(xué)習(xí)。這種微調(diào)給模型來了更強大的能力,分別是:①能對人類的指令做出響應(yīng)②能對未見過的指令進行反應(yīng)③利用思維鏈進行推理的能力5.4.1自監(jiān)督學(xué)習(xí)自監(jiān)督降維

5.4.1自監(jiān)督學(xué)習(xí)自監(jiān)督生成

5.4.2半監(jiān)督訓(xùn)練目標:嘗試將大量的無類標簽的樣例加入到有限的有類標簽的樣本中一起訓(xùn)練來進行學(xué)習(xí),期望能對學(xué)習(xí)性能起到改進的作用,作用:避免了數(shù)據(jù)和資源的浪費,同時解決了監(jiān)督學(xué)習(xí)的模型泛化能力不強和無監(jiān)督學(xué)習(xí)的模型不精確等問題。形式:①歸納式半監(jiān)督學(xué)習(xí):假定訓(xùn)練數(shù)據(jù)中的未標記樣本并非待測的數(shù)據(jù);②直推式半監(jiān)督學(xué)習(xí):假定學(xué)習(xí)過程中所考慮的未標記樣本恰是待預(yù)測數(shù)據(jù),學(xué)習(xí)的目的就是在這些未標記樣本上獲得最優(yōu)泛化性能。5.4.2半監(jiān)督訓(xùn)練(1)平滑假設(shè):位于稠密數(shù)據(jù)區(qū)域的兩個距離很近的樣例的類標簽相似;(2)聚類假設(shè):當兩個樣例位于同一聚類簇時,它們在很大的概率下有相同的類標簽;(3)流形假設(shè):將高維數(shù)據(jù)嵌入到低維流形中,當兩個樣例位于低維流形中的一個小局部鄰域內(nèi)時,它們具有相似的類標簽。從本質(zhì)上說,這三類假設(shè)是一致的,只是相互關(guān)注的重點不同。其中流形假設(shè)更具有普遍性。預(yù)測樣例和學(xué)習(xí)目標之間的三種假設(shè)5.4.2半監(jiān)督訓(xùn)練(1)自訓(xùn)練算法分為簡單自訓(xùn)練、協(xié)同訓(xùn)練與半監(jiān)督字典訓(xùn)練;簡單自訓(xùn)練:用有標簽數(shù)據(jù)訓(xùn)練一個分類器,然后用這個分類器對無標簽數(shù)據(jù)進行分類,這樣就會產(chǎn)生偽標簽或軟標簽。挑選你認為分類正確的無標簽樣本,把選出來的無標簽樣本用來訓(xùn)練分類器。協(xié)同訓(xùn)練:假設(shè)每個數(shù)據(jù)可以從不同的角度進行分類,不同角度可以訓(xùn)練出不同的分類器,然后用這些從不同角度訓(xùn)練出來的分類器對無標簽樣本進行分類,再選出認為可信的無標簽樣本加入訓(xùn)練集中。半監(jiān)督字典學(xué)習(xí):先用有標簽數(shù)據(jù)作為字典,對無標簽數(shù)據(jù)進行分類,挑選出你認為分類正確的無標簽樣本,加入字典中。半監(jiān)督學(xué)習(xí)算法5.4.2半監(jiān)督訓(xùn)練(2)基于圖的半監(jiān)督算法最為廣泛應(yīng)用的方法是標簽傳播算法。通過構(gòu)造圖結(jié)構(gòu)(數(shù)據(jù)點為頂點,點之間的相似性為邊)來尋找訓(xùn)練數(shù)據(jù)中有標簽數(shù)據(jù)和無標簽數(shù)據(jù)的關(guān)系。是一種直推式的半監(jiān)督算法,即只對訓(xùn)練集中的無標簽數(shù)據(jù)進行分類。(3)半監(jiān)督支持向量機利用結(jié)構(gòu)風(fēng)險最小化來分類;還用上了無標簽數(shù)據(jù)的空間分布信息,即決策超平面應(yīng)該與無標簽數(shù)據(jù)的分布一致。半監(jiān)督學(xué)習(xí)算法5.4.2半監(jiān)督訓(xùn)練(1)無標簽數(shù)據(jù)預(yù)訓(xùn)練網(wǎng)絡(luò)后有標簽數(shù)據(jù)微調(diào);(2)有標簽數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò),利用從網(wǎng)絡(luò)中得到的深度特征來做半監(jiān)督算法。半監(jiān)督學(xué)習(xí)基本方法框架含義:運用已有的知識來學(xué)習(xí)新的知識,核心是利用已有知識和新知識之間的相似性,對新知識進行高效率的學(xué)習(xí)在機器學(xué)習(xí)領(lǐng)域中,遷移學(xué)習(xí)研究如何將已有模型應(yīng)用到新的不同的、但是有一定關(guān)聯(lián)的領(lǐng)域中按學(xué)習(xí)方式可分為:基于樣本的遷移,基于特征的遷移,基于模型的遷移,基于關(guān)系的遷移。如果源域和目標域之間相似度不夠,則遷移結(jié)果并不理想,出現(xiàn)負遷移。遷移學(xué)習(xí)5.4.3特征嵌入定義:利用自監(jiān)督學(xué)習(xí)技術(shù)實現(xiàn)輸入數(shù)據(jù)降維,為下游任務(wù)提供分布更合理數(shù)據(jù)的任務(wù)。必要性:(1)圖上數(shù)據(jù)只能使用數(shù)學(xué)、統(tǒng)計和機器學(xué)習(xí)的特定子集進行分析,而向量空間有更豐富的方法工具集;(2)嵌入是壓縮的表示,完成嵌入后的數(shù)據(jù)有更強的經(jīng)濟性。分類:(1)頂點嵌入:每個頂點(節(jié)點)都用自己的向量表示進行編碼,通常用于在頂點級別執(zhí)行可視化或預(yù)測;(2)圖嵌入:用單個向量表示整個圖。此嵌入用于在圖形的級別進行預(yù)測,在該級別可以比較或可視化整個圖形。挑戰(zhàn):(1)屬性選擇:選擇嵌入應(yīng)保留哪些圖形屬性;(2)可擴展性:嵌入方法應(yīng)具有可擴展性,能夠處理大型圖;(3)嵌入的維數(shù):實際嵌入時很難找到表示的最佳維數(shù)。圖嵌入5.4.3特征嵌入一種將單詞轉(zhuǎn)換為嵌入向量的嵌入方法。利用語義窗口來捕捉每個句子中的語義上下文,并通過對語義窗口進行滑動,學(xué)習(xí)每一個句子序列中不同語義上下文窗口中的單詞embedding。每個詞語都關(guān)聯(lián)著兩個詞向量,分別為中心詞向量和背景詞向量Skip-gram模型通過中心詞最大化背景詞出現(xiàn)的聯(lián)合概率分布,實現(xiàn)有效的詞嵌入表示。Word2vec通過引入負采樣和層次Softmax優(yōu)化訓(xùn)練,解決預(yù)測復(fù)雜度問題。負采樣在最大化背景詞出現(xiàn)概率的同時,最小化噪聲詞出現(xiàn)概率。5.4.3特征嵌入第一階段中采用截斷式隨機游走,把圖中每個節(jié)點的局部拓撲結(jié)構(gòu)轉(zhuǎn)換成序列信息;第二階段中把Word2vec模型應(yīng)用于階段一產(chǎn)生的序列數(shù)據(jù),學(xué)習(xí)序列中每個節(jié)點的embedding表示DeepWalk模型5.4.3特征嵌入在圖結(jié)構(gòu)中,節(jié)點間的相性存在兩種形態(tài):(1)和近鄰節(jié)點之間的同質(zhì)性;(2)和擔任類似結(jié)構(gòu)角色的節(jié)點之間的結(jié)構(gòu)性。有偏的隨機游走(BiasedRandomWalk)策略Node2vec模型p控制著返回上一跳節(jié)點的概率。當p取值小于1時,隨機游走生成的序列傾向于在同一節(jié)點附近徘徊,接近于BFS遍歷。q控制著游走到更遠節(jié)點的概率。當q取值小于1時,隨機游走生成的序列傾向于向更遠的結(jié)構(gòu)進行探索,接近于DFS遍歷。5.4.3特征嵌入一階親密度和二階親密度:一階親密度代表圖中存在邊連接的節(jié)點之間的關(guān)系,二階親密度代表共享大部分鄰居的節(jié)點之間的關(guān)系。Line模型節(jié)點i和j之間的一階親密度建模(最小化節(jié)點間經(jīng)驗分布和聯(lián)合分布之間的距離):二階親密度建模:實際使用的時候,對一階近鄰和二階近鄰分別訓(xùn)練,然后將兩個向量拼接起來作為節(jié)點的向量表示。5.4.3特征嵌入Graph2vec方法包括三個步驟:(1)從圖中采樣并重新標記所有子圖。子圖是在所選節(jié)點周圍出現(xiàn)的一組節(jié)點。子圖中的節(jié)點距離不超過所選邊數(shù)。(2)訓(xùn)練跳躍圖模型。圖類似于文檔。由于文檔是詞的集合,所以圖就是子圖的集合。在此階段,對跳躍圖模型進行訓(xùn)練。它被訓(xùn)練來最大限度地預(yù)測存在于輸入圖中的子圖的概率。輸入圖是作為一個熱向量提供的。(3)通過在輸入處提供一個圖ID作為一個獨熱向量來計算嵌入。嵌入是隱藏層的結(jié)果。由于任務(wù)是預(yù)測子圖,所以具有相似子圖和相似結(jié)構(gòu)的圖具有相似的嵌入。Graph2vec模型5.4.4多任務(wù)學(xué)習(xí)定義:指同時學(xué)習(xí)多個相關(guān)任務(wù),讓這些任務(wù)在學(xué)習(xí)過程中共享知識,利用多個任務(wù)之間的相關(guān)性來改進模型在每個任務(wù)上的性能和泛化能力。主要挑戰(zhàn):如何設(shè)計多任務(wù)之間的共享機制常見共享模式:(1)硬共享模式(2)軟共享模式(3)層次共享模式(4)共享-私有模式5.4.4多任務(wù)學(xué)習(xí)多任務(wù)學(xué)習(xí)通常可以獲得比單任務(wù)學(xué)習(xí)更好的泛化能力,主要有以下幾個原因:(1)多任務(wù)學(xué)習(xí)比單任務(wù)學(xué)習(xí)的訓(xùn)練集更大。由于多個任務(wù)之間有一定的相關(guān)性,因此多任務(wù)學(xué)習(xí)相當于是一種隱式的數(shù)據(jù)增強,可以提高模型的泛化能力。(2)多任務(wù)學(xué)習(xí)中的共享模塊需要兼顧所有任務(wù),在一定程度上避免了模型過擬合到單個任務(wù)的訓(xùn)練集,可以看作是一種正則化。(3)一個好的表示通常需要適用于多個不同任務(wù),多任務(wù)學(xué)習(xí)的機制使得它會比單任務(wù)學(xué)習(xí)獲得更好的表示。(4)在多任務(wù)學(xué)習(xí)中,每個任務(wù)都可以“選擇性”利用其他任務(wù)中學(xué)習(xí)到的隱藏特征,從而提高自身的能力。5.4.5集成學(xué)習(xí)定義:組合多個弱監(jiān)督模型以得到一個更好更全面的強監(jiān)督模型Bagging(bootstrapaggregating)Bootstrap方法:是一種有放回的抽樣方法,目的為了得到統(tǒng)計量的分布以及置信區(qū)間。具體步驟為:1)采用重抽樣方法從原始樣本中抽取一定數(shù)量的樣本;2)根據(jù)抽出的樣本計算想要得到的統(tǒng)計量;3)重復(fù)上述步驟N次得到N個統(tǒng)計量T;4)根據(jù)這個統(tǒng)計量,計算出統(tǒng)計量的置信區(qū)間。利用bootstrap方法從整體數(shù)據(jù)集中采取有放回抽樣得到N個數(shù)據(jù)集,在每個數(shù)據(jù)集上學(xué)習(xí)出一個模型,最后的預(yù)測結(jié)果利用N個模型的輸出得到。例:隨機森林(RandomForest)由很多的決策樹組成,每一棵決策樹之間是沒有關(guān)聯(lián)的。預(yù)測的時候,每一棵樹的都對輸入進行預(yù)測,最后進行投票,哪個類別多,輸入樣本就屬于哪個類別。5.4.5集成學(xué)習(xí)Boosting主要也是學(xué)習(xí)一系列弱分類器,并將其組合為一個強分類器。AdaBoost(Adaptiveboosting)算法:剛開始訓(xùn)練時對每一個訓(xùn)練例賦相等的權(quán)重,然后用該算法對訓(xùn)練集訓(xùn)練t輪,每次訓(xùn)練后,對訓(xùn)練失敗的訓(xùn)練例賦以較大的權(quán)重,讓學(xué)習(xí)算法在每次學(xué)習(xí)以后更注意學(xué)錯的樣本,從而得到多個預(yù)測函數(shù)。Stacking指訓(xùn)練一個模型用于組合其他各個模型。首先訓(xùn)練多個不同的模型,然后把之前訓(xùn)練的各個模型的輸出為輸入來訓(xùn)練一個模型,以得到一個最終的輸出。理論上,Stacking可以表示上面提到的兩種Ensemble方法,只要采用合適的模型組合策略即可。但在實際中,通常使用logistic回歸作為組合策略。5.4.6聯(lián)邦學(xué)習(xí)聯(lián)邦學(xué)習(xí)定義了機器學(xué)習(xí)框架,在此框架下通過設(shè)計虛擬模型解決不同數(shù)據(jù)擁有方在不交換數(shù)據(jù)的情況下進行協(xié)作的問題。在聯(lián)邦機制下,各參與者的身份和地位相同,可建立共享數(shù)據(jù)策略。由于數(shù)據(jù)不發(fā)生轉(zhuǎn)移,因此不會泄露用戶隱私或影響數(shù)據(jù)規(guī)范。為了保護數(shù)據(jù)隱私、滿足合法合規(guī)的要求。聯(lián)邦學(xué)習(xí)構(gòu)成要素:數(shù)據(jù)源、聯(lián)邦學(xué)習(xí)系統(tǒng)、用戶。根據(jù)參與各方數(shù)據(jù)源分布的情況不同,聯(lián)邦學(xué)習(xí)可以被分為三類:橫向聯(lián)邦學(xué)習(xí)、縱向聯(lián)邦學(xué)習(xí)、聯(lián)邦遷移學(xué)習(xí)。5.4.6聯(lián)邦學(xué)習(xí)定義:在兩個數(shù)據(jù)集的用戶特征重疊較多而用戶重疊較少的情況下,把數(shù)據(jù)集橫向切分,并取出雙方用戶特征相同而用戶不完全相同的那部分數(shù)據(jù)進行訓(xùn)練。例:業(yè)務(wù)相同但是分布在不同地區(qū)的兩家企業(yè),它們的用戶群體交集很小,但是用戶特征相同。此時,就可以使用橫向聯(lián)邦學(xué)習(xí)來構(gòu)建聯(lián)合模型。工作節(jié)點代表的是模型訓(xùn)練的數(shù)據(jù)擁有方,對本地的數(shù)據(jù)具有完全的自治權(quán)限,可以自主決定何時加入聯(lián)邦學(xué)習(xí)進行建模。在參數(shù)服務(wù)器中,中心節(jié)點始終占據(jù)著主導(dǎo)地位。聯(lián)邦學(xué)習(xí)則強調(diào)模型訓(xùn)練過程中對數(shù)據(jù)擁有方的數(shù)據(jù)隱私保護。橫向聯(lián)邦學(xué)習(xí)5.4.6聯(lián)邦學(xué)習(xí)定義:在兩個數(shù)據(jù)集的用戶重疊較多而用戶特征重疊較少的情況下,把數(shù)據(jù)集按照縱向切分,并取出雙方用戶相同而用戶特征不完全相同的那部分數(shù)據(jù)進行訓(xùn)練。例:一家銀行,與同一個地方的電商。它們的用戶群體交集較大。用戶特征交集較小。縱向聯(lián)邦學(xué)習(xí)將這些不同特征在加密的狀態(tài)下加以聚合,以增強模型能力??v向聯(lián)邦學(xué)習(xí)定義:在用戶與用戶特征重疊都較少的情況下,不對數(shù)據(jù)進行切分,而可以利用遷移學(xué)習(xí)來克服數(shù)據(jù)或標簽不足的情況。例:一家位于中國的銀行,和一家是位于美國的電商,兩家機構(gòu)的用戶群體交集很小,數(shù)據(jù)特征也只有小部分重合。引入遷移學(xué)習(xí)解決單邊數(shù)據(jù)規(guī)模小和標簽樣本少的問題,從而提升模型的效果。聯(lián)邦遷移學(xué)習(xí)5.4.7自動化機器學(xué)習(xí)自動化機器學(xué)習(xí),即一種將自動化和機器學(xué)習(xí)相結(jié)合的方式,是一個新的研究方向,它可以使計算機獨立完成更復(fù)雜的任務(wù),從而解放人類的雙手。相較于傳統(tǒng)的機器學(xué)習(xí)方法,自動化機器學(xué)習(xí)有如下優(yōu)勢:(1)自動化機器學(xué)習(xí)可以完全不用依賴經(jīng)驗,由完整的數(shù)學(xué)推理的方式來證明。通過數(shù)據(jù)的分布和模型的性能,自動化機器學(xué)習(xí)會不斷評估最優(yōu)解的分布區(qū)間并對這個區(qū)間再次采樣。所以可以訓(xùn)練縮短時間,提升模型訓(xùn)練效率。(2)自動化機器學(xué)習(xí)可以降低使用機器學(xué)習(xí)的門檻。本章提綱5.1機器學(xué)習(xí)基礎(chǔ)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論