




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第1章機(jī)器學(xué)習(xí)概述1.1機(jī)器學(xué)習(xí)的基本概念1.2機(jī)器學(xué)習(xí)的基本類別1.3機(jī)器學(xué)習(xí)的評(píng)估指標(biāo)1.4機(jī)器學(xué)習(xí)典型應(yīng)用本章小結(jié)
1.1機(jī)器學(xué)習(xí)的基本概念
機(jī)器學(xué)習(xí)是指根據(jù)生理學(xué)、認(rèn)知科學(xué)等對(duì)人類學(xué)習(xí)機(jī)理的了解,建立人類學(xué)習(xí)過(guò)程的計(jì)算模型,研究通用的學(xué)習(xí)算法并建立面向任務(wù)的具有特定應(yīng)用的學(xué)習(xí)系統(tǒng)。這些研究目標(biāo)相互影響,相互促進(jìn)。機(jī)器學(xué)習(xí)致力于研究如何利用代表某現(xiàn)象的樣本數(shù)據(jù)構(gòu)建算法,以此實(shí)現(xiàn)“學(xué)習(xí)”。同時(shí),機(jī)器學(xué)習(xí)也可定義為一套解決實(shí)際問(wèn)題的流程,具體步驟包括收集數(shù)據(jù)、利用算法對(duì)收集到的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)建模以及利用構(gòu)建好的統(tǒng)計(jì)模型解決具體問(wèn)題。
1.2機(jī)器學(xué)習(xí)的基本類別1.2.1經(jīng)典機(jī)器學(xué)習(xí)
1.有監(jiān)督學(xué)習(xí)有監(jiān)督學(xué)習(xí)是指可以從訓(xùn)練集中學(xué)到或建立一個(gè)模式,并依此模式推測(cè)新的實(shí)例,其中訓(xùn)練集同時(shí)有輸入和輸出數(shù)據(jù)(標(biāo)簽)。有監(jiān)督學(xué)習(xí)問(wèn)題可以分為兩類:一類是分類問(wèn)題,另一類是回歸問(wèn)題。在有監(jiān)督學(xué)習(xí)中,輸入變量x可以是連續(xù)的,也可以是離散的;當(dāng)輸出變量y為有限個(gè)離散值時(shí),預(yù)測(cè)問(wèn)題便成為分類問(wèn)題。
分類問(wèn)題的關(guān)鍵就是找到?jīng)Q策邊界,用于對(duì)數(shù)據(jù)進(jìn)行分類。回歸問(wèn)題主要是預(yù)測(cè)自變量和因變量間的關(guān)系?;貧w模型正是表示從輸入變量到輸出變量之間映射的函數(shù),其目的是找到最優(yōu)擬合函數(shù);這個(gè)擬合函數(shù)可以最好地接近數(shù)據(jù)集中的各個(gè)點(diǎn),故名回歸。
1)線性模型
線性模型的基本形式如下:給定由d個(gè)屬性描述的示例x=(x1,x2,…,xi,…,xd),其中xi是x在第i個(gè)屬性上的取值,i=1,2,…,d。線性模型試圖得到一個(gè)通過(guò)屬性的線性組合來(lái)進(jìn)行預(yù)測(cè)的函數(shù),即
一般用向量形式寫(xiě)成
其中,w=(w1,w2,…,wd),w和b學(xué)得之后,模型就得以確定。
2)決策樹(shù)
決策樹(shù)是一類常見(jiàn)的機(jī)器學(xué)習(xí)方法。以二分類任務(wù)為例,從給定訓(xùn)練數(shù)據(jù)集學(xué)得一個(gè)模型,用以對(duì)新示例進(jìn)行分類,分類的過(guò)程即“決策”或“判定”過(guò)程。顧名思義,決策樹(shù)是基于樹(shù)結(jié)構(gòu)來(lái)進(jìn)行決策的,這恰恰是人類在面臨決策問(wèn)題時(shí)的一種很自然的處理機(jī)制。
例如,我們要對(duì)“能否償還貸款債務(wù)”這樣的問(wèn)題進(jìn)行決策時(shí),通常會(huì)進(jìn)行一系列的判斷或“子決策”:我們先看“年收入”,如果是“大于97.58萬(wàn)”,答案是“是”,則判斷可以償還;否則,我們?cè)倏础笆欠駬碛蟹慨a(chǎn)”,答案是“是”,則判斷可以償還;否則,我們?cè)倏础盎橐鰻顩r”,答案是“已婚”,則判斷可以償還;否則判斷無(wú)法償還。這個(gè)決策過(guò)程如圖1.1所示。圖1.1“能否償還貸款債務(wù)”決策樹(shù)
一般地,一棵決策樹(shù)包含一個(gè)根節(jié)點(diǎn)和若干個(gè)子節(jié)點(diǎn)與若干個(gè)葉節(jié)點(diǎn)。根節(jié)點(diǎn)即樹(shù)的最頂端的節(jié)點(diǎn);子節(jié)點(diǎn)是指除根節(jié)點(diǎn)之外,并且本身下面還連接有節(jié)點(diǎn)的節(jié)點(diǎn);葉節(jié)點(diǎn)是指本身下面不再連接有節(jié)點(diǎn)的節(jié)點(diǎn),即末端節(jié)點(diǎn)。葉節(jié)點(diǎn)對(duì)應(yīng)于決策結(jié)果,其他每個(gè)節(jié)點(diǎn)則對(duì)應(yīng)于一個(gè)屬性測(cè)試;每個(gè)節(jié)點(diǎn)包含的樣本集合根據(jù)屬性測(cè)試的結(jié)果被劃分到下一級(jí)子節(jié)點(diǎn)中;根節(jié)點(diǎn)包含樣本全集。從根節(jié)點(diǎn)到每個(gè)葉節(jié)點(diǎn)的路徑對(duì)應(yīng)了一個(gè)判定測(cè)試序列。決策樹(shù)學(xué)習(xí)的目的是為了產(chǎn)生一棵泛化能力強(qiáng)的決策樹(shù)。
3)神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)最基本的組成成分是神經(jīng)元。在生物神經(jīng)網(wǎng)絡(luò)中,每個(gè)神經(jīng)元與其他神經(jīng)元相連。當(dāng)神經(jīng)元“興奮”時(shí),就會(huì)向相連的神經(jīng)元發(fā)送化學(xué)物質(zhì),從而改變這些神經(jīng)元內(nèi)的電位;如果某神經(jīng)元電位超過(guò)了一個(gè)“閾值”,那么此神經(jīng)元就會(huì)被激活,即“興奮”起來(lái),向其他神經(jīng)元發(fā)送化學(xué)物質(zhì)。將上述情形抽象即為圖1.2所示的簡(jiǎn)單模型,這就是一直沿用至今的“M-P神經(jīng)元模型”。圖1.2M-P神經(jīng)元模型
2.無(wú)監(jiān)督學(xué)習(xí)
有監(jiān)督學(xué)習(xí)非常依賴數(shù)據(jù),需要大量準(zhǔn)確的數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練,而在實(shí)際應(yīng)用中,很多情況下無(wú)法預(yù)先知道樣本的標(biāo)簽,即沒(méi)有訓(xùn)練樣本對(duì)應(yīng)的類別,因此只能根據(jù)樣本間的相似性對(duì)樣本集進(jìn)行分類,并試圖使類內(nèi)差距最小化、類間差距最大化,即無(wú)監(jiān)督學(xué)習(xí)。
無(wú)監(jiān)督學(xué)習(xí)與有監(jiān)督學(xué)習(xí)的最大差別在于:無(wú)監(jiān)督學(xué)習(xí)訓(xùn)練時(shí)訓(xùn)練集數(shù)據(jù)只有輸入而沒(méi)有標(biāo)簽,在沒(méi)有任何進(jìn)一步指導(dǎo)的情形下,直接對(duì)輸入數(shù)據(jù)集進(jìn)行建模,通過(guò)對(duì)數(shù)據(jù)的觀察歸納找出其潛在的類別規(guī)律,即在缺乏外界所提供的任何形式的反饋的條件下進(jìn)行學(xué)習(xí)。
聚類算法可分為:
1)分區(qū)聚類算法
該類算法根據(jù)點(diǎn)的相似性在單個(gè)分區(qū)中基于距離來(lái)劃分?jǐn)?shù)據(jù)集。該類算法缺點(diǎn)是需要用戶預(yù)定義一個(gè)參數(shù),而該參數(shù)通常具有不確定性。
2)層次聚類算法
該類算法將數(shù)據(jù)劃分成不同的層次,并提供了可視化。該類算法基于相似性或距離將數(shù)據(jù)自底向上或自頂向下進(jìn)行分層劃分,劃分結(jié)果表示為一種層次分類樹(shù)。該類算法的主要缺點(diǎn)是:一旦完成了某個(gè)劃分階段,就無(wú)法撤銷。
3)基于密度的聚類算法
該類算法能夠以任意一種方式發(fā)現(xiàn)簇。簇定義為由低密度區(qū)域分開(kāi)的密集區(qū)域?;诿芏鹊木垲愃惴ú贿m用于大型的數(shù)據(jù)集。
4)基于模型的聚類算法
該類算法基于多元概率分布規(guī)律,可以測(cè)量劃分的不確定性,其中,每個(gè)混合物代表一個(gè)不同的簇。該類算法對(duì)大數(shù)據(jù)集的處理較慢。
5)基于網(wǎng)格的聚類算法
該類算法的計(jì)算過(guò)程分為三個(gè)階段:首先,將空間劃分為矩形方格以獲取一個(gè)具有相同大小方格的網(wǎng)格;然后,刪除低密度的方格;最后,將相鄰的高密度的方格進(jìn)行結(jié)合以構(gòu)成簇。該類算法最明顯的優(yōu)點(diǎn)在于其復(fù)雜度顯著減少。
3.半監(jiān)督學(xué)習(xí)
半監(jiān)督學(xué)習(xí)是有監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)相結(jié)合的一種學(xué)習(xí)方法,是綜合利用有標(biāo)簽數(shù)據(jù)和無(wú)標(biāo)簽數(shù)據(jù)的機(jī)器學(xué)習(xí)方法。
在半監(jiān)督學(xué)習(xí)方法中,一般需要一些假設(shè)支撐。目前,有兩個(gè)比較常用的基本假設(shè):聚類假設(shè)和流形假設(shè)。聚類假設(shè)是指當(dāng)樣本數(shù)據(jù)間的距離比較近時(shí),屬于相同的類別。根據(jù)該假設(shè),分類邊界就必須盡可能地通過(guò)數(shù)據(jù)較為稀疏的地方,以避免將密集的數(shù)據(jù)點(diǎn)分為兩類。
流形假設(shè)的主要思想是同一個(gè)局部鄰域內(nèi)的樣本數(shù)據(jù)具有相似的性質(zhì),因此其標(biāo)簽也應(yīng)該是相似的。這一假設(shè)體現(xiàn)了決策函數(shù)的局部平滑性。流形假設(shè)和聚類假設(shè)的主要不同
是,流形假設(shè)主要考慮的是模型的局部特性,而聚類假設(shè)主要關(guān)注的是整體特性。
4.強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)用回報(bào)函數(shù)來(lái)區(qū)分是否越來(lái)越接近目標(biāo),可以在必要時(shí)隨時(shí)間適應(yīng)環(huán)境,以便長(zhǎng)期獲得最大的回報(bào)。經(jīng)典的兒童游戲“hotterorcolder”就是這個(gè)概念的一個(gè)很好的例
證。游戲的目標(biāo)是找到一個(gè)隱藏的目標(biāo)物件,游戲過(guò)程中可以知道是否越來(lái)越接近(hotter)或越來(lái)越遠(yuǎn)離(colder)目標(biāo)物件?!癶otter/colder”就是回報(bào)函數(shù),而算法的目標(biāo)就是最大化回報(bào)函數(shù),可以把回報(bào)函數(shù)近似為一種延遲的標(biāo)簽數(shù)據(jù)形式,而不是在每個(gè)數(shù)據(jù)點(diǎn)中獲得特定的“right/wrong”答案,它只會(huì)提示是否在強(qiáng)化學(xué)習(xí),即最佳的行為或行動(dòng)是由積極的回報(bào)來(lái)強(qiáng)化的。
標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)框架如圖1.3所示圖1.3強(qiáng)化學(xué)習(xí)基本框架
若定義S為環(huán)境所有可能狀態(tài)的集合,X為Agent所有感知的集合,A為Agent的行為集合,R為所有獎(jiǎng)賞的集合,則Agent可以用三元組(I,R,P)描述。其中
環(huán)境狀態(tài)轉(zhuǎn)移函數(shù)W可定義為
目標(biāo)函數(shù)用來(lái)評(píng)估從長(zhǎng)遠(yuǎn)看哪種策略可以獲得最優(yōu)效果(即選擇哪個(gè)動(dòng)作較好),通常以狀態(tài)的值函數(shù)或狀態(tài)-動(dòng)作對(duì)的值函數(shù)來(lái)體現(xiàn)此目標(biāo)函數(shù)。一般目標(biāo)函數(shù)的形式有以下三種:
其中,0≤γ≤1,稱為折扣因子;rt
是從狀態(tài)t到t+1轉(zhuǎn)移后Agent獲得的獎(jiǎng)賞值,可以是正值、負(fù)值或者零。
1.2.2現(xiàn)代機(jī)器學(xué)習(xí)
1.遷移學(xué)習(xí)
顧名思義,遷移學(xué)習(xí)是指將已學(xué)習(xí)訓(xùn)練好的模型參數(shù)遷移到新的模型中以幫助新模型訓(xùn)練。由于大部分?jǐn)?shù)據(jù)或任務(wù)是存在相關(guān)性的,所以通過(guò)遷移學(xué)習(xí)可以將已經(jīng)學(xué)到的模型
參數(shù)(也可理解為模型學(xué)到的知識(shí))通過(guò)某種方式分享給新模型,從而加快新模型的學(xué)習(xí)效率,使其不用從零學(xué)習(xí)。遷移學(xué)習(xí)是運(yùn)用已有的知識(shí)對(duì)不同但相關(guān)領(lǐng)域問(wèn)題進(jìn)行求解的一種新的機(jī)器學(xué)習(xí)方法。
遷移學(xué)習(xí)是運(yùn)用已有的知識(shí)對(duì)不同但相關(guān)領(lǐng)域問(wèn)題進(jìn)行求解的一種新的機(jī)器學(xué)習(xí)方法。遷移學(xué)習(xí)放寬了傳統(tǒng)機(jī)器學(xué)習(xí)中的兩個(gè)基本假設(shè):
①用于學(xué)習(xí)的訓(xùn)練樣本與新的測(cè)試樣本滿足獨(dú)立同分布的條件;
②必須有足夠可利用的訓(xùn)練樣本才能學(xué)習(xí)得到一個(gè)好的分類模型。
遷移學(xué)習(xí)的目的是遷移已有的知識(shí)來(lái)解決目標(biāo)領(lǐng)域中僅有少量有標(biāo)簽樣本數(shù)據(jù),甚至沒(méi)有標(biāo)簽樣本數(shù)據(jù)的學(xué)習(xí)問(wèn)題。
2.自監(jiān)督學(xué)習(xí)
自監(jiān)督學(xué)習(xí)本質(zhì)上是一種無(wú)監(jiān)督學(xué)習(xí)的方法。深度學(xué)習(xí)方法出現(xiàn)以后,為了使得特征學(xué)習(xí)獲得更好的性能,通常使用大量的有標(biāo)簽數(shù)據(jù)來(lái)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)。然而收集和注釋
大規(guī)模的標(biāo)記樣本成本過(guò)于高昂,為了在無(wú)需任何人工注釋標(biāo)簽的情況下從未標(biāo)記數(shù)據(jù)中學(xué)習(xí)特征,逐漸產(chǎn)生了自監(jiān)督學(xué)習(xí)的思想。
3.自動(dòng)機(jī)器學(xué)習(xí)
自動(dòng)機(jī)器學(xué)習(xí)(AutomatedMachineLearning,AutoML)
機(jī)器學(xué)習(xí)的思想,目的是減少專家針對(duì)不同場(chǎng)景進(jìn)行技術(shù)的提出結(jié)合了自動(dòng)化與配置與優(yōu)化的繁重開(kāi)發(fā)成本,從而實(shí)現(xiàn)現(xiàn)整個(gè)機(jī)器學(xué)習(xí)流程自動(dòng)化。為特定任務(wù)構(gòu)造一個(gè)高質(zhì)量的機(jī)器學(xué)習(xí)或深度學(xué)習(xí)系統(tǒng)不僅需要耗費(fèi)大量時(shí)間和資源,而且在很大程度上需要專業(yè)領(lǐng)域的知識(shí),而自動(dòng)機(jī)器學(xué)習(xí)可使機(jī)器學(xué)習(xí)技術(shù)更易于應(yīng)用,減少了對(duì)經(jīng)驗(yàn)豐富的領(lǐng)域?qū)<业男枨蟆?/p>
4.量子機(jī)器學(xué)習(xí)
量子機(jī)器學(xué)習(xí)是量子計(jì)算與人工智能研究相交叉形成的一個(gè)新領(lǐng)域,其目標(biāo)主要是設(shè)計(jì)從數(shù)據(jù)中學(xué)習(xí)的量子算法,通過(guò)利用量子態(tài)的疊加和糾纏等特性,實(shí)現(xiàn)對(duì)現(xiàn)有機(jī)器學(xué)習(xí)算法的加速。當(dāng)前,作為實(shí)現(xiàn)人工智能最核心的技術(shù)手段,機(jī)器學(xué)習(xí)已經(jīng)影響到了科技、社會(huì)及人類生活的各個(gè)方面。
1.3機(jī)器學(xué)習(xí)的評(píng)估指標(biāo)
對(duì)學(xué)習(xí)器的泛化性能進(jìn)行評(píng)估,需要有衡量模型泛化能力的評(píng)價(jià)標(biāo)準(zhǔn),即評(píng)估指標(biāo)。評(píng)估指標(biāo)反映了任務(wù)需求,在對(duì)比不同模型的能力時(shí),使用不同的評(píng)估指標(biāo)往往會(huì)得到不同的評(píng)判結(jié)果。這意味著模型的“好壞”是相對(duì)的,什么樣的模型是好的,不僅取決于算法和數(shù)據(jù),還取決于任務(wù)需求。
在預(yù)測(cè)任務(wù)中,給定數(shù)據(jù)集D={(x1,y1),(x2,y2),…,(xm
,ym
)},其中yi是示例i的真實(shí)標(biāo)記,要評(píng)估學(xué)習(xí)器f的性能,就要把學(xué)習(xí)器預(yù)測(cè)結(jié)果f(x)與真實(shí)標(biāo)記y進(jìn)行比較。
回歸任務(wù)最常用的評(píng)估指標(biāo)是“均方誤差”,公式如下:
對(duì)于數(shù)據(jù)分布D和概率密度函數(shù)p(·),均方誤差可描述為
1.3.1機(jī)器學(xué)習(xí)三要素
機(jī)器學(xué)習(xí)包括三個(gè)要素:模型、策略、算法。模型表示的是所要學(xué)習(xí)的條件概率分布或者決策函數(shù),模型的假設(shè)空間包含所有可能的決策函數(shù)。策略是指依照什么樣的規(guī)則來(lái)從假設(shè)空間中選擇最優(yōu)的一個(gè)決策函數(shù)。策略的具體實(shí)現(xiàn)即第三個(gè)要素算法。
1.機(jī)器學(xué)習(xí)的目的——模型
模型就是用來(lái)描述客觀世界的數(shù)學(xué)模型,是從數(shù)據(jù)里抽象出來(lái)的。
模型可以是確定的,也可以是隨機(jī)的,只要數(shù)學(xué)可以描述,就可以進(jìn)行預(yù)測(cè)分析。
2.如何構(gòu)造模型——策略
利用一個(gè)正態(tài)分布去描述一組數(shù)據(jù),需要構(gòu)造這個(gè)正態(tài)分布,即預(yù)測(cè)這個(gè)分布的參數(shù),如均值、方差……但是需要有一系列的標(biāo)準(zhǔn)去選擇合適的模型,去證明一個(gè)模型比另一個(gè)
模型好,這些標(biāo)準(zhǔn)就是策略。不同的策略,對(duì)應(yīng)不同的模型的比較標(biāo)準(zhǔn)和選擇標(biāo)準(zhǔn)。最終的模型由兩個(gè)部分來(lái)決定:數(shù)據(jù)和選擇模型的策略。
經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化是常用的策略。經(jīng)驗(yàn)風(fēng)險(xiǎn)最小是指用這個(gè)模型在已有的觀測(cè)數(shù)據(jù)上進(jìn)行評(píng)估,可以達(dá)到較好的結(jié)果。
3.模型的實(shí)現(xiàn)——算法
模型和策略確定之后,現(xiàn)實(shí)問(wèn)題轉(zhuǎn)化為優(yōu)化問(wèn)題,需要尋找合適的算法來(lái)解決優(yōu)化問(wèn)題。如果優(yōu)化問(wèn)題具有顯式的解析解,通過(guò)簡(jiǎn)單的優(yōu)化模型參數(shù)即可實(shí)現(xiàn)最優(yōu);如果沒(méi)有,則需要借助最優(yōu)化理論和數(shù)值計(jì)算來(lái)解決。
1.3.2評(píng)估方法
1.留出法
“留出法”直接將數(shù)據(jù)集D劃分為兩個(gè)互斥的集合,其中一個(gè)集合作為訓(xùn)練集S,另一個(gè)集合作為測(cè)試集T,
即D=S∪T,S∩T=?。在S上訓(xùn)練出模型后,用T來(lái)評(píng)估其測(cè)
試誤差,作為對(duì)泛化誤差的評(píng)估。
需注意的是,訓(xùn)練/測(cè)試集的劃分要盡可能保持?jǐn)?shù)據(jù)分布的一致性,避免因數(shù)據(jù)劃分過(guò)程引入額外的偏差而對(duì)最終結(jié)果產(chǎn)生影響,例如在分類任務(wù)中至少要保持樣本的類別比例
相似。如果從采樣的角度來(lái)看待數(shù)據(jù)集的劃分過(guò)程,則保留類別比例的采樣方式通常稱為“分層采樣”。
另一個(gè)需注意的問(wèn)題是,即便在給定訓(xùn)練/測(cè)試集的樣本比例后,仍存在多種劃分方式對(duì)初始數(shù)據(jù)集D進(jìn)行分割。
此外,我們希望評(píng)估的是用D訓(xùn)練出的模型的性能,但留出法需劃分訓(xùn)練/測(cè)試集,這會(huì)導(dǎo)致一個(gè)窘境:若令訓(xùn)練集S包含絕大多數(shù)樣本,則訓(xùn)練出的模型可能更接近于用D訓(xùn)練出的模型,但由于T比較小,因而評(píng)估結(jié)果的穩(wěn)定性較差;若增加測(cè)試集T的樣本,則訓(xùn)練集S與D的差距較大,被評(píng)估的模型與用D訓(xùn)練出的模型相比可能有較大差別,從而降低了評(píng)估結(jié)果的保真性。
2.交叉驗(yàn)證法
“交叉驗(yàn)證法”先將數(shù)據(jù)集D劃分為k個(gè)大小相似的互斥子集,即D=D1∪D2…∪Gk,Di∩Dj=?(i≠j)。每個(gè)子集Di都盡可能保持?jǐn)?shù)據(jù)分布的一致性,即從D中通過(guò)分層采樣得到,每次用k-1個(gè)子集的并集作為訓(xùn)練集,余下的那個(gè)子集作為測(cè)試集。這樣就可獲得k組訓(xùn)練/測(cè)試集,從而可進(jìn)行k次訓(xùn)練和測(cè)試,最終返回的是k次測(cè)試結(jié)果的均值。顯然,交叉驗(yàn)證法評(píng)估結(jié)果的穩(wěn)定性和保真性在很大程度上取決于k的取值。為強(qiáng)調(diào)這一點(diǎn),通常把交叉驗(yàn)證法稱為“k折交叉驗(yàn)證”。最常用的k值是10,此時(shí)稱為10折交叉驗(yàn)證;其他常用的k值有5、20等。圖1.4給出了10折交叉驗(yàn)證的示意圖。圖1.410折交叉驗(yàn)證示意圖
3.自助法
“自助法”是一個(gè)比較好的解決方案,它直接以自助采樣法為基礎(chǔ),給定包含m個(gè)樣本的數(shù)據(jù)集D,首先進(jìn)行采樣,產(chǎn)生數(shù)據(jù)集D':每次隨機(jī)從D中挑選一個(gè)樣本,將其拷貝放入D',然后將該樣本放回初始數(shù)據(jù)集D中,使得該樣本在下次采樣時(shí)仍有可能被采到;這個(gè)過(guò)程重復(fù)執(zhí)行m次后,就得到了包含m個(gè)樣本的最終的數(shù)據(jù)集D'。顯然,D中有一部分樣本會(huì)在D'中多次出現(xiàn),而另一部分樣本不會(huì)出現(xiàn)。
次采樣中始終不被采到的概率是(1-1/m)m,取極限得到
即通過(guò)自助采樣,初始數(shù)據(jù)集D中約有36.8%的樣本未出現(xiàn)在采樣數(shù)據(jù)集D'中。于是我們可將D'用作訓(xùn)練集,D/D'用作測(cè)試集;這樣,實(shí)際評(píng)估的模型與期望評(píng)估的模型都使
用m個(gè)訓(xùn)練樣本,而我們?nèi)杂袛?shù)據(jù)總量約1/3的、沒(méi)在訓(xùn)練集中出現(xiàn)的樣本用于測(cè)試,這樣的測(cè)試結(jié)果,亦稱“包外估計(jì)”。
1.4機(jī)器學(xué)習(xí)典型應(yīng)用
1.4.1專家系統(tǒng)專家系統(tǒng)是一種智能的計(jì)算機(jī)程序,這種程序使用知識(shí)和推理過(guò)程,求解那些需要杰出人物的專門(mén)知識(shí)才能求解的高難度問(wèn)題。專家系統(tǒng)使用的知識(shí)主要是定義和規(guī)則,而推理是在已有規(guī)則基礎(chǔ)上發(fā)現(xiàn)新知識(shí)。與傳統(tǒng)計(jì)算機(jī)相比,專家系統(tǒng)=推理引擎+知識(shí)。
1.4.2語(yǔ)音識(shí)別
所謂語(yǔ)音識(shí)別,就是指讓機(jī)器通過(guò)識(shí)別和理解,把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本信息或命令信息。在過(guò)去,人類只能依靠復(fù)雜且專業(yè)的指令碼與機(jī)器進(jìn)行交流,而在今天,語(yǔ)音識(shí)別已經(jīng)可以代替上述過(guò)程,并且大量運(yùn)用到了人們的生活中。
傳統(tǒng)的語(yǔ)音識(shí)別聲學(xué)建模方式基于隱馬爾科夫框架,采用混合高斯模型(GaussianMixtureModel,GMM)來(lái)描述語(yǔ)音聲學(xué)特征的概率分布。由于隱馬爾科夫模型屬于典型的淺層學(xué)習(xí)結(jié)構(gòu),僅含單個(gè)將原始輸入信號(hào)轉(zhuǎn)換為特定問(wèn)題空間特征的簡(jiǎn)單結(jié)構(gòu),因而在海量數(shù)據(jù)下其性能受到限制。
1.4.3機(jī)器翻譯
機(jī)器翻譯是指由機(jī)器實(shí)現(xiàn)不同自然語(yǔ)言之間的翻譯,涉及語(yǔ)言學(xué)、機(jī)器學(xué)習(xí)、認(rèn)知語(yǔ)言學(xué)多個(gè)學(xué)科。目前基于規(guī)則的機(jī)器翻譯方法需要人工設(shè)計(jì)和編纂翻譯規(guī)則,而基于統(tǒng)計(jì)
的機(jī)器翻譯方法能夠自動(dòng)獲取翻譯規(guī)則。最近幾年流行的端到端的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯方法可以直接通過(guò)編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)語(yǔ)言之間的轉(zhuǎn)換算法。
1
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 如何攻克CFA考試的難點(diǎn)試題及答案
- CFA考試考點(diǎn)重難點(diǎn)試題及答案
- 小班防拐安全教育
- 實(shí)戰(zhàn)CFA考試試題及答案指導(dǎo)
- 謀略提升的2024年CFA考試試題及答案
- 大學(xué)防溺水安全教育
- 麻薯工藝流程
- 高中化學(xué)實(shí)驗(yàn)改進(jìn)與創(chuàng)新實(shí)驗(yàn)說(shuō)課
- 述職報(bào)告改善說(shuō)明
- 互聯(lián)網(wǎng)營(yíng)銷概要
- 逐夢(mèng)青春共創(chuàng)未來(lái)
- 【物理】彈力 同步練習(xí)+2024-2025學(xué)年人教版物理八年級(jí)下冊(cè)
- 某露天礦山剝離工程施工組織設(shè)計(jì)方案
- 口腔醫(yī)學(xué)主治醫(yī)師職稱考試統(tǒng)考?xì)v年真題及答案
- 2025年中國(guó)中信集團(tuán)招聘筆試參考題庫(kù)含答案解析
- 部編版六年級(jí)語(yǔ)文下冊(cè)基礎(chǔ)知識(shí)專項(xiàng)練習(xí)(帶答案)
- 2024-2030年中國(guó)除濕機(jī)行業(yè)發(fā)展現(xiàn)狀及銷售模式分析報(bào)告版
- 財(cái)經(jīng)法規(guī)和會(huì)計(jì)職業(yè)道德試題庫(kù)(含答案)
- 蜜雪冰城合作加盟合同
- UL489標(biāo)準(zhǔn)中文版-2019斷路器UL標(biāo)準(zhǔn)中文版
- 新聞社服務(wù)行業(yè)現(xiàn)狀分析及未來(lái)三至五年行業(yè)發(fā)展報(bào)告
評(píng)論
0/150
提交評(píng)論