機(jī)器學(xué)習(xí)導(dǎo)學(xué)_第1頁
機(jī)器學(xué)習(xí)導(dǎo)學(xué)_第2頁
機(jī)器學(xué)習(xí)導(dǎo)學(xué)_第3頁
機(jī)器學(xué)習(xí)導(dǎo)學(xué)_第4頁
機(jī)器學(xué)習(xí)導(dǎo)學(xué)_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

機(jī)器學(xué)習(xí)的導(dǎo)學(xué)匯報(bào)人:顧松敏導(dǎo)師:王琢2016.10.12目錄1引言2基本概念與學(xué)習(xí)系統(tǒng)3機(jī)器學(xué)習(xí)主要策略及R演示機(jī)器學(xué)習(xí)(ML)4發(fā)展與展望1引言隨著信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)數(shù)據(jù)及資源呈現(xiàn)海量特征。為了有效地管理和利用這些分布的海量信息,如何使機(jī)器具有認(rèn)識(shí)問題和解決問題的能力,就是讓機(jī)器如何更聰明、更具有人的智能,這就是機(jī)器學(xué)習(xí)。ML基本概念機(jī)器學(xué)習(xí)的核心是學(xué)習(xí)。學(xué)習(xí)是一種多方面、綜合性的心理活動(dòng),它與記憶、思維、知覺、感覺等多種心理行為都有著密切的聯(lián)系2基本概念與學(xué)習(xí)系統(tǒng)

目前在機(jī)器學(xué)習(xí)研究領(lǐng)域影響較大的是H.Simon的觀點(diǎn):學(xué)習(xí)是系統(tǒng)中的任何改進(jìn),這種改進(jìn)使得系統(tǒng)在重復(fù)同樣的工作或進(jìn)行類似的工作時(shí),能完成得更好。機(jī)器學(xué)習(xí)研究的就是如何使機(jī)器通過識(shí)別和利用現(xiàn)有知識(shí)來獲取新知識(shí)和新技能。機(jī)器學(xué)習(xí)是一門多領(lǐng)域交叉學(xué)科機(jī)器學(xué)習(xí)的一個(gè)形象描述基本概念研究一種算法:1)提高它的性能(P)2)在某項(xiàng)任務(wù)中(T)3)利用一些經(jīng)驗(yàn)(E)well-definedlearningtask:<P,T,E>目前在眾多涉及計(jì)算機(jī)處理的技術(shù)應(yīng)用中,機(jī)器學(xué)習(xí)在許多領(lǐng)域都取得了很大的進(jìn)步,如用于人工智能、數(shù)據(jù)挖掘、自然語言處理、漢字識(shí)別、機(jī)器翻譯、專家系統(tǒng)以及商業(yè)領(lǐng)域等。機(jī)器學(xué)習(xí)應(yīng)用學(xué)習(xí)系統(tǒng)學(xué)習(xí)系統(tǒng)為了使計(jì)算機(jī)系統(tǒng)具有某種程度的學(xué)習(xí)能力,使它能通過學(xué)習(xí)增長知識(shí),改善性能,提高智能水平,需要為它建立相應(yīng)的學(xué)習(xí)系統(tǒng)。一個(gè)學(xué)習(xí)系統(tǒng)一般應(yīng)該由環(huán)境、學(xué)習(xí)、知識(shí)庫、執(zhí)行與評(píng)價(jià)四個(gè)基本部分組成。環(huán)境學(xué)習(xí)知識(shí)庫執(zhí)行與評(píng)價(jià)學(xué)習(xí)、學(xué)習(xí)、再學(xué)習(xí)!機(jī)器學(xué)習(xí)的發(fā)展極為迅速,應(yīng)用也亦日益廣泛,其中有很多優(yōu)秀的機(jī)器學(xué)習(xí)算法。算法基本上可以分為基于有監(jiān)督、無監(jiān)督、半監(jiān)督和強(qiáng)化學(xué)習(xí)這四大類。

3機(jī)器學(xué)習(xí)主要策略及R演示

有監(jiān)督學(xué)習(xí)分為學(xué)習(xí)和預(yù)測兩個(gè)過程,對具有標(biāo)記的訓(xùn)練樣本進(jìn)行學(xué)習(xí),學(xué)習(xí)到一種模型后以盡可能對訓(xùn)練樣本集外的數(shù)據(jù)進(jìn)行標(biāo)記預(yù)測。這里,所有的標(biāo)記是已知的。因此,訓(xùn)練樣本的岐義性低。有監(jiān)督學(xué)習(xí)

有監(jiān)督學(xué)習(xí)X1X2X3X4Y0.100.010.930.2500.740.870.910.2710.130.210.870.250...............0.120.210.880.1500.840.12...0.210.12...0.430.12...0.340.12...10...0.700.050.930.281訓(xùn)練集測試集原始數(shù)據(jù)集預(yù)測集0.110.070.920.15?0.850.450.560.01?.....

無監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)對沒有概念標(biāo)記的訓(xùn)練樣本進(jìn)行學(xué)習(xí),以發(fā)現(xiàn)訓(xùn)練樣本集中的結(jié)構(gòu)性知識(shí)。這里,所有的標(biāo)記是未知的。因此,訓(xùn)練樣本的岐義性高。關(guān)聯(lián)規(guī)則和聚類就是典型的無監(jiān)督學(xué)習(xí)。最近鄰神經(jīng)網(wǎng)絡(luò)回歸樹模型樹分類器線性回歸

主要學(xué)習(xí)策略ML主要策略支持向量機(jī)關(guān)聯(lián)規(guī)則樸素貝葉斯決策樹k均值聚類雙重用處支持向量機(jī)神經(jīng)網(wǎng)絡(luò)分類決策樹最近鄰樸素貝葉斯數(shù)值預(yù)測回歸樹按學(xué)習(xí)任務(wù)分類——有監(jiān)督分類器模型樹線性回歸模式識(shí)別關(guān)聯(lián)規(guī)則按學(xué)習(xí)任務(wù)分類——無監(jiān)督聚類K均值聚類R語言簡介R是用于統(tǒng)計(jì)分析、繪圖的語言和操作環(huán)境。R是屬于GNU系統(tǒng)的一個(gè)自由、免費(fèi)、源代碼開放的軟件,它是一個(gè)用于統(tǒng)計(jì)計(jì)算和統(tǒng)計(jì)制圖的優(yōu)秀工具。R語言的優(yōu)缺

最近鄰算法(KNN)就是將待分類樣本點(diǎn)決策為距離它最近的已知類別樣本點(diǎn)所屬的類別。K近鄰算法步奏如下描述:(1)計(jì)算已知類別數(shù)據(jù)集中的點(diǎn)與當(dāng)前點(diǎn)的距離(2)按距離遞增次序排序(3)選取與當(dāng)前點(diǎn)距離最小的k個(gè)點(diǎn)(4)確定前K個(gè)點(diǎn)所在類別出現(xiàn)的頻率(5)返回頻率最高的類別作為當(dāng)前類別的預(yù)測

最近鄰算法最近鄰算法蛋白質(zhì)水果蔬菜最近鄰算法種類甜度脆度食物類型蘋果109水果培根14蛋白質(zhì)芹菜310蔬菜香蕉101水果奶酪11蛋白質(zhì)............甜度脆度蘋果葡萄培根胡蘿卜香蕉橙子梨奶酪魚芹菜豌豆生菜黃瓜蝦西紅柿最近鄰算法如何選擇一個(gè)合適的K?K近鄰算法步奏如下描述:(1)計(jì)算已知類別數(shù)據(jù)集中的點(diǎn)與當(dāng)前點(diǎn)的距離(2)按距離遞增次序排序(3)選取與當(dāng)前點(diǎn)距離最小的k個(gè)點(diǎn)(4)確定前K個(gè)點(diǎn)所在類別出現(xiàn)的頻率(5)返回頻率最高的類別作為當(dāng)前類別的預(yù)測

最近鄰算法最近鄰算法

距離的度量:

特征空間中兩個(gè)例點(diǎn)的距離是它們相似程度的反映。K近鄰模型的特征空間一般是n維實(shí)數(shù)向量空間,可以使用歐氏距離,但也可以使用更一般的LP距離。最近鄰算法最近鄰算法

最近鄰算法是一種基于實(shí)例的算法,也是一種懶惰學(xué)習(xí)算法。在訓(xùn)練階段比渴望學(xué)習(xí)算法(如決策樹,神經(jīng)網(wǎng)絡(luò)等)有更少的計(jì)算時(shí)間,簡單有效,對數(shù)據(jù)的分布沒有要求,訓(xùn)練階段很快。但在分類過程中需要更多的計(jì)算時(shí)間,需要大量的內(nèi)存,不產(chǎn)生模型并且在發(fā)現(xiàn)特征之間關(guān)系上能力有限。該我表演啦!R樸素貝葉斯樸素貝葉斯;發(fā)現(xiàn)屬性變量之間的依賴相對于屬性變量與類變量之間的依賴是可以忽略的。樸素貝葉斯具有如下三個(gè)特點(diǎn):(1)樸素貝葉斯并不把一個(gè)對象絕對地指派給某一類,而是通過計(jì)算得出屬于某一類的概率,具有最大概率的類便是該對象所屬的類;(2)一般情況下在樸素貝葉斯中所有的屬性都潛在的起作用,即并不是一個(gè)或幾個(gè)屬性決定分類,而是所有的屬性都參與分類;(3)樸素貝葉斯的對象的屬性可以是離散的、連續(xù)的、也可以是混合的。樸素貝葉斯決策樹

決策樹就是根據(jù)特征值對實(shí)例進(jìn)行分類。決定樹中的每個(gè)節(jié)點(diǎn)代表待分類實(shí)例的一個(gè)特征,每個(gè)分支代表該節(jié)點(diǎn)可以假設(shè)的一個(gè)值。

決策樹模型決策樹決策樹可看作一個(gè)樹狀預(yù)測模型,它通過把實(shí)例從根節(jié)點(diǎn)排列到某個(gè)葉子節(jié)點(diǎn)來分類實(shí)例,葉子節(jié)點(diǎn)即為實(shí)例所屬的分類。決策樹的核心問題是選擇分裂屬性和決策樹的剪枝。決策樹的算法有很多,有ID3、C4.5、CART等等。這些算法均采用自頂向下的貪婪算法,每個(gè)節(jié)點(diǎn)選擇分類效果最好的屬性將節(jié)點(diǎn)分裂為2個(gè)或多個(gè)子結(jié)點(diǎn),繼續(xù)這一過程直到這棵樹能準(zhǔn)確地分類訓(xùn)練集,或所有屬性都已被使用過。

決定樹最有用的特性之一是其可理解性。人們可以很容易地理解為什么一顆決策樹把一個(gè)實(shí)例分類歸類到一個(gè)特定的類。決策樹原理及優(yōu)點(diǎn)

一個(gè)連接模型(神經(jīng)網(wǎng)絡(luò))是由一些簡單的類似神經(jīng)元的單元以及單元間帶權(quán)的連接組成。每個(gè)單元具有一個(gè)狀態(tài),這個(gè)狀態(tài)是由與這個(gè)單元相連接的其他單元的輸入決定的。連接學(xué)習(xí)通過使用各類例子來訓(xùn)練網(wǎng)絡(luò),產(chǎn)生網(wǎng)絡(luò)的內(nèi)部表示,并用來識(shí)別其他輸入例子。學(xué)習(xí)主要表現(xiàn)在調(diào)整網(wǎng)絡(luò)中的連接權(quán),這種學(xué)習(xí)是非符號(hào)的,并且具有高度并行分布式處理的能力。

一個(gè)人工神經(jīng)網(wǎng)絡(luò)是由大量神經(jīng)元節(jié)點(diǎn)經(jīng)廣泛互連而組成的復(fù)雜網(wǎng)絡(luò)拓?fù)?,用于模擬人類進(jìn)行知識(shí)和信息表示、存儲(chǔ)和計(jì)算行為。人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的工作原理是:一個(gè)人工神經(jīng)網(wǎng)絡(luò)的工作由學(xué)習(xí)和使用兩個(gè)非線性的過程組成。從本質(zhì)上講,人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)是一種歸納學(xué)習(xí),它通過對大量實(shí)例的反復(fù)運(yùn)行,經(jīng)過內(nèi)部自適應(yīng)過程不斷修改權(quán)值分布,將網(wǎng)絡(luò)穩(wěn)定在一定的狀態(tài)下。

比較出名的網(wǎng)絡(luò)模型和學(xué)習(xí)算法有單層感知器(Perceptron)、Hopfield網(wǎng)絡(luò)、Boltzmann機(jī)和反向傳播算法(BackPropagation,BP)。人工神經(jīng)網(wǎng)絡(luò)ANN原理人工神經(jīng)網(wǎng)絡(luò)

是一個(gè)正數(shù)(為學(xué)習(xí)率),它決定梯度下降搜索的步長。一個(gè)較大的值使反向傳播以更快的速度向目標(biāo)權(quán)重配置移動(dòng),但同時(shí)也增加了不能達(dá)到這個(gè)目標(biāo)的幾率。對于輸出神元,

是第j個(gè)神經(jīng)元的期望輸出對于內(nèi)部(隱藏)神經(jīng)元,更新權(quán)重的一般規(guī)則是:其中:是第i個(gè)神經(jīng)元的計(jì)算輸出反向傳播ANN權(quán)重計(jì)算在神經(jīng)網(wǎng)絡(luò)中,因?yàn)槿狈栴}的先驗(yàn)知識(shí),往往需要經(jīng)過大量費(fèi)力費(fèi)時(shí)的試驗(yàn)摸索才能確定合適的神經(jīng)網(wǎng)絡(luò)模型、算法以及參數(shù)設(shè)置,其應(yīng)用效果完全取決于使用者的經(jīng)驗(yàn)?;诖嗽?,于1990年,Hansen和Salamon開創(chuàng)性地提出了神經(jīng)網(wǎng)絡(luò)集成(NeuralNetworkEnsemble)方法。該技術(shù)來源于機(jī)器學(xué)習(xí)界目前極熱門的Boosting方法,也已成為當(dāng)前研究的熱點(diǎn)。神經(jīng)網(wǎng)絡(luò)的另一大缺陷就是其典型的“黑箱性”,即訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)學(xué)到的知識(shí)難以被人理解,神經(jīng)網(wǎng)絡(luò)集成又加深了這一缺陷。神經(jīng)網(wǎng)絡(luò)是基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則的學(xué)習(xí)算法,有一些固有的缺陷,比如層數(shù)和神經(jīng)元個(gè)數(shù)難以確定,容易陷入局部極小,還有過學(xué)習(xí)現(xiàn)象,這些本身的缺陷在SVM算法中可以得到很好的解決。人工神經(jīng)網(wǎng)絡(luò)ANN缺陷

支持向量機(jī)是Vapnik等人提出的一類新型的機(jī)器學(xué)習(xí)算法。SVM算法的目的在于尋找一個(gè)超平面H(d),該超平面可以將訓(xùn)練集中的數(shù)據(jù)分開,且與類域邊界的沿垂直于該超平面方向的距離最大,故SVM法亦被稱為最大邊緣(MaximumMargin)算法。所謂最優(yōu)超平面就是要求超平面不但能將兩類正確分開,而且使分類間隔最大;使分類間隔最大實(shí)際上就是對模型推廣能力的控制,這正是SVM的核心思想所在??偟膩碚f,支持向量機(jī)就是首先通過用核函數(shù)定義的非線性變換將輸入空間變換到一個(gè)高維空間,在這個(gè)空間中求(廣義)最優(yōu)分類面。SVMs分類函數(shù)形式上類似于一個(gè)神經(jīng)網(wǎng)絡(luò),輸出是中間節(jié)點(diǎn)的線性組合,每個(gè)中間節(jié)點(diǎn)對應(yīng)一個(gè)支持向量,如圖所示。選擇不同的核函數(shù)就可以生成不同的支持向量機(jī)。常用的核包括:多項(xiàng)式核、高斯(徑向基函數(shù))核、二層神經(jīng)網(wǎng)絡(luò)核等。目前支持向量機(jī)的訓(xùn)練算法是以序貫最小最優(yōu)化(SMO)為代表的,其中工作集的選擇是實(shí)現(xiàn)SMO算法的關(guān)鍵。支持向量機(jī)SVM算法實(shí)現(xiàn)基于統(tǒng)計(jì)學(xué)習(xí)理論的支持向量機(jī)(SVM)方法,與傳統(tǒng)的基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則的學(xué)習(xí)方法不同,SVM基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化,能在訓(xùn)練誤差和分類器容量之間達(dá)到一個(gè)較好的平衡,它具有全局最優(yōu)、適應(yīng)性強(qiáng)、推廣能力強(qiáng)等優(yōu)點(diǎn)。但是直到目前為止,支持向量機(jī)方法還存在一些問題,例如訓(xùn)練時(shí)間過長、核參數(shù)的選擇等,成為限制支持向量機(jī)應(yīng)用的瓶頸。支持向量機(jī)SVM模型及優(yōu)缺點(diǎn)機(jī)器學(xué)習(xí)算法的拓展在人工智能、數(shù)據(jù)挖掘、模式識(shí)別和機(jī)器學(xué)習(xí)中有許多的應(yīng)用都要進(jìn)行模型的參數(shù)估計(jì),也就是要進(jìn)行極大似然估計(jì)或極大后驗(yàn)似然估計(jì)。一種非常流行的極大似然估計(jì)方法是EM算法。算法的命名,是因?yàn)樗惴ǖ拿恳坏▋刹?第一步求期望(ExpectationStep),稱為E步;第二步求極大值(MaximizationStep),稱為M步。EM算法主要用來計(jì)算基于不完全數(shù)據(jù)的極大似然估計(jì)。EM算法的特點(diǎn)是簡單和穩(wěn)定,

特別是每一次迭代能保證觀察數(shù)據(jù)對數(shù)后驗(yàn)似然是單調(diào)不減的。EM算法EM算法遺傳算法

遺傳算法(GA)是建立在自然選擇和群體遺傳學(xué)機(jī)理基礎(chǔ)上的隨機(jī)迭代和進(jìn)化,具有廣泛適用性的搜索方法,具有很強(qiáng)的全局優(yōu)化搜索能力。它模擬了自然選擇和自然遺傳過程中發(fā)生的繁殖、交配和變異現(xiàn)象,根據(jù)適者生存、優(yōu)勝劣汰的自然法則,利用遺傳算子選擇、交叉和變異逐代產(chǎn)生優(yōu)選個(gè)體(即候選解),最終搜索到較優(yōu)的個(gè)體。遺傳算法本質(zhì)上是基于自然進(jìn)化原理提出的一種優(yōu)化策略,在求解過程中,通過最好解的選擇和彼此組合,則可以期望解的集合將會(huì)愈來愈好。遺傳算法受到研究人員廣泛重視是由于它采用隨機(jī)搜索方法,其特點(diǎn)是幾乎不需要所求問題的任何信息而僅需要目標(biāo)函數(shù)的信息,不受搜索空間是否連續(xù)或可微的限制就可找到最優(yōu)解,具有強(qiáng)的適應(yīng)能力和便于并行計(jì)算。遺傳算法介紹遺傳算法遺傳算法是一種種群型操作,該操作以種群中的所有個(gè)體為對象。具體求解步驟如下:(1)創(chuàng)建初始種群(2)循環(huán):產(chǎn)生下一代(3)評(píng)價(jià)種群中的個(gè)體適應(yīng)度(4)定義選擇的適應(yīng)度函數(shù)(5)改變該種群(交叉和變異)(6)返回第二步(7)滿足終止條件結(jié)束GA適用于解決復(fù)雜的非線性和多維空間尋優(yōu)問題。經(jīng)典遺傳算法的缺點(diǎn)是:有時(shí)計(jì)算時(shí)間過長,不能保證解是全局最優(yōu)的。遺傳算法步驟及優(yōu)缺點(diǎn)初始種群產(chǎn)生下一代自然選擇個(gè)體適應(yīng)度交叉和變異終止適應(yīng)度函數(shù)繁殖滿足終止條件集成學(xué)習(xí)集成學(xué)習(xí)提出

集成學(xué)習(xí)(EnsembleLearning)始于Hansen和Salamon的開創(chuàng)性工作。他們研究發(fā)現(xiàn),通過訓(xùn)練多個(gè)神經(jīng)網(wǎng)絡(luò)并將其結(jié)果按照一定的規(guī)則進(jìn)行組合,就能顯著提高整個(gè)學(xué)習(xí)系統(tǒng)的泛化性能。之后有人通過構(gòu)造性方法提出Boosting算法,證明了這一點(diǎn)。集成學(xué)習(xí)通過訓(xùn)練和組合多個(gè)準(zhǔn)確而有差異的分類器,提高了分類系統(tǒng)的泛化能力,成為近十年來機(jī)器學(xué)習(xí)領(lǐng)域最主要的研究方向之一。目前,國內(nèi)外以神經(jīng)網(wǎng)絡(luò)、決策樹等為基分類器的集成學(xué)習(xí)研究已經(jīng)取得了很大的進(jìn)展。在分類時(shí),采用投票的方式?jīng)Q定新樣本屬于哪一類。

集成學(xué)習(xí)示意圖集成學(xué)習(xí)由于每個(gè)分類器的分類能力不同,在集成時(shí),需要對所有分類器加權(quán)均,以決定分哪類。集成學(xué)習(xí)構(gòu)造集成學(xué)習(xí)基分類器的構(gòu)造方法:1)采用不同訓(xùn)練樣本集2)采用不同輸入特征子集3)輸出編碼分解方法4)引入隨機(jī)性5)多種方法相結(jié)合分類器的輸出信息可以分為抽象層、排序?qū)雍投攘繉尤齻€(gè)層次?;诸惼鞯慕M合方法有:a)排序?qū)咏M合方法b)抽象層組合方法c)度量層組合方法根據(jù)基分類器是否屬于相同類型,可以分為同類分類器集成和異類分類器集成。根據(jù)基分類器是否由集

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論