機(jī)器學(xué)習(xí)報(bào)告_第1頁(yè)
機(jī)器學(xué)習(xí)報(bào)告_第2頁(yè)
機(jī)器學(xué)習(xí)報(bào)告_第3頁(yè)
機(jī)器學(xué)習(xí)報(bào)告_第4頁(yè)
機(jī)器學(xué)習(xí)報(bào)告_第5頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余1頁(yè)可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、機(jī)器學(xué)習(xí)總結(jié)報(bào)告劉皓冰大部分人錯(cuò)誤地以為機(jī)器學(xué)習(xí)是計(jì)算機(jī)像人一樣去學(xué)習(xí)。事實(shí)上,計(jì)算機(jī)是死的,怎么可能像人類一樣學(xué)習(xí)”呢,機(jī)器學(xué)習(xí)依靠的是數(shù)學(xué),更確切地說是靠統(tǒng)計(jì)。如果我們讓計(jì)算機(jī)工作,是給它一串指令,然后計(jì)算機(jī)會(huì)遵照這個(gè)指令一步步執(zhí)行下去,有因有果,非常明確。但這種方式在機(jī)器學(xué)習(xí)中是行不通的。機(jī)器學(xué)習(xí)是不會(huì)接受你輸入的指令的,它接受的是你輸入的數(shù)據(jù)。也就是說,機(jī)器學(xué)習(xí)是一種讓計(jì)算機(jī)利用數(shù)據(jù)而不是指令來進(jìn)行各種工作的方法。這聽起來非常不可思議,但結(jié)果上卻是非??尚械?。統(tǒng)計(jì)”思想將在你學(xué)習(xí)機(jī)器學(xué)習(xí)”相關(guān)理念時(shí)無時(shí)無刻不伴隨,相關(guān)而不是因果的概念將是支撐機(jī)器學(xué)習(xí)能夠工作的核心概念。依據(jù)數(shù)據(jù)所做的判

2、斷跟機(jī)器學(xué)習(xí)的思想根本上是一致的。機(jī)器學(xué)習(xí)方法是計(jì)算機(jī)利用已有的數(shù)據(jù)(輸入),得出了某種模型,并利用此模型預(yù)測(cè)未來O出)的一種方法。從數(shù)據(jù)中學(xué)得模型的過程稱為學(xué)習(xí)”(learning)或訓(xùn)練”(training),這個(gè)過程通過執(zhí)行某個(gè)學(xué)習(xí)算法來完成。訓(xùn)練過程中使用的數(shù)據(jù)成為訓(xùn)練數(shù)據(jù)”(trainingdata),其中每個(gè)樣本稱為一個(gè)訓(xùn)練樣本”(trainingsample),訓(xùn)練樣本組成的集合稱為訓(xùn)練集“(trainingset)。學(xué)得模型對(duì)應(yīng)了關(guān)于數(shù)據(jù)的某種潛在的規(guī)律,因此亦稱"假設(shè)“(hypothesis);這種潛在規(guī)律自身,則稱為“真相或"真實(shí)"(groun

3、d-truth),學(xué)習(xí)過程就是為了找出或逼近真相。模型有時(shí)也被稱為"學(xué)習(xí)器”(learner),可看作學(xué)習(xí)算法在給定數(shù)據(jù)和參數(shù)空間上的實(shí)例化。若欲預(yù)測(cè)的是離散值則此類學(xué)習(xí)任務(wù)被稱為分類";若欲預(yù)測(cè)的是連續(xù)值則此類學(xué)習(xí)任務(wù)稱為回歸”;對(duì)只涉及兩個(gè)類別的七分類”任務(wù),通常稱其中一個(gè)類為正類”,另一個(gè)類為反類”;涉及多個(gè)類別時(shí),則稱為多分類”任務(wù)。模型是否準(zhǔn)確依賴與數(shù)據(jù)。如果我的數(shù)據(jù)越多,我的模型就越能夠考慮到越多的情況,由此對(duì)于新情況的預(yù)測(cè)效果可能就越好。這是機(jī)器學(xué)習(xí)界數(shù)據(jù)為王”思想的一個(gè)體現(xiàn)。一般來說(不是絕對(duì)),數(shù)據(jù)越多,最后機(jī)器學(xué)習(xí)生成的模型預(yù)測(cè)的效果越好。機(jī)器學(xué)習(xí)里面有

4、非常多的經(jīng)典算法,每種算法都能形成一個(gè)模型。下面在簡(jiǎn)要介紹一下機(jī)器學(xué)習(xí)中的經(jīng)典代表方法。重點(diǎn)介紹的是這些方法內(nèi)涵的思想。1、回歸算法在大部分機(jī)器學(xué)習(xí)課程中,回歸算法都是介紹的第一個(gè)算法。原因有兩個(gè):一.回歸算法比較簡(jiǎn)單,介紹它可以讓人平滑地從統(tǒng)計(jì)學(xué)遷移到機(jī)器學(xué)習(xí)中。二.回歸算法是后面若干強(qiáng)大算法的基石,如果不理解回歸算法,無法學(xué)習(xí)那些強(qiáng)大的算法?;貧w算法有兩個(gè)重要的子類:即線性回歸和邏輯回歸。線性回歸一般使用最小二乘法”來求解。最小二乘法”的思想是這樣的,假設(shè)我們擬合出的直線代表數(shù)據(jù)的真實(shí)值,而觀測(cè)到的數(shù)據(jù)代表?yè)碛姓`差的值。為了盡可能減小誤差的影響,需要求解一條直線使所有誤差的平方和最小。最小

5、二乘法將最優(yōu)問題轉(zhuǎn)化為求函數(shù)極值問題。函數(shù)極值在數(shù)學(xué)上我們一般會(huì)采用求導(dǎo)數(shù)為0的方法。但這種做法并不適合計(jì)算機(jī),可能求解不出來,也可能計(jì)算量太大。計(jì)算機(jī)科學(xué)界專門有一個(gè)學(xué)科叫數(shù)值計(jì)算”,專門用來提升計(jì)算機(jī)進(jìn)行各類計(jì)算時(shí)的準(zhǔn)確性和效率問題。例如,著名的梯度下降”以及牛頓法”就是數(shù)值計(jì)算中的經(jīng)典算法,也非常適合來處理求解函數(shù)極值的問題。梯度下降法是解決回歸模型中最簡(jiǎn)單且有效的方法之一。邏輯回歸是一種與線性回歸非常類似的算法,但是,從本質(zhì)上講,線型回歸處理的問題類型與邏輯回歸不一致。線性回歸處理的是數(shù)值問題,也就是最后預(yù)測(cè)出的結(jié)果是數(shù)字,例如預(yù)測(cè)一所房子大約可以買多少錢。而邏輯回歸屬于分類算法,也就

6、是說,邏輯回歸預(yù)測(cè)結(jié)果是離散的分類,例如判斷月中瘤是惡性還是良性等等。實(shí)現(xiàn)方面的話,邏輯回歸只是對(duì)對(duì)線性回歸的計(jì)算結(jié)果加上了一個(gè)Sigmoid函數(shù),將數(shù)值結(jié)果轉(zhuǎn)化為了0至U1之間的概率(Sigmoid函數(shù)的圖像一般來說并不直觀,你只需要理解對(duì)數(shù)值越大,函數(shù)越逼近1,數(shù)值越小,函數(shù)越逼近0),接著我們根據(jù)這個(gè)概率可以做預(yù)測(cè),例如概率大于0.5,月中瘤就是惡性的等等。2、神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)(也稱之為人工神經(jīng)網(wǎng)絡(luò),ANN游法是80年代機(jī)器學(xué)習(xí)界非常流行的算法,不過在90年代中途衰落?,F(xiàn)在,攜著深度學(xué)習(xí)”之勢(shì),神經(jīng)網(wǎng)絡(luò)重裝歸來,重新成為最強(qiáng)大的機(jī)器學(xué)習(xí)算法之一。神經(jīng)網(wǎng)絡(luò)的誕生起源于對(duì)大腦工作機(jī)理的研究。

7、早期生物界學(xué)者們使用神經(jīng)網(wǎng)絡(luò)來模擬大腦。機(jī)器學(xué)習(xí)的學(xué)者們使用神經(jīng)網(wǎng)絡(luò)進(jìn)行機(jī)器學(xué)習(xí)的實(shí)驗(yàn),發(fā)現(xiàn)在視覺與語(yǔ)音的識(shí)別上效果都相當(dāng)好。在BP算法(加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程的數(shù)值算法)誕生以后,神經(jīng)網(wǎng)絡(luò)的發(fā)展進(jìn)入了一個(gè)熱潮。下圖是一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)的邏輯架構(gòu)。在這個(gè)網(wǎng)絡(luò)中,分成輸入層,隱藏層,和輸出層。輸入層負(fù)責(zé)接收信號(hào),隱藏層負(fù)責(zé)對(duì)數(shù)據(jù)的分解與處理,最后的結(jié)果被整合到輸出層。每層中的一個(gè)圓代表一個(gè)處理單元,可以認(rèn)為是模擬了一個(gè)神經(jīng)元,若干個(gè)處理單元組成了一個(gè)層,若干個(gè)層再組成了一個(gè)網(wǎng)絡(luò),也就是圖神經(jīng)網(wǎng)絡(luò)的邏輯架構(gòu)在神經(jīng)網(wǎng)絡(luò)中,每個(gè)處理單元事實(shí)上就是一個(gè)邏輯回歸模型,邏輯回歸模型接收上層的輸入,把模型的預(yù)測(cè)

8、結(jié)果作為輸出傳輸?shù)较乱粋€(gè)層次。通過這樣的過程,神經(jīng)網(wǎng)絡(luò)可以完成非常復(fù)雜的非線性分類。進(jìn)入90年代,神經(jīng)網(wǎng)絡(luò)的發(fā)展進(jìn)入了一個(gè)瓶頸期。其主要原因是盡管有BP算法的加速,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程仍然很困難。因此90年代后期支持向量機(jī)(SVM)算法取代了神經(jīng)網(wǎng)絡(luò)的地位。3、SVM(支持向量機(jī))支持向量機(jī)算法是誕生于統(tǒng)計(jì)學(xué)習(xí)界,同時(shí)在機(jī)器學(xué)習(xí)界大放光彩的經(jīng)典算法。支持向量機(jī)算法從某種意義上來說是邏輯回歸算法的強(qiáng)化:通過給予邏輯回歸算法更嚴(yán)格的優(yōu)化條件,支持向量機(jī)算法可以獲得比邏輯回歸更好的分類界線。但是如果沒有某類函數(shù)技術(shù),則支持向量機(jī)算法最多算是一種更好的線性分類技術(shù)。但是,通過跟高斯核”的結(jié)合,支持向量機(jī)

9、可以表達(dá)出非常復(fù)雜的分類界線,從而達(dá)成很好的的分類效果。核”事實(shí)上就是一種特殊的函數(shù),最典型的特征就是可以將低維的空間映射到高維的空間。上述機(jī)器學(xué)習(xí)算法均為監(jiān)督學(xué)習(xí)算法。監(jiān)督學(xué)習(xí),就是人們常說的分類回歸,通過已有的訓(xùn)練樣本(即已知數(shù)據(jù)以及其對(duì)應(yīng)的輸出)去訓(xùn)練得到一個(gè)最優(yōu)模型(這個(gè)模型屬于某個(gè)函數(shù)的集合,最優(yōu)則表示在某個(gè)評(píng)價(jià)準(zhǔn)則下是最佳的),再利用這個(gè)模型將所有的輸入映射為相應(yīng)的輸出。在人對(duì)事物的認(rèn)識(shí)中,我們從孩子開始就被大人們教授這是貓啊、那是狗啊、那是桌子啊,等等。我們所見到的景物就是輸入數(shù)據(jù),而大人們對(duì)這些景物的判斷結(jié)果(是房子還是鳥?。┚褪窍鄳?yīng)的輸出。當(dāng)我們見識(shí)多了以后,腦子里就慢慢地得

10、到了一些泛化的模型,這就是訓(xùn)練得到的那個(gè)(或者那些)函數(shù),從而不需要大人在旁邊指點(diǎn)的時(shí)候,我們也能分辨的出來哪些是貓,哪些是狗。無監(jiān)督學(xué)習(xí)則是另一種研究的比較多的學(xué)習(xí)方法,它與監(jiān)督學(xué)習(xí)的不同之處,在于我們事先沒有任何訓(xùn)練樣本,而需要直接對(duì)數(shù)據(jù)進(jìn)行建模。這聽起來似乎有點(diǎn)不可思議,但是在我們自身認(rèn)識(shí)世界的過程中很多處都用到了無監(jiān)督學(xué)習(xí)。比如我們?nèi)⒂^一個(gè)畫展,我們完全對(duì)藝術(shù)一無所知,但是欣賞完多幅作品之后,我們也能把它們分成不同的派別(比如哪些更朦朧一點(diǎn),哪些更寫實(shí)一些,即使我們不知道什么叫做朦朧派,什么叫做寫實(shí)派,但是至少我們能把他們分為兩個(gè)類)。無監(jiān)督學(xué)習(xí)里典型的例子就是聚類了。聚類的目的在于

11、把相似的東西聚在一起,而我們并不關(guān)心這一類是什么。因此,一個(gè)聚類算法通常只需要知道如何計(jì)算相似度就可以開始工作了。那么,什么時(shí)候應(yīng)該采用監(jiān)督學(xué)習(xí),什么時(shí)候應(yīng)該采用非監(jiān)督學(xué)習(xí)呢?一種非常簡(jiǎn)單的回答就是從定義入手,如果我們?cè)诜诸惖倪^程中有訓(xùn)練樣本,則可以考慮用監(jiān)督學(xué)習(xí)的方法;如果沒有訓(xùn)練樣本,則不可能用監(jiān)督學(xué)習(xí)的方法。但是事實(shí)上,我們?cè)卺槍?duì)一個(gè)現(xiàn)實(shí)問題進(jìn)行解答的過程中,即使我們沒有現(xiàn)成的訓(xùn)練樣本,我們也能夠憑借自己的雙眼,從待分類的數(shù)據(jù)中人工標(biāo)注一些樣本,并把他們作為訓(xùn)練樣本,這樣的話就可以把條件改善,用監(jiān)督學(xué)習(xí)的方法來做。然而對(duì)于不同的場(chǎng)景,正負(fù)樣本的分布如果會(huì)存在偏移(可能是大的偏移,也可能偏

12、移比較?。?,這樣的話用監(jiān)督學(xué)習(xí)的效果可能就不如用非監(jiān)督學(xué)習(xí)了。今天,在計(jì)算機(jī)科學(xué)的諸多分支學(xué)科領(lǐng)域中,都能找到機(jī)器學(xué)習(xí)技術(shù)的身影,尤其是在計(jì)算機(jī)視覺、語(yǔ)音識(shí)別、模式識(shí)別、自然語(yǔ)言處理等計(jì)算機(jī)應(yīng)用技術(shù),領(lǐng)域,機(jī)器學(xué)習(xí)已成為最重要的技術(shù)進(jìn)步源泉之一。止匕外,機(jī)器學(xué)習(xí)還為許多交叉學(xué)科提供了重要的技術(shù)支撐比如說生物信息學(xué)可以說計(jì)算機(jī)視覺=圖像處理+機(jī)器學(xué)習(xí):圖像處理技術(shù)用于將圖像處理為適合進(jìn)入機(jī)器學(xué)習(xí)模型中的輸入,機(jī)器學(xué)習(xí)則負(fù)責(zé)從圖像中識(shí)別出相關(guān)的模式。計(jì)算機(jī)視覺相關(guān)的應(yīng)用非常的多,例如百度識(shí)圖、手寫字符識(shí)別、車牌識(shí)別等等應(yīng)用。這個(gè)領(lǐng)域是應(yīng)用前景非?;馃岬模瑫r(shí)也是研究的熱門方向。隨著機(jī)器學(xué)習(xí)的新領(lǐng)域

13、深度學(xué)習(xí)的發(fā)展,大大促進(jìn)了計(jì)算機(jī)圖像識(shí)別的效果,因此未來計(jì)算機(jī)視覺界的發(fā)展前景不可估量。如果說計(jì)算機(jī)視覺=圖像處理+機(jī)器學(xué)習(xí):那么"語(yǔ)音識(shí)別=語(yǔ)音處理+機(jī)器學(xué)習(xí):'語(yǔ)音識(shí)別就是音頻處理技術(shù)與機(jī)器學(xué)習(xí)的結(jié)合。語(yǔ)音識(shí)別技術(shù)一般不會(huì)單獨(dú)使用,一般會(huì)結(jié)合自然語(yǔ)言處理的相關(guān)技術(shù)。目前的相關(guān)應(yīng)用有蘋果語(yǔ)音助手siri、微軟小娜等。自然語(yǔ)言處理=文本處理+機(jī)器學(xué)習(xí):自然語(yǔ)言處理技術(shù)主要是讓機(jī)器理解人類的語(yǔ)言的一門領(lǐng)域。在自然語(yǔ)言處理技術(shù)中,大量使用了編譯原理相關(guān)的技術(shù),例如詞法分析,語(yǔ)法分析等等,除此之外,在理解這個(gè)層面,則使用了語(yǔ)義理解,機(jī)器學(xué)習(xí)等技術(shù)。作為唯一由人類自身創(chuàng)造的符號(hào),自然

14、語(yǔ)言處理一直是機(jī)器學(xué)習(xí)界不斷研究的方向。按照百度機(jī)器學(xué)習(xí)專家余凱的說法聽與看,說白了就是阿貓和阿狗都會(huì)的,而只有語(yǔ)言才是人類獨(dú)有的如何利用機(jī)器學(xué)習(xí)技術(shù)進(jìn)行自然語(yǔ)言的的深度理解,一直是工業(yè)和學(xué)術(shù)界關(guān)注的焦點(diǎn)。談到對(duì)數(shù)據(jù)進(jìn)行分析利用,很多人會(huì)想到數(shù)據(jù)挖掘"(datamining)o數(shù)據(jù)挖掘領(lǐng)域在二十世紀(jì)九十年代形成,它受到很多學(xué)科領(lǐng)域的影響,其中數(shù)據(jù)庫(kù)、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)無疑影響最大。數(shù)據(jù)挖掘是從海量數(shù)據(jù)中發(fā)掘知識(shí),這就必然涉及對(duì)海量數(shù)據(jù)”的管理和分析。大體來說,數(shù)據(jù)挖掘=機(jī)器學(xué)習(xí)蝕據(jù)庫(kù)“一贄據(jù)庫(kù)領(lǐng)域的研究為數(shù)據(jù)挖掘提供數(shù)據(jù)管理技術(shù),而機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)的研究為數(shù)據(jù)挖掘提供數(shù)據(jù)分析技術(shù)。由于

15、統(tǒng)計(jì)學(xué)往往醉心于理論的優(yōu)美而忽視實(shí)際的效用,因此,統(tǒng)計(jì)學(xué)界提供的很多技術(shù)通常都要在機(jī)器學(xué)習(xí)界進(jìn)一步研究,變成有效的機(jī)器學(xué)習(xí)算法之后才能再進(jìn)入數(shù)據(jù)挖掘領(lǐng)域。從這個(gè)意義上說,統(tǒng)計(jì)學(xué)主要是通過機(jī)器學(xué)習(xí)來對(duì)數(shù)據(jù)挖掘發(fā)揮影響,而機(jī)器學(xué)習(xí)和數(shù)據(jù)庫(kù)則是數(shù)據(jù)挖掘的兩大支撐技術(shù)。從數(shù)據(jù)分析的角度來看,絕大多數(shù)數(shù)據(jù)挖掘技術(shù)都來自機(jī)器學(xué)習(xí)領(lǐng)域,但機(jī)器學(xué)習(xí)研究往往并不把海量數(shù)據(jù)作為處理對(duì)象,因此,數(shù)據(jù)挖掘要對(duì)算法進(jìn)行改造,使得算法性能和空間占用達(dá)到實(shí)用的地步。同時(shí),數(shù)據(jù)挖掘還有自身獨(dú)特的內(nèi)容,即關(guān)聯(lián)分析。通過上面的介紹,可以看出機(jī)器學(xué)習(xí)是多么的重要,應(yīng)用是多么的廣泛?,F(xiàn)隨著大數(shù)據(jù)(bigdata)概念的興起,機(jī)器學(xué)習(xí)

16、大量的應(yīng)用都與大數(shù)據(jù)高度耦合,幾乎可以認(rèn)為大數(shù)據(jù)是機(jī)器學(xué)習(xí)應(yīng)用的最佳場(chǎng)景。例如經(jīng)典的Google利用大數(shù)據(jù)預(yù)測(cè)了H1N1在美國(guó)某小鎮(zhèn)的爆發(fā)、百度預(yù)測(cè)2014年世界杯結(jié)果從淘汰賽到?jīng)Q賽全部正確。這實(shí)在太神奇了,那么究竟是什么原因?qū)е麓髷?shù)據(jù)具有這些魔力的呢?簡(jiǎn)單來說,就是機(jī)器學(xué)習(xí)技術(shù)。正是基于機(jī)器學(xué)習(xí)技術(shù)的應(yīng)用,數(shù)據(jù)才能發(fā)揮其魔力。大數(shù)據(jù)的核心是利用數(shù)據(jù)的價(jià)值,機(jī)器學(xué)習(xí)是利用數(shù)據(jù)價(jià)值的關(guān)鍵技術(shù),對(duì)于大數(shù)據(jù)而言,機(jī)器學(xué)習(xí)是不可或缺的。相反,對(duì)于機(jī)器學(xué)習(xí)而言,越多的數(shù)據(jù)會(huì)越可能提升模型的精確性,同時(shí),復(fù)雜的機(jī)器學(xué)習(xí)算法的計(jì)算時(shí)間也迫切需要分布式計(jì)算與內(nèi)存計(jì)算這樣的關(guān)鍵技術(shù)。因此,機(jī)器學(xué)習(xí)的興盛也離不開大數(shù)據(jù)的幫助。大數(shù)據(jù)與機(jī)器學(xué)習(xí)兩者是互相促進(jìn),相依相存的關(guān)系。機(jī)器學(xué)習(xí)與大數(shù)據(jù)緊密聯(lián)系。但是,必須清醒的認(rèn)識(shí)到,大數(shù)據(jù)并不等同于機(jī)器學(xué)習(xí),同理,機(jī)器學(xué)習(xí)也不等

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論