版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、人工智能應(yīng)用概論第3章 機(jī)器學(xué)習(xí)人工智能應(yīng)用概論第3章 機(jī)器學(xué)習(xí)PART1機(jī)器學(xué)習(xí)的定義PART1機(jī)器學(xué)習(xí)的定義機(jī)器學(xué)習(xí)的定義1在維基百科上,對(duì)機(jī)器學(xué)習(xí)提出以下幾種定義:“機(jī)器學(xué)習(xí)是一門(mén)人工智能的科學(xué),該領(lǐng)域的主要研究對(duì)象是人工智能,特別是如何在經(jīng)驗(yàn)學(xué)習(xí)中改善具體算法的性能”;“機(jī)器學(xué)習(xí)是對(duì)能通過(guò)經(jīng)驗(yàn)自動(dòng)改進(jìn)的計(jì)算機(jī)算法的研究”;“機(jī)器學(xué)習(xí)是用數(shù)據(jù)或以往的經(jīng)驗(yàn),以此優(yōu)化計(jì)算機(jī)程序的性能標(biāo)準(zhǔn)”。機(jī)器學(xué)習(xí)的定義1在維基百科上,對(duì)機(jī)器學(xué)習(xí)提出以下幾種定義:機(jī)器學(xué)習(xí)的定義1.1三個(gè)關(guān)鍵詞:算法、經(jīng)驗(yàn)、性能 機(jī)器學(xué)習(xí)是數(shù)據(jù)通過(guò)算法構(gòu)建出模型并對(duì)模型進(jìn)行評(píng)估,評(píng)估的性能如果達(dá)到要求就拿這個(gè)模型來(lái)測(cè)試其他的
2、數(shù)據(jù),如果達(dá)不到要求就調(diào)整算法來(lái)重新建立模型,再次進(jìn)行評(píng)估,如此循環(huán)往復(fù),最終獲得滿意的經(jīng)驗(yàn)來(lái)處理其他的數(shù)據(jù)。機(jī)器學(xué)習(xí)的定義1.1三個(gè)關(guān)鍵詞:算法、經(jīng)驗(yàn)、性能 PART2機(jī)器學(xué)習(xí)的歷史PART2機(jī)器學(xué)習(xí)的歷史機(jī)器學(xué)習(xí)的發(fā)展歷史2.1機(jī)器學(xué)習(xí)是人工智能應(yīng)用研究比較重要的分支,它的發(fā)展過(guò)程大體上可分為4個(gè)階段:第一階段是在50年代中葉到60年代中葉,屬于熱烈時(shí)期;第二階段在60年代中葉至70年代中葉,被稱為機(jī)器學(xué)習(xí)的冷靜時(shí)期;第三階段從70年代中葉至80年代中葉,稱為復(fù)興時(shí)期;機(jī)器學(xué)習(xí)的最新階段始于1986年。一方面,由于神經(jīng)網(wǎng)絡(luò)研究的重新興起,另一方面,對(duì)實(shí)驗(yàn)研究和應(yīng)用研究得到前所未有的重視。我
3、國(guó)的機(jī)器學(xué)習(xí)研究開(kāi)始進(jìn)入穩(wěn)步發(fā)展和逐漸繁榮的新時(shí)期。機(jī)器學(xué)習(xí)的發(fā)展歷史2.1機(jī)器學(xué)習(xí)是人工智能應(yīng)用研究比較重要的機(jī)器學(xué)習(xí)的發(fā)展現(xiàn)狀2.2在搜索引擎方面Google的成功,使得Internet搜索引擎成為新興產(chǎn)業(yè)。機(jī)器學(xué)習(xí)技術(shù)正在支撐著各類搜索引擎;DARPA(美國(guó)國(guó)防先進(jìn)研究項(xiàng)目局)于2003年開(kāi)始啟動(dòng)5年期PAL計(jì)劃,這是一個(gè)以機(jī)器學(xué)習(xí)為核心的計(jì)劃(涉及到AI的其他分支,如知識(shí)表示和推理、自然語(yǔ)言處理等);汽車(chē)自動(dòng)駕駛。機(jī)器學(xué)習(xí)的主要任務(wù)是從立體視覺(jué)中學(xué)習(xí)如何行駛,根據(jù)觀察人類的駕駛行為記錄各種圖像和操縱指令,并將它們進(jìn)行正確分類;在對(duì)天文物體進(jìn)行分類、計(jì)算機(jī)系統(tǒng)性能預(yù)測(cè)、信用卡盜用檢測(cè)、郵
4、政服務(wù)屬性識(shí)別、網(wǎng)絡(luò)文檔自動(dòng)分類等方面,機(jī)器學(xué)習(xí)也在快速發(fā)展壯大。機(jī)器學(xué)習(xí)的發(fā)展現(xiàn)狀2.2在搜索引擎方面Google的成功,使PART3機(jī)器學(xué)習(xí)的分類PART3機(jī)器學(xué)習(xí)的分類機(jī)器學(xué)習(xí)的分類3.1監(jiān)督學(xué)習(xí)無(wú)監(jiān)督學(xué)習(xí)半監(jiān)督學(xué)習(xí)強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)的分類3.1監(jiān)督學(xué)習(xí)無(wú)監(jiān)督學(xué)習(xí)半監(jiān)督學(xué)習(xí)強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)的分類 - 監(jiān)督學(xué)習(xí)3.2監(jiān)督學(xué)習(xí)是從給定的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)一個(gè)函數(shù)(模型),當(dāng)新的數(shù)據(jù)到來(lái)時(shí),可以根據(jù)這個(gè)函數(shù)(模型)預(yù)測(cè)結(jié)果;在監(jiān)督式學(xué)習(xí)下,輸入數(shù)據(jù)被稱為“訓(xùn)練數(shù)據(jù)”,每組訓(xùn)練數(shù)據(jù)有一個(gè)明確的標(biāo)識(shí)或結(jié)果,如,對(duì)防垃圾郵件系統(tǒng)中“垃圾郵件”、“非垃圾郵件”;在建立模型時(shí),監(jiān)督式學(xué)習(xí)建立一個(gè)學(xué)習(xí)過(guò)程,將
5、預(yù)測(cè)結(jié)果與“測(cè)試數(shù)據(jù)”的實(shí)際結(jié)果進(jìn)行比較,不斷調(diào)整預(yù)測(cè)模型,直到模型的預(yù)測(cè)結(jié)果達(dá)到一個(gè)預(yù)期的準(zhǔn)確率。常見(jiàn)的監(jiān)督學(xué)習(xí)算法包括回歸分析和統(tǒng)計(jì)分類。機(jī)器學(xué)習(xí)的分類 - 監(jiān)督學(xué)習(xí)3.2監(jiān)督學(xué)習(xí)是從給定的訓(xùn)練數(shù)機(jī)器學(xué)習(xí)的分類 - 無(wú)監(jiān)督學(xué)習(xí)3.3在無(wú)監(jiān)督式學(xué)習(xí)中,數(shù)據(jù)并不被特別標(biāo)識(shí),學(xué)習(xí)模型是為了推斷出數(shù)據(jù)的一些內(nèi)在結(jié)構(gòu);常見(jiàn)的應(yīng)用場(chǎng)景包括關(guān)聯(lián)規(guī)則的學(xué)習(xí)以及聚類等。常見(jiàn)算法包括Apriori算法和k-Means算法。監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的區(qū)別:訓(xùn)練集目標(biāo)是否被標(biāo)注。他們都有訓(xùn)練集,且都有輸入和輸出。機(jī)器學(xué)習(xí)的分類 - 無(wú)監(jiān)督學(xué)習(xí)3.3在無(wú)監(jiān)督式學(xué)習(xí)中,數(shù)據(jù)機(jī)器學(xué)習(xí)的分類 - 半監(jiān)督學(xué)習(xí)3.4半監(jiān)督學(xué)習(xí)是
6、介于監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)之間一種機(jī)器學(xué)習(xí)方式,主要考慮如何利用少量的標(biāo)注樣本和大量的未標(biāo)注樣本進(jìn)行訓(xùn)練和分類的問(wèn)題;應(yīng)用場(chǎng)景包括分類和回歸,算法包括一些對(duì)常用監(jiān)督式學(xué)習(xí)算法的延伸,這些算法首先試圖對(duì)未標(biāo)識(shí)數(shù)據(jù)進(jìn)行建模,在此基礎(chǔ)上再對(duì)標(biāo)識(shí)的數(shù)據(jù)進(jìn)行預(yù)測(cè),如圖論推理算法(Graph Inference)或者拉普拉斯支持向量機(jī)(Laplacian SVM)等;半監(jiān)督學(xué)習(xí)從誕生以來(lái),主要用于處理人工合成數(shù)據(jù),無(wú)噪聲干擾的樣本數(shù)據(jù)是當(dāng)前大部分半監(jiān)督學(xué)習(xí)方法使用的數(shù)據(jù),而在實(shí)際生活中用到的數(shù)據(jù)卻大部分不是無(wú)干擾的,通常都比較難以得到純樣本數(shù)據(jù)。機(jī)器學(xué)習(xí)的分類 - 半監(jiān)督學(xué)習(xí)3.4半監(jiān)督學(xué)習(xí)是介于監(jiān)督學(xué)機(jī)器
7、學(xué)習(xí)的分類 - 強(qiáng)化學(xué)習(xí)3.5強(qiáng)化學(xué)習(xí)通過(guò)觀察來(lái)學(xué)習(xí)動(dòng)作的完成,每個(gè)動(dòng)作都會(huì)對(duì)環(huán)境有所影響,學(xué)習(xí)對(duì)象根據(jù)觀察到的周?chē)h(huán)境的反饋來(lái)做出判斷;在強(qiáng)化學(xué)習(xí)下,輸入數(shù)據(jù)直接反饋到模型,模型必須對(duì)此立刻做出調(diào)整;常見(jiàn)的應(yīng)用場(chǎng)景包括動(dòng)態(tài)系統(tǒng)以及機(jī)器人控制等。常見(jiàn)算法包括Q-Learning 以及時(shí)間差學(xué)習(xí)(Temporal difference learning)。機(jī)器學(xué)習(xí)的分類 - 強(qiáng)化學(xué)習(xí)3.5強(qiáng)化學(xué)習(xí)通過(guò)觀察來(lái)學(xué)習(xí)動(dòng)機(jī)器學(xué)習(xí)的分類 - 總結(jié)3.6在企業(yè)數(shù)據(jù)應(yīng)用的場(chǎng)景下,人們最常用的可能就是監(jiān)督式學(xué)習(xí)和無(wú)監(jiān)督式學(xué)習(xí)的模型。在圖像識(shí)別等領(lǐng)域,由于存在大量的非標(biāo)識(shí)的數(shù)據(jù)和少量的可標(biāo)識(shí)數(shù)據(jù),目前半監(jiān)督式學(xué)習(xí)
8、是一個(gè)很熱的話題。強(qiáng)化學(xué)習(xí)更多地應(yīng)用在機(jī)器人控制及其他需要進(jìn)行系統(tǒng)控制的領(lǐng)域。機(jī)器學(xué)習(xí)的分類 - 總結(jié)3.6在企業(yè)數(shù)據(jù)應(yīng)用的場(chǎng)景下,人們PART4機(jī)器學(xué)習(xí)的算法PART4機(jī)器學(xué)習(xí)的算法4.1機(jī)器學(xué)習(xí)的常用算法回歸算法(監(jiān)督學(xué)習(xí))神經(jīng)網(wǎng)絡(luò)(監(jiān)督學(xué)習(xí))SVM支持向量機(jī)(監(jiān)督學(xué)習(xí))聚類算法(無(wú)監(jiān)督學(xué)習(xí))降維算法(無(wú)監(jiān)督學(xué)習(xí))推薦算法(特殊)其他算法4.1機(jī)器學(xué)習(xí)的常用算法回歸算法(監(jiān)督學(xué)習(xí))常見(jiàn)算法 - 回歸算法4.2回歸算法有兩個(gè)重要的子類:即線性回歸和邏輯回歸;線性回歸就是如何擬合出一條直線最佳匹配所有的數(shù)據(jù),邏輯回歸是一種與線性回歸非常類似的算法;線性回歸處理的問(wèn)題類型與邏輯回歸不一致:線性回
9、歸處理的是數(shù)值問(wèn)題,也就是最后預(yù)測(cè)出的結(jié)果是數(shù)字,例如房?jī)r(jià)。邏輯回歸屬于分類算法,也就是說(shuō),邏輯回歸預(yù)測(cè)結(jié)果是離散的分類,例如判斷這封郵件是否是垃圾郵件,以及用戶是否會(huì)點(diǎn)擊此廣告等等。常見(jiàn)算法 - 回歸算法4.2回歸算法有兩個(gè)重要的子類:即線常見(jiàn)算法 - 回歸算法4.3假設(shè)有一組腫瘤患者的數(shù)據(jù),這些患者的腫瘤中有些是良性的(圖中的藍(lán)色點(diǎn)),有些是惡性的(圖中的紅色點(diǎn))。這里腫瘤的紅藍(lán)色可以被稱作數(shù)據(jù)的“標(biāo)簽”。同時(shí)每個(gè)數(shù)據(jù)包括兩個(gè)“特征”:患者的年齡與腫瘤的大小。我們將這兩個(gè)特征與標(biāo)簽映射到這個(gè)二維空間上,形成了上圖的數(shù)據(jù)。當(dāng)有一個(gè)綠色的點(diǎn)時(shí),該判斷這個(gè)腫瘤是惡性的還是良性的呢?根據(jù)紅藍(lán)點(diǎn)我們
10、訓(xùn)練出了一個(gè)邏輯回歸模型,也就是圖中的分類線。這時(shí),根據(jù)綠點(diǎn)出現(xiàn)在分類線的左側(cè),因此我們判斷它的標(biāo)簽應(yīng)該是紅色,也就是說(shuō)屬于惡性腫瘤。邏輯回歸算法劃出的分類線基本都是線性的(也有劃出非線性分類線的邏輯回歸,不過(guò)那樣的模型在處理數(shù)據(jù)量較大的時(shí)候效率會(huì)很低),這意味著當(dāng)兩類之間的界線不是線性時(shí),邏輯回歸的表達(dá)能力就不足。常見(jiàn)算法 - 回歸算法4.3假設(shè)有一組腫瘤患者的數(shù)據(jù),這些常見(jiàn)算法 - 神經(jīng)網(wǎng)絡(luò)4.4神經(jīng)網(wǎng)絡(luò)(也稱之為人工神經(jīng)網(wǎng)絡(luò),ANN)的誕生起源于對(duì)大腦工作機(jī)理的研究。早期生物界學(xué)者們使用神經(jīng)網(wǎng)絡(luò)來(lái)模擬大腦,后來(lái),機(jī)器學(xué)習(xí)的學(xué)者們使用神經(jīng)網(wǎng)絡(luò)進(jìn)行機(jī)器學(xué)習(xí)的實(shí)驗(yàn),發(fā)現(xiàn)在視覺(jué)與語(yǔ)音的識(shí)別上效果
11、都相當(dāng)好。神經(jīng)網(wǎng)絡(luò)算法是80年代機(jī)器學(xué)習(xí)界非常流行的算法。不過(guò),進(jìn)入90年代,神經(jīng)網(wǎng)絡(luò)的發(fā)展進(jìn)入了一個(gè)瓶頸期。其主要原因是神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程很困難?,F(xiàn)在,攜著“深度學(xué)習(xí)”之勢(shì),神經(jīng)網(wǎng)絡(luò)重裝歸來(lái),重新成為最強(qiáng)大的機(jī)器學(xué)習(xí)算法之一。常見(jiàn)算法 - 神經(jīng)網(wǎng)絡(luò)4.4神經(jīng)網(wǎng)絡(luò)(也稱之為人工神經(jīng)網(wǎng)絡(luò)常見(jiàn)算法 - 神經(jīng)網(wǎng)絡(luò)4.5 比方說(shuō),一個(gè)正方形,分解為四個(gè)折線進(jìn)入視覺(jué)處理的下一層中。四個(gè)神經(jīng)元分別處理一個(gè)折線。每個(gè)折線再繼續(xù)被分解為兩條直線,每條直線再被分解為黑白兩個(gè)面。于是,一個(gè)復(fù)雜的圖像變成了大量的細(xì)節(jié)進(jìn)入神經(jīng)元,神經(jīng)元處理以后再進(jìn)行整合,最后得出了看到的是正方形的結(jié)論。這就是大腦視覺(jué)識(shí)別的機(jī)理,也是
12、神經(jīng)網(wǎng)絡(luò)工作的機(jī)理。常見(jiàn)算法 - 神經(jīng)網(wǎng)絡(luò)4.5 比方說(shuō),一個(gè)正方形,分解為常見(jiàn)算法 - SVM支持向量機(jī)4.6SVM算法是誕生于統(tǒng)計(jì)學(xué)習(xí)界,同時(shí)在機(jī)器學(xué)習(xí)界大放光彩的經(jīng)典算法。從某種意義上來(lái)說(shuō),支持向量機(jī)算法是邏輯回歸算法的強(qiáng)化:通過(guò)給予邏輯回歸算法更嚴(yán)格的優(yōu)化條件,支持向量機(jī)算法可以獲得比邏輯回歸更好的分類界線。支持向量機(jī)是一種數(shù)學(xué)成分很濃的機(jī)器學(xué)習(xí)算法(相對(duì)的,神經(jīng)網(wǎng)絡(luò)則有生物科學(xué)成分)。通過(guò)支持向量機(jī)算法,既可以保持計(jì)算效率,又可以獲得非常好的分類效果。因此支持向量機(jī)在90年代后期一直占據(jù)著機(jī)器學(xué)習(xí)中最核心的地位,基本取代了神經(jīng)網(wǎng)絡(luò)算法。直到現(xiàn)在神經(jīng)網(wǎng)絡(luò)借著深度學(xué)習(xí)重新興起,兩者之間才
13、又發(fā)生了微妙的平衡轉(zhuǎn)變。常見(jiàn)算法 - SVM支持向量機(jī)4.6SVM算法是誕生于統(tǒng)計(jì)常見(jiàn)算法 - SVM支持向量機(jī)4.7通過(guò)跟高斯函數(shù)的結(jié)合,支持向量機(jī)可以表達(dá)出非常復(fù)雜的分類界線,從而達(dá)成很好的分類效果。比如,可以將低維的空間映射到高維的空間。如何在二維平面劃分出一個(gè)圓形的分類界線?在二維平面可能會(huì)很困難,但是通過(guò)高斯函數(shù)可以將二維空間映射到三維空間,然后使用一個(gè)線性平面就可以達(dá)成類似效果。常見(jiàn)算法 - SVM支持向量機(jī)4.7通過(guò)跟高斯函數(shù)的結(jié)合,常見(jiàn)算法 - 聚類算法4.8聚類算法是無(wú)監(jiān)督學(xué)習(xí)算法中最典型的代表。聚類算法就是計(jì)算種群中的距離,根據(jù)距離的遠(yuǎn)近將數(shù)據(jù)劃分為多個(gè)族群。聚類算法中最典
14、型的代表就是K-Means算法。常見(jiàn)算法 - 聚類算法4.8聚類算法是無(wú)監(jiān)督學(xué)習(xí)算法中最典常見(jiàn)算法 - 降維算法4.9降維算法也是一種無(wú)監(jiān)督學(xué)習(xí)算法,主要特征是將數(shù)據(jù)從高維降低到低維。維度表示數(shù)據(jù)的特征量的大小。例如,房?jī)r(jià)包含房子的長(zhǎng)、寬、面積與房間數(shù)量四個(gè)特征,也就是維度為4維的數(shù)據(jù)??梢钥闯鰜?lái),長(zhǎng)與寬事實(shí)上與面積表示的信息重疊了,例如面積=長(zhǎng) 寬。通過(guò)降維算法,可以去除冗余信息,將特征減少為面積與房間數(shù)量?jī)蓚€(gè)特征,即從4維的數(shù)據(jù)壓縮到2維。這樣,不僅利于表示,同時(shí)提高計(jì)算的性能。降維算法的主要作用是壓縮數(shù)據(jù)與提升機(jī)器學(xué)習(xí)的效率。通過(guò)降維算法,可以將具有幾千個(gè)特征的數(shù)據(jù)壓縮至若干個(gè)特征。另外
15、,降維算法的另一個(gè)好處是數(shù)據(jù)的可視化,例如將5維的數(shù)據(jù)壓縮至2維,然后可以用二維平面來(lái)可視。降維算法的主要代表是PCA算法(即主成分分析算法)。常見(jiàn)算法 - 降維算法4.9降維算法也是一種無(wú)監(jiān)督學(xué)習(xí)算法常見(jiàn)算法 - 推薦算法4.10 推薦算法是目前業(yè)界非?;鸬囊环N算法,如亞馬遜,天貓,京東等都在廣泛地運(yùn)用。推薦算法的主要特征就是可以自動(dòng)向用戶推薦他們最感興趣的東西,從而增加購(gòu)買(mǎi)率,提升效益。常見(jiàn)算法 - 推薦算法4.10 推薦算法是目前業(yè)界非?;鸪R?jiàn)算法 - 推薦算法4.11推薦算法有兩個(gè)主要的類別:一類是基于物品內(nèi)容的推薦,是將與用戶購(gòu)買(mǎi)的內(nèi)容近似的物品推薦給用戶,這樣的前提是每個(gè)物品都得有
16、若干個(gè)標(biāo)簽,因此才可以找出與用戶購(gòu)買(mǎi)物品類似的物品,這樣推薦的好處是關(guān)聯(lián)程度較大。另一類是基于用戶相似度的推薦,則是將與目標(biāo)用戶興趣(注:用戶畫(huà)像)相同的其他用戶購(gòu)買(mǎi)的東西推薦給目標(biāo)用戶,例如小A歷史上買(mǎi)了物品B和C,經(jīng)過(guò)算法分析,發(fā)現(xiàn)另一個(gè)與小A近似的用戶小D購(gòu)買(mǎi)了物品E,于是將物品E推薦給小A。兩類推薦都有各自的優(yōu)缺點(diǎn),在一般的電商應(yīng)用中,一般是兩類混合使用。推薦算法中最有名的算法就是協(xié)同過(guò)濾算法。常見(jiàn)算法 - 推薦算法4.11推薦算法有兩個(gè)主要的類別:一常見(jiàn)算法 - 其他算法4.12 除了以上算法之外,機(jī)器學(xué)習(xí)界還有其他的如高斯判別,樸素貝葉斯,決策樹(shù)等等算法。但是上面列的六個(gè)算法是使用
17、最多,影響最廣,種類最全的典型。機(jī)器學(xué)習(xí)界的一個(gè)特色就是算法眾多,發(fā)展百花齊放。 除了這些算法以外,有一些算法的名字在機(jī)器學(xué)習(xí)領(lǐng)域中也經(jīng)常出現(xiàn)。但他們本身并不算是一個(gè)機(jī)器學(xué)習(xí)算法,而是為了解決某個(gè)子問(wèn)題而誕生的。可以理解他們?yōu)橐陨纤惴ǖ淖铀惴?,用于大幅度提高?xùn)練過(guò)程。其中的代表有:梯度下降法,主要運(yùn)用在線性回歸,邏輯回歸,神經(jīng)網(wǎng)絡(luò),推薦算法中;牛頓法,主要運(yùn)用在線性回歸中;BP算法,主要運(yùn)用在神經(jīng)網(wǎng)絡(luò)中;SMO算法,主要運(yùn)用在SVM中。常見(jiàn)算法 - 其他算法4.12 除了以上算法之外,機(jī)器學(xué)機(jī)器學(xué)習(xí)的基本過(guò)程4.13 計(jì)算機(jī)從給定的數(shù)據(jù)中學(xué)習(xí)規(guī)律,即從觀測(cè)數(shù)據(jù)(樣本)中尋找規(guī)律、建立模型,并利
18、用學(xué)習(xí)到的規(guī)律(模型)對(duì)未知或無(wú)法觀測(cè)的數(shù)據(jù)進(jìn)行預(yù)測(cè)。機(jī)器學(xué)習(xí)的基本過(guò)程4.13 計(jì)算機(jī)從給定的數(shù)據(jù)中學(xué)習(xí)規(guī)律,PART5機(jī)器學(xué)習(xí)的操作流程PART5機(jī)器學(xué)習(xí)的操作流程機(jī)器學(xué)習(xí)的操作流程5.1操作流程主要分7步:數(shù)據(jù)導(dǎo)入;數(shù)據(jù)預(yù)處理;特征工程;拆分;訓(xùn)練模型;評(píng)估模型;預(yù)測(cè)新數(shù)據(jù)。機(jī)器學(xué)習(xí)的操作流程5.1操作流程主要分7步:數(shù)據(jù)導(dǎo)入;機(jī)器學(xué)習(xí)示例5.2預(yù)測(cè)美國(guó)某大學(xué)某人是否是終身教授:機(jī)器學(xué)習(xí)示例5.2預(yù)測(cè)美國(guó)某大學(xué)某人是否是終身教授:機(jī)器學(xué)習(xí)的常見(jiàn)應(yīng)用5.3 機(jī)器學(xué)習(xí)已廣泛應(yīng)用于數(shù)據(jù)挖掘、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、生物特征識(shí)別、搜索引擎、醫(yī)學(xué)診斷、檢測(cè)信用卡欺詐、證券市場(chǎng)分析、DNA序列測(cè)序
19、、語(yǔ)音和手寫(xiě)識(shí)別、戰(zhàn)略游戲和機(jī)器人等領(lǐng)域。機(jī)器學(xué)習(xí)的常見(jiàn)應(yīng)用5.3 機(jī)器學(xué)習(xí)已廣泛應(yīng)用于數(shù)據(jù)挖掘、計(jì)流行的開(kāi)源機(jī)器學(xué)習(xí)框架5.4TensorFlow是谷歌基于C+開(kāi)發(fā)、發(fā)布的第二代機(jī)器學(xué)習(xí)系統(tǒng)。開(kāi)發(fā)目的是用于進(jìn)行機(jī)器學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)的研究。目前Google 的Google App 的語(yǔ)音識(shí)別、Gmail 的自動(dòng)回復(fù)功能、Google Photos 的圖片搜索等都在使用 TensorFlow 。GitHub項(xiàng)目地址:/tensorflow/tensorflowScikit-Learn是用于機(jī)器學(xué)習(xí)的Python 模塊,它建立在SciPy之上?;竟δ苤饕环譃榱鶄€(gè)部分:分類、回歸、聚類、數(shù)據(jù)降
20、維、模型選擇、數(shù)據(jù)預(yù)處理。GitHub項(xiàng)目地址:/scikit-learn/scikit-learnCaffe 是由神經(jīng)網(wǎng)絡(luò)中的表達(dá)式、速度及模塊化產(chǎn)生的深度學(xué)習(xí)框架。Caffe是一個(gè)基于C+/CUDA架構(gòu)框架,開(kāi)發(fā)者能夠利用它自由的組織網(wǎng)絡(luò),目前支持卷積神經(jīng)網(wǎng)絡(luò)和全連接神經(jīng)網(wǎng)絡(luò)(人工神經(jīng)網(wǎng)絡(luò))。在Linux上,C+可以通過(guò)命令行來(lái)操作接口,運(yùn)算上支持CPU和GPU直接無(wú)縫切換。GitHub項(xiàng)目地址:/BVLC/caffeKeras是基于Python開(kāi)發(fā)的極其精簡(jiǎn)并高度模塊化的神經(jīng)網(wǎng)絡(luò)庫(kù),在TensorFlow 或 Theano 上都能夠運(yùn)行,是一個(gè)高度模塊化的神經(jīng)網(wǎng)絡(luò)庫(kù),支持GPU和CPU運(yùn)
21、算。Keras側(cè)重于開(kāi)發(fā)快速實(shí)驗(yàn),用可能最少延遲實(shí)現(xiàn)從理念到結(jié)果的轉(zhuǎn)變,即為做好一項(xiàng)研究的關(guān)鍵。GitHub項(xiàng)目地址:/fchollet/keras流行的開(kāi)源機(jī)器學(xué)習(xí)框架5.4TensorFlow是谷歌基于C流行的開(kāi)源機(jī)器學(xué)習(xí)框架5.5PredictionIO 是面向開(kāi)發(fā)人員和數(shù)據(jù)科學(xué)家的開(kāi)源機(jī)器學(xué)習(xí)服務(wù)器。它支持事件采集、算法調(diào)度、評(píng)估以及經(jīng)由REST APIs的預(yù)測(cè)結(jié)果查詢。使用者可以通過(guò)PredictionIO做一些預(yù)測(cè),比如個(gè)性化推薦、發(fā)現(xiàn)內(nèi)容等。PredictionIO 基于 REST API(應(yīng)用程序接口)標(biāo)準(zhǔn),不過(guò)它還包含 Ruby、Python、Scala、Java 等編程語(yǔ)言
22、的 SDK(軟件開(kāi)發(fā)工具包)。其開(kāi)發(fā)語(yǔ)言是Scala語(yǔ)言,數(shù)據(jù)庫(kù)方面使用的是MongoDB數(shù)據(jù)庫(kù),計(jì)算系統(tǒng)采用Hadoop系統(tǒng)架構(gòu)。GitHub項(xiàng)目地址:/PredictionIO/PredictionIOMahout 是Apache Software Foundation(ASF) 旗下的一個(gè)開(kāi)源項(xiàng)目,提供一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實(shí)現(xiàn),旨在幫助開(kāi)發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。Mahout包含許多實(shí)現(xiàn),包括聚類、分類、推薦過(guò)濾、頻繁子項(xiàng)挖掘。傳統(tǒng)的Mahout是提供的是Java的API,用戶應(yīng)用會(huì)編譯成MapReduce的job,運(yùn)行在MapReduce的框架上。從現(xiàn)在看來(lái),
23、這種方式開(kāi)發(fā)效率低,運(yùn)行速度慢,已經(jīng)過(guò)時(shí)了。Mahout已經(jīng)不再開(kāi)發(fā)和維護(hù)新的基于MR的算法,而轉(zhuǎn)向支持Scala。GitHub項(xiàng)目地址:/apache/mahoutSpark MLlib是Spark對(duì)常用的機(jī)器學(xué)習(xí)算法的實(shí)現(xiàn)庫(kù),同時(shí)包括相關(guān)的測(cè)試和數(shù)據(jù)生成器。Spark的設(shè)計(jì)初衷就是為了支持一些迭代的Job,這正好符合很多機(jī)器學(xué)習(xí)算法的特點(diǎn)。Spark基于內(nèi)存的計(jì)算模型天生就擅長(zhǎng)迭代計(jì)算,多個(gè)步驟計(jì)算直接在內(nèi)存中完成,只有在必要時(shí)才會(huì)操作磁盤(pán)和網(wǎng)絡(luò)。 GitHub項(xiàng)目地址:/apache/spark流行的開(kāi)源機(jī)器學(xué)習(xí)框架5.5PredictionIO 是面向Spark MLlib介紹5.6Spark MLlib是Spark對(duì)常用的機(jī)器學(xué)習(xí)算法的實(shí)現(xiàn)庫(kù),同時(shí)包括相關(guān)的測(cè)試和數(shù)據(jù)生成器。MLlib目前支持4種常見(jiàn)的機(jī)器學(xué)習(xí)問(wèn)題:分類、回歸、聚類和協(xié)同過(guò)濾。Spark MLlib介紹5.6Spark MLlib是
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度砂石料開(kāi)采與環(huán)境保護(hù)合作協(xié)議3篇
- 二零二五年度個(gè)人消費(fèi)分期貸款質(zhì)押擔(dān)保合同書(shū)2篇
- 2025版鐵路貨運(yùn)特點(diǎn)與業(yè)務(wù)流程規(guī)范合同3篇
- 香煙店衛(wèi)生標(biāo)準(zhǔn)規(guī)范
- 二零二五年度高校科研成果轉(zhuǎn)化委托實(shí)施協(xié)議3篇
- 2025版環(huán)保設(shè)備維修與改造承包協(xié)議書(shū)2篇
- 二零二五版學(xué)生頂崗實(shí)習(xí)實(shí)習(xí)單位實(shí)習(xí)教育與培訓(xùn)合作協(xié)議3篇
- 二零二五年大學(xué)食堂食品安全保障協(xié)議范本3篇
- 二零二五版新風(fēng)機(jī)銷售與技術(shù)支持合作合同2篇
- 二零二五年度個(gè)人二手房交易房屋租賃續(xù)約合同
- (正式版)FZ∕T 80014-2024 潔凈室服裝 通 用技術(shù)規(guī)范
- 剪映專業(yè)版:PC端短視頻制作(全彩慕課版) 課件 第3章 短視頻剪輯快速入門(mén)
- 湖南省長(zhǎng)沙市開(kāi)福區(qū)青竹湖湘一外國(guó)語(yǔ)學(xué)校2023-2024學(xué)年九年級(jí)下學(xué)期一模歷史試題
- 風(fēng)電場(chǎng)事故案例分析
- 八年級(jí)上冊(cè)-2024年中考?xì)v史總復(fù)習(xí)核心考點(diǎn)與重難點(diǎn)(部編版)
- 醫(yī)院科室人才建設(shè)規(guī)劃方案
- 護(hù)理飲食指導(dǎo)整改措施及方案
- 全國(guó)大學(xué)生英語(yǔ)競(jìng)賽詞匯大綱
- 胸外科手術(shù)圍手術(shù)期處理
- 《企業(yè)管理課件:團(tuán)隊(duì)管理知識(shí)點(diǎn)詳解PPT》
- 配網(wǎng)設(shè)備缺陷分類及管理重點(diǎn)標(biāo)準(zhǔn)
評(píng)論
0/150
提交評(píng)論