版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第2版人工智能通識教程第5章周蘇教授QQ:81505050機器學(xué)習(xí)導(dǎo)讀案例:奈飛的電影推薦引擎2012年9月21日奈飛宣布,來自186個國家和地區(qū)的四萬多個團隊經(jīng)過近三年的較量,一個由來自奧地利、加拿大、以色列和美國的計算機、統(tǒng)計和人工智能專家組成的7人團隊BPC奪得了奈飛大獎。獲獎團隊成功地將奈飛的影片推薦引擎的推薦效率提高了10%。奈飛大獎的參賽者們不斷改進影片推薦效率,奈飛的客戶為此獲益。這項比賽的規(guī)則要求獲勝團隊公開他們采用的推薦算法,這樣很多商業(yè)都能從中獲益。01什么是機器學(xué)習(xí)02基于學(xué)習(xí)方式的分類03機器學(xué)習(xí)的基本結(jié)構(gòu)04機器學(xué)習(xí)算法目錄/CONTENTS05機器學(xué)習(xí)的應(yīng)用機器學(xué)習(xí)是使計算機具有智能的根本途徑,它涉及到概率論、統(tǒng)計學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多學(xué)科知識,專門研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。機器學(xué)習(xí)的歷史可以追溯到17世紀,貝葉斯、拉普拉斯關(guān)于最小二乘法的推導(dǎo)和馬爾可夫鏈構(gòu)成了機器學(xué)習(xí)廣泛使用的工具和基礎(chǔ)。從1950年圖靈提議建立一個學(xué)習(xí)機器,到2000年初深度學(xué)習(xí)的實際應(yīng)用及進展,機器學(xué)習(xí)有了很大的進展。第5章機器學(xué)習(xí)PART01什么是機器學(xué)習(xí)如今,一些手機提供了智能語音助手,一些電子郵箱使用了垃圾郵件過濾器(軟件),等等。如果你使用過類似這樣的服務(wù),那么,事實上你已經(jīng)在利用機器學(xué)習(xí)了!作為人工智能的一個分支,機器學(xué)習(xí)所涉及的應(yīng)用范圍包括語言處理、圖像識別和智能規(guī)劃等。5.1什么是機器學(xué)習(xí)機器學(xué)習(xí)最早的發(fā)展可以追溯到英國數(shù)學(xué)家貝葉斯(1702年~1761年)在1763年發(fā)表的貝葉斯定理,這是關(guān)于隨機事件A和B的條件概率(或邊緣概率)的一則數(shù)學(xué)定理,是機器學(xué)習(xí)的基本思想。其中,P(A|B)是指在B發(fā)生的情況下A發(fā)生的可能性,即根據(jù)以前的信息尋找最可能發(fā)生的事件。5.1.1機器學(xué)習(xí)的發(fā)展從20世紀50年代研究機器學(xué)習(xí)以來,不同時期的研究途徑和目標并不相同,大體上可以劃分為四個階段。第一階段是20世紀50年代中葉到60年代中葉,屬于熱烈時期。主要研究“有無知識的學(xué)習(xí)”,關(guān)注系統(tǒng)的執(zhí)行能力。這個時期,通過對機器的環(huán)境及其相應(yīng)性能參數(shù)的改變來檢測系統(tǒng)所反饋的數(shù)據(jù),系統(tǒng)受到程序的影響而改變自身的組織,最后會選擇一個最優(yōu)的環(huán)境生存。這個時期最具代表性的研究是塞繆特的下棋程序。5.1.1機器學(xué)習(xí)的發(fā)展第二階段從20世紀60年代中葉到70年代中葉,被稱為機器學(xué)習(xí)的冷靜時期。主要研究將各領(lǐng)域的知識植入到系統(tǒng)里,通過機器模擬人類學(xué)習(xí)的過程,同時采用圖結(jié)構(gòu)及邏輯結(jié)構(gòu)方面的知識進行系統(tǒng)描述。在這一研究階段,主要是用各種符號來表示機器語言,研究人員在進行實驗時意識到學(xué)習(xí)是一個長期的過程,從這種系統(tǒng)環(huán)境中無法學(xué)到更加深入的知識。因此,研究人員將各專家的知識加入到系統(tǒng)里。經(jīng)過實踐,證明這種方法取得了一定的成效。這一階段具有代表性的工作有海耶斯-羅斯等的對結(jié)構(gòu)學(xué)習(xí)系統(tǒng)方法。5.1.1機器學(xué)習(xí)的發(fā)展第三階段從20世紀70年代中葉到80年代中葉,稱為復(fù)興時期。在此期間,人們從學(xué)習(xí)單個概念擴展到學(xué)習(xí)多個概念,探索不同的學(xué)習(xí)策略和方法,開始把學(xué)習(xí)系統(tǒng)與各種應(yīng)用結(jié)合起來,并取得很大的成功。同時,專家系統(tǒng)在知識獲取方面的需求也極大地刺激了機器學(xué)習(xí)的研究和發(fā)展。在出現(xiàn)第一個專家學(xué)習(xí)系統(tǒng)之后,示例歸納學(xué)習(xí)系統(tǒng)成為研究的主流,自動知識獲取成為機器學(xué)習(xí)應(yīng)用的研究目標。5.1.1機器學(xué)習(xí)的發(fā)展1980年,在美國的卡內(nèi)基·梅隆大學(xué)(CMU)召開了第一屆機器學(xué)習(xí)國際研討會,標志著機器學(xué)習(xí)研究已在全世界興起。此后,機器學(xué)習(xí)開始得到大量的應(yīng)用。1984年,西蒙等20多位人工智能專家共同撰文編寫的機器學(xué)習(xí)文集第二卷出版,國際性雜志《機器學(xué)習(xí)》創(chuàng)刊,更加顯示出機器學(xué)習(xí)突飛猛進的發(fā)展趨勢。這一階段代表性的工作有莫斯托的指導(dǎo)式學(xué)習(xí)、萊納特的數(shù)學(xué)概念發(fā)現(xiàn)程序、蘭利的BACON程序及其改進程序。5.1.1機器學(xué)習(xí)的發(fā)展第四階段起步于20世紀80年代中葉,機器學(xué)習(xí)的這個新階段具有如下特點:(1)機器學(xué)習(xí)成為新的邊緣學(xué)科,它綜合應(yīng)用了心理學(xué)、生物學(xué)、神經(jīng)生理學(xué)、數(shù)學(xué)、自動化和計算機科學(xué)等形成了機器學(xué)習(xí)理論基礎(chǔ)。(2)融合各種學(xué)習(xí)方法,且形式多樣的集成學(xué)習(xí)系統(tǒng)研究正在興起(圖5-3)。特別是連接符號的學(xué)習(xí)耦合可以更好地解決連續(xù)性信號處理中知識與技能的獲取與求精問題而受到重視。5.1.1機器學(xué)習(xí)的發(fā)展
圖5-3機器學(xué)習(xí)融合了各種學(xué)習(xí)方法5.1.1機器學(xué)習(xí)的發(fā)展(3)機器學(xué)習(xí)與人工智能各種基礎(chǔ)問題的統(tǒng)一性觀點正在形成。例如學(xué)習(xí)與問題求解結(jié)合進行、知識表達便于學(xué)習(xí)的觀點產(chǎn)生了通用智能系統(tǒng)的組塊學(xué)習(xí)。類比學(xué)習(xí)與問題求解結(jié)合的基于案例方法已成為經(jīng)驗學(xué)習(xí)的重要方向。(4)各種學(xué)習(xí)方法應(yīng)用范圍不斷擴大。歸納學(xué)習(xí)知識獲取工具在診斷專家系統(tǒng)中廣泛使用,連接學(xué)習(xí)在聲圖文識別中占優(yōu)勢,分析學(xué)習(xí)用于設(shè)計型專家系統(tǒng),遺傳算法與強化學(xué)習(xí)在工程控制中有較好應(yīng)用,與符號系統(tǒng)耦合的深度學(xué)習(xí)在智能管理與智能機器人運動規(guī)劃中發(fā)揮作用。5.1.1機器學(xué)習(xí)的發(fā)展(5)與機器學(xué)習(xí)有關(guān)的學(xué)術(shù)活動空前活躍。國際上除每年舉行的機器學(xué)習(xí)研討會外,還有計算機學(xué)習(xí)理論會議以及遺傳算法會議。5.1.1機器學(xué)習(xí)的發(fā)展機器學(xué)習(xí)在1997年達到巔峰,當(dāng)時,IBM深藍計算機在一場國際象棋比賽中擊敗了世界冠軍加里·卡斯帕羅夫。之后,谷歌開發(fā)專注于圍棋游戲的AlphaGo(阿爾法狗),盡管圍棋被認為過于復(fù)雜,2016年AlphaGo終于獲得勝利,在一場五局比賽中擊敗世界冠軍李世石。圖5-4AlphaGo在圍棋賽中擊敗李世石5.1.1機器學(xué)習(xí)的發(fā)展學(xué)習(xí)是人類具有的一種重要的智能行為,而機器學(xué)習(xí)是一門多學(xué)科交叉專業(yè),涵蓋概率論知識,統(tǒng)計學(xué)知識,近似理論知識和復(fù)雜算法知識,使用計算機作為工具并致力于真實實時的模擬人類學(xué)習(xí)方式,并將現(xiàn)有內(nèi)容進行知識結(jié)構(gòu)劃分來有效提高學(xué)習(xí)效率。5.1.2機器學(xué)習(xí)的定義蘭利(1996)的定義是:“機器學(xué)習(xí)是一門人工智能的科學(xué),該領(lǐng)域的主要研究對象是人工智能,特別是如何在經(jīng)驗學(xué)習(xí)中改善具體算法的性能?!睖贰っ浊袪枺?997)對信息論中的一些概念有詳細的解釋,其中定義機器學(xué)習(xí)時提到:“機器學(xué)習(xí)是對能通過經(jīng)驗自動改進的計算機算法的研究?!卑柵炼。?004)對機器學(xué)習(xí)的定義:“機器學(xué)習(xí)是用數(shù)據(jù)或以往的經(jīng)驗,以此優(yōu)化計算機程序的性能標準?!?.1.2機器學(xué)習(xí)的定義顧名思義,機器學(xué)習(xí)是研究如何使用機器來模擬人類學(xué)習(xí)活動的一門學(xué)科。較為嚴格的提法是:機器學(xué)習(xí)是一門研究機器獲取新知識和新技能,并識別現(xiàn)有知識的學(xué)問。這里所說的“機器”,指的就是計算機,電子計算機,中子計算機、光子計算機或神經(jīng)計算機等等。5.1.2機器學(xué)習(xí)的定義機器能否像人類一樣具有學(xué)習(xí)能力?機器的能力是否能超過人的,很多持否定意見的人的一個主要論據(jù)是:機器是人造的,其性能和動作完全是由設(shè)計者規(guī)定的,因此無論如何其能力也不會超過設(shè)計者本人。這種意見對不具備學(xué)習(xí)能力的機器來說的確是對的,可是對具備學(xué)習(xí)能力的機器就值得考慮了,因為這種機器的能力在應(yīng)用中不斷地提高,過一段時間之后,設(shè)計者本人也不知它的能力到了何種水平。5.1.2機器學(xué)習(xí)的定義由湯姆·米切爾給出的機器學(xué)習(xí)定義得到了廣泛引用,其內(nèi)容是:“計算機程序可以在給定某種類別的任務(wù)T和性能度量P下學(xué)習(xí)經(jīng)驗E,如果其在任務(wù)T中的性能恰好可以用P度量,則隨著經(jīng)驗E而提高?!蔽覀冇煤唵蔚睦觼矸纸膺@個描述。5.1.2機器學(xué)習(xí)的定義示例:臺風(fēng)預(yù)測系統(tǒng)。假設(shè)你要構(gòu)建一個臺風(fēng)預(yù)測系統(tǒng),你手里有所有以前發(fā)生過的臺風(fēng)的數(shù)據(jù)和這次臺風(fēng)產(chǎn)生前三個月的天氣信息。如果要手動構(gòu)建一個臺風(fēng)預(yù)測系統(tǒng),我們應(yīng)該怎么做?圖5-5預(yù)測臺風(fēng)5.1.2機器學(xué)習(xí)的定義首先是清洗所有的數(shù)據(jù),找到數(shù)據(jù)里面的模式進而查找產(chǎn)生臺風(fēng)的條件。我們既可以將模型條件數(shù)據(jù)(例如氣溫高于40℃,濕度在80%~100%等)輸入到系統(tǒng)里面生成輸出,也可以讓系統(tǒng)自己通過這些條件數(shù)據(jù)產(chǎn)生合適的輸出??梢园阉幸郧暗臄?shù)據(jù)輸入到系統(tǒng)里面來預(yù)測未來是否會有臺風(fēng)?;谙到y(tǒng)條件的取值,評估系統(tǒng)性能(正確預(yù)測臺風(fēng)的次數(shù))??梢詫⑾到y(tǒng)預(yù)測結(jié)果作為反饋繼續(xù)多次迭代以上步驟。5.1.2機器學(xué)習(xí)的定義根據(jù)米切爾的解釋來定義這個預(yù)測系統(tǒng):任務(wù)是確定可能產(chǎn)生臺風(fēng)的氣象條件。性能P是在系統(tǒng)所有給定的條件下有多少次正確預(yù)測臺風(fēng),經(jīng)驗E是系統(tǒng)的迭代次數(shù)。5.1.2機器學(xué)習(xí)的定義機器學(xué)習(xí)是人工智能中研究怎樣使用計算機模擬或?qū)崿F(xiàn)人類學(xué)習(xí)活動的科學(xué),其理論和方法已被廣泛應(yīng)用于解決工程應(yīng)用和科學(xué)領(lǐng)域的復(fù)雜問題。自20世紀80年代以來,機器學(xué)習(xí)作為實現(xiàn)人工智能的途徑,在人工智能界引起了廣泛的興趣。歷經(jīng)數(shù)十年的曲折發(fā)展,機器學(xué)習(xí)以深度學(xué)習(xí)為代表,借鑒人腦的多分層結(jié)構(gòu)、神經(jīng)元的連接交互信息的逐層分析處理機制,自適應(yīng)、自學(xué)習(xí)的強大并行信息處理能力,在很多方面收獲了突破性進展,其中最有代表性的是圖像識別領(lǐng)域。5.1.3機器學(xué)習(xí)的研究機器學(xué)習(xí)的研究主要分為兩個方向:第一個是傳統(tǒng)機器學(xué)習(xí)的研究,第二個是大數(shù)據(jù)環(huán)境下機器學(xué)習(xí)的研究。5.1.3機器學(xué)習(xí)的研究1.傳統(tǒng)機器學(xué)習(xí)的研究傳統(tǒng)機器學(xué)習(xí)主要研究學(xué)習(xí)機制,注重探索模擬人的學(xué)習(xí)機制,研究內(nèi)容包括決策樹、隨機森林、人工神經(jīng)網(wǎng)絡(luò)、貝葉斯學(xué)習(xí)等方面。5.1.3機器學(xué)習(xí)的研究決策樹是機器學(xué)習(xí)常見的一種方法。20世紀末期,機器學(xué)習(xí)研究者羅斯·昆蘭將香農(nóng)的信息論引入到?jīng)Q策樹算法中,提出了ID3算法。1984年I.科諾年科、E.羅斯卡和I.布拉特科在ID3算法的基礎(chǔ)上提出了AS-SISTANT算法,這種算法允許類別的取值之間有交集。同年,A.哈特提出Chi-Squa統(tǒng)計算法,采用一種基于屬性與類別關(guān)聯(lián)程度的統(tǒng)計量。1984年L.布雷曼、C.通、R.奧爾申和J.弗雷德曼提出決策樹剪枝概念,極大地改善了決策樹的性能。5.1.3機器學(xué)習(xí)的研究1993年,昆蘭在ID3算法的基礎(chǔ)上提出一種改進算法,即C4.5算法,克服了ID3算法屬性偏向問題,增加了對連續(xù)屬性的處理通過剪枝,在一定程度上避免了“過度適合”現(xiàn)象。但是該算法將連續(xù)屬性離散化時,需要遍歷該屬性的所有值,降低了效率,并且要求訓(xùn)練樣本集駐留在內(nèi)存,不適合處理大規(guī)模數(shù)據(jù)集。5.1.3機器學(xué)習(xí)的研究2010年Xie提出一種CART算法,這是描述給定預(yù)測向量X條件分布變量Y的一個靈活方法。CART算法可以處理無序的數(shù)據(jù),采用基尼系數(shù)作為測試屬性的選擇標準。CART算法生成的決策樹精確度較高,但當(dāng)其生成的決策樹復(fù)雜度超過一定程度后,隨著復(fù)雜度的提高,分類精確度會降低。CART算法已經(jīng)在許多領(lǐng)域得到應(yīng)用。5.1.3機器學(xué)習(xí)的研究2007年房祥飛表述一種SLIQ(決策樹分類)算法,這種算法的分類精度與其他決策樹算法不相上下,但執(zhí)行速度比其他決策樹算法快,它對訓(xùn)練樣本集的樣本數(shù)量以及屬性的數(shù)量沒有限制。SLIQ算法能夠處理大規(guī)模的訓(xùn)練樣本集,具有較好的伸縮性;執(zhí)行速度快而且能生成較小的二叉決策樹。SLIQ算法允許多個處理器同時處理屬性表,從而實現(xiàn)了并行性。但SLIQ算法依然不能擺脫主存容量的限制。5.1.3機器學(xué)習(xí)的研究2000年拉吉夫·拉斯托等提出PUBLIC算法,對尚未完全生成的決策樹進行剪枝,因而提高了效率。近幾年來,模糊決策樹也得到了蓬勃發(fā)展。研究者考慮到屬性間的相關(guān)性提出分層回歸算法、約束分層歸納算法和功能樹算法,這三種都是基于多分類器組合的決策樹算法,對屬性間可能存在的相關(guān)性進行了部分實驗和研究,但是這些研究并沒有從總體上闡述屬性間的相關(guān)性是如何影響決策樹性能。此外,還有很多其他的算法,如Zhang.J于2014年提出的一種基于粗糙集的優(yōu)化算法、Wang.R在2015年提出的基于極端學(xué)習(xí)樹的算法模型等。5.1.3機器學(xué)習(xí)的研究隨機森林(RF)作為機器學(xué)習(xí)重要算法之一,是一種利用多個樹分類器進行分類和預(yù)測的方法。隨機森林算法研究的發(fā)展十分迅速,已經(jīng)在生物信息學(xué)、生態(tài)學(xué)、醫(yī)學(xué)、遺傳學(xué)、遙感地理學(xué)等多領(lǐng)域開展的應(yīng)用性研究。人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetworks,ANN)是一種具有非線性適應(yīng)性信息處理能力的算法,可克服傳統(tǒng)人工智能方法對于直覺,如模式、語音識別、非結(jié)構(gòu)化信息處理方面的缺陷,得到迅速發(fā)展。5.1.3機器學(xué)習(xí)的研究2.大數(shù)據(jù)環(huán)境下機器學(xué)習(xí)的研究大數(shù)據(jù)環(huán)境下的機器學(xué)習(xí)主要是研究如何有效利用信息,注重從巨量數(shù)據(jù)中獲取隱藏的、有效的、可理解的知識。大數(shù)據(jù)的價值體現(xiàn)主要集中在數(shù)據(jù)的轉(zhuǎn)向以及數(shù)據(jù)的信息處理能力。在大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的今天,對數(shù)據(jù)的轉(zhuǎn)換、處理、存儲等帶來了更好的技術(shù)支持,產(chǎn)業(yè)升級和新產(chǎn)業(yè)誕生形成了一種推動力量,讓大數(shù)據(jù)能夠針對可發(fā)現(xiàn)事物的程序進行自動規(guī)劃,實現(xiàn)人類用戶與計算機信息之間的協(xié)調(diào)。5.1.3機器學(xué)習(xí)的研究大數(shù)據(jù)環(huán)境下的機器學(xué)習(xí)算法,依據(jù)一定的性能標準,對學(xué)習(xí)結(jié)果的重要程度可以予以忽視。采用分布式和并行計算的方式進行分治策略的實施,規(guī)避噪音數(shù)據(jù)和冗余帶來的干擾,降低存儲耗費,同時提高學(xué)習(xí)算法的運行效率。隨著各行業(yè)對數(shù)據(jù)分析需求的持續(xù)增加,通過機器學(xué)習(xí)高效地獲取知識,已逐漸成為當(dāng)今機器學(xué)習(xí)技術(shù)發(fā)展的主要推動力。大數(shù)據(jù)時代的機器學(xué)習(xí)更強調(diào)“學(xué)習(xí)本身是手段”,機器學(xué)習(xí)成為一種支持和服務(wù)技術(shù)。如何基于機器學(xué)習(xí)對復(fù)雜多樣的數(shù)據(jù)進行深層次的分析,更高效地利用信息,成為當(dāng)前大數(shù)據(jù)環(huán)境下機器學(xué)習(xí)研究的主要方向。5.1.3機器學(xué)習(xí)的研究所以,機器學(xué)習(xí)越來越朝著智能數(shù)據(jù)分析的方向發(fā)展,成為智能數(shù)據(jù)分析技術(shù)的一個重要源泉。另外,在大數(shù)據(jù)時代,隨著數(shù)據(jù)產(chǎn)生速度的持續(xù)加快,數(shù)據(jù)的體量有了前所未有的增長,需要分析的新的數(shù)據(jù)種類也在不斷涌現(xiàn),如文本的理解、文本情感的分析、圖像的檢索和理解、圖形和網(wǎng)絡(luò)數(shù)據(jù)的分析等。使得大數(shù)據(jù)機器學(xué)習(xí)和數(shù)據(jù)挖掘等智能計算技術(shù)在大數(shù)據(jù)智能化分析處理應(yīng)用中具有極其重要的作用。5.1.3機器學(xué)習(xí)的研究PART02基于學(xué)習(xí)方式的分類機器學(xué)習(xí)的核心是“使用算法解析數(shù)據(jù),從中學(xué)習(xí),然后對世界上的某件事情做出決定或預(yù)測”。這意味著,與其顯式地編寫程序來執(zhí)行某些任務(wù),不如教計算機學(xué)會如何開發(fā)一個算法來完成任務(wù)。機器學(xué)習(xí)有三種主要類型,即監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)。
圖5-6機器學(xué)習(xí)的三種主要類型5.2基于學(xué)習(xí)方式的分類監(jiān)督學(xué)習(xí),也稱有導(dǎo)師學(xué)習(xí),是指輸入數(shù)據(jù)中有導(dǎo)師信號,以概率函數(shù)、代數(shù)函數(shù)或人工神經(jīng)網(wǎng)絡(luò)為基函數(shù)模型,采用迭代計算方法,學(xué)習(xí)結(jié)果為函數(shù)。監(jiān)督學(xué)習(xí)涉及一組標記數(shù)據(jù),計算機可以使用特定的模式來識別每種標記類型的新樣本,即在機器學(xué)習(xí)過程中提供對錯指示,一般是在數(shù)據(jù)組中包含最終結(jié)果(0,1)。通過算法讓機器自我減少誤差。監(jiān)督學(xué)習(xí)從給定的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)出一個函數(shù),當(dāng)接收到一個新的數(shù)據(jù)時,可以根據(jù)這個函數(shù)預(yù)測結(jié)果。監(jiān)督學(xué)習(xí)的訓(xùn)練集要求包括輸入和輸出,也可以說是特征和目標,目標是由人標注的。監(jiān)督學(xué)習(xí)的主要類型是分類和回歸。5.2.1監(jiān)督學(xué)習(xí)在分類中,機器被訓(xùn)練成將一個組劃分為特定的類,一個簡單例子就是電子郵件中的垃圾郵件過濾器。過濾器分析你以前標記為垃圾郵件的電子郵件,并將它們與新郵件進行比較,如果它們有一定的百分比匹配,這些新郵件將被標記為垃圾郵件并發(fā)送到適當(dāng)?shù)奈募A中。在回歸中,機器使用先前的(標記的)數(shù)據(jù)來預(yù)測未來,天氣應(yīng)用是回歸的好例子。使用氣象事件的歷史數(shù)據(jù)(即平均氣溫、濕度和降水量),手機天氣預(yù)報APP可以查看當(dāng)前天氣,并對未來時間的天氣進行預(yù)測。5.2.1監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)又稱無導(dǎo)師學(xué)習(xí)、歸納性學(xué)習(xí),是指輸入數(shù)據(jù)中無導(dǎo)師信號,采用聚類方法,學(xué)習(xí)結(jié)果為類別。典型的無導(dǎo)師學(xué)習(xí)有發(fā)現(xiàn)學(xué)習(xí)、聚類、競爭學(xué)習(xí)等。無監(jiān)督學(xué)習(xí)通過循環(huán)和遞減運算來減小誤差,達到分類的目的。在無監(jiān)督學(xué)習(xí)中,數(shù)據(jù)是無標簽的。由于大多數(shù)真實世界的數(shù)據(jù)都沒有標簽,這樣的算法就特別有用。5.2.2無監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)分為聚類和降維。聚類用于根據(jù)屬性和行為對象進行分組。這與分類不同,因為這些組不是你提供的。聚類的一個例子是將一個組劃分成不同的子組(例如,基于年齡和婚姻狀況),然后應(yīng)用到有針對性的營銷方案中。降維通過找到共同點來減少數(shù)據(jù)集的變量。大多數(shù)大數(shù)據(jù)可視化使用降維來識別趨勢和規(guī)則。5.2.2無監(jiān)督學(xué)習(xí)強化學(xué)習(xí)也稱增強學(xué)習(xí),是指以環(huán)境反饋(獎/懲信號)作為輸入,以統(tǒng)計和動態(tài)規(guī)劃技術(shù)為指導(dǎo)的一種學(xué)習(xí)方法。強化學(xué)習(xí)使用機器的歷史和經(jīng)驗來做出決定,其經(jīng)典應(yīng)用是玩游戲。與監(jiān)督和非監(jiān)督學(xué)習(xí)不同,強化學(xué)習(xí)不涉及提供“正確的”答案或輸出。相反,它只關(guān)注性能,這反映了人類是如何根據(jù)積極和消極的結(jié)果學(xué)習(xí)的。很快就學(xué)會了不要重復(fù)這一動作。同樣的道理,一臺下棋的計算機可以學(xué)會不把它的國王移到對手的棋子可以進入的空間。然后,國際象棋的這一基本教訓(xùn)就可以被擴展和推斷出來,直到機器能夠打(并最終擊?。┤祟愴敿壨婕覟橹埂?.2.3強化學(xué)習(xí)機器學(xué)習(xí)使用特定的算法和編程方法來實現(xiàn)人工智能。有了機器學(xué)習(xí),我們可以將代碼量縮小到以前的一小部分。作為機器學(xué)習(xí)的子集,深度學(xué)習(xí)專注于模仿人類大腦的生物學(xué)和過程。5.2.3強化學(xué)習(xí)幾十年來,研究發(fā)表的機器學(xué)習(xí)方法種類很多,根據(jù)強調(diào)側(cè)面的不同可以有多種分類方法。5.2.4機器學(xué)習(xí)的其他分類1.基于學(xué)習(xí)策略的分類(1)模擬人腦的機器學(xué)習(xí)。符號學(xué)習(xí):模擬人腦的宏現(xiàn)心理級學(xué)習(xí)過程,以認知心理學(xué)原理為基礎(chǔ),以符號數(shù)據(jù)為輸入,以符號運算為方法,用推理過程在圖或狀態(tài)空間中搜索,學(xué)習(xí)的目標為概念或規(guī)則等。符號學(xué)習(xí)的典型方法有記憶學(xué)習(xí)、示例學(xué)習(xí)、演繹學(xué)習(xí).類比學(xué)習(xí)、解釋學(xué)習(xí)等。5.2.4機器學(xué)習(xí)的其他分類神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)(或連接學(xué)習(xí)):模擬人腦的微觀生理級學(xué)習(xí)過程,以腦和神經(jīng)科學(xué)原理為基礎(chǔ),以人工神經(jīng)網(wǎng)絡(luò)為函數(shù)結(jié)構(gòu)模型,以數(shù)值數(shù)據(jù)為輸入,以數(shù)值運算為方法,用迭代過程在系數(shù)向量空間中搜索,學(xué)習(xí)的目標為函數(shù)。典型的連接學(xué)習(xí)有權(quán)值修正學(xué)習(xí)、拓撲結(jié)構(gòu)學(xué)習(xí)。5.2.4機器學(xué)習(xí)的其他分類(2)直接采用數(shù)學(xué)方法的機器學(xué)習(xí)。主要有統(tǒng)計機器學(xué)習(xí)。統(tǒng)計機器學(xué)習(xí)是基于對數(shù)據(jù)的初步認識以及學(xué)習(xí)目的的分析,選擇合適的數(shù)學(xué)模型,擬定超參數(shù),并輸入樣本數(shù)據(jù),依據(jù)一定的策略,運用合適的學(xué)習(xí)算法對模型進行訓(xùn)練,最后運用訓(xùn)練好的模型對數(shù)據(jù)進行分析預(yù)測。5.2.4機器學(xué)習(xí)的其他分類統(tǒng)計機器學(xué)習(xí)三個要素:(1)模型:在未進行訓(xùn)練前,其可能的參數(shù)是多個甚至無窮的,故可能的模型也是多個甚至無窮的,這些模型構(gòu)成的集合就是假設(shè)空間。(2)策略:即從假設(shè)空間中挑選出參數(shù)最優(yōu)的模型的準則。模型的分類或預(yù)測結(jié)果與實際情況的誤差(損失函數(shù))越小,模型就越好。那么策略就是誤差最小。(3)算法:即從假設(shè)空間中挑選模型的方法(等同于求解最佳的模型參數(shù))。機器學(xué)習(xí)的參數(shù)求解通常都會轉(zhuǎn)化為最優(yōu)化問題,故學(xué)習(xí)算法通常是最優(yōu)化算法,例如最速梯度下降法、牛頓法以及擬牛頓法等。5.2.4機器學(xué)習(xí)的其他分類2.基于學(xué)習(xí)方法的分類(1)歸納學(xué)習(xí)。符號歸納學(xué)習(xí):典型的有示例學(xué)習(xí)、決策樹學(xué)習(xí)。函數(shù)歸納學(xué)習(xí)(發(fā)現(xiàn)學(xué)習(xí)):典型的有神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)、示例學(xué)習(xí)、發(fā)現(xiàn)學(xué)習(xí)、統(tǒng)計學(xué)習(xí)。(2)演繹學(xué)習(xí)。(3)類比學(xué)習(xí):典型的有案例(范例)學(xué)習(xí)。(4)分析學(xué)習(xí):典型的有解釋學(xué)習(xí)、宏操作學(xué)習(xí)。5.2.4機器學(xué)習(xí)的其他分類3.基于數(shù)據(jù)形式的分類(1)結(jié)構(gòu)化學(xué)習(xí):以結(jié)構(gòu)化數(shù)據(jù)為輸入,以數(shù)值計算或符號推演為方法。典型的有神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)、統(tǒng)計學(xué)習(xí)、決策樹學(xué)習(xí)、規(guī)則學(xué)習(xí)。(2)非結(jié)構(gòu)化學(xué)習(xí):以非結(jié)構(gòu)化數(shù)據(jù)為輸入,典型的有類比學(xué)習(xí)、案例學(xué)習(xí)、解釋學(xué)習(xí)、文本挖掘、圖像挖掘、Web挖掘等。5.2.4機器學(xué)習(xí)的其他分類4.基于學(xué)習(xí)目標的分類(1)概念學(xué)習(xí):學(xué)習(xí)目標和結(jié)果為概念,或者說是獲得概念的學(xué)習(xí)。典型的有示例學(xué)習(xí)。(2)規(guī)則學(xué)習(xí):學(xué)習(xí)目標和結(jié)果為規(guī)則,或者說是獲得規(guī)則的學(xué)習(xí)。典型的有決策樹學(xué)習(xí)。(3)函數(shù)學(xué)習(xí):學(xué)習(xí)的目標和結(jié)果為函數(shù),或者說是獲得函數(shù)的學(xué)習(xí)。典型的有神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)。5.2.4機器學(xué)習(xí)的其他分類(4)類別學(xué)習(xí):學(xué)習(xí)目標和結(jié)果為對象類,或者說是獲得類別的學(xué)習(xí)。典型的有聚類分析。(5)貝葉斯網(wǎng)絡(luò)學(xué)習(xí):學(xué)習(xí)目標和結(jié)果是貝葉斯網(wǎng)絡(luò),或者說是獲得貝葉斯網(wǎng)絡(luò)的一種學(xué)習(xí)。其又可分為結(jié)構(gòu)學(xué)習(xí)和多數(shù)學(xué)習(xí)。5.2.4機器學(xué)習(xí)的其他分類PART03機器學(xué)習(xí)的基本結(jié)構(gòu)機器學(xué)習(xí)的基本流程是:數(shù)據(jù)預(yù)處理—>模型學(xué)習(xí)—>模型評估—>新樣本預(yù)測。機器學(xué)習(xí)與人腦思考過程的對比如右圖所示。5.3機器學(xué)習(xí)的基本結(jié)構(gòu)在學(xué)習(xí)系統(tǒng)的基本結(jié)構(gòu)中,環(huán)境向系統(tǒng)的學(xué)習(xí)部分提供某些信息,學(xué)習(xí)部分利用這些信息修改知識庫,以增進系統(tǒng)執(zhí)行部分完成任務(wù)的效能,執(zhí)行部分根據(jù)知識庫完成任務(wù),同時把獲得的信息反饋給學(xué)習(xí)部分。在具體的應(yīng)用中,環(huán)境、知識庫和執(zhí)行部分決定了工作內(nèi)容,確定了學(xué)習(xí)部分所需要解決的問題。5.3機器學(xué)習(xí)的基本結(jié)構(gòu)(1)環(huán)境。向系統(tǒng)提供信息,更具體地說,信息的質(zhì)量是影響學(xué)習(xí)系統(tǒng)設(shè)計的最重要的因素。知識庫里存放的是指導(dǎo)執(zhí)行部分動作的一般原則,但環(huán)境向?qū)W習(xí)系統(tǒng)提供的信息卻是各種各樣的。如果信息的質(zhì)量比較高,與一般原則的差別比較小,則學(xué)習(xí)部分比較容易處理。如果向?qū)W習(xí)系統(tǒng)提供的是雜亂無章的指導(dǎo)執(zhí)行具體動作的具體信息,則學(xué)習(xí)系統(tǒng)需要在獲得足夠數(shù)據(jù)之后,刪除不必要的細節(jié),進行總結(jié)推廣,形成指導(dǎo)動作的一般原則,放入知識庫,這樣學(xué)習(xí)部分的任務(wù)就比較繁重,設(shè)計起來也較為困難。5.3機器學(xué)習(xí)的基本結(jié)構(gòu)因為學(xué)習(xí)系統(tǒng)獲得的信息往往是不完全的,所以學(xué)習(xí)系統(tǒng)所進行的推理并不完全是可靠的,它總結(jié)出來的規(guī)則可能正確,也可能不正確,這要通過執(zhí)行效果加以檢驗。正確的規(guī)則能使系統(tǒng)的效能提高,應(yīng)予保留;不正確的規(guī)則應(yīng)予修改或從數(shù)據(jù)庫中刪除。5.3機器學(xué)習(xí)的基本結(jié)構(gòu)(2)知識庫。這是影響學(xué)習(xí)系統(tǒng)設(shè)計的第二個因素。知識的表示有多種形式,比如特征向量、一階邏輯語句、產(chǎn)生式規(guī)則、語義網(wǎng)絡(luò)和框架等等。這些表示方式各有其特點,在選擇表示方式時要兼顧以下4個方面:·表達能力強?!ひ子谕评??!と菀仔薷闹R庫?!ぶR表示易于擴展。5.3機器學(xué)習(xí)的基本結(jié)構(gòu)學(xué)習(xí)系統(tǒng)不能在沒有任何知識的情況下憑空獲取知識,每一個學(xué)習(xí)系統(tǒng)都要求具有某些知識理解環(huán)境提供的信息,分析比較,做出假設(shè),檢驗并修改這些假設(shè)。因此,更確切地說,學(xué)習(xí)系統(tǒng)是對現(xiàn)有知識的擴展和改進。(3)執(zhí)行部分。是整個學(xué)習(xí)系統(tǒng)的核心,因為執(zhí)行部分的動作就是學(xué)習(xí)部分力求改進的動作。同執(zhí)行部分有關(guān)的問題有3個:復(fù)雜性、反饋和透明性。5.3機器學(xué)習(xí)的基本結(jié)構(gòu)PART04機器學(xué)習(xí)算法學(xué)習(xí)是一項復(fù)雜的智能活動,學(xué)習(xí)過程與推理過程是緊密相連的。學(xué)習(xí)中所用的推理越多,系統(tǒng)的能力越強。要完全理解大多數(shù)機器學(xué)習(xí)算法,需要對一些關(guān)鍵的數(shù)學(xué)概念有一個基本的理解,這些概念包括線性代數(shù)、微積分、概率和統(tǒng)計知識。圖5-8機器學(xué)習(xí)所需的數(shù)學(xué)主題的重要性5.4機器學(xué)習(xí)算法·線性代數(shù)概念包括:矩陣運算、特征值/特征向量、向量空間和范數(shù)?!の⒎e分概念包括:偏導(dǎo)數(shù)、向量-值函數(shù)、方向梯度?!そy(tǒng)計概念包括:貝葉斯定理、組合學(xué)、抽樣方法。5.4機器學(xué)習(xí)算法機器學(xué)習(xí)專注于讓人工智能具備學(xué)習(xí)任務(wù)的能力,使人工智能能夠使用數(shù)據(jù)來教自己。程序員是通過機器學(xué)習(xí)算法來實現(xiàn)這一目標的。這些算法是人工智能學(xué)習(xí)行為所基于的模型。算法與訓(xùn)練數(shù)據(jù)集一起使人工智能能夠?qū)W習(xí)。例如,學(xué)習(xí)如何識別貓與狗的照片。人工智能將算法設(shè)置的模型應(yīng)用于包含貓和狗圖像的數(shù)據(jù)集。隨著時間的推移,人工智能將學(xué)習(xí)如何更準確,更輕松地識別狗與貓而無需人工輸入。5.4.1專注于學(xué)習(xí)能力1.算法的特征與要素算法能夠?qū)σ欢ㄒ?guī)范的輸入,在有限時間內(nèi)獲得所要求的輸出。如果一個算法有缺陷,或者不適合于某個問題,執(zhí)行這個算法就不會解決這個問題。不同的算法可能用不同的時間、空間或效率來完成同樣的任務(wù)。5.4.1專注于學(xué)習(xí)能力一個算法應(yīng)該具有以下五個重要特征:(1)有窮性。是指算法必須能在執(zhí)行有限個步驟之后終止。(2)確切性。算法的每一步驟必須有確切的定義。(3)輸入項。一個算法有0個或多個輸入,以刻畫運算對象的初始情況,所謂0個輸入是指算法本身給出了初始條件。(4)輸出項。一個算法有一個或多個輸出,以反映對輸入數(shù)據(jù)加工后的結(jié)果。沒有輸出的算法是毫無意義的。(5)可行性。算法中執(zhí)行的任何計算步驟都可以被分解為基本的可執(zhí)行的操作步,即每個計算步都可以在有限時間內(nèi)完成(也稱為有效性)。5.4.1專注于學(xué)習(xí)能力算法的要素主要是:(1)數(shù)據(jù)對象的運算和操作:計算機可以執(zhí)行的基本操作是以指令的形式描述的。一個計算機系統(tǒng)能執(zhí)行的所有指令的集合,成為該計算機系統(tǒng)的指令系統(tǒng)。一個計算機的基本運算和操作有如下四類:①算術(shù)運算:加、減、乘、除運算。②邏輯運算:或、且、非運算。③關(guān)系運算:大于、小于、等于、不等于運算。④數(shù)據(jù)傳輸:輸入、輸出、賦值運算。5.4.1專注于學(xué)習(xí)能力(2)算法的控制結(jié)構(gòu):一個算法的功能結(jié)構(gòu)不僅取決于所選用的操作,而且還與各操作之間的執(zhí)行順序有關(guān)。5.4.1專注于學(xué)習(xí)能力2.算法的評定同一問題可用不同算法解決,而算法的質(zhì)量優(yōu)劣將影響到算法乃至程序的效率。算法分析的目的在于選擇合適算法和改進算法。算法評價主要從時間復(fù)雜度和空間復(fù)雜度來考慮:(1)時間復(fù)雜度。是指執(zhí)行算法所需要的計算工作量。一般來說,計算機算法是問題規(guī)模的正相關(guān)函數(shù)。5.4.1專注于學(xué)習(xí)能力(2)空間復(fù)雜度。是指算法需要消耗的內(nèi)存空間。其計算和表示方法與時間復(fù)雜度類似,一般都用復(fù)雜度的漸近性來表示。同時間復(fù)雜度相比,空間復(fù)雜度的分析要簡單得多。(3)正確性。是評價一個算法優(yōu)劣的最重要的標準。(4)可讀性。是指一個算法可供人們閱讀的容易程度。(5)健壯性。是指一個算法對不合理數(shù)據(jù)輸入的反應(yīng)能力和處理能力,也稱為容錯性。5.4.1專注于學(xué)習(xí)能力回歸分析是一種建模和分析數(shù)據(jù)的預(yù)測性的建模技重要工具術(shù),它研究的是因變量(目標)和自變量(預(yù)測器)之間的關(guān)系,通常用于預(yù)測分析、時間序列模型以及發(fā)現(xiàn)變量之間的因果關(guān)系,我們使用曲線/線來擬合這些數(shù)據(jù)點,在這種方式下,從曲線或線到數(shù)據(jù)點的距離差異最小。
圖5-9回歸分析的曲線擬合5.4.2回歸算法例如,司機的魯莽駕駛與道路交通事故數(shù)量之間的關(guān)系,最好的研究方法就是回歸?;貧w分析是建模和分析數(shù)據(jù)的重要工具?;貧w分析主要有線性回歸、邏輯回歸、多項式回歸、逐步回歸、嶺回歸、套索回歸、彈性網(wǎng)絡(luò)回歸等七種最常用的回歸技術(shù)。比如說,在當(dāng)前的經(jīng)濟條件下,我們要估計一家公司的銷售額增長情況?,F(xiàn)在,你有公司最新的數(shù)據(jù),這些數(shù)據(jù)顯示出銷售額增長大約是經(jīng)濟增長的2.5倍。那么使用回歸分析,我們就可以根據(jù)當(dāng)前和過去的信息來預(yù)測未來公司的銷售情況。5.4.2回歸算法使用回歸分析的好處良多。具體如下:(1)它表明自變量和因變量之間的顯著關(guān)系;(2)它表明多個自變量對一個因變量的影響強度。回歸分析也允許我們?nèi)ケ容^那些衡量不同尺度的變量之間的相互影響,如價格變動與促銷活動數(shù)量之間聯(lián)系。這些有利于幫助市場研究人員,數(shù)據(jù)分析人員以及數(shù)據(jù)科學(xué)家排除并估計出一組最佳的變量,用來構(gòu)建預(yù)測模型。5.4.2回歸算法K-近鄰算法(K-NearestNeighbor,KNN)算法是最著名的基于實例的算法,是機器學(xué)習(xí)中最基礎(chǔ)和簡單的算法之一,它既能用于分類,也能用于回歸。KNN算法有一個十分特別的地方:沒有一個顯示的學(xué)習(xí)過程,工作原理是利用訓(xùn)練數(shù)據(jù)對特征向量空間進行劃分,并將其劃分的結(jié)果作為其最終的算法模型。即基于實例的分析使用提供數(shù)據(jù)的特定實例來預(yù)測結(jié)果。KNN用于分類,比較數(shù)據(jù)點的距離,并將每個點分配給它最接近的組。5.4.3K-近鄰算法決策樹算法將一組“弱”學(xué)習(xí)器集合在一起,形成一種強算法,這些學(xué)習(xí)器組織在樹狀結(jié)構(gòu)中相互分支,將輸入空間分成不同的區(qū)域,每個區(qū)域有獨立參數(shù)的算法。決策樹算法充分利用了樹形模型,根節(jié)點到一個葉子節(jié)點是一條分類的路徑規(guī)則,每個葉子節(jié)點象征一個判斷類別。先將樣本分成不同的子集,再進行分割遞推,直至每個子集得到同類型的樣本,從根節(jié)點開始測試,到子樹再到葉子節(jié)點,即可得出預(yù)測類別。此方法的特點是結(jié)構(gòu)簡單、處理數(shù)據(jù)效率較高。5.4.4決策樹算法在圖5-10所示的例子中,我們可以發(fā)現(xiàn)許多共同的特征(就像眼睛是藍的或者不是藍色的),它們都不足以單獨識別動物。然而,當(dāng)我們把所有這些觀察結(jié)合在一起時,我們就能形成一個更完整的畫面,并做出更準確的預(yù)測。
圖5-10決策樹算法5.4.4決策樹算法一種流行的決策樹算法是隨機森林算法。在該算法中,弱學(xué)習(xí)器是隨機選擇的,通過學(xué)習(xí)往往可以獲得一個強預(yù)測器??刂茢?shù)據(jù)樹生成的方式有多種,根據(jù)前人的經(jīng)驗,大多數(shù)時候更傾向選擇分裂屬性和剪枝,但這并不能解決所有問題,偶爾會遇到噪聲或分裂屬性過多的問題?;谶@種情況,總結(jié)每次的結(jié)果可以得到數(shù)據(jù)的估計誤差,將它和測試樣本的估計誤差相結(jié)合可以評估組合樹學(xué)習(xí)器的擬合及預(yù)測精度。此方法的優(yōu)點有很多,可以產(chǎn)生高精度的分類器,并能夠處理大量的變數(shù),也可以平衡分類資料集之間的誤差。5.4.4決策樹算法樸素貝葉斯經(jīng)常用于文本分析算法,是一種由一系列算法組成的分類算法,各種算法有一個共同的原則,即被分類的每個特征都與任何其他特征的值無關(guān),這些“特征”中的每一個都獨立地貢獻概率,而不管特征之間的任何相關(guān)性。然而,特征并不總是獨立的,這通常被視為樸素貝葉斯算法的缺點。簡而言之,樸素貝葉斯算法允許使用概率給出一組特征來預(yù)測一個類。與其他常見的分類方法相比,樸素貝葉斯算法需要的訓(xùn)練很少。5.4.5貝葉斯算法在進行預(yù)測之前必須完成的唯一工作是找到特征的個體概率分布的參數(shù),這通??梢钥焖偾掖_定地完成。這意味著即使對于高維數(shù)據(jù)點或大量數(shù)據(jù)點,樸素貝葉斯分類器也可以表現(xiàn)良好。例如,大多數(shù)垃圾郵件過濾器使用貝葉斯算法,它們使用用戶輸入的類標記數(shù)據(jù)來比較新數(shù)據(jù)并對其進行適當(dāng)分類。5.4.5貝葉斯算法聚類算法的重點是發(fā)現(xiàn)元素之間的共性并對它們進行相應(yīng)的分組,常用的聚類算法是k均值聚類算法。在k均值中,分析人員選擇簇數(shù)(以變量k表示),并根據(jù)物理距離將元素分組為適當(dāng)?shù)木垲悺?.4.6聚類算法支持向量機是統(tǒng)計學(xué)習(xí)領(lǐng)域中一個代表性算法,但它與傳統(tǒng)方式的思維方法很不同,輸入空間、提高維度從而將問題簡短化,使問題歸結(jié)為線性可分的經(jīng)典解問題?;舅枷胧牵菏紫龋靡环N變換將空間高維化,當(dāng)然這種變換是非線性的,然后,在新的復(fù)雜空間取最優(yōu)線性分類表面。由此種方式獲得的分類函數(shù)在形式上類似于神經(jīng)網(wǎng)絡(luò)算法。支持向量機應(yīng)用于垃圾郵件識別,人臉識別等多種分類問題。5.4.7支持向量機算法人工神經(jīng)網(wǎng)絡(luò)與神經(jīng)元組成的異常復(fù)雜的網(wǎng)絡(luò)大體相似,是個體單元互相連接而成,每個單元有數(shù)值量的輸入和輸出,形式可以為實數(shù)或線性組合函數(shù)。它先要以一種學(xué)習(xí)準則去學(xué)習(xí),然后才能進行工作。當(dāng)網(wǎng)絡(luò)判斷錯誤時,通過學(xué)習(xí)使其減少犯同樣錯誤的可能性。此方法有很強的泛化能力和非線性映射能力,可以對信息量少的系統(tǒng)進行模型處理。從功能模擬角度看具有并行性,且傳遞信息速度極快。圖5-11神經(jīng)網(wǎng)絡(luò)算法5.4.8神經(jīng)網(wǎng)絡(luò)算法深度學(xué)習(xí)采用神經(jīng)網(wǎng)絡(luò)模型并對其進行更新。它們是大、且極其復(fù)雜的神經(jīng)網(wǎng)絡(luò),使用少量的標記數(shù)據(jù)和更多的未標記數(shù)據(jù)。神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)有許多輸入,它們經(jīng)過幾個隱藏層后才產(chǎn)生一個或多個輸出。這些連接形成一個特定的循環(huán),模仿人腦處理信息和建立邏輯連接的方式。此外,隨著算法的運行,隱藏層往往變得更小、更細微。一旦選定了算法,還有一個非常重要的步驟,就是可視化和交流結(jié)果。雖然與算法編程的細節(jié)相比,這看起來比較簡單,但是,如果沒有人能夠理解,那么驚人的洞察力又有什么用呢?5.4.8神經(jīng)網(wǎng)絡(luò)算法梯度增強(Boosting)算法是一種通用的增強基礎(chǔ)算法性能的回歸分析算法。不需構(gòu)造一個高精度的回歸分析,只需一個粗糙的基礎(chǔ)算法即可,再反復(fù)調(diào)整基礎(chǔ)算法就可以得到較好的組合回歸模型。它可以將弱學(xué)習(xí)算法提高為強學(xué)習(xí)算法,可以應(yīng)用到其它基礎(chǔ)回歸算法,如線性回歸、神經(jīng)網(wǎng)絡(luò)等,來提高精度。Bagging(裝袋)和前一種算法大體相似但又略有差別,主要想法是給出已知的弱學(xué)習(xí)算法和訓(xùn)練集,它需要經(jīng)過多輪計算,才可以得到預(yù)測函數(shù)列,最后采用投票方式對示例進行判別。5.4.9梯度增強算法關(guān)聯(lián)規(guī)則是用規(guī)則去描述兩個變量或多個變量之間的關(guān)系,是客觀反映數(shù)據(jù)本身性質(zhì)的方法。它是機器學(xué)習(xí)的一大類任務(wù),可分為兩個階段,先從資料集中找到高頻項目組,再去研究它們的關(guān)聯(lián)規(guī)則。其得到的分析結(jié)果即是對變量間規(guī)律的總結(jié)。5.4.10關(guān)聯(lián)規(guī)則算法在進行機器學(xué)習(xí)的過程中需要用到極大似然估計等參數(shù)估計方法,在有潛在變量的情況下,通常選擇EM(Expectation-Maximum,期望最大化)算法,不直接對函數(shù)對象進行極大估計,而是添加一些數(shù)據(jù)進行簡化計算,再進行極大化模擬。它是對本身受限制或比較難直接處理的數(shù)據(jù)的極大似然估計算法。5.4.11EM(期望最大化)算法EM算法是最常見的隱變量估計方法,在機器學(xué)習(xí)中有極為廣泛的用途。EM算法是一種迭代優(yōu)化策略,它的計算方法中每一次迭代都分兩步,一個為期望步(E步),另一個為極大步(M步)。EM算法最初是為了解決數(shù)據(jù)缺失情況下的參數(shù)估計問題,其基本思想是:首先根據(jù)己經(jīng)給出的觀測數(shù)據(jù)估計出模型參數(shù)值;然后依據(jù)上一步的參數(shù)值估計缺失數(shù)據(jù)值,再將缺失數(shù)據(jù)加上之前觀測到的數(shù)據(jù)重新再對參數(shù)值進行估計,反復(fù)迭代,直至最后收斂,迭代結(jié)束。5.4.11EM(期望最大化)算法PART05機器學(xué)習(xí)的應(yīng)用機械學(xué)習(xí)的主要目的是為了從使用者和輸入數(shù)據(jù)等處獲得知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。從而可以減少錯誤,幫助解決更多問題,提高解決問題的效率。例如,機器翻譯中最重要的過程是學(xué)習(xí)人類怎樣翻譯語言,程序通過閱讀大量翻譯內(nèi)容來實現(xiàn)對語言的理解。5.5機器學(xué)習(xí)的應(yīng)用以漢語VS日語來舉例,機器學(xué)習(xí)的原理很簡單,當(dāng)一個相同的詞語在幾個句子中出現(xiàn)時,只要通過對比日語版本翻譯中同樣在每個句子中都出現(xiàn)的短語便可知道它的日語翻譯是什么,按照這種方式不難推測:
(1)“產(chǎn)品經(jīng)理”一詞的日語可翻譯為“マネージャー”;(2)“經(jīng)理”則一般翻譯為“社長”。圖5-12漢語VS日語5.5機器學(xué)習(xí)的應(yīng)用機器學(xué)習(xí)在識別詞匯時可以不追求完全匹配,只要匹配達到一定比例便可認為這是一種可能的翻譯方式。機器學(xué)習(xí)應(yīng)用廣泛,無論是在軍事領(lǐng)域還是民用領(lǐng)域,都有機器學(xué)習(xí)算法施展的機會,主要包括以下幾個方面。5.5機器學(xué)習(xí)的應(yīng)用“數(shù)據(jù)挖掘”和“數(shù)據(jù)分析”通常被相提并論,并在許多場合被認為是可以相互替代的術(shù)語。無論是數(shù)據(jù)分析還是數(shù)據(jù)挖掘,都是“識別出巨量數(shù)據(jù)中有效的、新穎的、潛在有用的、最終可理解的、模式的非平凡過程”,幫助人們收集、分析數(shù)據(jù),使之成為信息并做出判斷,因此,可以將這兩項合稱為數(shù)據(jù)分析與挖掘。數(shù)據(jù)分析與挖掘技術(shù)是機器學(xué)習(xí)算法和數(shù)據(jù)存取技術(shù)的結(jié)合,利用機器學(xué)習(xí)提供的統(tǒng)計分析、知識發(fā)現(xiàn)等手段分析海量數(shù)據(jù),同時利用數(shù)據(jù)存取機制實現(xiàn)數(shù)據(jù)的高效讀寫。機器學(xué)習(xí)在數(shù)據(jù)分析與挖掘領(lǐng)域中擁有無可取代的地位。5.5.1數(shù)據(jù)分析與挖掘模式識別起源于工程領(lǐng)域,而機器學(xué)習(xí)起源于計算機科學(xué),這兩個不同學(xué)科的結(jié)合帶來了模式識別領(lǐng)域的調(diào)整和發(fā)展。模式識別研究主要集中在兩個方面。(1)研究生物體(包括人)是如何感知對象的,屬于認識科學(xué)的范疇。(2)在給定的任務(wù)下,如何用計算機實現(xiàn)模式識別的理論和方法,這些是機器學(xué)習(xí)的長項,也是機器學(xué)習(xí)研究的內(nèi)容之一。5.5.2模式識別模式識別的應(yīng)用領(lǐng)域廣泛,包括
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年勞務(wù)施工總承包合同
- 信息通信業(yè)務(wù)經(jīng)營許可證咨詢協(xié)議文本
- 天津市2024年離婚協(xié)議書樣本
- 出租車股權(quán)轉(zhuǎn)讓合同范本
- 深圳市勞動合同范本
- 工程分包個人合同模板
- 教學(xué)研究中心項目合作協(xié)議模板
- 房屋裝潢施工合同范本
- 2024年商業(yè)公司鋼筋購銷合同
- 代理其他商業(yè)銀行辦理全國銀行匯票業(yè)務(wù)協(xié)議-合同范本
- 讀后續(xù)寫個人成長類+My+mother's+gift+講義 高考英語作文復(fù)習(xí)專項
- 長新冠與呼吸道感染的后遺癥
- 浙江省寧波市慈溪市掌起初級中學(xué)2023-2024學(xué)年八年級上學(xué)期期中科學(xué)試卷
- 銀行授權(quán)管理制度
- 【語文】湖北省武漢市洪山區(qū)魯巷小學(xué)小學(xué)四年級上冊期中試卷
- 水泵拆裝檢修操作評分標準
- 排污泵、臥式泵、立式污水泵、不銹鋼排污泵、潛水式排污泵
- 招標代理機構(gòu)入圍服務(wù) 投標方案(技術(shù)標)
- 科學(xué)四年級上冊(冀人版2023)期中 實驗題專題訓(xùn)練(含解析)
- 試產(chǎn)到量產(chǎn)項目轉(zhuǎn)移清單
- 部編版三年級語文上冊全冊表格式教案(教學(xué)設(shè)計)
評論
0/150
提交評論