第7章機(jī)器學(xué)習(xí)

上傳人：秋*** IP屬地：陜西上傳時(shí)間：2024-12-25 格式：PPTX 頁數(shù)：55 大?。?.47MB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩50頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

人工智能技術(shù)篇機(jī)器學(xué)習(xí)第七章本章導(dǎo)讀隨著計(jì)算機(jī)性能的大幅提升和可用數(shù)據(jù)量的不斷增加，機(jī)器學(xué)習(xí)得到了飛速的發(fā)展。它利用計(jì)算機(jī)對大量的數(shù)據(jù)進(jìn)行分析，并從中獲取有用的信息，使機(jī)器具有一定的智能。近些年來，機(jī)器學(xué)習(xí)在眾多領(lǐng)域都得到了廣泛的應(yīng)用。本章從機(jī)器學(xué)習(xí)的概念入手，先介紹機(jī)器學(xué)習(xí)的相關(guān)術(shù)語、分類和應(yīng)用場景，然后詳細(xì)介紹機(jī)器學(xué)習(xí)的兩種學(xué)習(xí)方法，即有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。學(xué)習(xí)目標(biāo)

熟悉機(jī)器學(xué)習(xí)的概念、相關(guān)術(shù)語、分類和應(yīng)用場景。理解有監(jiān)督學(xué)習(xí)模型。掌握分類任務(wù)和回歸任務(wù)的基本思想和實(shí)現(xiàn)方法。理解無監(jiān)督學(xué)習(xí)模型。掌握聚類任務(wù)的基本思想和實(shí)現(xiàn)方法。目錄

4機(jī)器學(xué)習(xí)概述有監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)010203機(jī)器學(xué)習(xí)概述01人工智能的概念7.1.1機(jī)器學(xué)習(xí)（machinelearning）是通過各種算法從數(shù)據(jù)中學(xué)習(xí)如何完成任務(wù)，并獲得完成任務(wù)方法的一門學(xué)科。它可以對數(shù)據(jù)進(jìn)行自動(dòng)分析，并從中獲得規(guī)律或模型，然后利用規(guī)律或模型對未知數(shù)據(jù)進(jìn)行預(yù)測。它是人工智能的核心，是使計(jì)算機(jī)具有智能的重要途徑。目前，機(jī)器學(xué)習(xí)還沒有一個(gè)公認(rèn)且準(zhǔn)確的定義，下面列舉了部分學(xué)者對機(jī)器學(xué)習(xí)的描述。（1）機(jī)器學(xué)習(xí)是研究如何用機(jī)器模擬人類學(xué)習(xí)活動(dòng)的一門學(xué)科。（2）機(jī)器學(xué)習(xí)是研究機(jī)器如何獲取新知識(shí)和新技能，并識(shí)別現(xiàn)有知識(shí)的學(xué)科。（3）機(jī)器學(xué)習(xí)是研究機(jī)器如何模擬人類的學(xué)習(xí)活動(dòng)，自主獲取新知識(shí)和新技能，不斷提升系統(tǒng)性能的學(xué)科。機(jī)器學(xué)習(xí)的基本思路就是使用一定的算法解析訓(xùn)練數(shù)據(jù)（進(jìn)行模型訓(xùn)練）；然后學(xué)習(xí)數(shù)據(jù)中存在的一些特征，得到模型；最后使用得到的模型對實(shí)際問題做出分類、決策或預(yù)測等。機(jī)器學(xué)習(xí)的研究對象是數(shù)據(jù)，其中，具有相似結(jié)構(gòu)的數(shù)據(jù)樣本集合稱為數(shù)據(jù)集；對某個(gè)對象的描述稱為樣本或示例；對象的某方面表現(xiàn)稱為特征或?qū)傩?；特征或?qū)傩陨系娜≈捣Q為特征值或?qū)傩灾?；描述樣本特征參?shù)的個(gè)數(shù)稱為維數(shù)。以計(jì)算機(jī)識(shí)別圖像中的動(dòng)物是否是貓為例，其中數(shù)據(jù)集、樣本、特征、特征值如圖所示。機(jī)器學(xué)習(xí)的相關(guān)術(shù)語7.1.2術(shù)語標(biāo)記在機(jī)器學(xué)習(xí)中，執(zhí)行某個(gè)學(xué)習(xí)算法，從數(shù)據(jù)中學(xué)習(xí)得到模型的過程稱為訓(xùn)練或?qū)W習(xí)；訓(xùn)練過程中使用的數(shù)據(jù)稱為訓(xùn)練數(shù)據(jù)；每個(gè)樣本稱為訓(xùn)練樣本；訓(xùn)練樣本組成的集合稱為訓(xùn)練集。為得到效果最佳的模型，常用來調(diào)整模型參數(shù)的樣本稱為驗(yàn)證樣本；驗(yàn)證樣本組成的集合稱為驗(yàn)證集。獲得模型后，使用模型對未知數(shù)據(jù)進(jìn)行預(yù)測的過程稱為測試；用于預(yù)測的樣本稱為測試樣本；測試樣本組成的集合稱為測試集，可用于評(píng)價(jià)模型的性能。模型適用于新樣本的能力，稱為泛化能力。

從不同的角度，根據(jù)不同的方式，可以將機(jī)器學(xué)習(xí)劃分為不同的類別，如右表所示。機(jī)器學(xué)習(xí)的分類有很多種，其中，有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)中常用且易懂的方法，本章將詳細(xì)介紹這兩種機(jī)器學(xué)習(xí)方法。機(jī)器學(xué)習(xí)的分類7.1.3機(jī)器學(xué)習(xí)的分類分類方式分類描述按學(xué)習(xí)

形式分類有監(jiān)督學(xué)習(xí)從含有標(biāo)簽的數(shù)據(jù)集中推出一個(gè)功能的學(xué)習(xí)方法無監(jiān)督學(xué)習(xí)從不含標(biāo)簽的數(shù)據(jù)集中推出一個(gè)功能的學(xué)習(xí)方法半監(jiān)督學(xué)習(xí)綜合利用有標(biāo)簽的數(shù)據(jù)和無標(biāo)簽的數(shù)據(jù)，生成合適的函數(shù)強(qiáng)化學(xué)習(xí)以環(huán)境反饋（獎(jiǎng)懲信號(hào)）作為輸入，以統(tǒng)計(jì)和動(dòng)態(tài)規(guī)劃技術(shù)為指導(dǎo)的一種學(xué)習(xí)方法按學(xué)習(xí)

目標(biāo)分類概念學(xué)習(xí)學(xué)習(xí)的目標(biāo)和結(jié)果為概念，典型的概念學(xué)習(xí)有示例學(xué)習(xí)規(guī)則學(xué)習(xí)學(xué)習(xí)的目標(biāo)和結(jié)果為規(guī)則，典型的規(guī)則學(xué)習(xí)有決策樹學(xué)習(xí)函數(shù)學(xué)習(xí)學(xué)習(xí)的目標(biāo)和結(jié)果為函數(shù)，典型的函數(shù)學(xué)習(xí)有神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)類別學(xué)習(xí)學(xué)習(xí)的目標(biāo)和結(jié)果為對象類別，典型的類別學(xué)習(xí)有聚類分析按學(xué)習(xí)

方法分類機(jī)械式學(xué)習(xí)通過直接記憶或外部提供的信息達(dá)到學(xué)習(xí)的目的指導(dǎo)式學(xué)習(xí)由外部環(huán)境向系統(tǒng)提供指示或建議示例學(xué)習(xí)通過從環(huán)境中獲取若干與某知識(shí)有關(guān)的例子，經(jīng)歸納得到一般性知識(shí)類比學(xué)習(xí)把兩個(gè)事物進(jìn)行比較，找出它們在某一抽象層上的相似關(guān)系，并以這種關(guān)系為依據(jù)，把某一事物的有關(guān)知識(shí)加以適當(dāng)整理，然后對應(yīng)到另一事物，從而獲得求解另一事物的知識(shí)解釋學(xué)習(xí)在領(lǐng)域知識(shí)指導(dǎo)下，通過對單個(gè)問題求解實(shí)例的分析，構(gòu)造出求解過程的因果解釋結(jié)構(gòu)，并獲取控制知識(shí)，便于指導(dǎo)以后求解類似問題按推理

方式分類基于演繹的學(xué)習(xí)以演繹推理為基礎(chǔ)的學(xué)習(xí)基于歸納的學(xué)習(xí)以歸納推理為基礎(chǔ)的學(xué)習(xí)

機(jī)器學(xué)習(xí)中處理的數(shù)據(jù)主要包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)是指用二維表結(jié)構(gòu)表達(dá)的數(shù)據(jù)，有嚴(yán)格定義的數(shù)據(jù)模型，主要通過關(guān)系型數(shù)據(jù)庫存儲(chǔ)和管理，如政府行政審批、財(cái)務(wù)、醫(yī)療、企業(yè)ERP等系統(tǒng)中的數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)是指數(shù)據(jù)結(jié)構(gòu)不完整或不規(guī)則，沒有預(yù)定義的數(shù)據(jù)模型，如文本、語音、圖像和視頻等。在人們?nèi)粘Ｉ钪校佑|的數(shù)據(jù)以非結(jié)構(gòu)化數(shù)據(jù)為主。針對不同的非結(jié)構(gòu)化數(shù)據(jù)，機(jī)器學(xué)習(xí)的不同應(yīng)用場景如表所示。機(jī)器學(xué)習(xí)的應(yīng)用場景7.1.4機(jī)器學(xué)習(xí)的應(yīng)用場景數(shù)據(jù)類型應(yīng)用場景描述舉例文本數(shù)據(jù)垃圾郵件檢測根據(jù)郵箱中的郵件識(shí)別垃圾郵件和非垃圾郵件網(wǎng)易郵箱中自動(dòng)分類垃圾郵件信用卡欺詐檢測根據(jù)用戶的信用卡交易記錄，識(shí)別用戶操作的交易和非用戶操作的交易，可以找到欺詐交易銀行對用戶的交易檢測機(jī)制電子商務(wù)決策根據(jù)用戶的購物清單或收藏記錄，識(shí)別用戶感興趣的商品，為用戶推薦這些商品促進(jìn)消費(fèi)淘寶網(wǎng)根據(jù)用戶的瀏覽記錄推薦類似的商品語音數(shù)據(jù)語音識(shí)別機(jī)器通過識(shí)別和理解將語音轉(zhuǎn)化為相應(yīng)的文本或操作百度地圖可以通過語音輸入目的地語音合成通過機(jī)械或電子的方法產(chǎn)生人造語音的技術(shù)，即將外部輸入的文字轉(zhuǎn)化為語音輸出知乎中的文章閱讀功能語音交互通過語音進(jìn)行相互交流語音助手，如iPhone手機(jī)推出的Siri機(jī)器翻譯利用機(jī)器將某一種自然語言（源語言）翻譯為另一種自然語言（目標(biāo)語言），如將漢語翻譯為英語有道詞典等翻譯軟件聲紋識(shí)別將聲音信號(hào)轉(zhuǎn)換為電信號(hào)，再利用計(jì)算機(jī)進(jìn)行識(shí)別公安聲紋鑒定技術(shù)數(shù)據(jù)類型應(yīng)用場景描述舉例圖像數(shù)據(jù)文字識(shí)別利用計(jì)算機(jī)自動(dòng)識(shí)別圖像上的字符銀行App通過拍攝身份證圖像識(shí)別個(gè)人身份信息指紋識(shí)別通過比對指紋的細(xì)節(jié)特征識(shí)別個(gè)人身份信息手機(jī)的指紋解鎖功能人臉識(shí)別通過人臉部特征信息進(jìn)行身份識(shí)別人臉支付形狀識(shí)別根據(jù)已知的形狀資料庫判斷用戶手繪的圖形形狀地圖制圖綜合視頻數(shù)據(jù)智能監(jiān)控跟蹤視頻中的運(yùn)動(dòng)物體熱成像人體測溫技術(shù)計(jì)算機(jī)視覺利用攝像頭和計(jì)算機(jī)模仿人類的視覺系統(tǒng)，實(shí)現(xiàn)對目標(biāo)的識(shí)別、跟蹤等汽車的自動(dòng)駕駛技術(shù)有監(jiān)督學(xué)習(xí)02有監(jiān)督學(xué)習(xí)是利用含有標(biāo)簽的數(shù)據(jù)集對學(xué)習(xí)模型進(jìn)行訓(xùn)練，然后得到預(yù)測模型，最后利用測試集對預(yù)測模型的性能進(jìn)行評(píng)估的學(xué)習(xí)方法。有監(jiān)督學(xué)習(xí)模型的一般建立流程如圖所示。有監(jiān)督學(xué)習(xí)模型的一般建立流程什么是有監(jiān)督學(xué)習(xí)7.2.1高手點(diǎn)撥在有監(jiān)督學(xué)習(xí)中，一般將數(shù)據(jù)集劃分為兩部分，一部分是訓(xùn)練數(shù)據(jù)集，也可稱為學(xué)習(xí)數(shù)據(jù)集，即訓(xùn)練樣本，占總數(shù)據(jù)集的80%以上；另一部分是測試數(shù)據(jù)集，即測試樣本，占總數(shù)據(jù)集的20%以下。訓(xùn)練數(shù)據(jù)集包含兩部分，即訓(xùn)練集和驗(yàn)證集。訓(xùn)練集主要用于估計(jì)模型；驗(yàn)證集用來確定網(wǎng)絡(luò)結(jié)構(gòu)或者確定控制模型復(fù)雜程度的參數(shù)。測試數(shù)據(jù)集主要用來評(píng)估最終預(yù)測模型的性能。由此可見，數(shù)據(jù)集也可劃分為3部分，即訓(xùn)練集、驗(yàn)證集和測試集，它們的劃分比例可設(shè)置為6∶2∶2。但需要注意的是，驗(yàn)證集并不是必須存在的。分類是通過在已有數(shù)據(jù)的基礎(chǔ)上進(jìn)行學(xué)習(xí)，推導(dǎo)出一個(gè)分類函數(shù)或構(gòu)造出一個(gè)分類模型，該函數(shù)或模型可以將待分類的數(shù)據(jù)集映射到某個(gè)給定的類別中，從而實(shí)現(xiàn)數(shù)據(jù)分類。其中，分類函數(shù)或分類模型也稱為分類器。分類任務(wù)通常用于將事物打上一個(gè)標(biāo)簽，結(jié)果為離散值。例如，判斷一幅圖上的動(dòng)物是貓還是狗。分類的最終正確結(jié)果只有一個(gè)，錯(cuò)誤的就是錯(cuò)誤的，不會(huì)有相近的概念。在機(jī)器學(xué)習(xí)領(lǐng)域中，分類任務(wù)的實(shí)現(xiàn)需要先確定一個(gè)分類函數(shù)或模型類似于數(shù)據(jù)樣本中的分界線，然后對輸入的新數(shù)據(jù)進(jìn)行預(yù)測，即根據(jù)分界線對新數(shù)據(jù)進(jìn)行分類，如圖所示。分類任務(wù)7.2.2分類任務(wù)分類任務(wù)的求解過程可簡化為以下4步。（1）數(shù)據(jù)預(yù)處理。將帶有標(biāo)簽的數(shù)據(jù)分為訓(xùn)練集和測試集，其中，訓(xùn)練集用來訓(xùn)練模型；測試集用來檢驗(yàn)?zāi)Ｐ偷姆诸愋Ч＃?）訓(xùn)練模型。利用訓(xùn)練樣本的標(biāo)簽和特征向量，通過機(jī)器學(xué)習(xí)算法尋找模型的參數(shù)，最終得到訓(xùn)練好的預(yù)測模型。（3）測試模型。利用測試樣本評(píng)估預(yù)測模型的性能，即計(jì)算模型對樣本預(yù)測的準(zhǔn)確率，選擇符合要求的預(yù)測模型。（4）應(yīng)用模型。預(yù)測模型確定好之后，可將其應(yīng)用于實(shí)際問題中，預(yù)測未知數(shù)據(jù)的所屬類別。在機(jī)器識(shí)別研究中，分類任務(wù)中常用的核心算法有K近鄰分類算法、決策樹分類算法、貝葉斯分類算法、支持向量機(jī)分類算法和人工神經(jīng)網(wǎng)絡(luò)等。下面詳細(xì)介紹K近鄰分類算法和決策樹分類算法。1．K近鄰分類算法K近鄰分類（K-nearestneighborsclassification，KNNC）算法是有成熟理論支撐的、較為簡單的經(jīng)典機(jī)器學(xué)習(xí)算法之一，且奉行“觀其友，識(shí)其人”的分類原則。

K近鄰分類算法的核心思想是從給定的訓(xùn)練樣本中尋找與測試樣本“距離”最近的k個(gè)樣本，這k個(gè)樣本中的多數(shù)屬于哪一類，則將測試樣本歸于這個(gè)類別中。這好比k個(gè)樣本為測試樣本的朋友，它的朋友中多數(shù)屬于哪一類，則它就屬于哪一類。K近鄰分類算法可用以下5步描述。（1）計(jì)算已知訓(xùn)練集中各點(diǎn)與當(dāng)前待分類點(diǎn)之間的距離。（2）按照距離遞增的順序排序。（3）選取與當(dāng)前點(diǎn)距離最小的k個(gè)點(diǎn)。（4）確定前k個(gè)點(diǎn)所在類的出現(xiàn)頻率。（5）根據(jù)分類決策規(guī)則確定分類結(jié)果。【例1】

圖中正方形和圓分別表示數(shù)據(jù)樣本的兩個(gè)類別，請判斷圖中三角形屬于哪個(gè)類別。數(shù)據(jù)樣本分布示意圖【解】（1）如果k=3，離三角形最近的3個(gè)鄰居是2個(gè)圓和1個(gè)正方形，如圖1所示。其中，圓所在的類出現(xiàn)的頻率較高，遵循少數(shù)服從多數(shù)原則，可判定待分類的三角形屬于圓所在的類。（2）如果k=9，離三角形最近的9個(gè)鄰居是4個(gè)圓和5個(gè)正方形，如圖2所示。其中，正方形所在的類出現(xiàn)的頻率較高，遵循少數(shù)服從多數(shù)原則，可判定待分類的三角形屬于正方形所在的類。圖1分類任務(wù)（k=3）圖2分類任務(wù)（k=9）學(xué)有所獲從例1中可看出，K近鄰分類算法的結(jié)果很大程度上取決于k的值，而k值的選擇需要根據(jù)數(shù)據(jù)決定。不同的k值對預(yù)測結(jié)果的影響不同。k值越小，意味著只有與輸入樣本較近的訓(xùn)練樣本才會(huì)對預(yù)測結(jié)果起作用，但容易出現(xiàn)過擬合現(xiàn)象；k值越大，意味著與輸入樣本較遠(yuǎn)的訓(xùn)練樣本也會(huì)對預(yù)測結(jié)果起作用，模型預(yù)測結(jié)果的偏差會(huì)越大，甚至出現(xiàn)欠擬合的現(xiàn)象。2．決策樹分類算法決策樹分類（decisiontreeclassification，DTC）算法是一種通過對樣本數(shù)據(jù)進(jìn)行學(xué)習(xí)，構(gòu)建一個(gè)決策樹模型，實(shí)現(xiàn)對新數(shù)據(jù)分類和預(yù)測的算法，是最直觀的分類算法。決策樹是一種樹形結(jié)構(gòu)，表示通過一系列規(guī)則對數(shù)據(jù)進(jìn)行分類的過程。決策樹由3個(gè)主要部分組成，即決策節(jié)點(diǎn)、分支和葉子節(jié)點(diǎn)。其中，決策節(jié)點(diǎn)即為非葉子節(jié)點(diǎn)，代表某個(gè)樣本數(shù)據(jù)的特征（屬性）；每個(gè)分支代表這個(gè)特征（屬性）在某個(gè)值域上的特征值（屬性值）；每個(gè)葉子節(jié)點(diǎn)代表一個(gè)類別，如圖所示。決策樹示意圖決策樹分類算法主要借助決策樹模型實(shí)現(xiàn)分類。它主要包含兩部分，即決策樹學(xué)習(xí)和決策樹分類。（1）決策樹學(xué)習(xí)的目標(biāo)是根據(jù)給定的訓(xùn)練集構(gòu)建一個(gè)決策樹模型，且該模型能夠?qū)?shí)例進(jìn)行正確的分類。決策樹學(xué)習(xí)通常包括3個(gè)步驟，即特征選擇、決策樹的生成和決策樹的剪枝。①特征選擇是指選取對訓(xùn)練集具有分類能力的特征，有利于提高決策樹的學(xué)習(xí)效率。常用的特征選擇指標(biāo)有信息增益、信息增益比、基尼系數(shù)等。②決策樹的生成是指在決策樹各個(gè)點(diǎn)上按照一定方法選擇特征，遞歸構(gòu)建決策樹。常通過計(jì)算信息增益或其他指標(biāo)，選擇最佳特征。③決策樹的剪枝是指在已生成的決策樹上減掉一些子樹或葉節(jié)點(diǎn)，從而簡化決策樹模型，緩解過擬合。常用的剪枝方法有預(yù)剪枝和后剪枝。（2）決策樹分類的目的是利用決策樹模型對實(shí)例進(jìn)行分類。下面通過例2說明如何用決策樹進(jìn)行分類?！纠?】現(xiàn)有一名貸款用戶小王，他沒有房產(chǎn)、沒有結(jié)婚、平均月收入8000元。請根據(jù)圖7-7中的決策樹預(yù)測小王是否有能力償還貸款?！窘狻竣傩⊥鯖]有房產(chǎn)，所以“是否擁有房產(chǎn)”的特征值取“否”。根據(jù)決策樹的根節(jié)點(diǎn)判斷，小王符合右邊的分支。②小王沒有結(jié)婚，所以“是否結(jié)婚”的特征值取“否”。根據(jù)決策樹的決策節(jié)點(diǎn)判斷，小王符合右邊的分支。③小王平均月收入8000元，所以“平均月收入”的特征值取“大于5000元”。根據(jù)決策樹的決策節(jié)點(diǎn)判斷，小王符合左邊的分支?？梢?，最終對貸款用戶小王是否有能力償還貸款的預(yù)測落在了“可以償還”的葉子節(jié)點(diǎn)上。因此，貸款用戶小王有能力償還貸款。（3）綜上所述，決策樹分類算法的實(shí)現(xiàn)流程可用左圖表示。①創(chuàng)建數(shù)據(jù)集。②對數(shù)據(jù)集進(jìn)行預(yù)處理，得到訓(xùn)練集、驗(yàn)證集和測試集。③計(jì)算訓(xùn)練集中所有特征的信息增益。④選擇信息增益最大的特征作為最佳分類特征。⑤構(gòu)建決策樹。⑥根據(jù)最佳分類特征分割訓(xùn)練集，并將該特征從數(shù)據(jù)列表中移除。⑦訓(xùn)練集分割后得到訓(xùn)練子集，可將其視為新的訓(xùn)練集。⑧判斷分類是否結(jié)束，若結(jié)束，得到?jīng)Q策樹，繼續(xù)⑨；否則轉(zhuǎn)向③。⑨對訓(xùn)練集進(jìn)行訓(xùn)練（學(xué)習(xí)）后得到?jīng)Q策樹。⑩利用驗(yàn)證集對決策樹進(jìn)行剪枝。決策樹分類算法實(shí)現(xiàn)流程高手點(diǎn)撥該決策樹分類算法流程中對決策樹采用的是后剪枝方法。后剪枝方法中，要求先利用訓(xùn)練集生成一棵完整的決策樹，然后利用驗(yàn)證集自底向上地對非葉子節(jié)點(diǎn)進(jìn)行考察，若將該節(jié)點(diǎn)對應(yīng)的子樹替換為葉子節(jié)點(diǎn)能使模型泛化性能提升，則將該子樹替換為葉子節(jié)點(diǎn)?；貧w是通過已有數(shù)據(jù)進(jìn)行學(xué)習(xí)，擬合出一個(gè)回歸函數(shù)或構(gòu)造出一個(gè)回歸模型，該函數(shù)或模型可以將待測試的數(shù)據(jù)集映射到某個(gè)給定的值，從而實(shí)現(xiàn)數(shù)據(jù)預(yù)測?；貧w任務(wù)通常用來預(yù)測一個(gè)值，如預(yù)測房價(jià)、預(yù)測股價(jià)等。若一個(gè)產(chǎn)品的實(shí)際價(jià)格為500元，通過回歸分析預(yù)測值為499元，則認(rèn)為這是一個(gè)比較好的回歸分析。在機(jī)器學(xué)習(xí)領(lǐng)域中，回歸任務(wù)的實(shí)現(xiàn)需要先對數(shù)據(jù)樣本點(diǎn)進(jìn)行擬合，再根據(jù)擬合出來的函數(shù)對輸入的新數(shù)據(jù)進(jìn)行輸出預(yù)測，如左圖所示?；貧w任務(wù)回歸任務(wù)7.2.3圖中，圓表示帶有標(biāo)簽的訓(xùn)練數(shù)據(jù)；回歸曲線表示經(jīng)過訓(xùn)練后獲得的回歸函數(shù)或回歸模型。若該回歸任務(wù)表示對商品價(jià)格走勢的預(yù)測（x表示年份，y表示商品價(jià)格），則由回歸函數(shù)可以預(yù)測未來某年的商品價(jià)格。學(xué)有所獲分類任務(wù)與回歸任務(wù)的聯(lián)系與區(qū)別如下。（1）聯(lián)系：它們都是有監(jiān)督學(xué)習(xí)，且用于訓(xùn)練的數(shù)據(jù)集都有標(biāo)簽。（2）區(qū)別：它們預(yù)測結(jié)果的數(shù)據(jù)類型不同。分類任務(wù)預(yù)測的是一個(gè)類別標(biāo)簽，屬于離散型數(shù)據(jù)；回歸任務(wù)預(yù)測的是一個(gè)值，屬于連續(xù)型數(shù)據(jù)。例如，“預(yù)測明天天氣是陰、晴還是雨”是一個(gè)分類任務(wù)；“預(yù)測明天的氣溫是多少度”是一個(gè)回歸任務(wù)?；貧w任務(wù)中常用的核心算法有K近鄰回歸算法、決策樹回歸算法、貝葉斯回歸算法、支持向量機(jī)回歸算法和人工神經(jīng)網(wǎng)絡(luò)等。下面詳細(xì)介紹K近鄰回歸算法和決策樹回歸算法。1．K近鄰回歸算法K近鄰思想不僅可應(yīng)用于分類任務(wù)，還可應(yīng)用于回歸任務(wù)。K近鄰回歸（K-nearestneighborsregression，KNNR）算法的核心思想是找出一個(gè)樣本的k個(gè)最近鄰居，將這些鄰居的某個(gè)（些）特征的平均值賦給該樣本，就可以得到該樣本對應(yīng)特征的值。K近鄰回歸算法可用以下5步描述。（1）計(jì)算已知訓(xùn)練集中各點(diǎn)與當(dāng)前待預(yù)測點(diǎn)之間的距離。（2）按照距離遞增的順序排序。（3）選取與當(dāng)前點(diǎn)距離最小的k個(gè)點(diǎn)。（4）計(jì)算選取的k個(gè)點(diǎn)在某特征上的平均特征值。（5）將該平均特征值賦值給待檢測點(diǎn)，便得到了該樣本的某特征值。【例3】由于資金緊張，小李計(jì)劃將他的一套一居室的房子出售，已知該房子附近的房價(jià)如表所示。請采用K近鄰回歸算法幫小李給這套房子定價(jià)格。戶型房價(jià)（萬）距離小李房子的距離（米）一居室438一居室5610一居室6011一居室5219兩居室9025小李房子附近的房價(jià)【解】取k=3，離小李房子最近的3個(gè)鄰居是表中前3條數(shù)據(jù)，這3個(gè)房源的房價(jià)平均值為萬，因此可將小李的房子定價(jià)為53萬。2．決策樹回歸算法決策樹回歸（decisiontreeregression，DTR）算法通過尋找樣本中最佳的特征及特征值作為最佳分割點(diǎn)，構(gòu)建決策樹，同時(shí)將訓(xùn)練樣本劃分為若干個(gè)區(qū)間，基于每個(gè)區(qū)間計(jì)算樣本均值，該均值即為預(yù)測值。回歸算法生成的決策樹是二叉樹結(jié)構(gòu)（見圖1），其內(nèi)部非葉子節(jié)點(diǎn)特征的取值都為“是”或“否”，所以對數(shù)據(jù)樣本劃分的邊界是平行于坐標(biāo)軸的，如圖2所示。其中，A、B、C、D、E對應(yīng)每個(gè)區(qū)間的輸出。

圖1決策樹（二叉樹結(jié)構(gòu)）

圖2劃分邊界示意對于某測試數(shù)據(jù)，只需要根據(jù)特征將其歸到某個(gè)區(qū)間，便可得到對應(yīng)的輸出值。例如，某測試數(shù)據(jù)的特征是一個(gè)二維向量，第一維分量7介于6和8之間，第二維分量7小于8，則根據(jù)圖1的決策樹可判斷所在的劃分區(qū)間，其對應(yīng)的輸出值為C。決策樹回歸算法的核心問題是選擇切分點(diǎn)與確定輸出值。（1）切分點(diǎn)是指將訓(xùn)練集劃分為兩部分的某一特征的值。其中，該特征稱為切分變量。最優(yōu)的特征和特征值是通過比較不同劃分的誤差確定的。其中，一個(gè)樣本空間劃分的誤差是用真實(shí)值和劃分區(qū)域預(yù)測值的最小二乘來衡量。因此，可用最小二乘法選擇切分點(diǎn)。（2）輸出值是指劃分的區(qū)域所代表的值，通過計(jì)算區(qū)域內(nèi)所有特征值的均值確定。下面通過例4描述決策樹回歸算法的具體實(shí)現(xiàn)流程?！纠?】現(xiàn)有用于訓(xùn)練的數(shù)據(jù)集如表所示。

其中，x表示特征向量，且只有一維，y表示特征值。請根據(jù)此數(shù)據(jù)表建立回歸決策樹，并預(yù)測x=10時(shí)，y的值。x12345678911y5.565.75.916.46.87.058.98.799.05

x12345678911y5.565.75.916.46.87.058.98.799.05第一部分?jǐn)?shù)據(jù)第二部分?jǐn)?shù)據(jù)同理計(jì)算其他分割點(diǎn)的損失函數(shù)值，其結(jié)果如表所示。從表中容易看出，當(dāng)s=6.5時(shí)，Loss=1.93最小，所以第1個(gè)切分點(diǎn)為s=6.5。切分點(diǎn)s=6.5可將數(shù)據(jù)劃分為兩部分，如下圖所示。之后分別對這兩部分?jǐn)?shù)據(jù)進(jìn)行劃分，確定每一部分?jǐn)?shù)據(jù)的切分點(diǎn)。s1.52.53.54.55.56.57.58.510C15.565.635.725.896.076.246.626.887.11C27.57.737.998.258.548.918.929.039.05Loss15.7212.078.365.783.911.938.0111.7315.74x12345678911y5.565.75.916.46.87.058.98.799.05高手點(diǎn)撥

x12345678911y5.565.75.916.46.87.058.98.799.05x<6.5x>6.5

x12345678911y5.565.75.916.46.87.058.98.799.05x<6.5x>6.5s7.58.510C18.98.88.87C28.929.039.05Loss0.070.020.05

機(jī)器學(xué)習(xí)的深入研究和計(jì)算機(jī)性能的提升，為手寫數(shù)字識(shí)別技術(shù)的實(shí)現(xiàn)提供了理論基礎(chǔ)和硬件支持?，F(xiàn)有大量的手寫數(shù)字圖片，請分析利用計(jì)算機(jī)實(shí)現(xiàn)手寫數(shù)字識(shí)別的基本原理與方法。【解】手寫數(shù)字識(shí)別的基本原理可理解為利用圖片的標(biāo)簽和圖片中數(shù)字形狀的基本特征，如圈、端點(diǎn)、弧、凸起、凹陷和筆畫等，去訓(xùn)練識(shí)別模型，并不斷地調(diào)整模型中的參數(shù)，最終獲得具有良好識(shí)別效果的模型。計(jì)算機(jī)通過對手寫數(shù)字圖片進(jìn)行學(xué)習(xí)，可構(gòu)建出一個(gè)手寫數(shù)字識(shí)別模型，實(shí)現(xiàn)智能識(shí)別。其學(xué)習(xí)過程可用左圖描述。7.2.4案例：手寫數(shù)字識(shí)別

手寫數(shù)字識(shí)別模型學(xué)習(xí)過程（1）對數(shù)據(jù)集（手寫數(shù)字圖片）進(jìn)行預(yù)處理，將其分成訓(xùn)練集和測試集。（2）提取圖片中數(shù)字形狀的基本特征，如圈、端點(diǎn)、弧、凸起、凹陷和筆畫等。（3）訓(xùn)練模型并調(diào)整參數(shù)。計(jì)算機(jī)利用圖片的標(biāo)簽和對應(yīng)的數(shù)字基本特征訓(xùn)練模型，訓(xùn)練過程中不斷地調(diào)整模型中的參數(shù)，提高模型的識(shí)別能力。（4）判斷訓(xùn)練是否結(jié)束。訓(xùn)練結(jié)束的條件有多種，這里將訓(xùn)練集中的數(shù)據(jù)全部訓(xùn)練完作為訓(xùn)練結(jié)束的標(biāo)志。若訓(xùn)練結(jié)束，則繼續(xù)；若未結(jié)束，則轉(zhuǎn)向（2）。（5）獲得識(shí)別模型。（6）輸出識(shí)別結(jié)果。利用識(shí)別模型對測試集中數(shù)據(jù)進(jìn)行識(shí)別并輸出識(shí)別結(jié)果。無監(jiān)督學(xué)習(xí)03

無監(jiān)督學(xué)習(xí)是在沒有標(biāo)簽的數(shù)據(jù)集里發(fā)現(xiàn)數(shù)據(jù)之間潛在關(guān)系的學(xué)習(xí)方法。例如，根據(jù)聚類或一定的模型得到數(shù)據(jù)之間的關(guān)系。無監(jiān)督學(xué)習(xí)是一種沒有明確目的的學(xué)習(xí)方法，無法提前知道結(jié)果，且它的學(xué)習(xí)效果幾乎無法量化。無監(jiān)督學(xué)習(xí)模型的一般建立流程可用圖描述。7.3.1什么是無監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)模型的一般建立流程添磚加瓦有監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)的區(qū)別如下。（1）有監(jiān)督學(xué)習(xí)是一種目的明確的訓(xùn)練方式，即可以提前預(yù)知結(jié)果；而無監(jiān)督學(xué)習(xí)則是沒有明確目的的訓(xùn)練方式，即無法提前預(yù)知結(jié)果。（2）有監(jiān)督學(xué)習(xí)使用的數(shù)據(jù)需要提前打上標(biāo)簽；而無監(jiān)督學(xué)習(xí)不需要給數(shù)據(jù)打上標(biāo)簽。（3）在有監(jiān)督學(xué)習(xí)中，預(yù)測模型性能的判斷標(biāo)準(zhǔn)是預(yù)測值越貼近目標(biāo)標(biāo)簽或目標(biāo)值越好；而在無監(jiān)督學(xué)習(xí)中，模型性能沒有明確的判斷標(biāo)準(zhǔn)。

聚類是按照某個(gè)特定標(biāo)準(zhǔn)把一個(gè)數(shù)據(jù)集分割成不同的類，使得同一個(gè)類內(nèi)的數(shù)據(jù)對象之間相似性盡可能大，同時(shí)不在同一個(gè)類中的數(shù)據(jù)對象之間差異性也盡可能大?？梢?，聚類后同一類的數(shù)據(jù)盡可能聚集到一起，不同類數(shù)據(jù)盡量分離。7.3.2聚類任務(wù)

聚類任務(wù)是指根據(jù)輸入的特征向量尋找數(shù)據(jù)（沒有標(biāo)簽）的規(guī)律，并將類似的樣本匯聚成類，如圖所示。

聚類任務(wù)常用于對目標(biāo)群體進(jìn)行多指標(biāo)劃分。例如，現(xiàn)有多個(gè)客戶的購物記錄數(shù)據(jù)，且未對數(shù)據(jù)進(jìn)行標(biāo)記，通過聚類任務(wù)將具有相同購物習(xí)慣的客戶匯聚成類，不同類中的客戶購買的商品種類不同，店鋪運(yùn)營即可根據(jù)該反饋信息向客戶推薦相關(guān)商品。聚類任務(wù)聚類任務(wù)的求解過程可簡化為以下5步。（1）數(shù)據(jù)預(yù)處理，包括選擇數(shù)量、類型和特征的標(biāo)度。（2）定義一個(gè)衡量數(shù)據(jù)點(diǎn)間相似度的距離函數(shù)。（3）進(jìn)行聚類或分組，即將數(shù)據(jù)對象劃分到不同的類中。（4）評(píng)估聚類結(jié)果。一般來說，通過幾何性質(zhì)來評(píng)價(jià)聚類結(jié)果的質(zhì)量，包括類間的分離和類內(nèi)部的耦合。聚類任務(wù)中常用的方法有很多，如劃分聚類方法、層次聚類方法、基于密度的方法、基于網(wǎng)格的方法和基于模型的方法等，它們的簡介如表所示。聚類方法簡介代表算法劃分聚類方法根據(jù)某特征向量將含有N個(gè)樣本或示例的數(shù)據(jù)集劃分成K（K<N）個(gè)分組，每一個(gè)分組就代表一個(gè)聚類K均值聚類算法、K-MEDOIDS算法、CLARANS算法等層次聚類方法對給定的數(shù)據(jù)集進(jìn)行類似層次的分解，直到滿足某種條件為止。根據(jù)層次分解的順序可分為自底向上和自頂向下兩種BIRCH算法、CURE算法、CHAMELEON算法等基于密度的方法只要一個(gè)區(qū)域中點(diǎn)的密度大過某個(gè)閾值，就把它加到與之相近的聚類中DBSCAN算法、OPTICS算法、DENCLUE算法等基于

人人文庫> 全部分類> 應(yīng)用文書 > 技術(shù)指導(dǎo)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第7章機(jī)器學(xué)習(xí)

文檔簡介

溫馨提示

最新文檔

評(píng)論

第7章機(jī)器學(xué)習(xí)

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔