第7章機(jī)器學(xué)習(xí)_第1頁
第7章機(jī)器學(xué)習(xí)_第2頁
第7章機(jī)器學(xué)習(xí)_第3頁
第7章機(jī)器學(xué)習(xí)_第4頁
第7章機(jī)器學(xué)習(xí)_第5頁
已閱讀5頁,還剩50頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

人工智能技術(shù)篇機(jī)器學(xué)習(xí)第七章本章導(dǎo)讀隨著計(jì)算機(jī)性能的大幅提升和可用數(shù)據(jù)量的不斷增加,機(jī)器學(xué)習(xí)得到了飛速的發(fā)展。它利用計(jì)算機(jī)對大量的數(shù)據(jù)進(jìn)行分析,并從中獲取有用的信息,使機(jī)器具有一定的智能。近些年來,機(jī)器學(xué)習(xí)在眾多領(lǐng)域都得到了廣泛的應(yīng)用。本章從機(jī)器學(xué)習(xí)的概念入手,先介紹機(jī)器學(xué)習(xí)的相關(guān)術(shù)語、分類和應(yīng)用場景,然后詳細(xì)介紹機(jī)器學(xué)習(xí)的兩種學(xué)習(xí)方法,即有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。學(xué)習(xí)目標(biāo)

熟悉機(jī)器學(xué)習(xí)的概念、相關(guān)術(shù)語、分類和應(yīng)用場景。 理解有監(jiān)督學(xué)習(xí)模型。 掌握分類任務(wù)和回歸任務(wù)的基本思想和實(shí)現(xiàn)方法。 理解無監(jiān)督學(xué)習(xí)模型。 掌握聚類任務(wù)的基本思想和實(shí)現(xiàn)方法。目錄

4機(jī)器學(xué)習(xí)概述有監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)010203機(jī)器學(xué)習(xí)概述01人工智能的概念7.1.1機(jī)器學(xué)習(xí)(machinelearning)是通過各種算法從數(shù)據(jù)中學(xué)習(xí)如何完成任務(wù),并獲得完成任務(wù)方法的一門學(xué)科。它可以對數(shù)據(jù)進(jìn)行自動(dòng)分析,并從中獲得規(guī)律或模型,然后利用規(guī)律或模型對未知數(shù)據(jù)進(jìn)行預(yù)測。它是人工智能的核心,是使計(jì)算機(jī)具有智能的重要途徑。目前,機(jī)器學(xué)習(xí)還沒有一個(gè)公認(rèn)且準(zhǔn)確的定義,下面列舉了部分學(xué)者對機(jī)器學(xué)習(xí)的描述。(1)機(jī)器學(xué)習(xí)是研究如何用機(jī)器模擬人類學(xué)習(xí)活動(dòng)的一門學(xué)科。(2)機(jī)器學(xué)習(xí)是研究機(jī)器如何獲取新知識(shí)和新技能,并識(shí)別現(xiàn)有知識(shí)的學(xué)科。(3)機(jī)器學(xué)習(xí)是研究機(jī)器如何模擬人類的學(xué)習(xí)活動(dòng),自主獲取新知識(shí)和新技能,不斷提升系統(tǒng)性能的學(xué)科。機(jī)器學(xué)習(xí)的基本思路就是使用一定的算法解析訓(xùn)練數(shù)據(jù)(進(jìn)行模型訓(xùn)練);然后學(xué)習(xí)數(shù)據(jù)中存在的一些特征,得到模型;最后使用得到的模型對實(shí)際問題做出分類、決策或預(yù)測等。機(jī)器學(xué)習(xí)的研究對象是數(shù)據(jù),其中,具有相似結(jié)構(gòu)的數(shù)據(jù)樣本集合稱為數(shù)據(jù)集;對某個(gè)對象的描述稱為樣本或示例;對象的某方面表現(xiàn)稱為特征或?qū)傩?;特征或?qū)傩陨系娜≈捣Q為特征值或?qū)傩灾?;描述樣本特征參?shù)的個(gè)數(shù)稱為維數(shù)。以計(jì)算機(jī)識(shí)別圖像中的動(dòng)物是否是貓為例,其中數(shù)據(jù)集、樣本、特征、特征值如圖所示。機(jī)器學(xué)習(xí)的相關(guān)術(shù)語7.1.2術(shù)語標(biāo)記在機(jī)器學(xué)習(xí)中,執(zhí)行某個(gè)學(xué)習(xí)算法,從數(shù)據(jù)中學(xué)習(xí)得到模型的過程稱為訓(xùn)練或?qū)W習(xí);訓(xùn)練過程中使用的數(shù)據(jù)稱為訓(xùn)練數(shù)據(jù);每個(gè)樣本稱為訓(xùn)練樣本;訓(xùn)練樣本組成的集合稱為訓(xùn)練集。為得到效果最佳的模型,常用來調(diào)整模型參數(shù)的樣本稱為驗(yàn)證樣本;驗(yàn)證樣本組成的集合稱為驗(yàn)證集。獲得模型后,使用模型對未知數(shù)據(jù)進(jìn)行預(yù)測的過程稱為測試;用于預(yù)測的樣本稱為測試樣本;測試樣本組成的集合稱為測試集,可用于評(píng)價(jià)模型的性能。模型適用于新樣本的能力,稱為泛化能力。

從不同的角度,根據(jù)不同的方式,可以將機(jī)器學(xué)習(xí)劃分為不同的類別,如右表所示。機(jī)器學(xué)習(xí)的分類有很多種,其中,有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)中常用且易懂的方法,本章將詳細(xì)介紹這兩種機(jī)器學(xué)習(xí)方法。機(jī)器學(xué)習(xí)的分類7.1.3機(jī)器學(xué)習(xí)的分類分類方式分類描述按學(xué)習(xí)

形式分類有監(jiān)督學(xué)習(xí)從含有標(biāo)簽的數(shù)據(jù)集中推出一個(gè)功能的學(xué)習(xí)方法無監(jiān)督學(xué)習(xí)從不含標(biāo)簽的數(shù)據(jù)集中推出一個(gè)功能的學(xué)習(xí)方法半監(jiān)督學(xué)習(xí)綜合利用有標(biāo)簽的數(shù)據(jù)和無標(biāo)簽的數(shù)據(jù),生成合適的函數(shù)強(qiáng)化學(xué)習(xí)以環(huán)境反饋(獎(jiǎng)懲信號(hào))作為輸入,以統(tǒng)計(jì)和動(dòng)態(tài)規(guī)劃技術(shù)為指導(dǎo)的一種學(xué)習(xí)方法按學(xué)習(xí)

目標(biāo)分類概念學(xué)習(xí)學(xué)習(xí)的目標(biāo)和結(jié)果為概念,典型的概念學(xué)習(xí)有示例學(xué)習(xí)規(guī)則學(xué)習(xí)學(xué)習(xí)的目標(biāo)和結(jié)果為規(guī)則,典型的規(guī)則學(xué)習(xí)有決策樹學(xué)習(xí)函數(shù)學(xué)習(xí)學(xué)習(xí)的目標(biāo)和結(jié)果為函數(shù),典型的函數(shù)學(xué)習(xí)有神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)類別學(xué)習(xí)學(xué)習(xí)的目標(biāo)和結(jié)果為對象類別,典型的類別學(xué)習(xí)有聚類分析按學(xué)習(xí)

方法分類機(jī)械式學(xué)習(xí)通過直接記憶或外部提供的信息達(dá)到學(xué)習(xí)的目的指導(dǎo)式學(xué)習(xí)由外部環(huán)境向系統(tǒng)提供指示或建議示例學(xué)習(xí)通過從環(huán)境中獲取若干與某知識(shí)有關(guān)的例子,經(jīng)歸納得到一般性知識(shí)類比學(xué)習(xí)把兩個(gè)事物進(jìn)行比較,找出它們在某一抽象層上的相似關(guān)系,并以這種關(guān)系為依據(jù),把某一事物的有關(guān)知識(shí)加以適當(dāng)整理,然后對應(yīng)到另一事物,從而獲得求解另一事物的知識(shí)解釋學(xué)習(xí)在領(lǐng)域知識(shí)指導(dǎo)下,通過對單個(gè)問題求解實(shí)例的分析,構(gòu)造出求解過程的因果解釋結(jié)構(gòu),并獲取控制知識(shí),便于指導(dǎo)以后求解類似問題按推理

方式分類基于演繹的學(xué)習(xí)以演繹推理為基礎(chǔ)的學(xué)習(xí)基于歸納的學(xué)習(xí)以歸納推理為基礎(chǔ)的學(xué)習(xí)

機(jī)器學(xué)習(xí)中處理的數(shù)據(jù)主要包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)是指用二維表結(jié)構(gòu)表達(dá)的數(shù)據(jù),有嚴(yán)格定義的數(shù)據(jù)模型,主要通過關(guān)系型數(shù)據(jù)庫存儲(chǔ)和管理,如政府行政審批、財(cái)務(wù)、醫(yī)療、企業(yè)ERP等系統(tǒng)中的數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)是指數(shù)據(jù)結(jié)構(gòu)不完整或不規(guī)則,沒有預(yù)定義的數(shù)據(jù)模型,如文本、語音、圖像和視頻等。在人們?nèi)粘I钪校佑|的數(shù)據(jù)以非結(jié)構(gòu)化數(shù)據(jù)為主。針對不同的非結(jié)構(gòu)化數(shù)據(jù),機(jī)器學(xué)習(xí)的不同應(yīng)用場景如表所示。機(jī)器學(xué)習(xí)的應(yīng)用場景7.1.4機(jī)器學(xué)習(xí)的應(yīng)用場景數(shù)據(jù)類型應(yīng)用場景描述舉例文本數(shù)據(jù)垃圾郵件檢測根據(jù)郵箱中的郵件識(shí)別垃圾郵件和非垃圾郵件網(wǎng)易郵箱中自動(dòng)分類垃圾郵件信用卡欺詐檢測根據(jù)用戶的信用卡交易記錄,識(shí)別用戶操作的交易和非用戶操作的交易,可以找到欺詐交易銀行對用戶的交易檢測機(jī)制電子商務(wù)決策根據(jù)用戶的購物清單或收藏記錄,識(shí)別用戶感興趣的商品,為用戶推薦這些商品促進(jìn)消費(fèi)淘寶網(wǎng)根據(jù)用戶的瀏覽記錄推薦類似的商品語音數(shù)據(jù)語音識(shí)別機(jī)器通過識(shí)別和理解將語音轉(zhuǎn)化為相應(yīng)的文本或操作百度地圖可以通過語音輸入目的地語音合成通過機(jī)械或電子的方法產(chǎn)生人造語音的技術(shù),即將外部輸入的文字轉(zhuǎn)化為語音輸出知乎中的文章閱讀功能語音交互通過語音進(jìn)行相互交流語音助手,如iPhone手機(jī)推出的Siri機(jī)器翻譯利用機(jī)器將某一種自然語言(源語言)翻譯為另一種自然語言(目標(biāo)語言),如將漢語翻譯為英語有道詞典等翻譯軟件聲紋識(shí)別將聲音信號(hào)轉(zhuǎn)換為電信號(hào),再利用計(jì)算機(jī)進(jìn)行識(shí)別公安聲紋鑒定技術(shù)數(shù)據(jù)類型應(yīng)用場景描述舉例圖像數(shù)據(jù)文字識(shí)別利用計(jì)算機(jī)自動(dòng)識(shí)別圖像上的字符銀行App通過拍攝身份證圖像識(shí)別個(gè)人身份信息指紋識(shí)別通過比對指紋的細(xì)節(jié)特征識(shí)別個(gè)人身份信息手機(jī)的指紋解鎖功能人臉識(shí)別通過人臉部特征信息進(jìn)行身份識(shí)別人臉支付形狀識(shí)別根據(jù)已知的形狀資料庫判斷用戶手繪的圖形形狀地圖制圖綜合視頻數(shù)據(jù)智能監(jiān)控跟蹤視頻中的運(yùn)動(dòng)物體熱成像人體測溫技術(shù)計(jì)算機(jī)視覺利用攝像頭和計(jì)算機(jī)模仿人類的視覺系統(tǒng),實(shí)現(xiàn)對目標(biāo)的識(shí)別、跟蹤等汽車的自動(dòng)駕駛技術(shù)有監(jiān)督學(xué)習(xí)02有監(jiān)督學(xué)習(xí)是利用含有標(biāo)簽的數(shù)據(jù)集對學(xué)習(xí)模型進(jìn)行訓(xùn)練,然后得到預(yù)測模型,最后利用測試集對預(yù)測模型的性能進(jìn)行評(píng)估的學(xué)習(xí)方法。有監(jiān)督學(xué)習(xí)模型的一般建立流程如圖所示。有監(jiān)督學(xué)習(xí)模型的一般建立流程什么是有監(jiān)督學(xué)習(xí)7.2.1高手點(diǎn)撥在有監(jiān)督學(xué)習(xí)中,一般將數(shù)據(jù)集劃分為兩部分,一部分是訓(xùn)練數(shù)據(jù)集,也可稱為學(xué)習(xí)數(shù)據(jù)集,即訓(xùn)練樣本,占總數(shù)據(jù)集的80%以上;另一部分是測試數(shù)據(jù)集,即測試樣本,占總數(shù)據(jù)集的20%以下。訓(xùn)練數(shù)據(jù)集包含兩部分,即訓(xùn)練集和驗(yàn)證集。訓(xùn)練集主要用于估計(jì)模型;驗(yàn)證集用來確定網(wǎng)絡(luò)結(jié)構(gòu)或者確定控制模型復(fù)雜程度的參數(shù)。測試數(shù)據(jù)集主要用來評(píng)估最終預(yù)測模型的性能。由此可見,數(shù)據(jù)集也可劃分為3部分,即訓(xùn)練集、驗(yàn)證集和測試集,它們的劃分比例可設(shè)置為6∶2∶2。但需要注意的是,驗(yàn)證集并不是必須存在的。分類是通過在已有數(shù)據(jù)的基礎(chǔ)上進(jìn)行學(xué)習(xí),推導(dǎo)出一個(gè)分類函數(shù)或構(gòu)造出一個(gè)分類模型,該函數(shù)或模型可以將待分類的數(shù)據(jù)集映射到某個(gè)給定的類別中,從而實(shí)現(xiàn)數(shù)據(jù)分類。其中,分類函數(shù)或分類模型也稱為分類器。分類任務(wù)通常用于將事物打上一個(gè)標(biāo)簽,結(jié)果為離散值。例如,判斷一幅圖上的動(dòng)物是貓還是狗。分類的最終正確結(jié)果只有一個(gè),錯(cuò)誤的就是錯(cuò)誤的,不會(huì)有相近的概念。在機(jī)器學(xué)習(xí)領(lǐng)域中,分類任務(wù)的實(shí)現(xiàn)需要先確定一個(gè)分類函數(shù)或模型類似于數(shù)據(jù)樣本中的分界線,然后對輸入的新數(shù)據(jù)進(jìn)行預(yù)測,即根據(jù)分界線對新數(shù)據(jù)進(jìn)行分類,如圖所示。分類任務(wù)7.2.2分類任務(wù)分類任務(wù)的求解過程可簡化為以下4步。(1)數(shù)據(jù)預(yù)處理。將帶有標(biāo)簽的數(shù)據(jù)分為訓(xùn)練集和測試集,其中,訓(xùn)練集用來訓(xùn)練模型;測試集用來檢驗(yàn)?zāi)P偷姆诸愋Ч#?)訓(xùn)練模型。利用訓(xùn)練樣本的標(biāo)簽和特征向量,通過機(jī)器學(xué)習(xí)算法尋找模型的參數(shù),最終得到訓(xùn)練好的預(yù)測模型。(3)測試模型。利用測試樣本評(píng)估預(yù)測模型的性能,即計(jì)算模型對樣本預(yù)測的準(zhǔn)確率,選擇符合要求的預(yù)測模型。(4)應(yīng)用模型。預(yù)測模型確定好之后,可將其應(yīng)用于實(shí)際問題中,預(yù)測未知數(shù)據(jù)的所屬類別。在機(jī)器識(shí)別研究中,分類任務(wù)中常用的核心算法有K近鄰分類算法、決策樹分類算法、貝葉斯分類算法、支持向量機(jī)分類算法和人工神經(jīng)網(wǎng)絡(luò)等。下面詳細(xì)介紹K近鄰分類算法和決策樹分類算法。1.K近鄰分類算法K近鄰分類(K-nearestneighborsclassification,KNNC)算法是有成熟理論支撐的、較為簡單的經(jīng)典機(jī)器學(xué)習(xí)算法之一,且奉行“觀其友,識(shí)其人”的分類原則。

K近鄰分類算法的核心思想是從給定的訓(xùn)練樣本中尋找與測試樣本“距離”最近的k個(gè)樣本,這k個(gè)樣本中的多數(shù)屬于哪一類,則將測試樣本歸于這個(gè)類別中。這好比k個(gè)樣本為測試樣本的朋友,它的朋友中多數(shù)屬于哪一類,則它就屬于哪一類。K近鄰分類算法可用以下5步描述。(1)計(jì)算已知訓(xùn)練集中各點(diǎn)與當(dāng)前待分類點(diǎn)之間的距離。(2)按照距離遞增的順序排序。(3)選取與當(dāng)前點(diǎn)距離最小的k個(gè)點(diǎn)。(4)確定前k個(gè)點(diǎn)所在類的出現(xiàn)頻率。(5)根據(jù)分類決策規(guī)則確定分類結(jié)果。【例1】

圖中正方形和圓分別表示數(shù)據(jù)樣本的兩個(gè)類別,請判斷圖中三角形屬于哪個(gè)類別。數(shù)據(jù)樣本分布示意圖【解】(1)如果k=3,離三角形最近的3個(gè)鄰居是2個(gè)圓和1個(gè)正方形,如圖1所示。其中,圓所在的類出現(xiàn)的頻率較高,遵循少數(shù)服從多數(shù)原則,可判定待分類的三角形屬于圓所在的類。(2)如果k=9,離三角形最近的9個(gè)鄰居是4個(gè)圓和5個(gè)正方形,如圖2所示。其中,正方形所在的類出現(xiàn)的頻率較高,遵循少數(shù)服從多數(shù)原則,可判定待分類的三角形屬于正方形所在的類。圖1分類任務(wù)(k=3)圖2分類任務(wù)(k=9)學(xué)有所獲從例1中可看出,K近鄰分類算法的結(jié)果很大程度上取決于k的值,而k值的選擇需要根據(jù)數(shù)據(jù)決定。不同的k值對預(yù)測結(jié)果的影響不同。k值越小,意味著只有與輸入樣本較近的訓(xùn)練樣本才會(huì)對預(yù)測結(jié)果起作用,但容易出現(xiàn)過擬合現(xiàn)象;k值越大,意味著與輸入樣本較遠(yuǎn)的訓(xùn)練樣本也會(huì)對預(yù)測結(jié)果起作用,模型預(yù)測結(jié)果的偏差會(huì)越大,甚至出現(xiàn)欠擬合的現(xiàn)象。2.決策樹分類算法決策樹分類(decisiontreeclassification,DTC)算法是一種通過對樣本數(shù)據(jù)進(jìn)行學(xué)習(xí),構(gòu)建一個(gè)決策樹模型,實(shí)現(xiàn)對新數(shù)據(jù)分類和預(yù)測的算法,是最直觀的分類算法。決策樹是一種樹形結(jié)構(gòu),表示通過一系列規(guī)則對數(shù)據(jù)進(jìn)行分類的過程。決策樹由3個(gè)主要部分組成,即決策節(jié)點(diǎn)、分支和葉子節(jié)點(diǎn)。其中,決策節(jié)點(diǎn)即為非葉子節(jié)點(diǎn),代表某個(gè)樣本數(shù)據(jù)的特征(屬性);每個(gè)分支代表這個(gè)特征(屬性)在某個(gè)值域上的特征值(屬性值);每個(gè)葉子節(jié)點(diǎn)代表一個(gè)類別,如圖所示。決策樹示意圖決策樹分類算法主要借助決策樹模型實(shí)現(xiàn)分類。它主要包含兩部分,即決策樹學(xué)習(xí)和決策樹分類。(1)決策樹學(xué)習(xí)的目標(biāo)是根據(jù)給定的訓(xùn)練集構(gòu)建一個(gè)決策樹模型,且該模型能夠?qū)?shí)例進(jìn)行正確的分類。決策樹學(xué)習(xí)通常包括3個(gè)步驟,即特征選擇、決策樹的生成和決策樹的剪枝。①特征選擇是指選取對訓(xùn)練集具有分類能力的特征,有利于提高決策樹的學(xué)習(xí)效率。常用的特征選擇指標(biāo)有信息增益、信息增益比、基尼系數(shù)等。②決策樹的生成是指在決策樹各個(gè)點(diǎn)上按照一定方法選擇特征,遞歸構(gòu)建決策樹。常通過計(jì)算信息增益或其他指標(biāo),選擇最佳特征。③決策樹的剪枝是指在已生成的決策樹上減掉一些子樹或葉節(jié)點(diǎn),從而簡化決策樹模型,緩解過擬合。常用的剪枝方法有預(yù)剪枝和后剪枝。(2)決策樹分類的目的是利用決策樹模型對實(shí)例進(jìn)行分類。下面通過例2說明如何用決策樹進(jìn)行分類?!纠?】現(xiàn)有一名貸款用戶小王,他沒有房產(chǎn)、沒有結(jié)婚、平均月收入8000元。請根據(jù)圖7-7中的決策樹預(yù)測小王是否有能力償還貸款?!窘狻竣傩⊥鯖]有房產(chǎn),所以“是否擁有房產(chǎn)”的特征值取“否”。根據(jù)決策樹的根節(jié)點(diǎn)判斷,小王符合右邊的分支。②小王沒有結(jié)婚,所以“是否結(jié)婚”的特征值取“否”。根據(jù)決策樹的決策節(jié)點(diǎn)判斷,小王符合右邊的分支。③小王平均月收入8000元,所以“平均月收入”的特征值取“大于5000元”。根據(jù)決策樹的決策節(jié)點(diǎn)判斷,小王符合左邊的分支??梢?,最終對貸款用戶小王是否有能力償還貸款的預(yù)測落在了“可以償還”的葉子節(jié)點(diǎn)上。因此,貸款用戶小王有能力償還貸款。(3)綜上所述,決策樹分類算法的實(shí)現(xiàn)流程可用左圖表示。①創(chuàng)建數(shù)據(jù)集。②對數(shù)據(jù)集進(jìn)行預(yù)處理,得到訓(xùn)練集、驗(yàn)證集和測試集。③計(jì)算訓(xùn)練集中所有特征的信息增益。④選擇信息增益最大的特征作為最佳分類特征。⑤構(gòu)建決策樹。⑥根據(jù)最佳分類特征分割訓(xùn)練集,并將該特征從數(shù)據(jù)列表中移除。⑦訓(xùn)練集分割后得到訓(xùn)練子集,可將其視為新的訓(xùn)練集。⑧判斷分類是否結(jié)束,若結(jié)束,得到?jīng)Q策樹,繼續(xù)⑨;否則轉(zhuǎn)向③。⑨對訓(xùn)練集進(jìn)行訓(xùn)練(學(xué)習(xí))后得到?jīng)Q策樹。⑩利用驗(yàn)證集對決策樹進(jìn)行剪枝。決策樹分類算法實(shí)現(xiàn)流程高手點(diǎn)撥該決策樹分類算法流程中對決策樹采用的是后剪枝方法。后剪枝方法中,要求先利用訓(xùn)練集生成一棵完整的決策樹,然后利用驗(yàn)證集自底向上地對非葉子節(jié)點(diǎn)進(jìn)行考察,若將該節(jié)點(diǎn)對應(yīng)的子樹替換為葉子節(jié)點(diǎn)能使模型泛化性能提升,則將該子樹替換為葉子節(jié)點(diǎn)?;貧w是通過已有數(shù)據(jù)進(jìn)行學(xué)習(xí),擬合出一個(gè)回歸函數(shù)或構(gòu)造出一個(gè)回歸模型,該函數(shù)或模型可以將待測試的數(shù)據(jù)集映射到某個(gè)給定的值,從而實(shí)現(xiàn)數(shù)據(jù)預(yù)測?;貧w任務(wù)通常用來預(yù)測一個(gè)值,如預(yù)測房價(jià)、預(yù)測股價(jià)等。若一個(gè)產(chǎn)品的實(shí)際價(jià)格為500元,通過回歸分析預(yù)測值為499元,則認(rèn)為這是一個(gè)比較好的回歸分析。在機(jī)器學(xué)習(xí)領(lǐng)域中,回歸任務(wù)的實(shí)現(xiàn)需要先對數(shù)據(jù)樣本點(diǎn)進(jìn)行擬合,再根據(jù)擬合出來的函數(shù)對輸入的新數(shù)據(jù)進(jìn)行輸出預(yù)測,如左圖所示?;貧w任務(wù)回歸任務(wù)7.2.3圖中,圓表示帶有標(biāo)簽的訓(xùn)練數(shù)據(jù);回歸曲線表示經(jīng)過訓(xùn)練后獲得的回歸函數(shù)或回歸模型。若該回歸任務(wù)表示對商品價(jià)格走勢的預(yù)測(x表示年份,y表示商品價(jià)格),則由回歸函數(shù)可以預(yù)測未來某年的商品價(jià)格。學(xué)有所獲分類任務(wù)與回歸任務(wù)的聯(lián)系與區(qū)別如下。(1)聯(lián)系:它們都是有監(jiān)督學(xué)習(xí),且用于訓(xùn)練的數(shù)據(jù)集都有標(biāo)簽。(2)區(qū)別:它們預(yù)測結(jié)果的數(shù)據(jù)類型不同。分類任務(wù)預(yù)測的是一個(gè)類別標(biāo)簽,屬于離散型數(shù)據(jù);回歸任務(wù)預(yù)測的是一個(gè)值,屬于連續(xù)型數(shù)據(jù)。例如,“預(yù)測明天天氣是陰、晴還是雨”是一個(gè)分類任務(wù);“預(yù)測明天的氣溫是多少度”是一個(gè)回歸任務(wù)?;貧w任務(wù)中常用的核心算法有K近鄰回歸算法、決策樹回歸算法、貝葉斯回歸算法、支持向量機(jī)回歸算法和人工神經(jīng)網(wǎng)絡(luò)等。下面詳細(xì)介紹K近鄰回歸算法和決策樹回歸算法。1.K近鄰回歸算法K近鄰思想不僅可應(yīng)用于分類任務(wù),還可應(yīng)用于回歸任務(wù)。K近鄰回歸(K-nearestneighborsregression,KNNR)算法的核心思想是找出一個(gè)樣本的k個(gè)最近鄰居,將這些鄰居的某個(gè)(些)特征的平均值賦給該樣本,就可以得到該樣本對應(yīng)特征的值。K近鄰回歸算法可用以下5步描述。(1)計(jì)算已知訓(xùn)練集中各點(diǎn)與當(dāng)前待預(yù)測點(diǎn)之間的距離。(2)按照距離遞增的順序排序。(3)選取與當(dāng)前點(diǎn)距離最小的k個(gè)點(diǎn)。(4)計(jì)算選取的k個(gè)點(diǎn)在某特征上的平均特征值。(5)將該平均特征值賦值給待檢測點(diǎn),便得到了該樣本的某特征值。【例3】由于資金緊張,小李計(jì)劃將他的一套一居室的房子出售,已知該房子附近的房價(jià)如表所示。請采用K近鄰回歸算法幫小李給這套房子定價(jià)格。戶型房價(jià)(萬)距離小李房子的距離(米)一居室438一居室5610一居室6011一居室5219兩居室9025小李房子附近的房價(jià)【解】取k=3,離小李房子最近的3個(gè)鄰居是表中前3條數(shù)據(jù),這3個(gè)房源的房價(jià)平均值為萬,因此可將小李的房子定價(jià)為53萬。2.決策樹回歸算法決策樹回歸(decisiontreeregression,DTR)算法通過尋找樣本中最佳的特征及特征值作為最佳分割點(diǎn),構(gòu)建決策樹,同時(shí)將訓(xùn)練樣本劃分為若干個(gè)區(qū)間,基于每個(gè)區(qū)間計(jì)算樣本均值,該均值即為預(yù)測值。回歸算法生成的決策樹是二叉樹結(jié)構(gòu)(見圖1),其內(nèi)部非葉子節(jié)點(diǎn)特征的取值都為“是”或“否”,所以對數(shù)據(jù)樣本劃分的邊界是平行于坐標(biāo)軸的,如圖2所示。其中,A、B、C、D、E對應(yīng)每個(gè)區(qū)間的輸出。

圖1決策樹(二叉樹結(jié)構(gòu))

圖2劃分邊界示意對于某測試數(shù)據(jù),只需要根據(jù)特征將其歸到某個(gè)區(qū)間,便可得到對應(yīng)的輸出值。例如,某測試數(shù)據(jù)的特征是一個(gè)二維向量,第一維分量7介于6和8之間,第二維分量7小于8,則根據(jù)圖1的決策樹可判斷所在的劃分區(qū)間,其對應(yīng)的輸出值為C。決策樹回歸算法的核心問題是選擇切分點(diǎn)與確定輸出值。(1)切分點(diǎn)是指將訓(xùn)練集劃分為兩部分的某一特征的值。其中,該特征稱為切分變量。最優(yōu)的特征和特征值是通過比較不同劃分的誤差確定的。其中,一個(gè)樣本空間劃分的誤差是用真實(shí)值和劃分區(qū)域預(yù)測值的最小二乘來衡量。因此,可用最小二乘法選擇切分點(diǎn)。(2)輸出值是指劃分的區(qū)域所代表的值,通過計(jì)算區(qū)域內(nèi)所有特征值的均值確定。下面通過例4描述決策樹回歸算法的具體實(shí)現(xiàn)流程?!纠?】現(xiàn)有用于訓(xùn)練的數(shù)據(jù)集如表所示。

其中,x表示特征向量,且只有一維,y表示特征值。請根據(jù)此數(shù)據(jù)表建立回歸決策樹,并預(yù)測x=10時(shí),y的值。x12345678911y5.565.75.916.46.87.058.98.799.05

x12345678911y5.565.75.916.46.87.058.98.799.05第一部分?jǐn)?shù)據(jù)第二部分?jǐn)?shù)據(jù)同理計(jì)算其他分割點(diǎn)的損失函數(shù)值,其結(jié)果如表所示。從表中容易看出,當(dāng)s=6.5時(shí),Loss=1.93最小,所以第1個(gè)切分點(diǎn)為s=6.5。切分點(diǎn)s=6.5可將數(shù)據(jù)劃分為兩部分,如下圖所示。之后分別對這兩部分?jǐn)?shù)據(jù)進(jìn)行劃分,確定每一部分?jǐn)?shù)據(jù)的切分點(diǎn)。s1.52.53.54.55.56.57.58.510C15.565.635.725.896.076.246.626.887.11C27.57.737.998.258.548.918.929.039.05Loss15.7212.078.365.783.911.938.0111.7315.74x12345678911y5.565.75.916.46.87.058.98.799.05高手點(diǎn)撥

x12345678911y5.565.75.916.46.87.058.98.799.05x<6.5x>6.5

x12345678911y5.565.75.916.46.87.058.98.799.05x<6.5x>6.5s7.58.510C18.98.88.87C28.929.039.05Loss0.070.020.05

機(jī)器學(xué)習(xí)的深入研究和計(jì)算機(jī)性能的提升,為手寫數(shù)字識(shí)別技術(shù)的實(shí)現(xiàn)提供了理論基礎(chǔ)和硬件支持?,F(xiàn)有大量的手寫數(shù)字圖片,請分析利用計(jì)算機(jī)實(shí)現(xiàn)手寫數(shù)字識(shí)別的基本原理與方法。【解】手寫數(shù)字識(shí)別的基本原理可理解為利用圖片的標(biāo)簽和圖片中數(shù)字形狀的基本特征,如圈、端點(diǎn)、弧、凸起、凹陷和筆畫等,去訓(xùn)練識(shí)別模型,并不斷地調(diào)整模型中的參數(shù),最終獲得具有良好識(shí)別效果的模型。計(jì)算機(jī)通過對手寫數(shù)字圖片進(jìn)行學(xué)習(xí),可構(gòu)建出一個(gè)手寫數(shù)字識(shí)別模型,實(shí)現(xiàn)智能識(shí)別。其學(xué)習(xí)過程可用左圖描述。7.2.4案例:手寫數(shù)字識(shí)別

手寫數(shù)字識(shí)別模型學(xué)習(xí)過程(1)對數(shù)據(jù)集(手寫數(shù)字圖片)進(jìn)行預(yù)處理,將其分成訓(xùn)練集和測試集。(2)提取圖片中數(shù)字形狀的基本特征,如圈、端點(diǎn)、弧、凸起、凹陷和筆畫等。(3)訓(xùn)練模型并調(diào)整參數(shù)。計(jì)算機(jī)利用圖片的標(biāo)簽和對應(yīng)的數(shù)字基本特征訓(xùn)練模型,訓(xùn)練過程中不斷地調(diào)整模型中的參數(shù),提高模型的識(shí)別能力。(4)判斷訓(xùn)練是否結(jié)束。訓(xùn)練結(jié)束的條件有多種,這里將訓(xùn)練集中的數(shù)據(jù)全部訓(xùn)練完作為訓(xùn)練結(jié)束的標(biāo)志。若訓(xùn)練結(jié)束,則繼續(xù);若未結(jié)束,則轉(zhuǎn)向(2)。(5)獲得識(shí)別模型。(6)輸出識(shí)別結(jié)果。利用識(shí)別模型對測試集中數(shù)據(jù)進(jìn)行識(shí)別并輸出識(shí)別結(jié)果。無監(jiān)督學(xué)習(xí)03

無監(jiān)督學(xué)習(xí)是在沒有標(biāo)簽的數(shù)據(jù)集里發(fā)現(xiàn)數(shù)據(jù)之間潛在關(guān)系的學(xué)習(xí)方法。例如,根據(jù)聚類或一定的模型得到數(shù)據(jù)之間的關(guān)系。無監(jiān)督學(xué)習(xí)是一種沒有明確目的的學(xué)習(xí)方法,無法提前知道結(jié)果,且它的學(xué)習(xí)效果幾乎無法量化。無監(jiān)督學(xué)習(xí)模型的一般建立流程可用圖描述。7.3.1什么是無監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)模型的一般建立流程添磚加瓦有監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)的區(qū)別如下。(1)有監(jiān)督學(xué)習(xí)是一種目的明確的訓(xùn)練方式,即可以提前預(yù)知結(jié)果;而無監(jiān)督學(xué)習(xí)則是沒有明確目的的訓(xùn)練方式,即無法提前預(yù)知結(jié)果。(2)有監(jiān)督學(xué)習(xí)使用的數(shù)據(jù)需要提前打上標(biāo)簽;而無監(jiān)督學(xué)習(xí)不需要給數(shù)據(jù)打上標(biāo)簽。(3)在有監(jiān)督學(xué)習(xí)中,預(yù)測模型性能的判斷標(biāo)準(zhǔn)是預(yù)測值越貼近目標(biāo)標(biāo)簽或目標(biāo)值越好;而在無監(jiān)督學(xué)習(xí)中,模型性能沒有明確的判斷標(biāo)準(zhǔn)。

聚類是按照某個(gè)特定標(biāo)準(zhǔn)把一個(gè)數(shù)據(jù)集分割成不同的類,使得同一個(gè)類內(nèi)的數(shù)據(jù)對象之間相似性盡可能大,同時(shí)不在同一個(gè)類中的數(shù)據(jù)對象之間差異性也盡可能大??梢?,聚類后同一類的數(shù)據(jù)盡可能聚集到一起,不同類數(shù)據(jù)盡量分離。7.3.2聚類任務(wù)

聚類任務(wù)是指根據(jù)輸入的特征向量尋找數(shù)據(jù)(沒有標(biāo)簽)的規(guī)律,并將類似的樣本匯聚成類,如圖所示。

聚類任務(wù)常用于對目標(biāo)群體進(jìn)行多指標(biāo)劃分。例如,現(xiàn)有多個(gè)客戶的購物記錄數(shù)據(jù),且未對數(shù)據(jù)進(jìn)行標(biāo)記,通過聚類任務(wù)將具有相同購物習(xí)慣的客戶匯聚成類,不同類中的客戶購買的商品種類不同,店鋪運(yùn)營即可根據(jù)該反饋信息向客戶推薦相關(guān)商品。聚類任務(wù)聚類任務(wù)的求解過程可簡化為以下5步。(1)數(shù)據(jù)預(yù)處理,包括選擇數(shù)量、類型和特征的標(biāo)度。(2)定義一個(gè)衡量數(shù)據(jù)點(diǎn)間相似度的距離函數(shù)。(3)進(jìn)行聚類或分組,即將數(shù)據(jù)對象劃分到不同的類中。(4)評(píng)估聚類結(jié)果。一般來說,通過幾何性質(zhì)來評(píng)價(jià)聚類結(jié)果的質(zhì)量,包括類間的分離和類內(nèi)部的耦合。聚類任務(wù)中常用的方法有很多,如劃分聚類方法、層次聚類方法、基于密度的方法、基于網(wǎng)格的方法和基于模型的方法等,它們的簡介如表所示。聚類方法簡介代表算法劃分聚類方法根據(jù)某特征向量將含有N個(gè)樣本或示例的數(shù)據(jù)集劃分成K(K<N)個(gè)分組,每一個(gè)分組就代表一個(gè)聚類K均值聚類算法、K-MEDOIDS算法、CLARANS算法等層次聚類方法對給定的數(shù)據(jù)集進(jìn)行類似層次的分解,直到滿足某種條件為止。根據(jù)層次分解的順序可分為自底向上和自頂向下兩種BIRCH算法、CURE算法、CHAMELEON算法等基于密度的方法只要一個(gè)區(qū)域中點(diǎn)的密度大過某個(gè)閾值,就把它加到與之相近的聚類中DBSCAN算法、OPTICS算法、DENCLUE算法等基于

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論