




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第1章概述1.1什么是機(jī)器學(xué)習(xí)1.2機(jī)器學(xué)習(xí)的算法1.3監(jiān)督學(xué)習(xí)1.4無監(jiān)督學(xué)習(xí)1.5數(shù)據(jù)集1.6機(jī)器學(xué)習(xí)項目的流程1.7小結(jié)1.1什么是機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)(machinelearning)它屬于人工智能的一個分支,因由統(tǒng)計學(xué)發(fā)展而來,算法中包含了大量的統(tǒng)計學(xué)知識和理論,所以又被稱為統(tǒng)計學(xué)習(xí)(statisticallearning)。
北方人理想體重=(身高cm-150)×0.6+50(kg)南方人理想體重=(身高cm-150)×0.6+48(kg)
機(jī)器學(xué)習(xí)還可以利用機(jī)器來模擬人類的思維進(jìn)行工作,來適應(yīng)不同環(huán)境下的各種工作,以實現(xiàn)人類難以完成的工作。通過機(jī)器學(xué)習(xí)來處理問題,不但減少了錯誤率,還省去了人力,機(jī)器全面取代人類的夢想必然會向前邁出實質(zhì)性的一步。這就是研究機(jī)器學(xué)習(xí)的目的和意義。1.2機(jī)器學(xué)習(xí)的算法
監(jiān)督學(xué)習(xí)(SupervisedLearning)無監(jiān)督學(xué)習(xí)(UnsupervisedLearning)。
監(jiān)督學(xué)習(xí)
監(jiān)督學(xué)習(xí)是通過已經(jīng)訓(xùn)練的數(shù)據(jù)來訓(xùn)練模型。如果一組訓(xùn)練數(shù)據(jù),已知輸入和對應(yīng)的輸出,通過算法訓(xùn)練,從而可以得到一個最優(yōu)的模型。然后在輸入一個新的數(shù)據(jù),監(jiān)督學(xué)習(xí)算法就會根據(jù)模型做出相應(yīng)的預(yù)測,這樣就能得到一個最優(yōu)的預(yù)測。這類算法往往用于預(yù)測性研究。
無監(jiān)督學(xué)習(xí)
無監(jiān)督學(xué)習(xí)被稱為“沒有老師的學(xué)習(xí)”,沒有訓(xùn)練的過程,同時數(shù)據(jù)也只有輸入,沒有對應(yīng)的輸出,直接通過數(shù)據(jù)根據(jù)算法進(jìn)行建模分析,意味著這些都是要通過機(jī)器學(xué)習(xí)自行學(xué)習(xí)探索。這聽起來似乎有點(diǎn)不可思議,但是在我們自身認(rèn)識世界的過程中也會用到無監(jiān)督學(xué)習(xí)。這類算法往往用于探究性研究,去用于尋找各種方法。
半監(jiān)督學(xué)習(xí)
半監(jiān)督學(xué)習(xí)是監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)相結(jié)合而產(chǎn)生的一種學(xué)習(xí)方法。它主要考慮如何利用少量的標(biāo)注數(shù)據(jù)和大量的未標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練和分類的問題,其算法主要是在監(jiān)督學(xué)習(xí)上進(jìn)行擴(kuò)展,半監(jiān)督學(xué)習(xí)對于提高學(xué)習(xí)機(jī)器性能具有非常重大的實際意義。
1.3監(jiān)督學(xué)習(xí) 分類(Classification)算法 回歸(Regression)算法
分類與回歸的差異就是分類預(yù)測的標(biāo)簽往往是間斷的,也就是說我們將輸入變量映射到離散類別。
回歸問題預(yù)測的標(biāo)簽往往是連續(xù)的,也就是說我們將輸入數(shù)據(jù)映射到一些連續(xù)函數(shù)上。
1.4無監(jiān)督學(xué)習(xí)
聚類算法
降維
聚類算法是無監(jiān)督學(xué)習(xí)中典型的一種算法,聚類算法可以根據(jù)數(shù)據(jù)的特征來進(jìn)行建模。
降維的原理就是將數(shù)據(jù)從高維空間映射到低維空間。1.5數(shù)據(jù)集 數(shù)據(jù)集的集合。在監(jiān)督學(xué)習(xí)中,會將數(shù)據(jù)集劃分為訓(xùn)練集和測試集,有時也會分為訓(xùn)練集、驗證集和測試集。
訓(xùn)練集是用來擬合模型,通過設(shè)置分類器的參數(shù),訓(xùn)練分類模型。后續(xù)結(jié)合驗證集作用時,會選出同一參數(shù)的不同取值,擬合出多個分類器。
驗證集用是當(dāng)通過訓(xùn)練集訓(xùn)練出多個模型后,為了能找出效果最佳的模型,使用各個模型對驗證集數(shù)據(jù)進(jìn)行預(yù)測,并記錄模型準(zhǔn)確率。選出效果最佳的模型所對應(yīng)的參數(shù)。
測試集用來最終評估模式識別系統(tǒng)的性能和分類能力。即可以把測試集當(dāng)做從來不存在的數(shù)據(jù)集,當(dāng)已經(jīng)確定模型參數(shù)后,可以使用測試集進(jìn)行模型預(yù)測并評估模型的性能。三者本質(zhì)無任何區(qū)別,但劃分的作用是為了能夠泛化(generalize)出更好的模型。泛化、過擬合、欠擬合
泛化是指一個算法通過數(shù)據(jù)集對新數(shù)據(jù)的預(yù)測能力的好壞,在監(jiān)督學(xué)習(xí)中,我們知道算法訓(xùn)練數(shù)據(jù)后會構(gòu)建模型,如果我們此時通過構(gòu)建的模型來預(yù)測一些測試集數(shù)據(jù)的標(biāo)簽,如果對于每一個測試集數(shù)據(jù)都能精確預(yù)測,就說這個模型能夠從訓(xùn)練集泛化到測試集。
過擬合就是根據(jù)數(shù)據(jù)構(gòu)建的模型的復(fù)雜度過高,對于應(yīng)用于實際的問題,太多不必要的特征,從而導(dǎo)致機(jī)器并沒有沒有理解數(shù)據(jù)間存在的規(guī)律。
欠擬合就是構(gòu)建模型的復(fù)雜度過低,不能很好的解決實際問題。
1.6機(jī)器學(xué)習(xí)項目的流程分析問題,獲取數(shù)據(jù)數(shù)據(jù)預(yù)處理特征工程訓(xùn)練模型與調(diào)優(yōu)模型評估模型融合上線運(yùn)行一個完整的機(jī)器學(xué)習(xí)項目含有以上步驟,但不一定含有所有以上步驟
分析問題,獲取數(shù)據(jù) 當(dāng)?shù)玫揭粋€問題的時候,首先要將問題轉(zhuǎn)化為機(jī)器學(xué)習(xí)能夠處理的問題,機(jī)器學(xué)習(xí)訓(xùn)練的過程非常耗時,所以我們仔細(xì)尋找合適的數(shù)據(jù)和選擇機(jī)器學(xué)習(xí)的目標(biāo)是分類、回歸還是聚類。此時得到的數(shù)據(jù)經(jīng)決定了我們機(jī)器學(xué)習(xí)結(jié)果的上限,所以數(shù)據(jù)要選擇具有代表性的否則會產(chǎn)生過擬合。
數(shù)據(jù)預(yù)處理 在實際中我們得到的數(shù)據(jù),并不像庫中或者比賽中的數(shù)據(jù),得到數(shù)據(jù)之后還需人工分析數(shù)據(jù)的格式是否符合要求,是否存在空值、缺失值,是否需要該特征等,然后進(jìn)行歸一化、離散化、缺失值處理、去除共線性等,這些工作簡單可復(fù)制,收益穩(wěn)定可預(yù)期,是機(jī)器學(xué)習(xí)的基礎(chǔ)必備步驟。
特征工程 數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法只是逼近這個上限而已。特征工程在機(jī)器學(xué)習(xí)中也起著非常重要的作用,它也是在做數(shù)據(jù)處理,只不過是通過特征提取、特征選擇、降維把數(shù)據(jù)處理成更為直接的被使用的數(shù)據(jù)。
訓(xùn)練模型與調(diào)優(yōu) 真正考驗水平的根據(jù)對算法的理解調(diào)節(jié)參數(shù),使模型達(dá)到最優(yōu)。模型診斷中至關(guān)重要的是判斷過擬合、欠擬合,常見的方法是繪制學(xué)習(xí)曲線,交叉驗證。通過增加訓(xùn)練的數(shù)據(jù)量、降低模型復(fù)雜度來降低過擬合的風(fēng)險,提高特征的數(shù)量和質(zhì)量、增加模型復(fù)雜來防止欠擬合。診斷后的模型需要進(jìn)行進(jìn)一步調(diào)優(yōu),調(diào)優(yōu)后的新模型需要重新診斷,這是一個反復(fù)迭代不斷逼近的過程,需要不斷的嘗試,進(jìn)而達(dá)到最優(yōu)的狀態(tài)。
模型評估 模型驗證和誤差分析也是機(jī)器學(xué)習(xí)中非常重要的一步,通過測試數(shù)據(jù),驗證模型的有效性,觀察誤差樣本,分析誤差產(chǎn)生的原因,由算法訓(xùn)練建立的模型,作用到測試集上檢驗?zāi)P偷木_度。若檢驗不合格,重新返回到算法進(jìn)行學(xué)習(xí),直至得到的模型比較精確,往往能使得我們找到提升算法性能的突破點(diǎn)。誤差分析主要是分析出誤差來源與數(shù)據(jù)、特征、算法。
模型融合
一般來說實際中,成熟的機(jī)器算法也就那么些,提升算法的準(zhǔn)確度主要方法是模型的前端(特征工程、清洗、預(yù)處理、采樣)和后端的模型融合。在機(jī)器學(xué)習(xí)比賽中模型融合非常常見,基本都能使得效果有一定的提升。
上線運(yùn)行 這一部分內(nèi)容主要跟工程實現(xiàn)的相關(guān)性比較大。工程上是結(jié)果導(dǎo)向,模型在線上運(yùn)行的效果直接決定
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 家風(fēng)課題研究申報書
- 循證課題申報書
- 2024秋七年級數(shù)學(xué)上冊 第五章 一元一次方程5.1 一元一次方程教學(xué)設(shè)計(新版)冀教版
- 人教版 (PEP)五年級下冊Unit 5 Whose dog is it Part A第二課時教案及反思
- 項目管理挑戰(zhàn)應(yīng)對策略試題及答案
- 2024七年級英語下冊 Unit 2 It's Show Time Lesson 9 Danny's School Project教學(xué)設(shè)計(新版)冀教版
- 作業(yè)設(shè)計課題申報書
- 中班課題申報書
- 2024-2025學(xué)年六年級上冊語文第八單元教學(xué)設(shè)計(統(tǒng)編版)
- 國際金融理財師考試模擬試卷的編制與分析試題及答案
- 血液透析中心管理規(guī)范(2020年版)
- 課本劇孔雀東南飛 演示文稿
- 教學(xué)教案、作業(yè)、記錄檢查記錄表
- 注塑機(jī)日常保養(yǎng)點(diǎn)檢表
- 一年級語文下冊課件-13 荷葉圓圓70-部編版(共16張PPT)
- 湘少版四年級英語下冊1-3單元測試卷無答案
- Q∕SY 1860-2016 鹽穴型儲氣庫井筒及鹽穴密封性檢測技術(shù)規(guī)范
- 食品安全法培訓(xùn)課件
- 2022-2023學(xué)年廣東省中山市八年級下冊期末物理檢測試題(含解析)
- 輸電線路工程施工驗收表格
- 礦井項目土方工程施工方案
評論
0/150
提交評論