第1章概述電子課件

上傳人：1*** IP屬地：廣東上傳時間：2025-01-10 格式：PPTX 頁數(shù)：30 大小：293.48KB 積分：20 舉報 版權(quán)申訴

已閱讀5頁，還剩25頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第1章概述1.1什么是機(jī)器學(xué)習(xí)1.2機(jī)器學(xué)習(xí)的算法1.3監(jiān)督學(xué)習(xí)1.4無監(jiān)督學(xué)習(xí)1.5數(shù)據(jù)集1.6機(jī)器學(xué)習(xí)項目的流程1.7小結(jié)1.1什么是機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)(machinelearning)它屬于人工智能的一個分支，因由統(tǒng)計學(xué)發(fā)展而來，算法中包含了大量的統(tǒng)計學(xué)知識和理論，所以又被稱為統(tǒng)計學(xué)習(xí)(statisticallearning)。

北方人理想體重=(身高cm-150)×0.6+50(kg)南方人理想體重=(身高cm-150)×0.6+48(kg)

機(jī)器學(xué)習(xí)還可以利用機(jī)器來模擬人類的思維進(jìn)行工作，來適應(yīng)不同環(huán)境下的各種工作，以實現(xiàn)人類難以完成的工作。通過機(jī)器學(xué)習(xí)來處理問題，不但減少了錯誤率，還省去了人力，機(jī)器全面取代人類的夢想必然會向前邁出實質(zhì)性的一步。這就是研究機(jī)器學(xué)習(xí)的目的和意義。1.2機(jī)器學(xué)習(xí)的算法

監(jiān)督學(xué)習(xí)(SupervisedLearning)無監(jiān)督學(xué)習(xí)(UnsupervisedLearning)。

監(jiān)督學(xué)習(xí)

監(jiān)督學(xué)習(xí)是通過已經(jīng)訓(xùn)練的數(shù)據(jù)來訓(xùn)練模型。如果一組訓(xùn)練數(shù)據(jù)，已知輸入和對應(yīng)的輸出，通過算法訓(xùn)練，從而可以得到一個最優(yōu)的模型。然后在輸入一個新的數(shù)據(jù)，監(jiān)督學(xué)習(xí)算法就會根據(jù)模型做出相應(yīng)的預(yù)測，這樣就能得到一個最優(yōu)的預(yù)測。這類算法往往用于預(yù)測性研究。

無監(jiān)督學(xué)習(xí)

無監(jiān)督學(xué)習(xí)被稱為“沒有老師的學(xué)習(xí)”，沒有訓(xùn)練的過程，同時數(shù)據(jù)也只有輸入，沒有對應(yīng)的輸出，直接通過數(shù)據(jù)根據(jù)算法進(jìn)行建模分析，意味著這些都是要通過機(jī)器學(xué)習(xí)自行學(xué)習(xí)探索。這聽起來似乎有點(diǎn)不可思議，但是在我們自身認(rèn)識世界的過程中也會用到無監(jiān)督學(xué)習(xí)。這類算法往往用于探究性研究，去用于尋找各種方法。

半監(jiān)督學(xué)習(xí)

半監(jiān)督學(xué)習(xí)是監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)相結(jié)合而產(chǎn)生的一種學(xué)習(xí)方法。它主要考慮如何利用少量的標(biāo)注數(shù)據(jù)和大量的未標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練和分類的問題，其算法主要是在監(jiān)督學(xué)習(xí)上進(jìn)行擴(kuò)展，半監(jiān)督學(xué)習(xí)對于提高學(xué)習(xí)機(jī)器性能具有非常重大的實際意義。

1.3監(jiān)督學(xué)習(xí) 分類(Classification)算法回歸(Regression)算法

分類與回歸的差異就是分類預(yù)測的標(biāo)簽往往是間斷的,也就是說我們將輸入變量映射到離散類別。

回歸問題預(yù)測的標(biāo)簽往往是連續(xù)的，也就是說我們將輸入數(shù)據(jù)映射到一些連續(xù)函數(shù)上。

1.4無監(jiān)督學(xué)習(xí)

聚類算法

降維

聚類算法是無監(jiān)督學(xué)習(xí)中典型的一種算法，聚類算法可以根據(jù)數(shù)據(jù)的特征來進(jìn)行建模。

降維的原理就是將數(shù)據(jù)從高維空間映射到低維空間。1.5數(shù)據(jù)集數(shù)據(jù)集的集合。在監(jiān)督學(xué)習(xí)中，會將數(shù)據(jù)集劃分為訓(xùn)練集和測試集，有時也會分為訓(xùn)練集、驗證集和測試集。

訓(xùn)練集是用來擬合模型，通過設(shè)置分類器的參數(shù)，訓(xùn)練分類模型。后續(xù)結(jié)合驗證集作用時，會選出同一參數(shù)的不同取值，擬合出多個分類器。

驗證集用是當(dāng)通過訓(xùn)練集訓(xùn)練出多個模型后，為了能找出效果最佳的模型，使用各個模型對驗證集數(shù)據(jù)進(jìn)行預(yù)測，并記錄模型準(zhǔn)確率。選出效果最佳的模型所對應(yīng)的參數(shù)。

測試集用來最終評估模式識別系統(tǒng)的性能和分類能力。即可以把測試集當(dāng)做從來不存在的數(shù)據(jù)集，當(dāng)已經(jīng)確定模型參數(shù)后，可以使用測試集進(jìn)行模型預(yù)測并評估模型的性能。三者本質(zhì)無任何區(qū)別，但劃分的作用是為了能夠泛化(generalize)出更好的模型。泛化、過擬合、欠擬合

泛化是指一個算法通過數(shù)據(jù)集對新數(shù)據(jù)的預(yù)測能力的好壞，在監(jiān)督學(xué)習(xí)中，我們知道算法訓(xùn)練數(shù)據(jù)后會構(gòu)建模型，如果我們此時通過構(gòu)建的模型來預(yù)測一些測試集數(shù)據(jù)的標(biāo)簽，如果對于每一個測試集數(shù)據(jù)都能精確預(yù)測，就說這個模型能夠從訓(xùn)練集泛化到測試集。

過擬合就是根據(jù)數(shù)據(jù)構(gòu)建的模型的復(fù)雜度過高，對于應(yīng)用于實際的問題，太多不必要的特征，從而導(dǎo)致機(jī)器并沒有沒有理解數(shù)據(jù)間存在的規(guī)律。

欠擬合就是構(gòu)建模型的復(fù)雜度過低，不能很好的解決實際問題。

1.6機(jī)器學(xué)習(xí)項目的流程分析問題，獲取數(shù)據(jù)數(shù)據(jù)預(yù)處理特征工程訓(xùn)練模型與調(diào)優(yōu)模型評估模型融合上線運(yùn)行一個完整的機(jī)器學(xué)習(xí)項目含有以上步驟，但不一定含有所有以上步驟

分析問題，獲取數(shù)據(jù) 當(dāng)?shù)玫揭粋€問題的時候，首先要將問題轉(zhuǎn)化為機(jī)器學(xué)習(xí)能夠處理的問題，機(jī)器學(xué)習(xí)訓(xùn)練的過程非常耗時，所以我們仔細(xì)尋找合適的數(shù)據(jù)和選擇機(jī)器學(xué)習(xí)的目標(biāo)是分類、回歸還是聚類。此時得到的數(shù)據(jù)經(jīng)決定了我們機(jī)器學(xué)習(xí)結(jié)果的上限，所以數(shù)據(jù)要選擇具有代表性的否則會產(chǎn)生過擬合。

數(shù)據(jù)預(yù)處理在實際中我們得到的數(shù)據(jù)，并不像庫中或者比賽中的數(shù)據(jù)，得到數(shù)據(jù)之后還需人工分析數(shù)據(jù)的格式是否符合要求，是否存在空值、缺失值，是否需要該特征等，然后進(jìn)行歸一化、離散化、缺失值處理、去除共線性等，這些工作簡單可復(fù)制，收益穩(wěn)定可預(yù)期，是機(jī)器學(xué)習(xí)的基礎(chǔ)必備步驟。

特征工程數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限，而模型和算法只是逼近這個上限而已。特征工程在機(jī)器學(xué)習(xí)中也起著非常重要的作用，它也是在做數(shù)據(jù)處理，只不過是通過特征提取、特征選擇、降維把數(shù)據(jù)處理成更為直接的被使用的數(shù)據(jù)。

訓(xùn)練模型與調(diào)優(yōu) 真正考驗水平的根據(jù)對算法的理解調(diào)節(jié)參數(shù)，使模型達(dá)到最優(yōu)。模型診斷中至關(guān)重要的是判斷過擬合、欠擬合，常見的方法是繪制學(xué)習(xí)曲線，交叉驗證。通過增加訓(xùn)練的數(shù)據(jù)量、降低模型復(fù)雜度來降低過擬合的風(fēng)險，提高特征的數(shù)量和質(zhì)量、增加模型復(fù)雜來防止欠擬合。診斷后的模型需要進(jìn)行進(jìn)一步調(diào)優(yōu)，調(diào)優(yōu)后的新模型需要重新診斷，這是一個反復(fù)迭代不斷逼近的過程，需要不斷的嘗試，進(jìn)而達(dá)到最優(yōu)的狀態(tài)。

模型評估模型驗證和誤差分析也是機(jī)器學(xué)習(xí)中非常重要的一步，通過測試數(shù)據(jù)，驗證模型的有效性，觀察誤差樣本，分析誤差產(chǎn)生的原因，由算法訓(xùn)練建立的模型，作用到測試集上檢驗?zāi)Ｐ偷木_度。若檢驗不合格，重新返回到算法進(jìn)行學(xué)習(xí)，直至得到的模型比較精確，往往能使得我們找到提升算法性能的突破點(diǎn)。誤差分析主要是分析出誤差來源與數(shù)據(jù)、特征、算法。

模型融合

一般來說實際中，成熟的機(jī)器算法也就那么些，提升算法的準(zhǔn)確度主要方法是模型的前端（特征工程、清洗、預(yù)處理、采樣）和后端的模型融合。在機(jī)器學(xué)習(xí)比賽中模型融合非常常見，基本都能使得效果有一定的提升。

上線運(yùn)行這一部分內(nèi)容主要跟工程實現(xiàn)的相關(guān)性比較大。工程上是結(jié)果導(dǎo)向，模型在線上運(yùn)行的效果直接決定

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第1章概述電子課件

文檔簡介

溫馨提示

最新文檔

評論

第1章概述電子課件

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔