




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
第1章概述1.1什么是機器學(xué)習(xí)1.2機器學(xué)習(xí)的算法1.3監(jiān)督學(xué)習(xí)1.4無監(jiān)督學(xué)習(xí)1.5數(shù)據(jù)集1.6機器學(xué)習(xí)項目的流程1.7小結(jié)1.1什么是機器學(xué)習(xí)
機器學(xué)習(xí)(machinelearning)它屬于人工智能的一個分支,因由統(tǒng)計學(xué)發(fā)展而來,算法中包含了大量的統(tǒng)計學(xué)知識和理論,所以又被稱為統(tǒng)計學(xué)習(xí)(statisticallearning)。
北方人理想體重=(身高cm-150)×0.6+50(kg)南方人理想體重=(身高cm-150)×0.6+48(kg)
機器學(xué)習(xí)還可以利用機器來模擬人類的思維進行工作,來適應(yīng)不同環(huán)境下的各種工作,以實現(xiàn)人類難以完成的工作。通過機器學(xué)習(xí)來處理問題,不但減少了錯誤率,還省去了人力,機器全面取代人類的夢想必然會向前邁出實質(zhì)性的一步。這就是研究機器學(xué)習(xí)的目的和意義。1.2機器學(xué)習(xí)的算法
監(jiān)督學(xué)習(xí)(SupervisedLearning)無監(jiān)督學(xué)習(xí)(UnsupervisedLearning)。
監(jiān)督學(xué)習(xí)
監(jiān)督學(xué)習(xí)是通過已經(jīng)訓(xùn)練的數(shù)據(jù)來訓(xùn)練模型。如果一組訓(xùn)練數(shù)據(jù),已知輸入和對應(yīng)的輸出,通過算法訓(xùn)練,從而可以得到一個最優(yōu)的模型。然后在輸入一個新的數(shù)據(jù),監(jiān)督學(xué)習(xí)算法就會根據(jù)模型做出相應(yīng)的預(yù)測,這樣就能得到一個最優(yōu)的預(yù)測。這類算法往往用于預(yù)測性研究。
無監(jiān)督學(xué)習(xí)
無監(jiān)督學(xué)習(xí)被稱為“沒有老師的學(xué)習(xí)”,沒有訓(xùn)練的過程,同時數(shù)據(jù)也只有輸入,沒有對應(yīng)的輸出,直接通過數(shù)據(jù)根據(jù)算法進行建模分析,意味著這些都是要通過機器學(xué)習(xí)自行學(xué)習(xí)探索。這聽起來似乎有點不可思議,但是在我們自身認(rèn)識世界的過程中也會用到無監(jiān)督學(xué)習(xí)。這類算法往往用于探究性研究,去用于尋找各種方法。
半監(jiān)督學(xué)習(xí)
半監(jiān)督學(xué)習(xí)是監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)相結(jié)合而產(chǎn)生的一種學(xué)習(xí)方法。它主要考慮如何利用少量的標(biāo)注數(shù)據(jù)和大量的未標(biāo)注數(shù)據(jù)進行訓(xùn)練和分類的問題,其算法主要是在監(jiān)督學(xué)習(xí)上進行擴展,半監(jiān)督學(xué)習(xí)對于提高學(xué)習(xí)機器性能具有非常重大的實際意義。
1.3監(jiān)督學(xué)習(xí) 分類(Classification)算法 回歸(Regression)算法
分類與回歸的差異就是分類預(yù)測的標(biāo)簽往往是間斷的,也就是說我們將輸入變量映射到離散類別。
回歸問題預(yù)測的標(biāo)簽往往是連續(xù)的,也就是說我們將輸入數(shù)據(jù)映射到一些連續(xù)函數(shù)上。
1.4無監(jiān)督學(xué)習(xí)
聚類算法
降維
聚類算法是無監(jiān)督學(xué)習(xí)中典型的一種算法,聚類算法可以根據(jù)數(shù)據(jù)的特征來進行建模。
降維的原理就是將數(shù)據(jù)從高維空間映射到低維空間。1.5數(shù)據(jù)集 數(shù)據(jù)集的集合。在監(jiān)督學(xué)習(xí)中,會將數(shù)據(jù)集劃分為訓(xùn)練集和測試集,有時也會分為訓(xùn)練集、驗證集和測試集。
訓(xùn)練集是用來擬合模型,通過設(shè)置分類器的參數(shù),訓(xùn)練分類模型。后續(xù)結(jié)合驗證集作用時,會選出同一參數(shù)的不同取值,擬合出多個分類器。
驗證集用是當(dāng)通過訓(xùn)練集訓(xùn)練出多個模型后,為了能找出效果最佳的模型,使用各個模型對驗證集數(shù)據(jù)進行預(yù)測,并記錄模型準(zhǔn)確率。選出效果最佳的模型所對應(yīng)的參數(shù)。
測試集用來最終評估模式識別系統(tǒng)的性能和分類能力。即可以把測試集當(dāng)做從來不存在的數(shù)據(jù)集,當(dāng)已經(jīng)確定模型參數(shù)后,可以使用測試集進行模型預(yù)測并評估模型的性能。三者本質(zhì)無任何區(qū)別,但劃分的作用是為了能夠泛化(generalize)出更好的模型。泛化、過擬合、欠擬合
泛化是指一個算法通過數(shù)據(jù)集對新數(shù)據(jù)的預(yù)測能力的好壞,在監(jiān)督學(xué)習(xí)中,我們知道算法訓(xùn)練數(shù)據(jù)后會構(gòu)建模型,如果我們此時通過構(gòu)建的模型來預(yù)測一些測試集數(shù)據(jù)的標(biāo)簽,如果對于每一個測試集數(shù)據(jù)都能精確預(yù)測,就說這個模型能夠從訓(xùn)練集泛化到測試集。
過擬合就是根據(jù)數(shù)據(jù)構(gòu)建的模型的復(fù)雜度過高,對于應(yīng)用于實際的問題,太多不必要的特征,從而導(dǎo)致機器并沒有沒有理解數(shù)據(jù)間存在的規(guī)律。
欠擬合就是構(gòu)建模型的復(fù)雜度過低,不能很好的解決實際問題。
1.6機器學(xué)習(xí)項目的流程分析問題,獲取數(shù)據(jù)數(shù)據(jù)預(yù)處理特征工程訓(xùn)練模型與調(diào)優(yōu)模型評估模型融合上線運行一個完整的機器學(xué)習(xí)項目含有以上步驟,但不一定含有所有以上步驟
分析問題,獲取數(shù)據(jù) 當(dāng)?shù)玫揭粋€問題的時候,首先要將問題轉(zhuǎn)化為機器學(xué)習(xí)能夠處理的問題,機器學(xué)習(xí)訓(xùn)練的過程非常耗時,所以我們仔細(xì)尋找合適的數(shù)據(jù)和選擇機器學(xué)習(xí)的目標(biāo)是分類、回歸還是聚類。此時得到的數(shù)據(jù)經(jīng)決定了我們機器學(xué)習(xí)結(jié)果的上限,所以數(shù)據(jù)要選擇具有代表性的否則會產(chǎn)生過擬合。
數(shù)據(jù)預(yù)處理 在實際中我們得到的數(shù)據(jù),并不像庫中或者比賽中的數(shù)據(jù),得到數(shù)據(jù)之后還需人工分析數(shù)據(jù)的格式是否符合要求,是否存在空值、缺失值,是否需要該特征等,然后進行歸一化、離散化、缺失值處理、去除共線性等,這些工作簡單可復(fù)制,收益穩(wěn)定可預(yù)期,是機器學(xué)習(xí)的基礎(chǔ)必備步驟。
特征工程 數(shù)據(jù)和特征決定了機器學(xué)習(xí)的上限,而模型和算法只是逼近這個上限而已。特征工程在機器學(xué)習(xí)中也起著非常重要的作用,它也是在做數(shù)據(jù)處理,只不過是通過特征提取、特征選擇、降維把數(shù)據(jù)處理成更為直接的被使用的數(shù)據(jù)。
訓(xùn)練模型與調(diào)優(yōu) 真正考驗水平的根據(jù)對算法的理解調(diào)節(jié)參數(shù),使模型達(dá)到最優(yōu)。模型診斷中至關(guān)重要的是判斷過擬合、欠擬合,常見的方法是繪制學(xué)習(xí)曲線,交叉驗證。通過增加訓(xùn)練的數(shù)據(jù)量、降低模型復(fù)雜度來降低過擬合的風(fēng)險,提高特征的數(shù)量和質(zhì)量、增加模型復(fù)雜來防止欠擬合。診斷后的模型需要進行進一步調(diào)優(yōu),調(diào)優(yōu)后的新模型需要重新診斷,這是一個反復(fù)迭代不斷逼近的過程,需要不斷的嘗試,進而達(dá)到最優(yōu)的狀態(tài)。
模型評估 模型驗證和誤差分析也是機器學(xué)習(xí)中非常重要的一步,通過測試數(shù)據(jù),驗證模型的有效性,觀察誤差樣本,分析誤差產(chǎn)生的原因,由算法訓(xùn)練建立的模型,作用到測試集上檢驗?zāi)P偷木_度。若檢驗不合格,重新返回到算法進行學(xué)習(xí),直至得到的模型比較精確,往往能使得我們找到提升算法性能的突破點。誤差分析主要是分析出誤差來源與數(shù)據(jù)、特征、算法。
模型融合
一般來說實際中,成熟的機器算法也就那么些,提升算法的準(zhǔn)確度主要方法是模型的前端(特征工程、清洗、預(yù)處理、采樣)和后端的模型融合。在機器學(xué)習(xí)比賽中模型融合非常常見,基本都能使得效果有一定的提升。
上線運行 這一部分內(nèi)容主要跟工程實現(xiàn)的相關(guān)性比較大。工程上是結(jié)果導(dǎo)向,模型在線上運行的效果直接決定
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年六年級語文提高策略試題及答案
- 2024食品質(zhì)檢員實操能力考核試題及答案
- 2024年汽車維修工考試新變動分析試題及答案
- 統(tǒng)計學(xué)考生自我提升計劃試題及答案
- 汽車美容師小微企業(yè)運營管理與風(fēng)險控制試題及答案
- 體驗語文魅力六年級試題及答案
- 2024年藥理學(xué)知識圖譜分析試題及答案
- 寵物營養(yǎng)師考試案例分析試題及答案
- 公務(wù)員省考時間安排與規(guī)劃試題及答案
- 2024年計算機基礎(chǔ)考試前瞻探討的試題及答案
- 廣東省廣州市2022年中考英語真題(含答案)
- DB11T 147-2015 檢查井蓋結(jié)構(gòu)、安全技術(shù)規(guī)范
- 2024年初級消防員職業(yè)技能鑒定考試復(fù)習(xí)題庫(單選、多選題)
- 玉溪大紅山鐵礦二期北采區(qū)采礦施工組織設(shè)計
- 陽光心理-健康人生小學(xué)生心理健康主題班會課件
- 第9課資產(chǎn)階級革命與資本主義制度的確立課件-高中歷史統(tǒng)編版2019必修中外歷史綱要下冊
- 2024中央戲劇學(xué)院教師招聘考試筆試試題
- 2024年心理咨詢師考試題庫及參考答案(考試直接用)
- G -B- 43630-2023 塔式和機架式服務(wù)器能效限定值及能效等級(正式版)
- 《零碳建筑技術(shù)概論》 課件全套 郭春梅 第1-13章 緒論、零碳建筑碳排放核算方法- 典型零碳建筑案例
- 統(tǒng)編版六年級下冊語文非連續(xù)性文本閱讀小升初專項訓(xùn)練(含答案)
評論
0/150
提交評論