版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第一章機(jī)器學(xué)習(xí)入門基礎(chǔ)第1章機(jī)器學(xué)習(xí)入門基礎(chǔ)第2章機(jī)器學(xué)習(xí)數(shù)學(xué)基礎(chǔ)第3章線性回歸第4章樸素貝葉斯第5章決策樹算法第6章Logistic回歸第7章支持向量機(jī)第8章?隨機(jī)森林第9章AdaBoost第10章聚類第11章降維技術(shù)與關(guān)聯(lián)規(guī)則挖掘第12章神經(jīng)網(wǎng)絡(luò)綜合案例1綜合案例2綜合案例3全套可編輯PPT課件本章主要講述機(jī)器學(xué)習(xí)相關(guān)的概念、基本框架、實(shí)施流程以及應(yīng)用領(lǐng)域等。通過本章學(xué)習(xí)可以:熟悉機(jī)器學(xué)習(xí)的相關(guān)概念理解機(jī)器學(xué)習(xí)的原理熟悉機(jī)器學(xué)習(xí)的四種類型掌握機(jī)器學(xué)習(xí)的實(shí)施流程了解機(jī)器學(xué)習(xí)的應(yīng)用領(lǐng)域了解機(jī)器學(xué)習(xí)的開發(fā)工具學(xué)習(xí)目標(biāo)機(jī)器學(xué)習(xí)的概念人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的關(guān)系機(jī)器學(xué)習(xí)的概念機(jī)器學(xué)習(xí)的原理機(jī)器學(xué)習(xí)的四種類型機(jī)器學(xué)習(xí)的實(shí)施流程機(jī)器學(xué)習(xí)的應(yīng)用領(lǐng)域機(jī)器學(xué)習(xí)的開發(fā)工具Python人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的關(guān)系1、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)都屬于AI的范疇2、機(jī)器學(xué)習(xí)是AI的一個(gè)分支技術(shù)3、深度學(xué)習(xí)是機(jī)器學(xué)習(xí)里的特定分支技術(shù)總結(jié):三者是包含關(guān)系,不沖突也不并列機(jī)器學(xué)習(xí)的概念人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的關(guān)系機(jī)器學(xué)習(xí)的概念機(jī)器學(xué)習(xí)的原理機(jī)器學(xué)習(xí)的四種類型機(jī)器學(xué)習(xí)的實(shí)施流程機(jī)器學(xué)習(xí)的應(yīng)用領(lǐng)域機(jī)器學(xué)習(xí)的開發(fā)工具Python機(jī)器學(xué)習(xí)的概念美國作家PeterHarrington在他的《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》一書中是這么說的:“機(jī)器學(xué)習(xí)就是把無數(shù)的數(shù)據(jù)轉(zhuǎn)換成有用的信息。”機(jī)器學(xué)習(xí)的概念英國作家PeterFlach在他的《機(jī)器學(xué)習(xí)》一書中,把機(jī)器學(xué)習(xí)的概念概括為:“使用正確的特征來構(gòu)建正確的模型,以完成指定任務(wù)”。機(jī)器學(xué)習(xí)的概念人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的關(guān)系機(jī)器學(xué)習(xí)的概念機(jī)器學(xué)習(xí)的原理機(jī)器學(xué)習(xí)的四種類型機(jī)器學(xué)習(xí)的實(shí)施流程機(jī)器學(xué)習(xí)的應(yīng)用領(lǐng)域機(jī)器學(xué)習(xí)的開發(fā)工具Python經(jīng)驗(yàn)規(guī)律歸納預(yù)測輸入新的問題未來機(jī)器學(xué)習(xí)的原理機(jī)器學(xué)習(xí),顧名思義就是讓機(jī)器進(jìn)行學(xué)習(xí),學(xué)習(xí)的目的是實(shí)現(xiàn)對(duì)世界上的人事物進(jìn)行預(yù)測或者判斷,這就是機(jī)器學(xué)習(xí)的主要作用。機(jī)器學(xué)習(xí)的原理小孩子通過不斷地試錯(cuò),學(xué)會(huì)哪些東西能吃,哪些東西不能吃。機(jī)器學(xué)習(xí)的原理機(jī)器學(xué)習(xí)過程機(jī)器學(xué)習(xí)的原理機(jī)器學(xué)習(xí)并不是任何情況下都能預(yù)測或者判斷的,也不是每次都能夠判斷準(zhǔn)確的,這與數(shù)據(jù)的特性和準(zhǔn)確性有非常大的關(guān)系。搜索推薦機(jī)器學(xué)習(xí)的原理醫(yī)療機(jī)器學(xué)習(xí)的原理機(jī)器學(xué)習(xí)本質(zhì)上是一個(gè)提高效率的工具。機(jī)器學(xué)習(xí)的本質(zhì)上是什么?機(jī)器學(xué)習(xí)的概念人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的關(guān)系機(jī)器學(xué)習(xí)的概念機(jī)器學(xué)習(xí)的原理機(jī)器學(xué)習(xí)的四種類型機(jī)器學(xué)習(xí)的實(shí)施流程機(jī)器學(xué)習(xí)的應(yīng)用領(lǐng)域機(jī)器學(xué)習(xí)的開發(fā)工具Python機(jī)器學(xué)習(xí)的四種類型機(jī)器學(xué)習(xí)可分為四大類:監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和增強(qiáng)學(xué)習(xí)。監(jiān)督學(xué)習(xí):通過學(xué)習(xí)已有的標(biāo)記數(shù)據(jù)樣本構(gòu)建模型,再利用模型對(duì)新的數(shù)據(jù)進(jìn)行預(yù)測。無監(jiān)督學(xué)習(xí)(非監(jiān)督學(xué)習(xí)):通過學(xué)習(xí)沒有標(biāo)記的數(shù)據(jù)樣本,發(fā)掘未知數(shù)據(jù)間的隱藏結(jié)構(gòu)關(guān)系,從而實(shí)現(xiàn)預(yù)測。半監(jiān)督學(xué)習(xí):它是一種在預(yù)測時(shí),既使用已標(biāo)記的樣本數(shù)據(jù),也使用未標(biāo)記的樣本數(shù)據(jù)的方法。增強(qiáng)學(xué)習(xí),指通過與環(huán)境的交互,以推測和優(yōu)化實(shí)際的動(dòng)作,從而實(shí)現(xiàn)決策。機(jī)器學(xué)習(xí)的四種類型監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí)是通過學(xué)習(xí)已有的標(biāo)記數(shù)據(jù)樣本構(gòu)建模型,再利用模型對(duì)新的數(shù)據(jù)進(jìn)行預(yù)測。例如,為了預(yù)測某位患者在一年內(nèi)是否會(huì)心臟病發(fā)作,監(jiān)督學(xué)習(xí)可以利用以前就醫(yī)患者的相關(guān)數(shù)據(jù)(包括年齡、體重、身高和血壓)生成一個(gè)模型,用來預(yù)測心臟病發(fā)作的概率。常見的監(jiān)督學(xué)習(xí)主要分為回歸和分類兩種形式,回歸可用于預(yù)測連續(xù)值的結(jié)果(如預(yù)測未來房價(jià)走勢),分類可用于預(yù)測離散值的結(jié)果(如判斷圖片上的動(dòng)物是貓還是狗)。機(jī)器學(xué)習(xí)的四種類型無監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)也可稱為非監(jiān)督學(xué)習(xí),通過學(xué)習(xí)沒有標(biāo)記的數(shù)據(jù)樣本,發(fā)掘未知數(shù)據(jù)間的隱藏結(jié)構(gòu)關(guān)系,從而實(shí)現(xiàn)預(yù)測。聚類學(xué)習(xí)就是一種比較常用的無監(jiān)督學(xué)習(xí),聚類的目的是把相似的對(duì)象聚在一起,構(gòu)成不同的集合,例如基因序列分析等應(yīng)用。機(jī)器學(xué)習(xí)的四種類型半監(jiān)督學(xué)習(xí)半監(jiān)督學(xué)習(xí),它是一種在預(yù)測時(shí),既使用已標(biāo)記的樣本數(shù)據(jù),也使用未標(biāo)記的樣本數(shù)據(jù)的方法,通常情況下,無標(biāo)記樣本的數(shù)量遠(yuǎn)超過有標(biāo)記樣本,因?yàn)橛袝r(shí)候獲得有標(biāo)記數(shù)據(jù)的成本很高,所以在訓(xùn)練分類器模型時(shí),先使用部分已經(jīng)標(biāo)記的數(shù)據(jù),在學(xué)習(xí)了數(shù)據(jù)的內(nèi)在結(jié)構(gòu)聯(lián)系以后,再使用大量無標(biāo)記的數(shù)據(jù)進(jìn)一步學(xué)得更好的模型,從而實(shí)現(xiàn)對(duì)數(shù)據(jù)的有效預(yù)測。機(jī)器學(xué)習(xí)的四種類型增強(qiáng)學(xué)習(xí)所謂增強(qiáng)學(xué)習(xí),是通過與環(huán)境的交互,以推測和優(yōu)化實(shí)際的動(dòng)作,從而實(shí)現(xiàn)決策。和上述學(xué)習(xí)類型相比,增強(qiáng)學(xué)習(xí)法輸入的數(shù)據(jù),將直接反饋到模型,與此同時(shí),模型作出相應(yīng)調(diào)整并依據(jù)狀態(tài)的變化來獲得強(qiáng)化后的信號(hào),從而完成和環(huán)境的交互。例如自動(dòng)駕駛汽車通過不斷與環(huán)境交互來學(xué)習(xí)。在此,我們只需要知道機(jī)器學(xué)習(xí)整體框架的基本概念即可,實(shí)際應(yīng)用場景中,使用最多的主要是監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩大類。機(jī)器學(xué)習(xí)的概念人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的關(guān)系機(jī)器學(xué)習(xí)的概念機(jī)器學(xué)習(xí)的原理機(jī)器學(xué)習(xí)的四種類型機(jī)器學(xué)習(xí)的實(shí)施流程機(jī)器學(xué)習(xí)的應(yīng)用領(lǐng)域機(jī)器學(xué)習(xí)的開發(fā)工具Python機(jī)器學(xué)習(xí)的實(shí)施流程機(jī)器學(xué)習(xí)的一般實(shí)施流程,包括數(shù)據(jù)收集、數(shù)據(jù)清洗、特征提取與選擇、模型訓(xùn)練、模型評(píng)估測試、模型部署應(yīng)用等步驟。機(jī)器學(xué)習(xí)的實(shí)施流程第一步:數(shù)據(jù)收集應(yīng)用機(jī)器學(xué)習(xí)解決問題,在明確目標(biāo)任務(wù)(即明確要解決的問題和業(yè)務(wù)需求)之后,首先需要進(jìn)行數(shù)據(jù)收集。收集數(shù)據(jù)有多種不同的方式,如制作網(wǎng)絡(luò)爬蟲從網(wǎng)站上抽取數(shù)據(jù)、服務(wù)器中存儲(chǔ)的應(yīng)用數(shù)據(jù)、設(shè)備發(fā)送過來的測試數(shù)據(jù)等,在機(jī)器學(xué)習(xí)任務(wù)中使用的數(shù)據(jù)稱為數(shù)據(jù)集。典型的數(shù)據(jù)集類似于一個(gè)二維的電子表格或數(shù)據(jù)庫表,每一行稱為一個(gè)數(shù)據(jù)樣本,每一列的屬性稱為特征(如身高、體重等)序號(hào)姓名性別身高(cm)體重(kg)喜歡的顏色1001張三男17560藍(lán)色1002李四女16048紅色1003王五男18065黑色1004趙六女16550黑色機(jī)器學(xué)習(xí)的實(shí)施流程第二步:數(shù)據(jù)清洗大部分情況下,收集得到的數(shù)據(jù)需要經(jīng)過清洗后才能夠?yàn)樗惴ㄋ褂?,真?shí)的數(shù)據(jù)中通常會(huì)出現(xiàn)一些數(shù)據(jù)質(zhì)量問題,比如:①不完整:數(shù)據(jù)中缺少屬性或者包含一些缺失的值。②多噪音:數(shù)據(jù)包含錯(cuò)誤的記錄或者異常點(diǎn)。③不一致:數(shù)據(jù)中存在矛盾的、有差異的記錄。序號(hào)姓名性別身高(cm)體重(kg)喜歡的顏色1001張三男17560藍(lán)色1002李四女160Null紅色1003王五男25065黑色1004趙六女16550趙六機(jī)器學(xué)習(xí)的實(shí)施流程第三步:特征提取與選擇對(duì)數(shù)據(jù)進(jìn)行初步的清洗后,需要將其轉(zhuǎn)換為一種適合機(jī)器學(xué)習(xí)模型的表示形式,并且轉(zhuǎn)換后一樣準(zhǔn)確地表示數(shù)據(jù)。例如通過人的身高、體重、喜歡的顏色這些特征屬性來預(yù)測性別,我們不會(huì)把“藍(lán)色”、“紅色”、“黑色”直接輸入給模型,因?yàn)闄C(jī)器學(xué)習(xí)的模型算法均要求輸入的數(shù)據(jù)必須是數(shù)值型的,在此分類問題中,需要將類別數(shù)據(jù)編碼成為對(duì)應(yīng)的數(shù)值表示,可以采用啞編碼,它是一種常用的將特征數(shù)字化的方式。序號(hào)姓名性別身高(cm)體重(kg)藍(lán)色紅色黑色1001張三男175601001002李四女160480101003王五男180650011004趙六女16550001機(jī)器學(xué)習(xí)的實(shí)施流程特征選擇的必要性主要在于以下幾點(diǎn):①減少訓(xùn)練的時(shí)間,能使用較少的特征更快地生成模型。②簡化模型,使模型更容易被使用者所解釋。③使模型的泛化能力更好,避免過擬合。特征選擇的方法有:過濾法(filter)、包裹法(wapper)、嵌入法(Embedded)等。機(jī)器學(xué)習(xí)的實(shí)施流程第四步:模型訓(xùn)練數(shù)據(jù)經(jīng)過預(yù)處理之后,就可以用來訓(xùn)練模型,一般會(huì)把數(shù)據(jù)集分為訓(xùn)練集和測試集,或?qū)τ?xùn)練集再細(xì)分為訓(xùn)練集和驗(yàn)證集,訓(xùn)練模型是在訓(xùn)練數(shù)據(jù)集上進(jìn)行的。在模型訓(xùn)練過程中,需要對(duì)模型超參進(jìn)行調(diào)優(yōu),如果不了解算法原理,往往無法快速定位能決定模型優(yōu)劣的模型參數(shù),所以在訓(xùn)練過程中,對(duì)機(jī)器學(xué)習(xí)算法原理的要求較高,理解越深入,就越容易發(fā)現(xiàn)問題的原因,從而快速找到合理的調(diào)優(yōu)方法。機(jī)器學(xué)習(xí)的實(shí)施流程第五步:模型評(píng)估測試?yán)糜?xùn)練數(shù)據(jù)生成模型后,使用驗(yàn)證集來驗(yàn)證模型的有效性,使用測試集來評(píng)估模型在真實(shí)環(huán)境中的泛化能力。如果測試結(jié)果不理想,則分析原因并進(jìn)行模型優(yōu)化。過擬合、欠擬合是模型診斷中常見的問題,如果出現(xiàn)過擬合(指所訓(xùn)練的模型在訓(xùn)練集上表現(xiàn)得非常優(yōu)秀,可以有效地區(qū)分每一個(gè)樣本,但在測試集上表現(xiàn)得很差),可以通過增加數(shù)據(jù)量和降低模型復(fù)雜度來優(yōu)化,如果出現(xiàn)欠擬合(指所訓(xùn)練的模型在訓(xùn)練集中就已經(jīng)表現(xiàn)得很差,準(zhǔn)確度很低),可以通過提高特征數(shù)量和質(zhì)量,增加模型復(fù)雜度來優(yōu)化。模型評(píng)估針對(duì)分類、回歸等不同類型的機(jī)器學(xué)習(xí)問題,評(píng)估指標(biāo)的選擇也有所不同。所以,需要熟悉每種評(píng)估指標(biāo)的精確定義,有針對(duì)性地選擇合適的評(píng)估指標(biāo),并根據(jù)評(píng)估指標(biāo)的反饋進(jìn)行模型調(diào)整。一般情況下,模型調(diào)整后,需要重新訓(xùn)練和評(píng)估,所以機(jī)器學(xué)習(xí)的模型建立過程就是不斷地嘗試,并最終達(dá)到最優(yōu)狀態(tài)。機(jī)器學(xué)習(xí)的實(shí)施流程第六步:模型部署應(yīng)用通過在測試集上完成評(píng)估的模型,就可以用來預(yù)測新數(shù)據(jù)的值。這時(shí),需要將該模型部署到實(shí)際的生產(chǎn)場景中,并根據(jù)業(yè)務(wù)場景的真實(shí)數(shù)據(jù)對(duì)模型進(jìn)行不斷的微調(diào)。機(jī)器學(xué)習(xí)的概念人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的關(guān)系機(jī)器學(xué)習(xí)的概念機(jī)器學(xué)習(xí)的原理機(jī)器學(xué)習(xí)的四種類型機(jī)器學(xué)習(xí)的實(shí)施流程機(jī)器學(xué)習(xí)的應(yīng)用領(lǐng)域機(jī)器學(xué)習(xí)的開發(fā)工具Python機(jī)器學(xué)習(xí)的應(yīng)用領(lǐng)域智能汽車智能汽車通過機(jī)器學(xué)習(xí)技術(shù)整合物聯(lián)網(wǎng)資源,智能了解車主及周邊的環(huán)境,自動(dòng)根據(jù)司機(jī)的需求靈活調(diào)整車內(nèi)設(shè)置,比如座椅位置、溫度、音響,等等;甚至還可以報(bào)告故障和智能修復(fù)故障。在自動(dòng)駕駛方面,可以為駕駛者提供交通和道路狀況方面的實(shí)時(shí)建議及事故預(yù)警。機(jī)器學(xué)習(xí)的應(yīng)用領(lǐng)域氣象預(yù)測氣象預(yù)報(bào)主要分為短時(shí)預(yù)測和長期預(yù)測。短時(shí)預(yù)測指未來幾小時(shí)到幾天不等的天氣預(yù)測,長期預(yù)測指的是厄爾尼諾(ElNino)、拉尼娜(LaNina)等氣候現(xiàn)象。短期預(yù)測通常基于地區(qū)內(nèi)的氣象站所提供的多種實(shí)時(shí)數(shù)據(jù)進(jìn)行分析,如當(dāng)?shù)氐臍鉁?、濕度、氣壓、風(fēng)速、雷達(dá)圖等,以復(fù)雜的物理模型綜合運(yùn)算得出結(jié)果。傳統(tǒng)方法通常需要為模型設(shè)定大氣物理的先驗(yàn)知識(shí),而機(jī)器學(xué)習(xí)方法選擇避開物理因素,嘗試?yán)么罅繑?shù)據(jù)驅(qū)動(dòng)機(jī)器從算法訓(xùn)練中“習(xí)得”大氣物理學(xué)的原理。目前機(jī)器學(xué)習(xí)在氣象的短期預(yù)測領(lǐng)域已有較為成熟的應(yīng)用,在長期的氣象預(yù)測上科學(xué)家也正在開發(fā)相應(yīng)的模型來做各種嘗試。機(jī)器學(xué)習(xí)的應(yīng)用領(lǐng)域個(gè)性化營銷推廣商家對(duì)顧客越了解,就越能夠?yàn)轭櫩吞峁└玫姆?wù),因而賣出的東西也就會(huì)越多,這是個(gè)性化營銷的基礎(chǔ)。我們曾碰到過這樣的情況:在網(wǎng)上商店上瀏覽某件產(chǎn)品,但沒有買,而過了幾天后,再去瀏覽各個(gè)不同的網(wǎng)站時(shí)都會(huì)看到那款產(chǎn)品的數(shù)字廣告。這種個(gè)性化營銷其實(shí)只是冰山一角,企業(yè)能夠進(jìn)行全方位的個(gè)性化營銷,如具體給顧客發(fā)送什么樣的電子郵件,給他們提供什么樣的優(yōu)惠券,還有給他們推薦什么產(chǎn)品等等,這一切都是為了提高交易達(dá)成的可能性。機(jī)器學(xué)習(xí)的應(yīng)用領(lǐng)域自然語言處理(NLP)自然語言處理正被用于各個(gè)領(lǐng)域的很多項(xiàng)應(yīng)用當(dāng)中。有自然語言的機(jī)器學(xué)習(xí)算法能夠替代客戶服務(wù)人員,快速地給客戶提供他們所需的信息。它正被用于將合同中艱深晦澀的法律措辭轉(zhuǎn)變成簡單易懂的普通語言,也被用于幫助律師整理大量的信息,提高案件準(zhǔn)備效率。機(jī)器學(xué)習(xí)的應(yīng)用領(lǐng)域數(shù)據(jù)安全性惡意軟件是一個(gè)越來越嚴(yán)峻的問題。2014年,卡巴斯基實(shí)驗(yàn)室稱,它每天檢測到的新惡意軟件文件數(shù)量達(dá)到32.5萬。不過,以色列深度學(xué)習(xí)技術(shù)公司DeepInstinct公司指出,各個(gè)新惡意軟件通常都有跟舊版本一樣的代碼——只有2%到10%的惡意軟件文件出現(xiàn)迭代變化。他們的學(xué)習(xí)模型能夠辨別那2%到10%的變異惡意軟件,在預(yù)測哪些文件是惡意軟件上有著很高的準(zhǔn)確率。在其他情況下,機(jī)器學(xué)習(xí)算法能夠發(fā)現(xiàn)云端數(shù)據(jù)如何被訪問方面的模式,能夠報(bào)告或可預(yù)測安全問題的異常情況。機(jī)器學(xué)習(xí)的概念人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的關(guān)系機(jī)器學(xué)習(xí)的概念機(jī)器學(xué)習(xí)的原理機(jī)器學(xué)習(xí)的四種類型機(jī)器學(xué)習(xí)的實(shí)施流程機(jī)器學(xué)習(xí)的應(yīng)用領(lǐng)域機(jī)器學(xué)習(xí)的開發(fā)工具Python機(jī)器學(xué)習(xí)的開發(fā)工具PythonPython開發(fā)環(huán)境的搭建使用的工具/環(huán)境工具/環(huán)境說明Windows1064bit操作系統(tǒng)此項(xiàng)實(shí)訓(xùn)所使用的計(jì)算機(jī)操作系統(tǒng)Google、火狐等此項(xiàng)實(shí)訓(xùn)所使用的瀏覽器一站式開發(fā)環(huán)境AnacondaAnaconda是一個(gè)基于Python的數(shù)據(jù)處理和科學(xué)計(jì)算平臺(tái),它已經(jīng)內(nèi)置了許多非常有用的第三方庫,裝上Anaconda,就相當(dāng)于把Python和一些如Numpy、Pandas、Matplotlib等常用的庫自動(dòng)安裝好了,使得安裝比常規(guī)python安裝要容易。因而建議直接安裝Anaconda。集成開發(fā)環(huán)境PyCharmPyCharm是一種PythonIDE(IntegratedDevelopmentEnvironment,集成開發(fā)環(huán)境),帶有一整套可以幫助用戶在使用Python語言開發(fā)時(shí)提高其效率的工具,比如調(diào)試、語法高亮、Project管理、代碼跳轉(zhuǎn)、智能提示、自動(dòng)完成、單元測試、版本控制。JupyterNotebookJupyterNotebook的本質(zhì)是一個(gè)Web應(yīng)用程序,便于創(chuàng)建和共享文學(xué)化程序文檔,支持實(shí)時(shí)代碼,數(shù)學(xué)方程,可視化和markdown。用途包括:數(shù)據(jù)清理和轉(zhuǎn)換,數(shù)值模擬,統(tǒng)計(jì)建模,機(jī)器學(xué)習(xí)等等。SpyderSpyder是Python(x,y)的作者為它開發(fā)的一個(gè)簡單的集成開發(fā)環(huán)境。和其他的Python開發(fā)環(huán)境相比,它最大的優(yōu)點(diǎn)就是模仿MATLAB的“工作空間”的功能,可以很方便地觀察和修改數(shù)組的值。Spyder的界面由許多窗格構(gòu)成,用戶可以根據(jù)自己的喜好調(diào)整它們的位置和大小。當(dāng)多個(gè)窗格出現(xiàn)在一個(gè)區(qū)域時(shí),將使用標(biāo)簽頁的形式顯示。1.(單選)通過學(xué)習(xí)已有的標(biāo)記數(shù)據(jù)樣本構(gòu)建模型,再利用模型對(duì)新的數(shù)據(jù)進(jìn)行預(yù)測,這是屬于哪種機(jī)器學(xué)習(xí)類型?A.監(jiān)督學(xué)習(xí)B.無監(jiān)督學(xué)習(xí)C.半監(jiān)督學(xué)習(xí)D.增強(qiáng)學(xué)習(xí)
講解人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的關(guān)系講解機(jī)器學(xué)習(xí)的原理講解機(jī)器學(xué)習(xí)的基本框架體系講解機(jī)器學(xué)習(xí)的實(shí)施流程講解機(jī)器學(xué)習(xí)的應(yīng)用領(lǐng)域講解機(jī)器學(xué)習(xí)的開發(fā)工具謝謝第二章機(jī)器學(xué)習(xí)數(shù)學(xué)基礎(chǔ)本章主要講述機(jī)器學(xué)習(xí)中相關(guān)的數(shù)學(xué)概念、包括線性代數(shù),多元微積分及概率統(tǒng)計(jì)等相關(guān)知識(shí)。通過本節(jié)學(xué)習(xí)可以:熟悉機(jī)器學(xué)習(xí)中數(shù)學(xué)的用法熟悉機(jī)器學(xué)習(xí)中線性代數(shù)熟悉機(jī)器學(xué)習(xí)中多元微積分熟悉機(jī)器學(xué)習(xí)中概率與統(tǒng)計(jì)相關(guān)知識(shí)點(diǎn)學(xué)習(xí)目標(biāo)線性代數(shù)向量空間矩陣分析概率與統(tǒng)計(jì)多元微積分在機(jī)器學(xué)習(xí)的科學(xué)研究與工程實(shí)踐中,經(jīng)常會(huì)遇到m*n線性方程組。它使用m個(gè)方程描述個(gè)n未知量之間的線性關(guān)系。這一線性方程組很容易用矩陣-向量形式簡記為:向量空間??1,??2,?,????線性相關(guān)
?至少有一個(gè)向量可以用其余向量線性表示。??1,??2,?,????線性無關(guān),??1,??2,?,????,??線性相關(guān)
???可以由??1,??2,?,????唯一線性表示。??可以由??1,??2,?,????線性表示
???(??1,??2,?,????)=??(??1,??2,?,????,??)。向量組的線性表示設(shè)??(????×??)=??,則??的秩??(??)與??的行列向量組的線性相關(guān)性關(guān)系為:若??(????×??)=??=??,則??的行向量組線性無關(guān)。若??(????×??)=??<??,則??的行向量組線性相關(guān)。若??(????×??)=??=??,則??的列向量組線性無關(guān)。若??(????×??)=??<??,則??的列向量組線性相關(guān)。向量組的秩與矩陣的秩之間的關(guān)系若??1,??2,?,????與??1,??2,?,????是向量空間??的兩組基,則基變換公式為:其中??是可逆矩陣,稱為由基??1,??2,?,????到基??1,??2,?,????的過渡矩陣。??維向量空間的基變換公式及過渡矩陣線性代數(shù)向量空間矩陣分析概率與統(tǒng)計(jì)多元微積分A稱為矩陣,是一個(gè)按照長方陣列排列的復(fù)數(shù)或?qū)崝?shù)集合。x跟b代表n*1向量和m*1向量。矩陣向量矩陣A可以是線性系統(tǒng)、濾波器、無線信道等的符號(hào)表示;而科學(xué)和工程中遇到的向量可分為三種:物理向量:泛指既有幅值,又有方向的物理量,如速度、加速度、位移等。幾何向量:為了將物理向量可視化,常用帶方向的(簡稱有向)線段表示,這種有向線段稱為幾何向量。代數(shù)向量:兒何向量可以用代數(shù)形式表示。向量矩陣的加法設(shè)??=(
),??=(
)是兩個(gè)??×??矩陣,則??×??矩陣??=(
)=
+
稱為矩陣??與??的和,記為??+??=??。矩陣的數(shù)乘設(shè)??=(aij)是??×??矩陣,??是一個(gè)常數(shù),則??×??矩陣(kaij)稱為數(shù)??與矩陣??的數(shù)乘,記為k??。矩陣的乘法設(shè)??=(aij)是??×??矩陣,??=(bij)是??×??矩陣,那么??×??矩陣??=(cij),其中cij=ai1b1j+ai2b2j
+?+ainbnj
=
稱為????的乘積,記為??=????。矩陣線性運(yùn)算(????)??=??,(????)??=????????,(????)??=??????,(??±??)??=????±????
????、?????、???三者之間的關(guān)系??可逆?????=??;?|??|≠0;???(??)=??;
???可以表示為初等矩陣的乘積;
???無零特征值;
?Ax=0只有零解。有關(guān)?????的結(jié)論這里A,B均可為逆矩陣。分塊求逆公式線性代數(shù)向量空間矩陣分析概率與統(tǒng)計(jì)多元微積分統(tǒng)計(jì)學(xué)是研究如何搜集資料、整理資料和進(jìn)行量化分析、推斷的一門科學(xué),在科學(xué)計(jì)算、工業(yè)和金融等領(lǐng)域有著重要應(yīng)用,統(tǒng)計(jì)分析是機(jī)器學(xué)習(xí)的基本方法與統(tǒng)計(jì)分析相關(guān)的基本概念有以下幾個(gè)總體:根據(jù)定目的確定的所要研究事物的全體樣本:從總體中隨機(jī)抽取的若干個(gè)體構(gòu)成的集合推斷:以樣本所包含的信息為基礎(chǔ)對(duì)總體的某些特征作出判斷、預(yù)測和估計(jì)推斷可靠性:對(duì)推斷結(jié)果從概率上的確認(rèn),作為決策的重要依據(jù)統(tǒng)計(jì)分析分為描述性統(tǒng)計(jì)和推斷性統(tǒng)計(jì),描述性統(tǒng)計(jì)是通過對(duì)樣本進(jìn)行整理、分析并就數(shù)據(jù)的分布情況獲取有意義的信息,從而得到結(jié)論。推斷統(tǒng)計(jì)又分為參數(shù)估計(jì)和假設(shè)檢驗(yàn),參數(shù)估計(jì)是對(duì)樣本整體中某個(gè)數(shù)值進(jìn)行估計(jì),如推斷總體平均數(shù)等,而假設(shè)檢驗(yàn)是通過對(duì)所做的推斷驗(yàn)證,從而進(jìn)擇行才方案統(tǒng)計(jì)分析
統(tǒng)計(jì)基礎(chǔ)議程
統(tǒng)計(jì)基礎(chǔ)議程均值、標(biāo)準(zhǔn)差、方差、協(xié)方差均值描述的是樣本集合的平均值標(biāo)準(zhǔn)差描述是樣本集合的各個(gè)樣本點(diǎn)到均值的距離分布,描述的是樣本集的分散程度在機(jī)器學(xué)習(xí)中的方差就是估計(jì)值與其期望值的統(tǒng)計(jì)方差。如果進(jìn)行多次重復(fù)驗(yàn)證的過程,就會(huì)發(fā)現(xiàn)模型在訓(xùn)練集上的表現(xiàn)并不固定,會(huì)出現(xiàn)波動(dòng),這些波動(dòng)越大,它的方差就越大協(xié)方差主要用來度量兩個(gè)隨機(jī)變量關(guān)系,如果結(jié)果為正值,則說明兩者是正相關(guān)的;結(jié)果為負(fù)值,說明兩者是負(fù)相關(guān)的;如果為0,就是統(tǒng)計(jì)上的“相互獨(dú)立”統(tǒng)計(jì)基礎(chǔ)議程
統(tǒng)計(jì)基礎(chǔ)
正則化與交叉驗(yàn)證L0正則化L1正則化L2正則化HoldOut檢驗(yàn)簡單交叉檢驗(yàn)K折交叉檢驗(yàn)留一交叉檢驗(yàn)統(tǒng)計(jì)基礎(chǔ)議程
常見概率分布議程參數(shù)估計(jì)是用樣本統(tǒng)計(jì)量去估計(jì)總體的參數(shù),即根據(jù)樣本數(shù)據(jù)選擇統(tǒng)計(jì)量去推斷總體的分布或數(shù)字特征。估計(jì)參數(shù)的目的,是希望用較少的參數(shù)去描述數(shù)據(jù)的總體分布,前提是要了解樣本總體分布(如正態(tài)分布),這樣就只需要估計(jì)其中參數(shù)的值。如果無法確認(rèn)總體分布,那就要采用非參數(shù)估計(jì)的方法。參數(shù)估計(jì)是統(tǒng)計(jì)推斷的種基本形式,分為點(diǎn)估計(jì)和區(qū)間估計(jì)兩部分。其中有多種方法,除了最基本的最小二乘法和極大似然法、貝葉斯估計(jì)、極大后驗(yàn)估計(jì),還有矩估計(jì)、一致最小方差無偏估計(jì)、最小風(fēng)險(xiǎn)估計(jì)、最小二乘法、最小風(fēng)險(xiǎn)法和極小化極大熵法等。參數(shù)估計(jì)議程
假設(shè)檢驗(yàn)議程
假設(shè)檢驗(yàn)議程線性代數(shù)向量空間矩陣分析概率與統(tǒng)計(jì)多元微積分導(dǎo)數(shù)和微分的概念或者導(dǎo)數(shù)函數(shù)的可導(dǎo)性與連續(xù)性之間的關(guān)系:函數(shù)??(??)在x0處可微???(??)在x0處可導(dǎo)。若函數(shù)在點(diǎn)x0處可導(dǎo),則??=??(??)在點(diǎn)x0處連續(xù),反之則不成立。即函數(shù)連續(xù)不一定可導(dǎo)。??′(x0)存在???′?(x0)=??′+(x0)高等數(shù)學(xué)切線方程:法線方程:平面曲線的切線和法線設(shè)函數(shù)??=??(??),??=??(??)在點(diǎn)??可導(dǎo),則:??±??′=??′±??′(????)′=????′+????′??(????)=??????+??????四則運(yùn)算復(fù)合函數(shù),反函數(shù),隱函數(shù)以及參數(shù)方程所確定的函數(shù)的微分法反函數(shù)的運(yùn)算法則:設(shè)??=??(??)在點(diǎn)??的某鄰域內(nèi)單調(diào)連續(xù),在點(diǎn)??處可導(dǎo)且??′(??)≠0,則其反函數(shù)在點(diǎn)??所對(duì)應(yīng)的??處可導(dǎo),并且有復(fù)合函數(shù)的運(yùn)算法則:若??=??(??)在點(diǎn)??可導(dǎo),而??=??(??)在對(duì)應(yīng)點(diǎn)??(??=??(??))可導(dǎo),則復(fù)合函數(shù)??=??(??(??))在點(diǎn)??可導(dǎo),且復(fù)合函數(shù)費(fèi)馬定理若函數(shù)??(??)滿足條件:函數(shù)??(??)在x0的某鄰域內(nèi)有定義,并且在此鄰域內(nèi)恒有??(??)≤??(x0)或??(??)≥??(x0),??(??)在x0處可導(dǎo),則有??′(x0)=0微分中值定理設(shè)函數(shù)??(??)滿足條件:在[??,??]上連續(xù);在(??,??)內(nèi)可導(dǎo);則在(??,??)內(nèi)存在一個(gè)??,使拉格朗日中值定理設(shè)函數(shù)??(??),??(??)滿足條件:在[??,??]上連續(xù);在(??,??)內(nèi)可導(dǎo)且??′(??),??′(??)均存在,且??′(??)≠0則在(??,??)內(nèi)存在一個(gè)??,使柯西中值定理設(shè)函數(shù)??(??)在(??,??)區(qū)間內(nèi)可導(dǎo),如果對(duì)???∈(??,??),都有??′(??)>0(或??′(??)<0),則函數(shù)??(??)在(??,??)內(nèi)是單調(diào)增加的(或單調(diào)減少)。(取極值的必要條件)設(shè)函數(shù)??(??)在??0處可導(dǎo),且在??0處取極值,則??′(??0)=0。函數(shù)單調(diào)性的判斷設(shè)函數(shù)??′(x)在x0的某一鄰域內(nèi)可微,且??′(??0)=0(或??(??)在x0處連續(xù),但??′(x0)不存在)。若當(dāng)??經(jīng)過x0時(shí),??′(??)由“+”變“-”,則??(x0)為極大值;若當(dāng)??經(jīng)過x0時(shí),??′(??)由“-”變“+”,則??(x0)為極小值;若??′(x)經(jīng)過??=??0的兩側(cè)不變號(hào),則??(x0)不是極值。設(shè)??(??)在點(diǎn)x0處有??″(??)≠0,且??′(??0)=0,則當(dāng)??′′(x0)<0時(shí),??(x0)為極大值;當(dāng)??′′(x0)>0時(shí),??(x0)為極小值。注:如果??′′(x0)=0,此方法失效。極值充分條件(凹凸性的判別定理)若在I上??″(??)<0(或??″(??)>0),則??(??)在I上是凸的(或凹的)。(拐點(diǎn)的判別定理1)若在x0處??″(??)=0,(或??″(??)不存在),當(dāng)??變動(dòng)經(jīng)過x0時(shí),??″(??)變號(hào),則(x0,??(x0))為拐點(diǎn)。(拐點(diǎn)的判別定理2)設(shè)??(??)在x0點(diǎn)的某鄰域內(nèi)有三階導(dǎo)數(shù),且??″(??)=0,???(??)≠0,則(x0,??(x0))為拐點(diǎn)。函數(shù)凹凸性的判斷(簡答題)如何判斷函數(shù)凹凸性。講解機(jī)器學(xué)習(xí)中會(huì)用到的高等數(shù)學(xué),線性代數(shù)及概率論的相關(guān)知識(shí)。謝謝第三章線性回歸本章主要講述機(jī)器學(xué)習(xí)中回歸概念,并展開介紹線性回歸。通過本節(jié)學(xué)習(xí)可以:熟悉機(jī)器學(xué)習(xí)中線性回歸熟悉一元線性回歸掌握梯度下降方法熟悉多元線性回歸及非線性回歸學(xué)習(xí)目標(biāo)一元線性回歸代價(jià)函數(shù)梯度下降法標(biāo)準(zhǔn)方程法多元線性回歸非線性回歸介紹利用該數(shù)據(jù)集,我們可以訓(xùn)練一個(gè)線性方程,無限逼近所有數(shù)據(jù)點(diǎn),然后利用該方程與給定的某一自變量(本例中為面積),可以預(yù)測因變量。(本例中為房價(jià))回歸分析案例
預(yù)測二手車價(jià)格的系統(tǒng)。該系統(tǒng)的輸入是我們認(rèn)為會(huì)影響車價(jià)的屬性信息:品牌、年齡、發(fā)動(dòng)機(jī)性能、里程以及其他信息。輸出是車的價(jià)格。這種輸出為數(shù)值的問題是回歸問題?;貧w預(yù)測線性回歸是種通過擬合自變量與因變量之間最佳線性關(guān)系,來預(yù)測目標(biāo)變量的方法?;貧w過程是給出一個(gè)樣本集,用函數(shù)擬合這個(gè)樣本集,使樣本集與擬合函數(shù)間的誤差最小?;貧w分析包括以下內(nèi)容:確定輸入變量與目標(biāo)變量間的回歸模型,即變量間相關(guān)關(guān)系的數(shù)學(xué)表達(dá)式。根據(jù)樣本估計(jì)并檢驗(yàn)回歸模型及未知參數(shù)。從眾多的輸入變量中,判斷哪些變量對(duì)目標(biāo)變量的影響是顯著的。根據(jù)輸入變量的已知值來估計(jì)目標(biāo)變量的平均值并給出預(yù)測精度。線性回歸概念線性回歸的類型包括簡單線性回歸和多元線性回歸。簡單線性回歸使用一個(gè)自變量,通過擬合最佳線性關(guān)系來預(yù)測因變量。多元線性回歸使用多個(gè)獨(dú)立變量,通過擬合最佳線性關(guān)系來預(yù)測因變量。線性回歸分類汽車賣家通過電視廣告數(shù)量來預(yù)測賣出的汽車數(shù)量,如下圖所示,可以預(yù)測廣告數(shù)量為“6”時(shí),賣出的汽車數(shù)量是多少。一元線性回歸案例一元線性回歸包含一個(gè)自變量(X)和一個(gè)因變量(Y)。一元線性回歸方程:這個(gè)方程對(duì)應(yīng)的圖像是一條直線,稱作回歸線,其中
是回歸線的截距,是回歸線的斜率,E(y)是在一個(gè)給定x值下y的期望值(均值)。一元線性回歸一元線性回歸代價(jià)函數(shù)梯度下降法標(biāo)準(zhǔn)方程法多元線性回歸非線性回歸介紹法國數(shù)學(xué)家,阿德里安-馬里·勒讓德(1752-1833)提出讓總的誤差的平方最小的y就是真值,這是基于如果誤差是隨機(jī)的,應(yīng)該圍繞真值上下波動(dòng)。最小二乘法圖1中各個(gè)點(diǎn)沿y軸到那條直線的距離更遠(yuǎn),而圖2中各個(gè)點(diǎn)到線的距離更近。損失函數(shù)定義在單個(gè)樣本上的,計(jì)算一個(gè)樣本的誤差。代價(jià)函數(shù)是定義在整個(gè)訓(xùn)練集上的,是所有樣本誤差的平均。公式如下:代價(jià)函數(shù)(損失函數(shù))一元線性回歸代價(jià)函數(shù)梯度下降法標(biāo)準(zhǔn)方程法多元線性回歸非線性回歸介紹梯度下降法是一個(gè)最優(yōu)化算法,通常也稱為最速下降法。最速下降法是求解無約束優(yōu)化問題最簡單和最古老的方法之一,雖然現(xiàn)在已經(jīng)不具有實(shí)用性,但是許多有效算法都是以它為基礎(chǔ)進(jìn)行改進(jìn)和修正而得到的。最速下降法是用負(fù)梯度方向?yàn)樗阉鞣较虻?,最速下降法越接近目?biāo)值,步長越小,前進(jìn)越慢??梢杂糜谇蠼夥蔷€性方程組。梯度下降假設(shè)一個(gè)場景:一個(gè)人需要從山的某處開始下山,盡快到達(dá)山底。在下山之前他需要確認(rèn)兩件事:下山的方向下山的距離梯度下降步長(Learningrate)特征(feature)假設(shè)函數(shù)(hypothesisfunction)損失函數(shù)(lossfunction)梯度下降相關(guān)概念批量梯度下降法(BGD)隨機(jī)梯度下降法(SGD)小批量梯度下降法(MBGD)常用梯度下降方法一元線性回歸代價(jià)函數(shù)梯度下降法標(biāo)準(zhǔn)方程法多元線性回歸非線性回歸介紹假設(shè)我們有一個(gè)n*n的矩陣,這個(gè)矩陣代表著每個(gè)因子具體的值,比如有一個(gè)關(guān)于身高預(yù)測的模型,其中一個(gè)人的身高的影響因素有:父親升高,母親升高,以及自己年齡的大小。標(biāo)準(zhǔn)方程法每一行代表一組數(shù)據(jù),跟我們真實(shí)數(shù)據(jù)很像,每一行第一個(gè)是father身高,第二列是mother身高,第三列是孩子現(xiàn)在年齡。得到矩陣:標(biāo)準(zhǔn)方程法一元線性回歸代價(jià)函數(shù)梯度下降法標(biāo)準(zhǔn)方程法多元線性回歸非線性回歸介紹在線性回歸中,我們通過建立自變量x的一次方程來擬合數(shù)據(jù)。而非線性回歸中,則需要建立因變量和自變量之間的非線性關(guān)系。多元回歸導(dǎo)入線性擬合
非線性擬合機(jī)器學(xué)習(xí)中一種常見的模式,是使用線性模型訓(xùn)練數(shù)據(jù)的非線性函數(shù)。這種方法保持了一般快速的線性方法的性能,同時(shí)允許它們適應(yīng)更廣泛的數(shù)據(jù)范圍。在標(biāo)準(zhǔn)線性回歸的情況下,你可能有一個(gè)類似于二維數(shù)據(jù)的模型:
多元回歸介紹如果我們想把拋物面擬合成數(shù)據(jù)而不是平面,我們可以結(jié)合二階多項(xiàng)式的特征,使模型看起來像這樣:仔細(xì)觀察這兩個(gè)模型會(huì)發(fā)現(xiàn),我們可以想象創(chuàng)造一個(gè)新的變量:多元回歸有了這些重新標(biāo)記的數(shù)據(jù),我們可以將原多項(xiàng)式問題寫成:因此我們可以將原始數(shù)據(jù)轉(zhuǎn)換后再使用線性回歸訓(xùn)練構(gòu)成多項(xiàng)式回歸模型,其中PolynomialFeatures方法將數(shù)據(jù)進(jìn)行轉(zhuǎn)換。多元回歸介紹
多元線性回歸案例年份人均耐用消費(fèi)品支出
y人均全年可支配收入x1耐用消費(fèi)品價(jià)格指數(shù)x21988137.161181.4115.961989124.561375.7133.351990107.911510.2128.211991102.961700.6124.851992125.242026.6122.491993162.452577.4129.861994217.433496.2139.521995253.424283.0140.441996251.074838.9139.121997285.855160.3133.351998327.265425.1126.39多元線性回歸案例估計(jì)的回歸方程
線性回歸檢驗(yàn)
議程一元線性回歸代價(jià)函數(shù)梯度下降法標(biāo)準(zhǔn)方程法多元線性回歸非線性回歸介紹在統(tǒng)計(jì)學(xué)中,非線性回歸是回歸分析的一種形式,非線性模型是由一個(gè)或多個(gè)自變量非線性組合。一些常見非線性模型:階躍函數(shù)分段函數(shù)樣條曲線廣義加性模型非線性回歸非線性回歸是指在因變量與一系列自變量之間建立非線性模型。線性與非線性并不是說因變量與自變量間是直線或曲線關(guān)系,而是說因變量是否能用自變量的線性組合來表示。如果經(jīng)過變量轉(zhuǎn)換,兩個(gè)變量可以用線性來表達(dá)去關(guān)系,那么可以用之前章節(jié)中介紹的方法進(jìn)行擬合回歸方程。但經(jīng)過變量變化后,兩個(gè)變量關(guān)系仍然不能用線性形式來表達(dá),則就會(huì)用到本節(jié)介紹的非線性回歸分析方法。非線性回歸模型一般可表示為:非線性回歸判斷題:簡單線性回歸使用一個(gè)自變量,通過擬合最佳線性關(guān)系來預(yù)測因變量。(
)講解線性回歸的關(guān)系講解梯度下降相關(guān)知識(shí)講解一元線性回歸、多元線性回歸、非線性回歸謝謝第四章樸素貝葉斯貝葉斯分類是一類分類算法的總稱,這類算法均以貝葉斯定理為基礎(chǔ),故統(tǒng)稱為貝葉斯分類。而樸素樸素貝葉斯分類是貝葉斯分類中最簡單,也是常見的一種分類方法。通過本節(jié)學(xué)習(xí)可以:學(xué)習(xí)貝葉斯分類器概念。掌握高斯樸素貝葉斯及多項(xiàng)式樸素貝葉斯。學(xué)習(xí)目標(biāo)樸素貝葉斯貝葉斯分類器的分類原理貝葉斯定理貝葉斯定理的一個(gè)簡單例子貝葉斯分類的原理與特點(diǎn)樸素貝葉斯分類高斯樸素貝葉斯分類算法高斯樸素貝葉斯分類算法的原理多項(xiàng)式樸素貝葉斯分類算法伯努利樸素貝葉斯分類算法貝葉斯要解決的問題:使正向概率:假設(shè)袋子里有N個(gè)白球,M個(gè)黑球,隨機(jī)摸一個(gè),摸出黑球的概率有多大逆向概率:如果事先不知道袋子里黑白球的比例,隨機(jī)摸出幾個(gè)球,根據(jù)這些球的顏色,可以推測袋子里面的黑白球比例。貝葉斯分類器的分類原理用p1(x,y)表示數(shù)據(jù)點(diǎn)(x,y)屬于類別1(圖中用圓點(diǎn)表示的類別)的概率,用p2(x,y)表示數(shù)據(jù)點(diǎn)(x,y)屬于類別2(圖中三角形表示的類別)的概率,那么對(duì)于一個(gè)新數(shù)據(jù)點(diǎn)(x,y),可以用下面的規(guī)則來判斷它的類別:如果p1(x,y)>p2(x,y),那么類別為1如果p2(x,y)>p1(x,y),那么類別為2貝葉斯理論有一個(gè)裝了7塊石頭的罐子,其中3塊是白色的,4塊是黑色的。如果從罐子中隨機(jī)取出一塊石頭,那么是白色石頭的可能性是多少?由于取石頭有7種可能,其中3種為白色,所以取出白色石頭的概率為3/7。那么取到黑色石頭的概率是4/7。我們使用P(white)來表示取到白色石頭的概率,其概率值可以通過白色石頭數(shù)目除以總的石頭數(shù)目來得到。條件概率貝葉斯分類:貝葉斯分類是一類分類算法的總稱,這類算法均以貝葉斯定理為基礎(chǔ),故統(tǒng)稱為貝葉斯分類。先驗(yàn)概率:根據(jù)以往經(jīng)驗(yàn)和分析得到的概率。我們用??(??)來代表在沒有訓(xùn)練數(shù)據(jù)前假設(shè)??擁有的初始概率。后驗(yàn)概率:根據(jù)已經(jīng)發(fā)生的事件來分析得到的概率。以??(??|??)代表假設(shè)??成立的情下觀察到??數(shù)據(jù)的概率,因?yàn)樗从沉嗽诳吹接?xùn)練數(shù)據(jù)??后??成立的置信度。聯(lián)合概率:聯(lián)合概率是指在多元的概率分布中多個(gè)隨機(jī)變量分別滿足各自條件的概率。??與??的聯(lián)合概率表示為????,??、??(????)或??(??∩??)。假設(shè)??和??都服從正態(tài)分布,那么??(??<5,??<0)就是一個(gè)聯(lián)合概率,表示??<5,??<0兩個(gè)條件同時(shí)成立的概率。表示兩個(gè)事件共同發(fā)生的概率。貝葉斯方法背景知識(shí)貝葉斯公式條件概率的貝葉斯估計(jì):式中
。當(dāng)
時(shí),是極大似然估計(jì);當(dāng)
時(shí),稱為拉普拉斯平滑。先驗(yàn)概率的貝葉斯估計(jì):貝葉斯估計(jì)樸素貝葉斯貝葉斯分類器的分類原理貝葉斯定理貝葉斯定理的一個(gè)簡單例子貝葉斯分類的原理與特點(diǎn)樸素貝葉斯分類高斯樸素貝葉斯分類算法高斯樸素貝葉斯分類算法的原理多項(xiàng)式樸素貝葉斯分類算法伯努利樸素貝葉斯分類算法樸素貝葉斯法是典型的生成學(xué)習(xí)方法。生成方法由訓(xùn)練數(shù)據(jù)學(xué)習(xí)聯(lián)合概率分布??(??,??),然后求得后驗(yàn)概率分布??(??|??)。具體來說,利用訓(xùn)練數(shù)據(jù)學(xué)習(xí)??(??|??)和??(??)的估計(jì),得到聯(lián)合概率分布:??(??,??)=??(??|??)??(??)貝葉斯公式:貝葉斯定理樸素貝葉斯貝葉斯分類器的分類原理貝葉斯定理貝葉斯定理的一個(gè)簡單例子貝葉斯分類的原理與特點(diǎn)樸素貝葉斯分類高斯樸素貝葉斯分類算法高斯樸素貝葉斯分類算法的原理多項(xiàng)式樸素貝葉斯分類算法伯努利樸素貝葉斯分類算法男生總是穿長褲,女生則一半穿長褲一半穿裙子,男生占比60%,女生占比40%:正向概率:隨機(jī)選取一個(gè)學(xué)生,穿長褲的概率和穿裙子的概率是多大?逆向概率:迎面走來一個(gè)穿長褲的學(xué)生,無法確定該學(xué)生的性別,請問該學(xué)生是女生的概率有多大?假設(shè)學(xué)校里面人的總數(shù)是U。穿長褲的男生:U*P(Boy)*P(Pants|Boy),P(Boy)是男生的概率=60%。P(Pants|Boy)是條件概率,即在Boy的條件下,穿長褲的概率是多大,這里是100%穿長褲的女生:U*P(Girl)*P(Pants|Girl)。求解:穿長褲的總數(shù):U*P(Boy)*P(Pants|Boy)+U*P(Girl)*P(Pants|Girl)?與總?cè)藬?shù)有關(guān)嗎?貝葉斯案例如果一對(duì)男女朋友,男生想女生求婚,男生的四個(gè)特點(diǎn)分別是不帥,性格不好,身高矮,不上進(jìn),請你判斷一下女生是嫁還是不嫁?貝葉斯案例數(shù)學(xué)問題就是比較p(嫁|(不帥、性格不好、身高矮、不上進(jìn)))與p(不嫁|(不帥、性格不好、身高矮、不上進(jìn)))。解決方法求p(嫁|(不帥、性格不好、身高矮、不上進(jìn)),這是我們不知道的,但是通過樸素貝葉斯公式可以轉(zhuǎn)化為好求的三個(gè)量,p(不帥、性格不好、身高矮、不上進(jìn)|嫁)、p(不帥、性格不好、身高矮、不上進(jìn))、p(嫁)。其中p(不帥、性格不好、身高矮、不上進(jìn)|嫁)=p(不帥|嫁)*p(性格不好|嫁)*p(身高矮|嫁)*p(不上進(jìn)|嫁)。樸素貝葉斯案例公式整理如下:p(嫁)=6/12(總樣本數(shù))=1/2樸素貝葉斯案例p(不帥|嫁)=3/6=1/2在嫁的條件下,看不帥的數(shù)據(jù)。樸素貝葉斯案例帥性格好身高上進(jìn)是否嫁不帥好高上進(jìn)嫁不帥好中上進(jìn)嫁不帥不好高上進(jìn)嫁=(1/2*1/6*1/6*1/6*1/2)/(1/3*1/3*7/12*1/3)樸素貝葉斯案例用同樣方法來求p(不嫁|不帥,性格不好,身高矮,不上進(jìn))。p(不嫁|不帥、性格不好、身高矮、不上進(jìn))=((1/6*1/2*1*1/2)*1/2)/(1/3*1/3*7/12*1/3)(1/6*1/2*1*1/2)>(1/2*1/6*1/6*1/6*1/2)于是有p(不嫁|不帥、性格不好、身高矮、不上進(jìn))>p(嫁|不帥、性格不好、身高矮、不上進(jìn))。樸素貝葉斯案例樸素貝葉斯貝葉斯分類器的分類原理貝葉斯定理貝葉斯定理的一個(gè)簡單例子貝葉斯分類的原理與特點(diǎn)樸素貝葉斯分類高斯樸素貝葉斯分類算法高斯樸素貝葉斯分類算法的原理多項(xiàng)式樸素貝葉斯分類算法伯努利樸素貝葉斯分類算法優(yōu)點(diǎn):在數(shù)據(jù)較少的情況下仍然有效,可以處理多類別問題。缺點(diǎn):對(duì)于輸入數(shù)據(jù)的準(zhǔn)備方式較為敏感。適用數(shù)據(jù)類型:標(biāo)稱型數(shù)據(jù)。貝葉斯原理特點(diǎn)
樸素貝葉斯貝葉斯分類器的分類原理貝葉斯定理貝葉斯定理的一個(gè)簡單例子貝葉斯分類的原理與特點(diǎn)樸素貝葉斯分類高斯樸素貝葉斯分類算法高斯樸素貝葉斯分類算法的原理多項(xiàng)式樸素貝葉斯分類算法伯努利樸素貝葉斯分類算法樸素貝葉斯(NaiveBayes)模型,它是一種基于概率的學(xué)習(xí)方法,“樸素”指的是條件的獨(dú)立性。由訓(xùn)練數(shù)據(jù)學(xué)習(xí)聯(lián)合概率分布??(??,??),然后求得后驗(yàn)概率分布??(??|??)。具體來說,利用訓(xùn)練數(shù)據(jù)學(xué)習(xí)??(??|??)和??(??)的估計(jì),得到聯(lián)合概率分布:??(??,??)=??(??)??(??|??)概率估計(jì)方法是極大似然估計(jì)或貝葉斯估計(jì)。樸素貝葉斯分類器樸素貝葉斯法的基本假設(shè)是條件獨(dú)立性。P(X=x|Y=ck)=Px(1),?,x(n)|yk=?jn=1Px(j)|Y=ckck代表類別,k代表類別個(gè)數(shù)。這是一個(gè)較強(qiáng)的假設(shè)。由于這一假設(shè),模型包含的條件概率的數(shù)量大為減少,樸素貝葉斯法的學(xué)習(xí)與預(yù)測大為簡化。因而樸素貝葉斯法高效,且易于實(shí)現(xiàn)。其缺點(diǎn)是分類的性能不一定很高。樸素貝葉斯原理樸素貝葉斯貝葉斯分類器的分類原理貝葉斯定理貝葉斯定理的一個(gè)簡單例子貝葉斯分類的原理與特點(diǎn)樸素貝葉斯分類高斯樸素貝葉斯分類算法高斯樸素貝葉斯分類算法的原理多項(xiàng)式樸素貝葉斯分類算法伯努利樸素貝葉斯分類算法高斯樸素貝葉斯適用于連續(xù)變量,其假定各個(gè)特征
在各個(gè)類別y下是服從正態(tài)分布的,算法內(nèi)部使用正態(tài)分布的概率密度函數(shù)來計(jì)算概率。公式如下:其中
:在類別為y的樣本中,特征
的均值。
:在類別為y的樣本中,特征
的標(biāo)準(zhǔn)差。高斯樸素貝葉斯分類算法原理樸素貝葉斯貝葉斯分類器的分類原理貝葉斯定理貝葉斯定理的一個(gè)簡單例子貝葉斯分類的原理與特點(diǎn)樸素貝葉斯分類高斯樸素貝葉斯分類算法高斯樸素貝葉斯分類算法的原理多項(xiàng)式樸素貝葉斯分類算法伯努利樸素貝葉斯分類算法多項(xiàng)式貝葉斯基于原始的貝葉斯理論,但假設(shè)概率分布是服從一個(gè)簡單多項(xiàng)式分布。多項(xiàng)式分布來源于統(tǒng)計(jì)學(xué)中的多項(xiàng)式實(shí)驗(yàn),這種實(shí)驗(yàn)可以具體解釋為:實(shí)驗(yàn)包括n次重復(fù)試驗(yàn),每項(xiàng)試驗(yàn)都有不同的可能結(jié)果。在任何給定的試驗(yàn)中,特定結(jié)果發(fā)生的概率是不變的。多項(xiàng)式樸素貝葉斯算法原理測試編號(hào)X1:出現(xiàn)正面X2:出現(xiàn)反面001110210樸素貝葉斯貝葉斯分類器的分類原理貝葉斯定理貝葉斯定理的一個(gè)簡單例子貝葉斯分類的原理與特點(diǎn)樸素貝葉斯分類高斯樸素貝葉斯分類算法高斯樸素貝葉斯分類算法的原理多項(xiàng)式樸素貝葉斯分類算法伯努利樸素貝葉斯分類算法伯努利樸素貝葉斯分類器主要用于文本分類。伯努利樸素貝葉斯,其實(shí)應(yīng)該叫"Multi-variateNaiveBayes",假設(shè)P(X=x|Y=c_k)是多變量伯努利分布。伯努利分布,又叫做兩點(diǎn)分布或0-1分布,是一個(gè)離散型概率分布,稱隨機(jī)變量X有伯努利分布,參數(shù)為p(0<p<1),它分別以概率p和1-p取1和0為值。伯努利樸素貝葉斯分類算法簡答題:樸素貝葉斯的優(yōu)缺點(diǎn)是什么?本章節(jié)從樸素貝葉斯的概念進(jìn)行切入,展開講解高斯樸素貝葉斯,多項(xiàng)式樸素貝葉斯。謝謝第五章決策樹算法本章主要講述機(jī)器學(xué)習(xí)中決策樹算法概念。通過本節(jié)學(xué)習(xí)可以:熟悉決策樹算法的基礎(chǔ)知識(shí)。學(xué)習(xí)如何給決策樹剪枝等相關(guān)知識(shí)。學(xué)習(xí)ID3,C4.5及CART樹等相關(guān)知識(shí)。了解剪枝的原理。學(xué)習(xí)目標(biāo)決策樹分類算法原理以信息論為基礎(chǔ)的分類原理決策樹分類算法框架衡量標(biāo)準(zhǔn):信息熵決策樹算法的簡化決策樹算法的優(yōu)、缺點(diǎn)與應(yīng)用決策樹分類算法決策樹剪枝當(dāng)信息被擁有它的實(shí)體傳遞給接收它的實(shí)體時(shí),僅當(dāng)接收實(shí)體不知道信息的先驗(yàn)知識(shí)時(shí)信息才得到傳遞。如果接收實(shí)體事先知道了消息的內(nèi)容,這條消息所傳遞的信息量就是0。只有當(dāng)接收實(shí)體對(duì)消息的先驗(yàn)知識(shí)掌握少于100%時(shí),消息才真正傳遞信息。信息論
信息論信息熵解決的是對(duì)信息的度量問題。信息量和事件發(fā)生的概率有關(guān),當(dāng)事件發(fā)生的概率越低,傳遞的信息量越大。信息量應(yīng)當(dāng)是非負(fù)的,必然發(fā)生的信息量為0。兩個(gè)事件的信息量可以相加,并且兩個(gè)獨(dú)立事件的聯(lián)合信息量應(yīng)該是他們各自信息量的和。信息量決策樹分類算法原理以信息論為基礎(chǔ)的分類原理決策樹分類算法框架衡量標(biāo)準(zhǔn):信息熵決策樹算法的簡化決策樹算法的優(yōu)、缺點(diǎn)與應(yīng)用決策樹分類算法決策樹剪枝分類算法是利用訓(xùn)練樣本集獲得分類函數(shù)即分類模型(分類器),從而實(shí)現(xiàn)將數(shù)據(jù)集中的樣本劃分到各個(gè)類中。分類模型通過學(xué)習(xí)訓(xùn)練樣本中屬性集與類別之間的潛在關(guān)系,并以此為依據(jù)對(duì)新樣本屬于哪一類進(jìn)行預(yù)測。決策樹算法決策樹簡單來說就是帶有判決規(guī)則(if-then)的一種樹,可以依據(jù)樹中的判決規(guī)則來預(yù)測未知樣本的類別和值。用一個(gè)網(wǎng)上通俗易懂的例子(相親)來說明:女兒:年紀(jì)多大了?母親:26女兒:長相如何?母親:挺帥的女兒:收入如何?母親:不算很高,中等情況女兒:是公務(wù)員不?母親:是,在稅務(wù)局上班女兒:那好,我去見見決策樹案例決策樹是一個(gè)屬性結(jié)構(gòu)的預(yù)測模型,代表對(duì)象屬性和對(duì)象值之間的一種映射關(guān)系。它由節(jié)點(diǎn)(node)和有向邊(directededge)組成,其節(jié)點(diǎn)有兩種類型:內(nèi)節(jié)點(diǎn)(internalnode)和葉節(jié)點(diǎn)(leafnode),內(nèi)部節(jié)點(diǎn)表示一個(gè)特征或?qū)傩裕~節(jié)點(diǎn)表示一個(gè)類。如上圖所示的相親例子,藍(lán)色的橢圓內(nèi)節(jié)點(diǎn)表示的是對(duì)象的屬性,橘黃色的矩形葉節(jié)點(diǎn)表示分類結(jié)果(是否相親),有向邊上的值則表示對(duì)象每個(gè)屬性或特征中可能取的值。決策樹定義決策樹通過把數(shù)據(jù)樣本分配到某個(gè)葉子結(jié)點(diǎn)來確定數(shù)據(jù)集中樣本所屬的分類。決策樹由決策結(jié)點(diǎn)、分支和葉子結(jié)點(diǎn)組成。決策結(jié)點(diǎn)表示在樣本的一個(gè)屬性上進(jìn)行的劃分。分支表示對(duì)于決策結(jié)點(diǎn)進(jìn)行劃分的輸出。葉結(jié)點(diǎn)代表經(jīng)過分支到達(dá)的類。從決策樹根結(jié)點(diǎn)出發(fā),自頂向下移動(dòng),在每個(gè)決策結(jié)點(diǎn)都會(huì)進(jìn)行次劃分,通過劃分的結(jié)果將樣本進(jìn)行分類,導(dǎo)致不同的分支,最后到達(dá)個(gè)葉子結(jié)點(diǎn),這個(gè)過程就是利用決策樹進(jìn)行分類的過程。決策樹決策樹分類算法原理以信息論為基礎(chǔ)的分類原理決策樹分類算法框架衡量標(biāo)準(zhǔn):信息熵決策樹算法的簡化決策樹算法的優(yōu)、缺點(diǎn)與應(yīng)用決策樹分類算法決策樹剪枝信息和抽象該如何來度量?1948年香農(nóng)提出“信息熵(entropy)”的概念。一條信息的信息量大小和他的不確定性有直接的關(guān)系,要搞清楚一件非常非常不確定的事情,或者是我們一無所知的事情需要了解大量信息,信息量的度量就等于不確定性的多少。例如:猜世界杯冠軍,假如是一無所知,需要猜多少次?每個(gè)隊(duì)奪冠的幾率不是相等的。比特(bit)來衡量信息的多少,變量的不確定性越大,熵也就越大。決策樹須知概念-信息熵信息熵解決的是對(duì)信息的度量問題。信息量和事件發(fā)生的概率有關(guān),當(dāng)事件發(fā)生的概率越低,傳遞的信息量越大。信息量應(yīng)當(dāng)是非負(fù)的,必然發(fā)生的信息量為0。兩個(gè)事件的信息量可以相加,并且兩個(gè)獨(dú)立事件的聯(lián)合信息量應(yīng)該是他們各自信息量的和。信息熵決策樹分類算法原理以信息論為基礎(chǔ)的分類原理決策樹分類算法框架衡量標(biāo)準(zhǔn):信息熵決策樹算法的簡化決策樹算法的優(yōu)、缺點(diǎn)與應(yīng)用決策樹分類算法決策樹剪枝決策樹算法的思想是,先從一個(gè)特征入手,就如同我們上面的游戲中一樣,既然無法直接分類,那就先根據(jù)一個(gè)特征進(jìn)行分類,雖然分類結(jié)果達(dá)不到理想效果,但是通過這次分類,我們的問題規(guī)模變小了,同時(shí)分類后的子集相比原來的樣本集更加易于分類了。然后針對(duì)上一次分類后的樣本子集,重復(fù)這個(gè)過程。在理想的情況下,經(jīng)過多層的決策分類,我們將得到完全純凈的子集,也就是每一個(gè)子集中的樣本都屬于同一個(gè)分類。決策樹算法的簡化決策樹學(xué)習(xí)算法包含特征選擇、決策樹生成與決策樹的剪枝。決策樹表示的是一個(gè)條件概率分布,所以深淺不同的決策樹對(duì)應(yīng)著不同復(fù)雜程度的概率模型。決策樹的生成對(duì)應(yīng)著模型的局部選擇(局部最優(yōu)),決策樹的剪枝對(duì)應(yīng)著全局選擇(全局最優(yōu))。決策樹常用的算法有ID3,C4.5,CART。決策樹優(yōu)點(diǎn):它構(gòu)成一個(gè)簡單的決策過程,使決策者可以按順序有步驟地進(jìn)行。決策樹法有直觀的圖形,便于決策者進(jìn)行科學(xué)的分析、周密的思考。將決策樹圖形畫出后,便于集體討論和共同分析,有利于進(jìn)行集體決策。決策樹法對(duì)比較復(fù)雜問題進(jìn)行決策,特別是對(duì)多級(jí)決策問題尤感方便,甚至在決策過程中,通過畫決策樹逐級(jí)思考可以走一步看一步,三思后行。缺點(diǎn):在分析的過程中有些參數(shù)沒有包括在樹中,顯得不全面。如果分級(jí)太多或出現(xiàn)的分枝太多,畫起來就不方便。決策樹優(yōu)缺點(diǎn)決策樹分類算法原理以信息論為基礎(chǔ)的分類原理決策樹分類算法框架衡量標(biāo)準(zhǔn):信息熵決策樹算法的簡化決策樹算法的優(yōu)、缺點(diǎn)與應(yīng)用決策樹分類算法決策樹剪枝決策樹學(xué)習(xí)算法包含特征選擇、決策樹生成與決策樹的剪枝。決策樹表示的是一個(gè)條件概率分布,所以深淺不同的決策樹對(duì)應(yīng)著不同復(fù)雜程度的概率模型。決策樹的生成對(duì)應(yīng)著模型的局部選擇(局部最優(yōu)),決策樹的剪枝對(duì)應(yīng)著全局選擇(全局最優(yōu))。決策樹常用的算法有ID3,C4.5,CART。決策樹ID3算法是在每個(gè)結(jié)點(diǎn)處選取能獲得最高信息增益的分支屬性進(jìn)行分裂。在每個(gè)決策結(jié)點(diǎn)處劃分分支、選取分支屬性的目的是將整個(gè)決策樹的樣本純度提升衡量樣本集合純度的指標(biāo)則是熵:舉例:如果有一個(gè)大小為10的布爾值樣本集S_b,其中有6個(gè)真值、4個(gè)假值,那么該布爾型樣本分類的熵為:ID3
計(jì)算分支屬性對(duì)于樣本集分類好壞程度的度量——信息增益。由于分裂后樣本集的純度提高,則樣本集的熵降低,熵降低的值即為該分裂方法的信息增益。ID3算法
脊椎動(dòng)物分類訓(xùn)練樣本集:ID3算法動(dòng)物飲食習(xí)性胎生動(dòng)物水生動(dòng)物會(huì)飛哺乳動(dòng)物人類雜食動(dòng)物是否否是野豬雜食動(dòng)物是否否是獅子肉食動(dòng)物是否否是蒼鷹肉食動(dòng)物否否是否鱷魚肉食動(dòng)物否是否否巨蜥肉食動(dòng)物否否否否蝙蝠雜食動(dòng)物是否是是野牛草食動(dòng)物是否否是麻雀雜食動(dòng)物否否是否鯊魚肉食動(dòng)物否是否否海豚肉食動(dòng)物是是否是鴨嘴獸肉食動(dòng)物否否否是袋鼠草食動(dòng)物是否否是蟒蛇肉食動(dòng)物否否否否此樣本集有“飲食習(xí)性”、“胎生動(dòng)物”、“水生動(dòng)物”、“會(huì)飛”四個(gè)屬性可作為分支屬性,而“哺乳動(dòng)物”作為樣本的分類屬性,有“是”與“否”兩種分類,也即正例與負(fù)例。共有14個(gè)樣本,其中8個(gè)正例,6個(gè)反例,設(shè)此樣本集為S,則分裂前的熵值為:ID3算法
脊椎動(dòng)物訓(xùn)練樣本集以“飲食習(xí)性”作為分支屬性的分裂情況。“飲食習(xí)性”為“肉食動(dòng)物”的分支中有3個(gè)正例、5個(gè)反例,其熵值為:ID3算法
同理,計(jì)算出“飲食習(xí)性”分類為“草食動(dòng)物”的分支與分類為“雜食動(dòng)物”的分支中的熵值分別為:設(shè)“飲食習(xí)性”屬性為Y,由此可以計(jì)算得出,作為分支屬性進(jìn)行分裂之后的信息增益為:ID3算法
同理,可以算出針對(duì)其他屬性作為分支屬性時(shí)的信息增益。計(jì)算可得,以“胎生動(dòng)物”“水生動(dòng)物”“會(huì)飛”作為分支屬性時(shí)的信息增益分別為0.6893、0.0454、0.0454。由此可知“胎生動(dòng)物”作為分支屬性時(shí)能獲得最大的信息增益,即具有最強(qiáng)的區(qū)分樣本的能力,所以在此處選擇使用“胎生動(dòng)物”作為分支屬性對(duì)根結(jié)點(diǎn)進(jìn)行劃分。ID3算法由根結(jié)點(diǎn)通過計(jì)算信息增益選取合適的屬性進(jìn)行分裂,若新生成的結(jié)點(diǎn)的分類屬性不唯一,則對(duì)新生成的結(jié)點(diǎn)繼續(xù)進(jìn)行分裂,不斷重復(fù)此步驟,直至所有樣本屬于同一類,或者達(dá)到要求的分類條件為止。常用的分類條件包括結(jié)點(diǎn)樣本數(shù)最少于來設(shè)定的值、決策樹達(dá)到預(yù)先設(shè)定的最大深度等。在決策樹的構(gòu)建過程中,會(huì)出現(xiàn)使用了所有的屬性進(jìn)行分支之后,類別不同的樣本仍存在同一個(gè)葉子結(jié)點(diǎn)中。當(dāng)達(dá)到了限制條件而被強(qiáng)制停止構(gòu)建時(shí),也會(huì)出現(xiàn)結(jié)點(diǎn)中子樣本集存在多種分類的情況。對(duì)于這種情況,一般取此結(jié)點(diǎn)中子樣本集占數(shù)的分類作為結(jié)點(diǎn)的分類。分支多的屬性并不一定是最優(yōu)的,就如同將100個(gè)樣本分到99個(gè)分支中并沒有什么意義,這種分支屬性因?yàn)榉种嗫赡芟啾戎聼o法提供太多的可用信息,例如個(gè)人信息中的“省份”屬性。ID3算法
C4.5算法
CART算法采用的是一種二分循環(huán)分割的方法,每次都把當(dāng)前樣本集劃分為兩個(gè)子樣本集,使生成的決策樹的結(jié)點(diǎn)均有兩個(gè)分支,顯然,這樣就構(gòu)造了一個(gè)二叉樹。如果分支屬性有多于兩個(gè)取值,在分裂時(shí)會(huì)對(duì)屬性值進(jìn)行組合,選擇最佳的兩個(gè)組合分支。假設(shè)某屬性存在q個(gè)可能取值,那么以該屬性作為分支屬性,生成兩個(gè)分支的分裂方法共有
種。CART算法在分支處理中分支屬性的度量指標(biāo)是Gini指標(biāo)。在前面例子中,假設(shè)選擇“會(huì)飛”作為分支屬性,其Gini指標(biāo)為:CART樹算法
決策樹分類算法原理以信息論為基礎(chǔ)的分類原理決策樹分類算法框架衡量標(biāo)準(zhǔn):信息熵決策樹算法的簡化決策樹算法的優(yōu)、缺點(diǎn)與應(yīng)用決策樹分類算法決策樹剪枝訓(xùn)練誤差代表分類方法對(duì)于現(xiàn)有訓(xùn)練樣本集的擬合程度。泛化誤差代表此方法的泛化能力,即對(duì)于新的樣本數(shù)據(jù)的分類能力如何。模型的訓(xùn)練誤差比較高,則稱此分類模型欠擬合。模型的訓(xùn)練誤差低但是泛化誤差比較高,則稱此分類模型過擬合。對(duì)于欠擬合問題,可以通過增加分類屬性的數(shù)量、選取合適的分類屬性等方法,提高模型對(duì)于訓(xùn)練樣本的擬合程度。過擬合對(duì)口罩銷售定價(jià)進(jìn)行分類樣本集測試集過擬合產(chǎn)品名功能是否為純色銷售價(jià)位加厚口罩防塵否低保暖口罩保暖否高護(hù)耳口罩保暖是高活性炭口罩防霧霾是中三層防塵口罩防塵否低藝人同款口罩防塵是高呼吸閥口罩防霧霾是中產(chǎn)品名功能是否為純色銷售價(jià)位兒童口罩防塵是低情侶口罩保暖否高一次性口罩防塵否低無紡布口罩防塵是低顆粒物防護(hù)口罩防霧霾否中三層決策樹,訓(xùn)練誤差為0,測試誤差高達(dá)2/5。兩層決策樹,訓(xùn)練集擬合程度相比較低,但測試集表現(xiàn)更好。過擬合問題過擬合現(xiàn)象會(huì)導(dǎo)致隨著決策樹的繼續(xù)增長,盡管訓(xùn)練誤差仍在下降,但是泛化誤差停止下降,甚至還會(huì)提升。決策樹誤差曲線:過擬合問題決策樹的剪枝有兩種思路:預(yù)剪枝(Pre-Pruning)和后剪枝(Post-Pruning)。決策樹剪枝后剪枝算法有很多種,這里簡要總結(jié)如下:Reduced-ErrorPruning(REP,錯(cuò)誤率降低剪枝)PessimisticErrorPruning(PEP,悲觀剪枝)Cost-ComplexityPruning(CCP,代價(jià)復(fù)雜度剪枝)后剪枝錯(cuò)誤率降低剪枝(REP)是后剪枝策略中最簡單的算法之一,該算法從葉子結(jié)點(diǎn)向上,依次將決策樹的所有子樹用其樣本中最多的類替換,使用一個(gè)測試集進(jìn)行測試,記錄下對(duì)于決策樹的每棵子樹剪枝前后的誤差數(shù)之差,選取誤差數(shù)減少最少的子樹進(jìn)行剪枝,將其用子樣本集中最多的類替換。按此步驟自底向上,遍歷決策樹的所有子樹,當(dāng)發(fā)現(xiàn)沒有可替換的子樹時(shí),即每棵子樹剪枝后的誤差數(shù)都會(huì)增多,則剪枝結(jié)束。REP剪枝方法簡單、快速,在數(shù)據(jù)集較大時(shí)效果不錯(cuò),但由于需要比對(duì)模型子樹替換前后的預(yù)測錯(cuò)誤率,因此需要從數(shù)據(jù)集中劃分出單獨(dú)的測試集,故而當(dāng)數(shù)據(jù)集較小時(shí),REP剪枝策略的效果會(huì)有所下降。錯(cuò)誤率降低剪枝悲觀剪枝(PEP)與REP相比,PEP不再需要構(gòu)建一個(gè)單獨(dú)的測試集。其假設(shè)某葉子結(jié)點(diǎn)t中有N(t)個(gè)樣本,其中有e(t)個(gè)被錯(cuò)誤分類的樣本,則此葉子結(jié)點(diǎn)誤分類率定義:其中0.5為修正因子。對(duì)于一棵有著N個(gè)葉子結(jié)點(diǎn)的子樹T,其誤分類率計(jì)算公式如下:由于修正因子的存在,有時(shí)即便子樹的誤差數(shù)要小于剪枝后的誤差,仍有可能進(jìn)行剪枝操作,因?yàn)檎`分類率的計(jì)算公式中考慮到了葉子結(jié)點(diǎn)樹大?。∟)的影響。悲觀剪枝
代價(jià)復(fù)雜度剪枝策略(CCP)定義了代價(jià)與復(fù)雜度的概念,代價(jià)是指在剪枝過程中因?yàn)樽訕浔惶鎿Q而增加的錯(cuò)分樣本,復(fù)雜度表示剪枝后減少的葉結(jié)點(diǎn)數(shù)。CCP算法使用α作為衡量代價(jià)與復(fù)雜度之間關(guān)系的值,其計(jì)算公式如下:CCP的具體方法為,計(jì)算決策樹T的每個(gè)非葉子結(jié)點(diǎn)的α值,每次計(jì)算之后剪掉具有最小α值的子樹,循環(huán)此過程直至只剩下根結(jié)點(diǎn),進(jìn)行n次剪枝,生成n個(gè)決策樹,從這n個(gè)決策樹中根據(jù)真實(shí)誤差估計(jì)選擇最佳決策樹。代價(jià)復(fù)雜度剪枝策略
1.多擇題:決策樹的劃分方式有哪些?(
)
A.信息增益。
B.信息增益率。
C.Gini系數(shù)
D.梯度下降。決策樹作為一類基礎(chǔ)而且常用的非線性分類和回歸方法,本章介紹了決策樹常用的構(gòu)建方法,包括其中幾種代表性的特征選擇度量:信息增益、信息增益比、基尼指數(shù)和平方誤差,以及根據(jù)損失函數(shù)進(jìn)行剪枝的方法,并結(jié)合起來介紹了由此衍生的代表性決策樹算法:ID3、C4.5和CART。謝謝第六章Logistic回歸本章主要講述Logistic回歸算法的基礎(chǔ)知識(shí)、模型優(yōu)化、多項(xiàng)式邏輯回歸以及具體實(shí)現(xiàn)。學(xué)習(xí)目標(biāo)通過本章學(xué)習(xí)可以:Logistic回歸概述Logistic回歸原理Logistic回歸模型的訓(xùn)練和優(yōu)化多項(xiàng)式Logistic回歸Logistic回歸概述分類問題Logistic回歸原理Logistic回歸模型Logistic訓(xùn)練和優(yōu)化多項(xiàng)式Logistic回歸Logistic回歸概述LogisticRegression雖然被稱為回歸,但其實(shí)際上是分類模型,并常用于二分類。LogisticRegression因其簡單、可并行化、可解釋強(qiáng)深受工業(yè)界喜愛。Logistic回歸的本質(zhì)是:假設(shè)數(shù)據(jù)服從這個(gè)分布,然后使用極大似然估計(jì)做參數(shù)的估計(jì)。Logistic回歸是機(jī)器學(xué)習(xí)從統(tǒng)計(jì)學(xué)領(lǐng)域借鑒過來的另一種技術(shù)。它是二分類問題的首選方法。像線性回歸一樣,Logistic回歸的目的也是找到每個(gè)輸入變量的權(quán)重系數(shù)值。但不同的是,Logistic回歸的輸出預(yù)測結(jié)果是通過一個(gè)叫作「logistic函數(shù)」的非線性函數(shù)變換而來的。分類問題監(jiān)督學(xué)習(xí)的最主要類型——分類(Classification)定義:所謂分類,就是根據(jù)數(shù)據(jù)的特征或?qū)傩裕瑒澐值揭延械念悇e中。從功能上看,分類問題就是預(yù)測數(shù)據(jù)所屬的類別分類的輸入變量可以是離散的也可以是連續(xù)的,標(biāo)簽是離散的。已知某個(gè)人存款金額是10000元,這個(gè)人沒有結(jié)婚,并且有一輛車,沒有固定住房,估計(jì)判斷這個(gè)人是否會(huì)涉嫌信用欺詐問題。根據(jù)腫瘤的體積、患者的年齡來判斷良性或惡性。分類問題二分類用藍(lán)色圓形數(shù)據(jù)定義為類別1,其余三角形數(shù)據(jù)為類型2;只需要分類一次就可以步驟:①->②分類問題多分類先定義其中一類為類型1(正類),其余數(shù)據(jù)為負(fù)類(rest);接下來去掉類型1數(shù)據(jù),剩余部分再次進(jìn)行二分類,分成類型2和負(fù)類;如果有n類,則需要分類n-1次步驟:①->②->③->…..Logistic回歸概述分類問題Logistic回歸原理Logistic回歸模型Logistic訓(xùn)練和優(yōu)化多項(xiàng)式Logistic回歸Logistic回歸原理Logistic回歸的本質(zhì)是:假設(shè)數(shù)據(jù)服從這個(gè)分布,然后使用極大似然估計(jì)做參數(shù)的估計(jì)。Logistic分布是一種連續(xù)型的概率分布,其分布函數(shù)和密度函數(shù)分別為:邏輯分布深度學(xué)習(xí)中的常用到的Sigmoid函數(shù)就是Logistic的分布函數(shù)在的特殊形式Sigmoid函數(shù)
Logistic回歸學(xué)習(xí)策略模型中的參數(shù)常常使用極大似然估計(jì)法來求解,即找到一組參數(shù),使得在這組參數(shù)下,使得數(shù)據(jù)的似然度(概率)最大。設(shè):似然函數(shù):
等式兩邊取對(duì)數(shù):
平均對(duì)數(shù)似然損失:Logistic回歸概述分類問題Logistic回歸原理Logistic回歸模型Logistic訓(xùn)練和優(yōu)化多項(xiàng)式Logistic回歸Logistic回歸優(yōu)化算法
Logistic回歸優(yōu)化算法正則化目的是為了防止過擬合。沒有正則化,過擬合正則化過度,欠擬合適當(dāng)?shù)恼齽t化Logistic回歸優(yōu)化算法L1正則化LASSO回歸,相當(dāng)于為模型添加先驗(yàn)知識(shí):w服從零均值拉普拉斯分布。拉普拉斯分布:引入正則項(xiàng)后,似然函數(shù)改寫為:Logistic回歸優(yōu)化算法L1正則化對(duì)似然函數(shù)取log再取負(fù),得到目標(biāo)函數(shù):等價(jià)于原始損失函數(shù)后面加上L1正則化。本質(zhì)上L1正則本質(zhì)其實(shí)是為模型增加了模型參數(shù)服從零均值拉普拉斯分布的先驗(yàn)知識(shí)。Logistic回歸優(yōu)化算法L2正則化Ridge回歸,相當(dāng)于為模型添加先驗(yàn)知識(shí):w服從零均值正態(tài)分布。正態(tài)分布:引入正則項(xiàng)后,似然函數(shù)改寫為:Logistic回歸優(yōu)化算法L2正則化對(duì)似然函數(shù)取ln再取負(fù),得到目標(biāo)函數(shù):等價(jià)于原始損失函數(shù)后面加上L2正則化。本質(zhì)上L2正則本質(zhì)其實(shí)是為模型增加了模型參數(shù)服從零均值正態(tài)分布的先驗(yàn)知識(shí)。右圖為L1和L2正則化對(duì)比目標(biāo)函數(shù)-平方誤差項(xiàng)的等值線和L1、L2范數(shù)等值線(左邊是L1),我們正則化后的代價(jià)函數(shù)需要求解的目標(biāo)就是在經(jīng)驗(yàn)風(fēng)險(xiǎn)和模型復(fù)雜度之間的平衡取舍,在圖中形象地表示就是黑色線與彩色線的交叉點(diǎn)。Logistic回歸優(yōu)化算法Logistic回歸概述分類問題Logistic回歸原理Logistic回歸模型Logistic訓(xùn)練和優(yōu)化多項(xiàng)式Logistic回歸多項(xiàng)式Logistic回歸當(dāng)Y只有兩個(gè)選項(xiàng)時(shí),可使用二分類Logistic,當(dāng)Y有三項(xiàng)或更多時(shí),則應(yīng)該使用多分類Logistic回歸。二元邏輯回歸和多分類邏輯回歸的對(duì)比多項(xiàng)式Logistic回歸解決多分類問題,可把Sigmoid函數(shù)換成Softmax函數(shù)。Softmax回歸是直接對(duì)邏輯回歸在多分類的推廣。Softmax函數(shù)為:整體目標(biāo)函數(shù)1.(單選)Logistic回歸適用于因變量為(
)?A.二分類變量
B.多分類有序變量
C.多分類無序變量D.連續(xù)型定量變量E.
A、B、C均可
講解邏輯回歸的基礎(chǔ)概念講解邏輯回歸的二分類和多分類問題講解邏輯回歸的模型原理和Sigmoid函數(shù)講解邏輯回歸的優(yōu)化方法L1,L2正則化謝謝第七章支持向量機(jī)本章主要講述支持向量機(jī)算法的基礎(chǔ)知識(shí)、線性以及非線性情況下的支持向量機(jī)和支持向量回歸機(jī)的算法知識(shí)。學(xué)習(xí)目標(biāo)通過本章學(xué)習(xí)可以:支持向量機(jī)的基本知識(shí)線性可分下的支持向量機(jī)線性不可分下的支持向量機(jī)支持向量機(jī)的核函數(shù)多類分類支持向量機(jī)支持向量回歸機(jī)支持向量機(jī)的基本知識(shí)超平面間隔與間隔最大化函數(shù)間隔和幾何間隔不同情形下的支持向量機(jī)線性可分下的支持向量機(jī)線性不可分下的支持向量機(jī)非線性支持向量機(jī)非線性支持向量機(jī)之核函數(shù)多類分類支持向量機(jī)支持向量回歸機(jī)支持向量機(jī)概述支持向量機(jī)(SupportVectorMachine,SVM)是一種按照監(jiān)督學(xué)習(xí)方式對(duì)數(shù)據(jù)進(jìn)行二元分類的廣義線性分類器(generalizedlinearclassifier),其決策邊界是對(duì)學(xué)習(xí)樣本求解的最大邊距超平面(maximum-marginhyperplane)。與邏輯回歸和神經(jīng)網(wǎng)絡(luò)相比,支持向量機(jī),在學(xué)習(xí)復(fù)雜的非線性方程時(shí)提供一種更為清晰,更加強(qiáng)大的方式支持向量機(jī)概述算法思想找到集合邊緣上的若干數(shù)據(jù)(稱為支持向量),用這些點(diǎn)找出一個(gè)平面(稱為決策面),使得支持向量到該平面距離最大。支持向量機(jī)的基本知識(shí)超平面間隔與間隔最大化函數(shù)間隔和幾何間隔不同情形下的支持向量機(jī)線性可分下的支持向量機(jī)線性不可分下的支持向量機(jī)非線性支持向量機(jī)非線性支持向量機(jī)之核函數(shù)多類分類支持向量機(jī)支持向量回歸機(jī)支持向量機(jī)概述硬間隔、軟間隔硬間隔軟間隔硬間隔指的是完全分類正確,不能存在分類錯(cuò)誤情況。軟間隔指的是允許一定量的樣本分類錯(cuò)誤。支持向量機(jī)概述svm算法,就是找一分割線將兩類樣本分開,問題是如圖三條顏色都可以把點(diǎn)和星分開。但哪條最優(yōu)呢?假設(shè)一條直線為W?X+b=0為最優(yōu)的分割線,把兩類分開如下圖所示,那我們就要解決的是怎么獲取這條最優(yōu)直線呢?及W和b的值;在SVM中最優(yōu)分割面(超平面)就是:能使支持向量和超平面最小距離的最大值;目標(biāo)是尋找一個(gè)超平面,使得離超平面比較近的點(diǎn)能有更大的間距。也就是我們不考慮所有的點(diǎn)都必須遠(yuǎn)離超平面,我們關(guān)心求得的超平面能夠讓所有點(diǎn)中離它最近的點(diǎn)具有最大間距。支持向量機(jī)概述間隔超平面
如圖所示,支持向量到超平面的距離為d,其他點(diǎn)到超平面距離大于d。每個(gè)支持向量到超平面的距離可寫為:支持向量機(jī)概述間隔最大化根據(jù)支持向量到超平面的距離d,其他點(diǎn)到超平面距離大于d。于是得到如下公式:我們令d=1(令它為1,為了便于推導(dǎo)和優(yōu)化,且不會(huì)影響目標(biāo)函數(shù)的優(yōu)化)將以上方程合并,簡寫為:至此得到最大間隔超平面的上下兩個(gè)超平面:支持向量機(jī)的基本知識(shí)超平面間隔與間隔最大化函數(shù)間隔和幾何間隔不同情形下的支持向量機(jī)線性可分下的支持向量機(jī)線性不可分下的支持向量機(jī)非線性支持向量機(jī)非線性支持向量機(jī)之核函數(shù)多類分類支持向量機(jī)支持向量回歸機(jī)支持向量機(jī)概述函數(shù)間隔
支持向量機(jī)概述幾何距離
支持向量機(jī)概述函數(shù)距離VS幾何距離從函數(shù)間隔和幾何間隔的定義可以看出:幾何間隔就是函數(shù)間隔處理||w||,而且函數(shù)間隔y*(wx+b)=y*f(x)實(shí)際上是|f(x)|,是人為定義的間隔度量,而幾何間隔|f(x)|/||w||才是直觀上的點(diǎn)到超平面的距離。函數(shù)間隔作用:表示分類預(yù)測的正確性的準(zhǔn)確度函數(shù)間隔
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 保險(xiǎn)理賠調(diào)解協(xié)議書
- 馬陸灼傷病因介紹
- (范文)石子項(xiàng)目立項(xiàng)報(bào)告
- (2024)洗煤機(jī)項(xiàng)目可行性研究報(bào)告寫作范本(一)
- 內(nèi)蒙古包頭市昆都侖區(qū)第九中學(xué)2024-2025學(xué)年八年級(jí)上學(xué)期期中考試道德與法治試題-A4
- 2023年網(wǎng)絡(luò)監(jiān)控系統(tǒng)項(xiàng)目融資計(jì)劃書
- 2023年LMDPE項(xiàng)目融資計(jì)劃書
- 2024秋新滬科版物理八年級(jí)上冊教學(xué)課件 第五章 質(zhì)量 第二節(jié) 測量:物體的質(zhì)量
- 2023年氣門嘴項(xiàng)目籌資方案
- 2023年聚烯烴類線纜項(xiàng)目融資計(jì)劃書
- 中考英語詞匯
- 2023-2024學(xué)年高一上學(xué)期期末真題綜合測試遼寧卷A地理試題(解析版)
- 《Java程序設(shè)計(jì)基礎(chǔ)與應(yīng)用》全套教學(xué)課件
- 2024年山東省濟(jì)南市地理高一上學(xué)期試卷及解答
- 3.3 場域與對(duì)話-公共空間里的雕塑 課件-高中美術(shù)人美版(2019)美術(shù)鑒賞
- 廣東省深圳市2024年九年級(jí)中考提分訓(xùn)練《六選五》專題練習(xí)
- 2024年永州職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫及答案解析
- 注射相關(guān)感染預(yù)防與控制(全文)
- SMP-10-003-00 藥品上市后風(fēng)險(xiǎn)管理規(guī)程
- 升壓站土建施工合同2024年
- NB-T31030-2012陸地和海上風(fēng)電場工程地質(zhì)勘察規(guī)范
評(píng)論
0/150
提交評(píng)論