版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
第一章機器學習入門基礎本章主要講述機器學習相關的概念、基本框架、實施流程以及應用領域等。通過本章學習可以:熟悉機器學習的相關概念理解機器學習的原理熟悉機器學習的四種類型掌握機器學習的實施流程了解機器學習的應用領域了解機器學習的開發(fā)工具學習目標機器學習的概念人工智能、機器學習、深度學習的關系機器學習的概念機器學習的原理機器學習的四種類型機器學習的實施流程機器學習的應用領域機器學習的開發(fā)工具Python人工智能、機器學習、深度學習的關系1、機器學習和深度學習都屬于AI的范疇2、機器學習是AI的一個分支技術3、深度學習是機器學習里的特定分支技術總結(jié):三者是包含關系,不沖突也不并列機器學習的概念人工智能、機器學習、深度學習的關系機器學習的概念機器學習的原理機器學習的四種類型機器學習的實施流程機器學習的應用領域機器學習的開發(fā)工具Python機器學習的概念美國作家PeterHarrington在他的《機器學習實戰(zhàn)》一書中是這么說的:“機器學習就是把無數(shù)的數(shù)據(jù)轉(zhuǎn)換成有用的信息?!睓C器學習的概念英國作家PeterFlach在他的《機器學習》一書中,把機器學習的概念概括為:“使用正確的特征來構(gòu)建正確的模型,以完成指定任務”。機器學習的概念人工智能、機器學習、深度學習的關系機器學習的概念機器學習的原理機器學習的四種類型機器學習的實施流程機器學習的應用領域機器學習的開發(fā)工具Python經(jīng)驗規(guī)律歸納預測輸入新的問題未來機器學習的原理機器學習,顧名思義就是讓機器進行學習,學習的目的是實現(xiàn)對世界上的人事物進行預測或者判斷,這就是機器學習的主要作用。機器學習的原理小孩子通過不斷地試錯,學會哪些東西能吃,哪些東西不能吃。機器學習的原理機器學習過程機器學習的原理機器學習并不是任何情況下都能預測或者判斷的,也不是每次都能夠判斷準確的,這與數(shù)據(jù)的特性和準確性有非常大的關系。搜索推薦機器學習的原理醫(yī)療機器學習的原理機器學習本質(zhì)上是一個提高效率的工具。機器學習的本質(zhì)上是什么?機器學習的概念人工智能、機器學習、深度學習的關系機器學習的概念機器學習的原理機器學習的四種類型機器學習的實施流程機器學習的應用領域機器學習的開發(fā)工具Python機器學習的四種類型機器學習可分為四大類:監(jiān)督學習、無監(jiān)督學習、半監(jiān)督學習和增強學習。監(jiān)督學習:通過學習已有的標記數(shù)據(jù)樣本構(gòu)建模型,再利用模型對新的數(shù)據(jù)進行預測。無監(jiān)督學習(非監(jiān)督學習):通過學習沒有標記的數(shù)據(jù)樣本,發(fā)掘未知數(shù)據(jù)間的隱藏結(jié)構(gòu)關系,從而實現(xiàn)預測。半監(jiān)督學習:它是一種在預測時,既使用已標記的樣本數(shù)據(jù),也使用未標記的樣本數(shù)據(jù)的方法。增強學習,指通過與環(huán)境的交互,以推測和優(yōu)化實際的動作,從而實現(xiàn)決策。機器學習的四種類型監(jiān)督學習監(jiān)督學習是通過學習已有的標記數(shù)據(jù)樣本構(gòu)建模型,再利用模型對新的數(shù)據(jù)進行預測。例如,為了預測某位患者在一年內(nèi)是否會心臟病發(fā)作,監(jiān)督學習可以利用以前就醫(yī)患者的相關數(shù)據(jù)(包括年齡、體重、身高和血壓)生成一個模型,用來預測心臟病發(fā)作的概率。常見的監(jiān)督學習主要分為回歸和分類兩種形式,回歸可用于預測連續(xù)值的結(jié)果(如預測未來房價走勢),分類可用于預測離散值的結(jié)果(如判斷圖片上的動物是貓還是狗)。機器學習的四種類型無監(jiān)督學習無監(jiān)督學習也可稱為非監(jiān)督學習,通過學習沒有標記的數(shù)據(jù)樣本,發(fā)掘未知數(shù)據(jù)間的隱藏結(jié)構(gòu)關系,從而實現(xiàn)預測。聚類學習就是一種比較常用的無監(jiān)督學習,聚類的目的是把相似的對象聚在一起,構(gòu)成不同的集合,例如基因序列分析等應用。機器學習的四種類型半監(jiān)督學習半監(jiān)督學習,它是一種在預測時,既使用已標記的樣本數(shù)據(jù),也使用未標記的樣本數(shù)據(jù)的方法,通常情況下,無標記樣本的數(shù)量遠超過有標記樣本,因為有時候獲得有標記數(shù)據(jù)的成本很高,所以在訓練分類器模型時,先使用部分已經(jīng)標記的數(shù)據(jù),在學習了數(shù)據(jù)的內(nèi)在結(jié)構(gòu)聯(lián)系以后,再使用大量無標記的數(shù)據(jù)進一步學得更好的模型,從而實現(xiàn)對數(shù)據(jù)的有效預測。機器學習的四種類型增強學習所謂增強學習,是通過與環(huán)境的交互,以推測和優(yōu)化實際的動作,從而實現(xiàn)決策。和上述學習類型相比,增強學習法輸入的數(shù)據(jù),將直接反饋到模型,與此同時,模型作出相應調(diào)整并依據(jù)狀態(tài)的變化來獲得強化后的信號,從而完成和環(huán)境的交互。例如自動駕駛汽車通過不斷與環(huán)境交互來學習。在此,我們只需要知道機器學習整體框架的基本概念即可,實際應用場景中,使用最多的主要是監(jiān)督學習和無監(jiān)督學習兩大類。機器學習的概念人工智能、機器學習、深度學習的關系機器學習的概念機器學習的原理機器學習的四種類型機器學習的實施流程機器學習的應用領域機器學習的開發(fā)工具Python機器學習的實施流程機器學習的一般實施流程,包括數(shù)據(jù)收集、數(shù)據(jù)清洗、特征提取與選擇、模型訓練、模型評估測試、模型部署應用等步驟。機器學習的實施流程第一步:數(shù)據(jù)收集應用機器學習解決問題,在明確目標任務(即明確要解決的問題和業(yè)務需求)之后,首先需要進行數(shù)據(jù)收集。收集數(shù)據(jù)有多種不同的方式,如制作網(wǎng)絡爬蟲從網(wǎng)站上抽取數(shù)據(jù)、服務器中存儲的應用數(shù)據(jù)、設備發(fā)送過來的測試數(shù)據(jù)等,在機器學習任務中使用的數(shù)據(jù)稱為數(shù)據(jù)集。典型的數(shù)據(jù)集類似于一個二維的電子表格或數(shù)據(jù)庫表,每一行稱為一個數(shù)據(jù)樣本,每一列的屬性稱為特征(如身高、體重等)序號姓名性別身高(cm)體重(kg)喜歡的顏色1001張三男17560藍色1002李四女16048紅色1003王五男18065黑色1004趙六女16550黑色機器學習的實施流程第二步:數(shù)據(jù)清洗大部分情況下,收集得到的數(shù)據(jù)需要經(jīng)過清洗后才能夠為算法所使用,真實的數(shù)據(jù)中通常會出現(xiàn)一些數(shù)據(jù)質(zhì)量問題,比如:①不完整:數(shù)據(jù)中缺少屬性或者包含一些缺失的值。②多噪音:數(shù)據(jù)包含錯誤的記錄或者異常點。③不一致:數(shù)據(jù)中存在矛盾的、有差異的記錄。序號姓名性別身高(cm)體重(kg)喜歡的顏色1001張三男17560藍色1002李四女160Null紅色1003王五男25065黑色1004趙六女16550趙六機器學習的實施流程第三步:特征提取與選擇對數(shù)據(jù)進行初步的清洗后,需要將其轉(zhuǎn)換為一種適合機器學習模型的表示形式,并且轉(zhuǎn)換后一樣準確地表示數(shù)據(jù)。例如通過人的身高、體重、喜歡的顏色這些特征屬性來預測性別,我們不會把“藍色”、“紅色”、“黑色”直接輸入給模型,因為機器學習的模型算法均要求輸入的數(shù)據(jù)必須是數(shù)值型的,在此分類問題中,需要將類別數(shù)據(jù)編碼成為對應的數(shù)值表示,可以采用啞編碼,它是一種常用的將特征數(shù)字化的方式。序號姓名性別身高(cm)體重(kg)藍色紅色黑色1001張三男175601001002李四女160480101003王五男180650011004趙六女16550001機器學習的實施流程特征選擇的必要性主要在于以下幾點:①減少訓練的時間,能使用較少的特征更快地生成模型。②簡化模型,使模型更容易被使用者所解釋。③使模型的泛化能力更好,避免過擬合。特征選擇的方法有:過濾法(filter)、包裹法(wapper)、嵌入法(Embedded)等。機器學習的實施流程第四步:模型訓練數(shù)據(jù)經(jīng)過預處理之后,就可以用來訓練模型,一般會把數(shù)據(jù)集分為訓練集和測試集,或?qū)τ柧毤偌毞譃橛柧毤万炞C集,訓練模型是在訓練數(shù)據(jù)集上進行的。在模型訓練過程中,需要對模型超參進行調(diào)優(yōu),如果不了解算法原理,往往無法快速定位能決定模型優(yōu)劣的模型參數(shù),所以在訓練過程中,對機器學習算法原理的要求較高,理解越深入,就越容易發(fā)現(xiàn)問題的原因,從而快速找到合理的調(diào)優(yōu)方法。機器學習的實施流程第五步:模型評估測試利用訓練數(shù)據(jù)生成模型后,使用驗證集來驗證模型的有效性,使用測試集來評估模型在真實環(huán)境中的泛化能力。如果測試結(jié)果不理想,則分析原因并進行模型優(yōu)化。過擬合、欠擬合是模型診斷中常見的問題,如果出現(xiàn)過擬合(指所訓練的模型在訓練集上表現(xiàn)得非常優(yōu)秀,可以有效地區(qū)分每一個樣本,但在測試集上表現(xiàn)得很差),可以通過增加數(shù)據(jù)量和降低模型復雜度來優(yōu)化,如果出現(xiàn)欠擬合(指所訓練的模型在訓練集中就已經(jīng)表現(xiàn)得很差,準確度很低),可以通過提高特征數(shù)量和質(zhì)量,增加模型復雜度來優(yōu)化。模型評估針對分類、回歸等不同類型的機器學習問題,評估指標的選擇也有所不同。所以,需要熟悉每種評估指標的精確定義,有針對性地選擇合適的評估指標,并根據(jù)評估指標的反饋進行模型調(diào)整。一般情況下,模型調(diào)整后,需要重新訓練和評估,所以機器學習的模型建立過程就是不斷地嘗試,并最終達到最優(yōu)狀態(tài)。機器學習的實施流程第六步:模型部署應用通過在測試集上完成評估的模型,就可以用來預測新數(shù)據(jù)的值。這時,需要將該模型部署到實際的生產(chǎn)場景中,并根據(jù)業(yè)務場景的真實數(shù)據(jù)對模型進行不斷的微調(diào)。機器學習的概念人工智能、機器學習、深度學習的關系機器學習的概念機器學習的原理機器學習的四種類型機器學習的實施流程機器學習的應用領域機器學習的開發(fā)工具Python機器學習的應用領域智能汽車智能汽車通過機器學習技術整合物聯(lián)網(wǎng)資源,智能了解車主及周邊的環(huán)境,自動根據(jù)司機的需求靈活調(diào)整車內(nèi)設置,比如座椅位置、溫度、音響,等等;甚至還可以報告故障和智能修復故障。在自動駕駛方面,可以為駕駛者提供交通和道路狀況方面的實時建議及事故預警。機器學習的應用領域氣象預測氣象預報主要分為短時預測和長期預測。短時預測指未來幾小時到幾天不等的天氣預測,長期預測指的是厄爾尼諾(ElNino)、拉尼娜(LaNina)等氣候現(xiàn)象。短期預測通常基于地區(qū)內(nèi)的氣象站所提供的多種實時數(shù)據(jù)進行分析,如當?shù)氐臍鉁?、濕度、氣壓、風速、雷達圖等,以復雜的物理模型綜合運算得出結(jié)果。傳統(tǒng)方法通常需要為模型設定大氣物理的先驗知識,而機器學習方法選擇避開物理因素,嘗試利用大量數(shù)據(jù)驅(qū)動機器從算法訓練中“習得”大氣物理學的原理。目前機器學習在氣象的短期預測領域已有較為成熟的應用,在長期的氣象預測上科學家也正在開發(fā)相應的模型來做各種嘗試。機器學習的應用領域個性化營銷推廣商家對顧客越了解,就越能夠為顧客提供更好的服務,因而賣出的東西也就會越多,這是個性化營銷的基礎。我們曾碰到過這樣的情況:在網(wǎng)上商店上瀏覽某件產(chǎn)品,但沒有買,而過了幾天后,再去瀏覽各個不同的網(wǎng)站時都會看到那款產(chǎn)品的數(shù)字廣告。這種個性化營銷其實只是冰山一角,企業(yè)能夠進行全方位的個性化營銷,如具體給顧客發(fā)送什么樣的電子郵件,給他們提供什么樣的優(yōu)惠券,還有給他們推薦什么產(chǎn)品等等,這一切都是為了提高交易達成的可能性。機器學習的應用領域自然語言處理(NLP)自然語言處理正被用于各個領域的很多項應用當中。有自然語言的機器學習算法能夠替代客戶服務人員,快速地給客戶提供他們所需的信息。它正被用于將合同中艱深晦澀的法律措辭轉(zhuǎn)變成簡單易懂的普通語言,也被用于幫助律師整理大量的信息,提高案件準備效率。機器學習的應用領域數(shù)據(jù)安全性惡意軟件是一個越來越嚴峻的問題。2014年,卡巴斯基實驗室稱,它每天檢測到的新惡意軟件文件數(shù)量達到32.5萬。不過,以色列深度學習技術公司DeepInstinct公司指出,各個新惡意軟件通常都有跟舊版本一樣的代碼——只有2%到10%的惡意軟件文件出現(xiàn)迭代變化。他們的學習模型能夠辨別那2%到10%的變異惡意軟件,在預測哪些文件是惡意軟件上有著很高的準確率。在其他情況下,機器學習算法能夠發(fā)現(xiàn)云端數(shù)據(jù)如何被訪問方面的模式,能夠報告或可預測安全問題的異常情況。機器學習的概念人工智能、機器學習、深度學習的關系機器學習的概念機器學習的原理機器學習的四種類型機器學習的實施流程機器學習的應用領域機器學習的開發(fā)工具Python機器學習的開發(fā)工具PythonPython開發(fā)環(huán)境的搭建使用的工具/環(huán)境工具/環(huán)境說明Windows1064bit操作系統(tǒng)此項實訓所使用的計算機操作系統(tǒng)Google、火狐等此項實訓所使用的瀏覽器一站式開發(fā)環(huán)境AnacondaAnaconda是一個基于Python的數(shù)據(jù)處理和科學計算平臺,它已經(jīng)內(nèi)置了許多非常有用的第三方庫,裝上Anaconda,就相當于把Python和一些如Numpy、Pandas、Matplotlib等常用的庫自動安裝好了,使得安裝比常規(guī)python安裝要容易。因而建議直接安裝Anaconda。集成開發(fā)環(huán)境PyCharmPyCharm是一種PythonIDE(IntegratedDevelopmentEnvironment,集成開發(fā)環(huán)境),帶有一整套可以幫助用戶在使用Python語言開發(fā)時提高其效率的工具,比如調(diào)試、語法高亮、Project管理、代碼跳轉(zhuǎn)、智能提示、自動完成、單元測試、版本控制。JupyterNotebookJupyterNotebook的本質(zhì)是一個Web應用程序,便于創(chuàng)建和共享文學化程序文檔,支持實時代碼,數(shù)學方程,可視化和markdown。用途包括:數(shù)據(jù)清理和轉(zhuǎn)換,數(shù)值模擬,統(tǒng)計建模,機器學習等等。SpyderSpyder是Python(x,y)的作者為它開發(fā)的一個簡單的集成開發(fā)環(huán)境。和其他的Python開發(fā)環(huán)境相比,它最大的優(yōu)點就是模仿MATLAB的“工作空間”的功能,可以很方便地觀察和修改數(shù)組的值。Spyder的界面由許多窗格構(gòu)成,用戶可以根據(jù)自己的喜好調(diào)整它們的位置和大小。當多個窗格出現(xiàn)在一個區(qū)域時,將使用標簽頁的形式顯示。1.(單選)通過學習已有的標記數(shù)據(jù)樣本構(gòu)建模型,再利用模型對新的數(shù)據(jù)進行預測,這是屬于哪種機器學習類型?A.監(jiān)督學習B.無監(jiān)督學習C.半監(jiān)督學習D.增強學習
講解人工智能、機器學習、深度學習的關系講解機器學習的原理講解機器學習的基本框架體系講解機器學習的實施流程講解機器學習的應用領域講解機器學習的開發(fā)工具謝謝第二章機器學習數(shù)學基礎本章主要講述機器學習中相關的數(shù)學概念、包括線性代數(shù),多元微積分及概率統(tǒng)計等相關知識。通過本節(jié)學習可以:熟悉機器學習中數(shù)學的用法熟悉機器學習中線性代數(shù)熟悉機器學習中多元微積分熟悉機器學習中概率與統(tǒng)計相關知識點學習目標線性代數(shù)向量空間矩陣分析概率與統(tǒng)計多元微積分在機器學習的科學研究與工程實踐中,經(jīng)常會遇到m*n線性方程組。它使用m個方程描述個n未知量之間的線性關系。這一線性方程組很容易用矩陣-向量形式簡記為:向量空間??1,??2,?,????線性相關
?至少有一個向量可以用其余向量線性表示。??1,??2,?,????線性無關,??1,??2,?,????,??線性相關
???可以由??1,??2,?,????唯一線性表示。??可以由??1,??2,?,????線性表示
???(??1,??2,?,????)=??(??1,??2,?,????,??)。向量組的線性表示設??(????×??)=??,則??的秩??(??)與??的行列向量組的線性相關性關系為:若??(????×??)=??=??,則??的行向量組線性無關。若??(????×??)=??<??,則??的行向量組線性相關。若??(????×??)=??=??,則??的列向量組線性無關。若??(????×??)=??<??,則??的列向量組線性相關。向量組的秩與矩陣的秩之間的關系若??1,??2,?,????與??1,??2,?,????是向量空間??的兩組基,則基變換公式為:其中??是可逆矩陣,稱為由基??1,??2,?,????到基??1,??2,?,????的過渡矩陣。??維向量空間的基變換公式及過渡矩陣線性代數(shù)向量空間矩陣分析概率與統(tǒng)計多元微積分A稱為矩陣,是一個按照長方陣列排列的復數(shù)或?qū)崝?shù)集合。x跟b代表n*1向量和m*1向量。矩陣向量矩陣A可以是線性系統(tǒng)、濾波器、無線信道等的符號表示;而科學和工程中遇到的向量可分為三種:物理向量:泛指既有幅值,又有方向的物理量,如速度、加速度、位移等。幾何向量:為了將物理向量可視化,常用帶方向的(簡稱有向)線段表示,這種有向線段稱為幾何向量。代數(shù)向量:兒何向量可以用代數(shù)形式表示。向量矩陣的加法設??=(
),??=(
)是兩個??×??矩陣,則??×??矩陣??=(
)=
+
稱為矩陣??與??的和,記為??+??=??。矩陣的數(shù)乘設??=(aij)是??×??矩陣,??是一個常數(shù),則??×??矩陣(kaij)稱為數(shù)??與矩陣??的數(shù)乘,記為k??。矩陣的乘法設??=(aij)是??×??矩陣,??=(bij)是??×??矩陣,那么??×??矩陣??=(cij),其中cij=ai1b1j+ai2b2j
+?+ainbnj
=
稱為????的乘積,記為??=????。矩陣線性運算(????)??=??,(????)??=????????,(????)??=??????,(??±??)??=????±????
????、?????、???三者之間的關系??可逆?????=??;?|??|≠0;???(??)=??;
???可以表示為初等矩陣的乘積;
???無零特征值;
?Ax=0只有零解。有關?????的結(jié)論這里A,B均可為逆矩陣。分塊求逆公式線性代數(shù)向量空間矩陣分析概率與統(tǒng)計多元微積分統(tǒng)計學是研究如何搜集資料、整理資料和進行量化分析、推斷的一門科學,在科學計算、工業(yè)和金融等領域有著重要應用,統(tǒng)計分析是機器學習的基本方法與統(tǒng)計分析相關的基本概念有以下幾個總體:根據(jù)定目的確定的所要研究事物的全體樣本:從總體中隨機抽取的若干個體構(gòu)成的集合推斷:以樣本所包含的信息為基礎對總體的某些特征作出判斷、預測和估計推斷可靠性:對推斷結(jié)果從概率上的確認,作為決策的重要依據(jù)統(tǒng)計分析分為描述性統(tǒng)計和推斷性統(tǒng)計,描述性統(tǒng)計是通過對樣本進行整理、分析并就數(shù)據(jù)的分布情況獲取有意義的信息,從而得到結(jié)論。推斷統(tǒng)計又分為參數(shù)估計和假設檢驗,參數(shù)估計是對樣本整體中某個數(shù)值進行估計,如推斷總體平均數(shù)等,而假設檢驗是通過對所做的推斷驗證,從而進擇行才方案統(tǒng)計分析
統(tǒng)計基礎議程
統(tǒng)計基礎議程均值、標準差、方差、協(xié)方差均值描述的是樣本集合的平均值標準差描述是樣本集合的各個樣本點到均值的距離分布,描述的是樣本集的分散程度在機器學習中的方差就是估計值與其期望值的統(tǒng)計方差。如果進行多次重復驗證的過程,就會發(fā)現(xiàn)模型在訓練集上的表現(xiàn)并不固定,會出現(xiàn)波動,這些波動越大,它的方差就越大協(xié)方差主要用來度量兩個隨機變量關系,如果結(jié)果為正值,則說明兩者是正相關的;結(jié)果為負值,說明兩者是負相關的;如果為0,就是統(tǒng)計上的“相互獨立”統(tǒng)計基礎議程
統(tǒng)計基礎
正則化與交叉驗證L0正則化L1正則化L2正則化HoldOut檢驗簡單交叉檢驗K折交叉檢驗留一交叉檢驗統(tǒng)計基礎議程
常見概率分布議程參數(shù)估計是用樣本統(tǒng)計量去估計總體的參數(shù),即根據(jù)樣本數(shù)據(jù)選擇統(tǒng)計量去推斷總體的分布或數(shù)字特征。估計參數(shù)的目的,是希望用較少的參數(shù)去描述數(shù)據(jù)的總體分布,前提是要了解樣本總體分布(如正態(tài)分布),這樣就只需要估計其中參數(shù)的值。如果無法確認總體分布,那就要采用非參數(shù)估計的方法。參數(shù)估計是統(tǒng)計推斷的種基本形式,分為點估計和區(qū)間估計兩部分。其中有多種方法,除了最基本的最小二乘法和極大似然法、貝葉斯估計、極大后驗估計,還有矩估計、一致最小方差無偏估計、最小風險估計、最小二乘法、最小風險法和極小化極大熵法等。參數(shù)估計議程
假設檢驗議程
假設檢驗議程線性代數(shù)向量空間矩陣分析概率與統(tǒng)計多元微積分導數(shù)和微分的概念或者導數(shù)函數(shù)的可導性與連續(xù)性之間的關系:函數(shù)??(??)在x0處可微???(??)在x0處可導。若函數(shù)在點x0處可導,則??=??(??)在點x0處連續(xù),反之則不成立。即函數(shù)連續(xù)不一定可導。??′(x0)存在???′?(x0)=??′+(x0)高等數(shù)學切線方程:法線方程:平面曲線的切線和法線設函數(shù)??=??(??),??=??(??)在點??可導,則:??±??′=??′±??′(????)′=????′+????′??(????)=??????+??????四則運算復合函數(shù),反函數(shù),隱函數(shù)以及參數(shù)方程所確定的函數(shù)的微分法反函數(shù)的運算法則:設??=??(??)在點??的某鄰域內(nèi)單調(diào)連續(xù),在點??處可導且??′(??)≠0,則其反函數(shù)在點??所對應的??處可導,并且有復合函數(shù)的運算法則:若??=??(??)在點??可導,而??=??(??)在對應點??(??=??(??))可導,則復合函數(shù)??=??(??(??))在點??可導,且復合函數(shù)費馬定理若函數(shù)??(??)滿足條件:函數(shù)??(??)在x0的某鄰域內(nèi)有定義,并且在此鄰域內(nèi)恒有??(??)≤??(x0)或??(??)≥??(x0),??(??)在x0處可導,則有??′(x0)=0微分中值定理設函數(shù)??(??)滿足條件:在[??,??]上連續(xù);在(??,??)內(nèi)可導;則在(??,??)內(nèi)存在一個??,使拉格朗日中值定理設函數(shù)??(??),??(??)滿足條件:在[??,??]上連續(xù);在(??,??)內(nèi)可導且??′(??),??′(??)均存在,且??′(??)≠0則在(??,??)內(nèi)存在一個??,使柯西中值定理設函數(shù)??(??)在(??,??)區(qū)間內(nèi)可導,如果對???∈(??,??),都有??′(??)>0(或??′(??)<0),則函數(shù)??(??)在(??,??)內(nèi)是單調(diào)增加的(或單調(diào)減少)。(取極值的必要條件)設函數(shù)??(??)在??0處可導,且在??0處取極值,則??′(??0)=0。函數(shù)單調(diào)性的判斷設函數(shù)??′(x)在x0的某一鄰域內(nèi)可微,且??′(??0)=0(或??(??)在x0處連續(xù),但??′(x0)不存在)。若當??經(jīng)過x0時,??′(??)由“+”變“-”,則??(x0)為極大值;若當??經(jīng)過x0時,??′(??)由“-”變“+”,則??(x0)為極小值;若??′(x)經(jīng)過??=??0的兩側(cè)不變號,則??(x0)不是極值。設??(??)在點x0處有??″(??)≠0,且??′(??0)=0,則當??′′(x0)<0時,??(x0)為極大值;當??′′(x0)>0時,??(x0)為極小值。注:如果??′′(x0)=0,此方法失效。極值充分條件(凹凸性的判別定理)若在I上??″(??)<0(或??″(??)>0),則??(??)在I上是凸的(或凹的)。(拐點的判別定理1)若在x0處??″(??)=0,(或??″(??)不存在),當??變動經(jīng)過x0時,??″(??)變號,則(x0,??(x0))為拐點。(拐點的判別定理2)設??(??)在x0點的某鄰域內(nèi)有三階導數(shù),且??″(??)=0,???(??)≠0,則(x0,??(x0))為拐點。函數(shù)凹凸性的判斷(簡答題)如何判斷函數(shù)凹凸性。講解機器學習中會用到的高等數(shù)學,線性代數(shù)及概率論的相關知識。謝謝第三章線性回歸本章主要講述機器學習中回歸概念,并展開介紹線性回歸。通過本節(jié)學習可以:熟悉機器學習中線性回歸熟悉一元線性回歸掌握梯度下降方法熟悉多元線性回歸及非線性回歸學習目標一元線性回歸代價函數(shù)梯度下降法標準方程法多元線性回歸非線性回歸介紹利用該數(shù)據(jù)集,我們可以訓練一個線性方程,無限逼近所有數(shù)據(jù)點,然后利用該方程與給定的某一自變量(本例中為面積),可以預測因變量。(本例中為房價)回歸分析案例
預測二手車價格的系統(tǒng)。該系統(tǒng)的輸入是我們認為會影響車價的屬性信息:品牌、年齡、發(fā)動機性能、里程以及其他信息。輸出是車的價格。這種輸出為數(shù)值的問題是回歸問題。回歸預測線性回歸是種通過擬合自變量與因變量之間最佳線性關系,來預測目標變量的方法。回歸過程是給出一個樣本集,用函數(shù)擬合這個樣本集,使樣本集與擬合函數(shù)間的誤差最小?;貧w分析包括以下內(nèi)容:確定輸入變量與目標變量間的回歸模型,即變量間相關關系的數(shù)學表達式。根據(jù)樣本估計并檢驗回歸模型及未知參數(shù)。從眾多的輸入變量中,判斷哪些變量對目標變量的影響是顯著的。根據(jù)輸入變量的已知值來估計目標變量的平均值并給出預測精度。線性回歸概念線性回歸的類型包括簡單線性回歸和多元線性回歸。簡單線性回歸使用一個自變量,通過擬合最佳線性關系來預測因變量。多元線性回歸使用多個獨立變量,通過擬合最佳線性關系來預測因變量。線性回歸分類汽車賣家通過電視廣告數(shù)量來預測賣出的汽車數(shù)量,如下圖所示,可以預測廣告數(shù)量為“6”時,賣出的汽車數(shù)量是多少。一元線性回歸案例一元線性回歸包含一個自變量(X)和一個因變量(Y)。一元線性回歸方程:這個方程對應的圖像是一條直線,稱作回歸線,其中
是回歸線的截距,是回歸線的斜率,E(y)是在一個給定x值下y的期望值(均值)。一元線性回歸一元線性回歸代價函數(shù)梯度下降法標準方程法多元線性回歸非線性回歸介紹法國數(shù)學家,阿德里安-馬里·勒讓德(1752-1833)提出讓總的誤差的平方最小的y就是真值,這是基于如果誤差是隨機的,應該圍繞真值上下波動。最小二乘法圖1中各個點沿y軸到那條直線的距離更遠,而圖2中各個點到線的距離更近。損失函數(shù)定義在單個樣本上的,計算一個樣本的誤差。代價函數(shù)是定義在整個訓練集上的,是所有樣本誤差的平均。公式如下:代價函數(shù)(損失函數(shù))一元線性回歸代價函數(shù)梯度下降法標準方程法多元線性回歸非線性回歸介紹梯度下降法是一個最優(yōu)化算法,通常也稱為最速下降法。最速下降法是求解無約束優(yōu)化問題最簡單和最古老的方法之一,雖然現(xiàn)在已經(jīng)不具有實用性,但是許多有效算法都是以它為基礎進行改進和修正而得到的。最速下降法是用負梯度方向為搜索方向的,最速下降法越接近目標值,步長越小,前進越慢。可以用于求解非線性方程組。梯度下降假設一個場景:一個人需要從山的某處開始下山,盡快到達山底。在下山之前他需要確認兩件事:下山的方向下山的距離梯度下降步長(Learningrate)特征(feature)假設函數(shù)(hypothesisfunction)損失函數(shù)(lossfunction)梯度下降相關概念批量梯度下降法(BGD)隨機梯度下降法(SGD)小批量梯度下降法(MBGD)常用梯度下降方法一元線性回歸代價函數(shù)梯度下降法標準方程法多元線性回歸非線性回歸介紹假設我們有一個n*n的矩陣,這個矩陣代表著每個因子具體的值,比如有一個關于身高預測的模型,其中一個人的身高的影響因素有:父親升高,母親升高,以及自己年齡的大小。標準方程法每一行代表一組數(shù)據(jù),跟我們真實數(shù)據(jù)很像,每一行第一個是father身高,第二列是mother身高,第三列是孩子現(xiàn)在年齡。得到矩陣:標準方程法一元線性回歸代價函數(shù)梯度下降法標準方程法多元線性回歸非線性回歸介紹在線性回歸中,我們通過建立自變量x的一次方程來擬合數(shù)據(jù)。而非線性回歸中,則需要建立因變量和自變量之間的非線性關系。多元回歸導入線性擬合
非線性擬合機器學習中一種常見的模式,是使用線性模型訓練數(shù)據(jù)的非線性函數(shù)。這種方法保持了一般快速的線性方法的性能,同時允許它們適應更廣泛的數(shù)據(jù)范圍。在標準線性回歸的情況下,你可能有一個類似于二維數(shù)據(jù)的模型:
多元回歸介紹如果我們想把拋物面擬合成數(shù)據(jù)而不是平面,我們可以結(jié)合二階多項式的特征,使模型看起來像這樣:仔細觀察這兩個模型會發(fā)現(xiàn),我們可以想象創(chuàng)造一個新的變量:多元回歸有了這些重新標記的數(shù)據(jù),我們可以將原多項式問題寫成:因此我們可以將原始數(shù)據(jù)轉(zhuǎn)換后再使用線性回歸訓練構(gòu)成多項式回歸模型,其中PolynomialFeatures方法將數(shù)據(jù)進行轉(zhuǎn)換。多元回歸介紹
多元線性回歸案例年份人均耐用消費品支出
y人均全年可支配收入x1耐用消費品價格指數(shù)x21988137.161181.4115.961989124.561375.7133.351990107.911510.2128.211991102.961700.6124.851992125.242026.6122.491993162.452577.4129.861994217.433496.2139.521995253.424283.0140.441996251.074838.9139.121997285.855160.3133.351998327.265425.1126.39多元線性回歸案例估計的回歸方程
線性回歸檢驗
議程一元線性回歸代價函數(shù)梯度下降法標準方程法多元線性回歸非線性回歸介紹在統(tǒng)計學中,非線性回歸是回歸分析的一種形式,非線性模型是由一個或多個自變量非線性組合。一些常見非線性模型:階躍函數(shù)分段函數(shù)樣條曲線廣義加性模型非線性回歸非線性回歸是指在因變量與一系列自變量之間建立非線性模型。線性與非線性并不是說因變量與自變量間是直線或曲線關系,而是說因變量是否能用自變量的線性組合來表示。如果經(jīng)過變量轉(zhuǎn)換,兩個變量可以用線性來表達去關系,那么可以用之前章節(jié)中介紹的方法進行擬合回歸方程。但經(jīng)過變量變化后,兩個變量關系仍然不能用線性形式來表達,則就會用到本節(jié)介紹的非線性回歸分析方法。非線性回歸模型一般可表示為:非線性回歸判斷題:簡單線性回歸使用一個自變量,通過擬合最佳線性關系來預測因變量。(
)講解線性回歸的關系講解梯度下降相關知識講解一元線性回歸、多元線性回歸、非線性回歸謝謝第四章樸素貝葉斯貝葉斯分類是一類分類算法的總稱,這類算法均以貝葉斯定理為基礎,故統(tǒng)稱為貝葉斯分類。而樸素樸素貝葉斯分類是貝葉斯分類中最簡單,也是常見的一種分類方法。通過本節(jié)學習可以:學習貝葉斯分類器概念。掌握高斯樸素貝葉斯及多項式樸素貝葉斯。學習目標樸素貝葉斯貝葉斯分類器的分類原理貝葉斯定理貝葉斯定理的一個簡單例子貝葉斯分類的原理與特點樸素貝葉斯分類高斯樸素貝葉斯分類算法高斯樸素貝葉斯分類算法的原理多項式樸素貝葉斯分類算法伯努利樸素貝葉斯分類算法貝葉斯要解決的問題:使正向概率:假設袋子里有N個白球,M個黑球,隨機摸一個,摸出黑球的概率有多大逆向概率:如果事先不知道袋子里黑白球的比例,隨機摸出幾個球,根據(jù)這些球的顏色,可以推測袋子里面的黑白球比例。貝葉斯分類器的分類原理用p1(x,y)表示數(shù)據(jù)點(x,y)屬于類別1(圖中用圓點表示的類別)的概率,用p2(x,y)表示數(shù)據(jù)點(x,y)屬于類別2(圖中三角形表示的類別)的概率,那么對于一個新數(shù)據(jù)點(x,y),可以用下面的規(guī)則來判斷它的類別:如果p1(x,y)>p2(x,y),那么類別為1如果p2(x,y)>p1(x,y),那么類別為2貝葉斯理論有一個裝了7塊石頭的罐子,其中3塊是白色的,4塊是黑色的。如果從罐子中隨機取出一塊石頭,那么是白色石頭的可能性是多少?由于取石頭有7種可能,其中3種為白色,所以取出白色石頭的概率為3/7。那么取到黑色石頭的概率是4/7。我們使用P(white)來表示取到白色石頭的概率,其概率值可以通過白色石頭數(shù)目除以總的石頭數(shù)目來得到。條件概率貝葉斯分類:貝葉斯分類是一類分類算法的總稱,這類算法均以貝葉斯定理為基礎,故統(tǒng)稱為貝葉斯分類。先驗概率:根據(jù)以往經(jīng)驗和分析得到的概率。我們用??(??)來代表在沒有訓練數(shù)據(jù)前假設??擁有的初始概率。后驗概率:根據(jù)已經(jīng)發(fā)生的事件來分析得到的概率。以??(??|??)代表假設??成立的情下觀察到??數(shù)據(jù)的概率,因為它反映了在看到訓練數(shù)據(jù)??后??成立的置信度。聯(lián)合概率:聯(lián)合概率是指在多元的概率分布中多個隨機變量分別滿足各自條件的概率。??與??的聯(lián)合概率表示為????,??、??(????)或??(??∩??)。假設??和??都服從正態(tài)分布,那么??(??<5,??<0)就是一個聯(lián)合概率,表示??<5,??<0兩個條件同時成立的概率。表示兩個事件共同發(fā)生的概率。貝葉斯方法背景知識貝葉斯公式條件概率的貝葉斯估計:式中
。當
時,是極大似然估計;當
時,稱為拉普拉斯平滑。先驗概率的貝葉斯估計:貝葉斯估計樸素貝葉斯貝葉斯分類器的分類原理貝葉斯定理貝葉斯定理的一個簡單例子貝葉斯分類的原理與特點樸素貝葉斯分類高斯樸素貝葉斯分類算法高斯樸素貝葉斯分類算法的原理多項式樸素貝葉斯分類算法伯努利樸素貝葉斯分類算法樸素貝葉斯法是典型的生成學習方法。生成方法由訓練數(shù)據(jù)學習聯(lián)合概率分布??(??,??),然后求得后驗概率分布??(??|??)。具體來說,利用訓練數(shù)據(jù)學習??(??|??)和??(??)的估計,得到聯(lián)合概率分布:??(??,??)=??(??|??)??(??)貝葉斯公式:貝葉斯定理樸素貝葉斯貝葉斯分類器的分類原理貝葉斯定理貝葉斯定理的一個簡單例子貝葉斯分類的原理與特點樸素貝葉斯分類高斯樸素貝葉斯分類算法高斯樸素貝葉斯分類算法的原理多項式樸素貝葉斯分類算法伯努利樸素貝葉斯分類算法男生總是穿長褲,女生則一半穿長褲一半穿裙子,男生占比60%,女生占比40%:正向概率:隨機選取一個學生,穿長褲的概率和穿裙子的概率是多大?逆向概率:迎面走來一個穿長褲的學生,無法確定該學生的性別,請問該學生是女生的概率有多大?假設學校里面人的總數(shù)是U。穿長褲的男生:U*P(Boy)*P(Pants|Boy),P(Boy)是男生的概率=60%。P(Pants|Boy)是條件概率,即在Boy的條件下,穿長褲的概率是多大,這里是100%穿長褲的女生:U*P(Girl)*P(Pants|Girl)。求解:穿長褲的總數(shù):U*P(Boy)*P(Pants|Boy)+U*P(Girl)*P(Pants|Girl)?與總?cè)藬?shù)有關嗎?貝葉斯案例如果一對男女朋友,男生想女生求婚,男生的四個特點分別是不帥,性格不好,身高矮,不上進,請你判斷一下女生是嫁還是不嫁?貝葉斯案例數(shù)學問題就是比較p(嫁|(不帥、性格不好、身高矮、不上進))與p(不嫁|(不帥、性格不好、身高矮、不上進))。解決方法求p(嫁|(不帥、性格不好、身高矮、不上進),這是我們不知道的,但是通過樸素貝葉斯公式可以轉(zhuǎn)化為好求的三個量,p(不帥、性格不好、身高矮、不上進|嫁)、p(不帥、性格不好、身高矮、不上進)、p(嫁)。其中p(不帥、性格不好、身高矮、不上進|嫁)=p(不帥|嫁)*p(性格不好|嫁)*p(身高矮|嫁)*p(不上進|嫁)。樸素貝葉斯案例公式整理如下:p(嫁)=6/12(總樣本數(shù))=1/2樸素貝葉斯案例p(不帥|嫁)=3/6=1/2在嫁的條件下,看不帥的數(shù)據(jù)。樸素貝葉斯案例帥性格好身高上進是否嫁不帥好高上進嫁不帥好中上進嫁不帥不好高上進嫁=(1/2*1/6*1/6*1/6*1/2)/(1/3*1/3*7/12*1/3)樸素貝葉斯案例用同樣方法來求p(不嫁|不帥,性格不好,身高矮,不上進)。p(不嫁|不帥、性格不好、身高矮、不上進)=((1/6*1/2*1*1/2)*1/2)/(1/3*1/3*7/12*1/3)(1/6*1/2*1*1/2)>(1/2*1/6*1/6*1/6*1/2)于是有p(不嫁|不帥、性格不好、身高矮、不上進)>p(嫁|不帥、性格不好、身高矮、不上進)。樸素貝葉斯案例樸素貝葉斯貝葉斯分類器的分類原理貝葉斯定理貝葉斯定理的一個簡單例子貝葉斯分類的原理與特點樸素貝葉斯分類高斯樸素貝葉斯分類算法高斯樸素貝葉斯分類算法的原理多項式樸素貝葉斯分類算法伯努利樸素貝葉斯分類算法優(yōu)點:在數(shù)據(jù)較少的情況下仍然有效,可以處理多類別問題。缺點:對于輸入數(shù)據(jù)的準備方式較為敏感。適用數(shù)據(jù)類型:標稱型數(shù)據(jù)。貝葉斯原理特點
樸素貝葉斯貝葉斯分類器的分類原理貝葉斯定理貝葉斯定理的一個簡單例子貝葉斯分類的原理與特點樸素貝葉斯分類高斯樸素貝葉斯分類算法高斯樸素貝葉斯分類算法的原理多項式樸素貝葉斯分類算法伯努利樸素貝葉斯分類算法樸素貝葉斯(NaiveBayes)模型,它是一種基于概率的學習方法,“樸素”指的是條件的獨立性。由訓練數(shù)據(jù)學習聯(lián)合概率分布??(??,??),然后求得后驗概率分布??(??|??)。具體來說,利用訓練數(shù)據(jù)學習??(??|??)和??(??)的估計,得到聯(lián)合概率分布:??(??,??)=??(??)??(??|??)概率估計方法是極大似然估計或貝葉斯估計。樸素貝葉斯分類器樸素貝葉斯法的基本假設是條件獨立性。P(X=x|Y=ck)=Px(1),?,x(n)|yk=?jn=1Px(j)|Y=ckck代表類別,k代表類別個數(shù)。這是一個較強的假設。由于這一假設,模型包含的條件概率的數(shù)量大為減少,樸素貝葉斯法的學習與預測大為簡化。因而樸素貝葉斯法高效,且易于實現(xiàn)。其缺點是分類的性能不一定很高。樸素貝葉斯原理樸素貝葉斯貝葉斯分類器的分類原理貝葉斯定理貝葉斯定理的一個簡單例子貝葉斯分類的原理與特點樸素貝葉斯分類高斯樸素貝葉斯分類算法高斯樸素貝葉斯分類算法的原理多項式樸素貝葉斯分類算法伯努利樸素貝葉斯分類算法高斯樸素貝葉斯適用于連續(xù)變量,其假定各個特征
在各個類別y下是服從正態(tài)分布的,算法內(nèi)部使用正態(tài)分布的概率密度函數(shù)來計算概率。公式如下:其中
:在類別為y的樣本中,特征
的均值。
:在類別為y的樣本中,特征
的標準差。高斯樸素貝葉斯分類算法原理樸素貝葉斯貝葉斯分類器的分類原理貝葉斯定理貝葉斯定理的一個簡單例子貝葉斯分類的原理與特點樸素貝葉斯分類高斯樸素貝葉斯分類算法高斯樸素貝葉斯分類算法的原理多項式樸素貝葉斯分類算法伯努利樸素貝葉斯分類算法多項式貝葉斯基于原始的貝葉斯理論,但假設概率分布是服從一個簡單多項式分布。多項式分布來源于統(tǒng)計學中的多項式實驗,這種實驗可以具體解釋為:實驗包括n次重復試驗,每項試驗都有不同的可能結(jié)果。在任何給定的試驗中,特定結(jié)果發(fā)生的概率是不變的。多項式樸素貝葉斯算法原理測試編號X1:出現(xiàn)正面X2:出現(xiàn)反面001110210樸素貝葉斯貝葉斯分類器的分類原理貝葉斯定理貝葉斯定理的一個簡單例子貝葉斯分類的原理與特點樸素貝葉斯分類高斯樸素貝葉斯分類算法高斯樸素貝葉斯分類算法的原理多項式樸素貝葉斯分類算法伯努利樸素貝葉斯分類算法伯努利樸素貝葉斯分類器主要用于文本分類。伯努利樸素貝葉斯,其實應該叫"Multi-variateNaiveBayes",假設P(X=x|Y=c_k)是多變量伯努利分布。伯努利分布,又叫做兩點分布或0-1分布,是一個離散型概率分布,稱隨機變量X有伯努利分布,參數(shù)為p(0<p<1),它分別以概率p和1-p取1和0為值。伯努利樸素貝葉斯分類算法簡答題:樸素貝葉斯的優(yōu)缺點是什么?本章節(jié)從樸素貝葉斯的概念進行切入,展開講解高斯樸素貝葉斯,多項式樸素貝葉斯。謝謝第五章決策樹算法本章主要講述機器學習中決策樹算法概念。通過本節(jié)學習可以:熟悉決策樹算法的基礎知識。學習如何給決策樹剪枝等相關知識。學習ID3,C4.5及CART樹等相關知識。了解剪枝的原理。學習目標決策樹分類算法原理以信息論為基礎的分類原理決策樹分類算法框架衡量標準:信息熵決策樹算法的簡化決策樹算法的優(yōu)、缺點與應用決策樹分類算法決策樹剪枝當信息被擁有它的實體傳遞給接收它的實體時,僅當接收實體不知道信息的先驗知識時信息才得到傳遞。如果接收實體事先知道了消息的內(nèi)容,這條消息所傳遞的信息量就是0。只有當接收實體對消息的先驗知識掌握少于100%時,消息才真正傳遞信息。信息論
信息論信息熵解決的是對信息的度量問題。信息量和事件發(fā)生的概率有關,當事件發(fā)生的概率越低,傳遞的信息量越大。信息量應當是非負的,必然發(fā)生的信息量為0。兩個事件的信息量可以相加,并且兩個獨立事件的聯(lián)合信息量應該是他們各自信息量的和。信息量決策樹分類算法原理以信息論為基礎的分類原理決策樹分類算法框架衡量標準:信息熵決策樹算法的簡化決策樹算法的優(yōu)、缺點與應用決策樹分類算法決策樹剪枝分類算法是利用訓練樣本集獲得分類函數(shù)即分類模型(分類器),從而實現(xiàn)將數(shù)據(jù)集中的樣本劃分到各個類中。分類模型通過學習訓練樣本中屬性集與類別之間的潛在關系,并以此為依據(jù)對新樣本屬于哪一類進行預測。決策樹算法決策樹簡單來說就是帶有判決規(guī)則(if-then)的一種樹,可以依據(jù)樹中的判決規(guī)則來預測未知樣本的類別和值。用一個網(wǎng)上通俗易懂的例子(相親)來說明:女兒:年紀多大了?母親:26女兒:長相如何?母親:挺帥的女兒:收入如何?母親:不算很高,中等情況女兒:是公務員不?母親:是,在稅務局上班女兒:那好,我去見見決策樹案例決策樹是一個屬性結(jié)構(gòu)的預測模型,代表對象屬性和對象值之間的一種映射關系。它由節(jié)點(node)和有向邊(directededge)組成,其節(jié)點有兩種類型:內(nèi)節(jié)點(internalnode)和葉節(jié)點(leafnode),內(nèi)部節(jié)點表示一個特征或?qū)傩?,葉節(jié)點表示一個類。如上圖所示的相親例子,藍色的橢圓內(nèi)節(jié)點表示的是對象的屬性,橘黃色的矩形葉節(jié)點表示分類結(jié)果(是否相親),有向邊上的值則表示對象每個屬性或特征中可能取的值。決策樹定義決策樹通過把數(shù)據(jù)樣本分配到某個葉子結(jié)點來確定數(shù)據(jù)集中樣本所屬的分類。決策樹由決策結(jié)點、分支和葉子結(jié)點組成。決策結(jié)點表示在樣本的一個屬性上進行的劃分。分支表示對于決策結(jié)點進行劃分的輸出。葉結(jié)點代表經(jīng)過分支到達的類。從決策樹根結(jié)點出發(fā),自頂向下移動,在每個決策結(jié)點都會進行次劃分,通過劃分的結(jié)果將樣本進行分類,導致不同的分支,最后到達個葉子結(jié)點,這個過程就是利用決策樹進行分類的過程。決策樹決策樹分類算法原理以信息論為基礎的分類原理決策樹分類算法框架衡量標準:信息熵決策樹算法的簡化決策樹算法的優(yōu)、缺點與應用決策樹分類算法決策樹剪枝信息和抽象該如何來度量?1948年香農(nóng)提出“信息熵(entropy)”的概念。一條信息的信息量大小和他的不確定性有直接的關系,要搞清楚一件非常非常不確定的事情,或者是我們一無所知的事情需要了解大量信息,信息量的度量就等于不確定性的多少。例如:猜世界杯冠軍,假如是一無所知,需要猜多少次?每個隊奪冠的幾率不是相等的。比特(bit)來衡量信息的多少,變量的不確定性越大,熵也就越大。決策樹須知概念-信息熵信息熵解決的是對信息的度量問題。信息量和事件發(fā)生的概率有關,當事件發(fā)生的概率越低,傳遞的信息量越大。信息量應當是非負的,必然發(fā)生的信息量為0。兩個事件的信息量可以相加,并且兩個獨立事件的聯(lián)合信息量應該是他們各自信息量的和。信息熵決策樹分類算法原理以信息論為基礎的分類原理決策樹分類算法框架衡量標準:信息熵決策樹算法的簡化決策樹算法的優(yōu)、缺點與應用決策樹分類算法決策樹剪枝決策樹算法的思想是,先從一個特征入手,就如同我們上面的游戲中一樣,既然無法直接分類,那就先根據(jù)一個特征進行分類,雖然分類結(jié)果達不到理想效果,但是通過這次分類,我們的問題規(guī)模變小了,同時分類后的子集相比原來的樣本集更加易于分類了。然后針對上一次分類后的樣本子集,重復這個過程。在理想的情況下,經(jīng)過多層的決策分類,我們將得到完全純凈的子集,也就是每一個子集中的樣本都屬于同一個分類。決策樹算法的簡化決策樹學習算法包含特征選擇、決策樹生成與決策樹的剪枝。決策樹表示的是一個條件概率分布,所以深淺不同的決策樹對應著不同復雜程度的概率模型。決策樹的生成對應著模型的局部選擇(局部最優(yōu)),決策樹的剪枝對應著全局選擇(全局最優(yōu))。決策樹常用的算法有ID3,C4.5,CART。決策樹優(yōu)點:它構(gòu)成一個簡單的決策過程,使決策者可以按順序有步驟地進行。決策樹法有直觀的圖形,便于決策者進行科學的分析、周密的思考。將決策樹圖形畫出后,便于集體討論和共同分析,有利于進行集體決策。決策樹法對比較復雜問題進行決策,特別是對多級決策問題尤感方便,甚至在決策過程中,通過畫決策樹逐級思考可以走一步看一步,三思后行。缺點:在分析的過程中有些參數(shù)沒有包括在樹中,顯得不全面。如果分級太多或出現(xiàn)的分枝太多,畫起來就不方便。決策樹優(yōu)缺點決策樹分類算法原理以信息論為基礎的分類原理決策樹分類算法框架衡量標準:信息熵決策樹算法的簡化決策樹算法的優(yōu)、缺點與應用決策樹分類算法決策樹剪枝決策樹學習算法包含特征選擇、決策樹生成與決策樹的剪枝。決策樹表示的是一個條件概率分布,所以深淺不同的決策樹對應著不同復雜程度的概率模型。決策樹的生成對應著模型的局部選擇(局部最優(yōu)),決策樹的剪枝對應著全局選擇(全局最優(yōu))。決策樹常用的算法有ID3,C4.5,CART。決策樹ID3算法是在每個結(jié)點處選取能獲得最高信息增益的分支屬性進行分裂。在每個決策結(jié)點處劃分分支、選取分支屬性的目的是將整個決策樹的樣本純度提升衡量樣本集合純度的指標則是熵:舉例:如果有一個大小為10的布爾值樣本集S_b,其中有6個真值、4個假值,那么該布爾型樣本分類的熵為:ID3
計算分支屬性對于樣本集分類好壞程度的度量——信息增益。由于分裂后樣本集的純度提高,則樣本集的熵降低,熵降低的值即為該分裂方法的信息增益。ID3算法
脊椎動物分類訓練樣本集:ID3算法動物飲食習性胎生動物水生動物會飛哺乳動物人類雜食動物是否否是野豬雜食動物是否否是獅子肉食動物是否否是蒼鷹肉食動物否否是否鱷魚肉食動物否是否否巨蜥肉食動物否否否否蝙蝠雜食動物是否是是野牛草食動物是否否是麻雀雜食動物否否是否鯊魚肉食動物否是否否海豚肉食動物是是否是鴨嘴獸肉食動物否否否是袋鼠草食動物是否否是蟒蛇肉食動物否否否否此樣本集有“飲食習性”、“胎生動物”、“水生動物”、“會飛”四個屬性可作為分支屬性,而“哺乳動物”作為樣本的分類屬性,有“是”與“否”兩種分類,也即正例與負例。共有14個樣本,其中8個正例,6個反例,設此樣本集為S,則分裂前的熵值為:ID3算法
脊椎動物訓練樣本集以“飲食習性”作為分支屬性的分裂情況?!帮嬍沉曅浴睘椤叭馐硠游铩钡姆种е杏?個正例、5個反例,其熵值為:ID3算法
同理,計算出“飲食習性”分類為“草食動物”的分支與分類為“雜食動物”的分支中的熵值分別為:設“飲食習性”屬性為Y,由此可以計算得出,作為分支屬性進行分裂之后的信息增益為:ID3算法
同理,可以算出針對其他屬性作為分支屬性時的信息增益。計算可得,以“胎生動物”“水生動物”“會飛”作為分支屬性時的信息增益分別為0.6893、0.0454、0.0454。由此可知“胎生動物”作為分支屬性時能獲得最大的信息增益,即具有最強的區(qū)分樣本的能力,所以在此處選擇使用“胎生動物”作為分支屬性對根結(jié)點進行劃分。ID3算法由根結(jié)點通過計算信息增益選取合適的屬性進行分裂,若新生成的結(jié)點的分類屬性不唯一,則對新生成的結(jié)點繼續(xù)進行分裂,不斷重復此步驟,直至所有樣本屬于同一類,或者達到要求的分類條件為止。常用的分類條件包括結(jié)點樣本數(shù)最少于來設定的值、決策樹達到預先設定的最大深度等。在決策樹的構(gòu)建過程中,會出現(xiàn)使用了所有的屬性進行分支之后,類別不同的樣本仍存在同一個葉子結(jié)點中。當達到了限制條件而被強制停止構(gòu)建時,也會出現(xiàn)結(jié)點中子樣本集存在多種分類的情況。對于這種情況,一般取此結(jié)點中子樣本集占數(shù)的分類作為結(jié)點的分類。分支多的屬性并不一定是最優(yōu)的,就如同將100個樣本分到99個分支中并沒有什么意義,這種分支屬性因為分支太多可能相比之下無法提供太多的可用信息,例如個人信息中的“省份”屬性。ID3算法
C4.5算法
CART算法采用的是一種二分循環(huán)分割的方法,每次都把當前樣本集劃分為兩個子樣本集,使生成的決策樹的結(jié)點均有兩個分支,顯然,這樣就構(gòu)造了一個二叉樹。如果分支屬性有多于兩個取值,在分裂時會對屬性值進行組合,選擇最佳的兩個組合分支。假設某屬性存在q個可能取值,那么以該屬性作為分支屬性,生成兩個分支的分裂方法共有
種。CART算法在分支處理中分支屬性的度量指標是Gini指標。在前面例子中,假設選擇“會飛”作為分支屬性,其Gini指標為:CART樹算法
決策樹分類算法原理以信息論為基礎的分類原理決策樹分類算法框架衡量標準:信息熵決策樹算法的簡化決策樹算法的優(yōu)、缺點與應用決策樹分類算法決策樹剪枝訓練誤差代表分類方法對于現(xiàn)有訓練樣本集的擬合程度。泛化誤差代表此方法的泛化能力,即對于新的樣本數(shù)據(jù)的分類能力如何。模型的訓練誤差比較高,則稱此分類模型欠擬合。模型的訓練誤差低但是泛化誤差比較高,則稱此分類模型過擬合。對于欠擬合問題,可以通過增加分類屬性的數(shù)量、選取合適的分類屬性等方法,提高模型對于訓練樣本的擬合程度。過擬合對口罩銷售定價進行分類樣本集測試集過擬合產(chǎn)品名功能是否為純色銷售價位加厚口罩防塵否低保暖口罩保暖否高護耳口罩保暖是高活性炭口罩防霧霾是中三層防塵口罩防塵否低藝人同款口罩防塵是高呼吸閥口罩防霧霾是中產(chǎn)品名功能是否為純色銷售價位兒童口罩防塵是低情侶口罩保暖否高一次性口罩防塵否低無紡布口罩防塵是低顆粒物防護口罩防霧霾否中三層決策樹,訓練誤差為0,測試誤差高達2/5。兩層決策樹,訓練集擬合程度相比較低,但測試集表現(xiàn)更好。過擬合問題過擬合現(xiàn)象會導致隨著決策樹的繼續(xù)增長,盡管訓練誤差仍在下降,但是泛化誤差停止下降,甚至還會提升。決策樹誤差曲線:過擬合問題決策樹的剪枝有兩種思路:預剪枝(Pre-Pruning)和后剪枝(Post-Pruning)。決策樹剪枝后剪枝算法有很多種,這里簡要總結(jié)如下:Reduced-ErrorPruning(REP,錯誤率降低剪枝)PessimisticErrorPruning(PEP,悲觀剪枝)Cost-ComplexityPruning(CCP,代價復雜度剪枝)后剪枝錯誤率降低剪枝(REP)是后剪枝策略中最簡單的算法之一,該算法從葉子結(jié)點向上,依次將決策樹的所有子樹用其樣本中最多的類替換,使用一個測試集進行測試,記錄下對于決策樹的每棵子樹剪枝前后的誤差數(shù)之差,選取誤差數(shù)減少最少的子樹進行剪枝,將其用子樣本集中最多的類替換。按此步驟自底向上,遍歷決策樹的所有子樹,當發(fā)現(xiàn)沒有可替換的子樹時,即每棵子樹剪枝后的誤差數(shù)都會增多,則剪枝結(jié)束。REP剪枝方法簡單、快速,在數(shù)據(jù)集較大時效果不錯,但由于需要比對模型子樹替換前后的預測錯誤率,因此需要從數(shù)據(jù)集中劃分出單獨的測試集,故而當數(shù)據(jù)集較小時,REP剪枝策略的效果會有所下降。錯誤率降低剪枝悲觀剪枝(PEP)與REP相比,PEP不再需要構(gòu)建一個單獨的測試集。其假設某葉子結(jié)點t中有N(t)個樣本,其中有e(t)個被錯誤分類的樣本,則此葉子結(jié)點誤分類率定義:其中0.5為修正因子。對于一棵有著N個葉子結(jié)點的子樹T,其誤分類率計算公式如下:由于修正因子的存在,有時即便子樹的誤差數(shù)要小于剪枝后的誤差,仍有可能進行剪枝操作,因為誤分類率的計算公式中考慮到了葉子結(jié)點樹大小(N)的影響。悲觀剪枝
代價復雜度剪枝策略(CCP)定義了代價與復雜度的概念,代價是指在剪枝過程中因為子樹被替換而增加的錯分樣本,復雜度表示剪枝后減少的葉結(jié)點數(shù)。CCP算法使用α作為衡量代價與復雜度之間關系的值,其計算公式如下:CCP的具體方法為,計算決策樹T的每個非葉子結(jié)點的α值,每次計算之后剪掉具有最小α值的子樹,循環(huán)此過程直至只剩下根結(jié)點,進行n次剪枝,生成n個決策樹,從這n個決策樹中根據(jù)真實誤差估計選擇最佳決策樹。代價復雜度剪枝策略
1.多擇題:決策樹的劃分方式有哪些?(
)
A.信息增益。
B.信息增益率。
C.Gini系數(shù)
D.梯度下降。決策樹作為一類基礎而且常用的非線性分類和回歸方法,本章介紹了決策樹常用的構(gòu)建方法,包括其中幾種代表性的特征選擇度量:信息增益、信息增益比、基尼指數(shù)和平方誤差,以及根據(jù)損失函數(shù)進行剪枝的方法,并結(jié)合起來介紹了由此衍生的代表性決策樹算法:ID3、C4.5和CART。謝謝第六章Logistic回歸本章主要講述Logistic回歸算法的基礎知識、模型優(yōu)化、多項式邏輯回歸以及具體實現(xiàn)。學習目標通過本章學習可以:Logistic回歸概述Logistic回歸原理Logistic回歸模型的訓練和優(yōu)化多項式Logistic回歸Logistic回歸概述分類問題Logistic回歸原理Logistic回歸模型Logistic訓練和優(yōu)化多項式Logistic回歸Logistic回歸概述LogisticRegression雖然被稱為回歸,但其實際上是分類模型,并常用于二分類。LogisticRegression因其簡單、可并行化、可解釋強深受工業(yè)界喜愛。Logistic回歸的本質(zhì)是:假設數(shù)據(jù)服從這個分布,然后使用極大似然估計做參數(shù)的估計。Logistic回歸是機器學習從統(tǒng)計學領域借鑒過來的另一種技術。它是二分類問題的首選方法。像線性回歸一樣,Logistic回歸的目的也是找到每個輸入變量的權(quán)重系數(shù)值。但不同的是,Logistic回歸的輸出預測結(jié)果是通過一個叫作「logistic函數(shù)」的非線性函數(shù)變換而來的。分類問題監(jiān)督學習的最主要類型——分類(Classification)定義:所謂分類,就是根據(jù)數(shù)據(jù)的特征或?qū)傩?,劃分到已有的類別中。從功能上看,分類問題就是預測數(shù)據(jù)所屬的類別分類的輸入變量可以是離散的也可以是連續(xù)的,標簽是離散的。已知某個人存款金額是10000元,這個人沒有結(jié)婚,并且有一輛車,沒有固定住房,估計判斷這個人是否會涉嫌信用欺詐問題。根據(jù)腫瘤的體積、患者的年齡來判斷良性或惡性。分類問題二分類用藍色圓形數(shù)據(jù)定義為類別1,其余三角形數(shù)據(jù)為類型2;只需要分類一次就可以步驟:①->②分類問題多分類先定義其中一類為類型1(正類),其余數(shù)據(jù)為負類(rest);接下來去掉類型1數(shù)據(jù),剩余部分再次進行二分類,分成類型2和負類;如果有n類,則需要分類n-1次步驟:①->②->③->…..Logistic回歸概述分類問題Logistic回歸原理Logistic回歸模型Logistic訓練和優(yōu)化多項式Logistic回歸Logistic回歸原理Logistic回歸的本質(zhì)是:假設數(shù)據(jù)服從這個分布,然后使用極大似然估計做參數(shù)的估計。Logistic分布是一種連續(xù)型的概率分布,其分布函數(shù)和密度函數(shù)分別為:邏輯分布深度學習中的常用到的Sigmoid函數(shù)就是Logistic的分布函數(shù)在的特殊形式Sigmoid函數(shù)
Logistic回歸學習策略模型中的參數(shù)常常使用極大似然估計法來求解,即找到一組參數(shù),使得在這組參數(shù)下,使得數(shù)據(jù)的似然度(概率)最大。設:似然函數(shù):
等式兩邊取對數(shù):
平均對數(shù)似然損失:Logistic回歸概述分類問題Logistic回歸原理Logistic回歸模型Logistic訓練和優(yōu)化多項式Logistic回歸Logistic回歸優(yōu)化算法
Logistic回歸優(yōu)化算法正則化目的是為了防止過擬合。沒有正則化,過擬合正則化過度,欠擬合適當?shù)恼齽t化Logistic回歸優(yōu)化算法L1正則化LASSO回歸,相當于為模型添加先驗知識:w服從零均值拉普拉斯分布。拉普拉斯分布:引入正則項后,似然函數(shù)改寫為:Logistic回歸優(yōu)化算法L1正則化對似然函數(shù)取log再取負,得到目標函數(shù):等價于原始損失函數(shù)后面加上L1正則化。本質(zhì)上L1正則本質(zhì)其實是為模型增加了模型參數(shù)服從零均值拉普拉斯分布的先驗知識。Logistic回歸優(yōu)化算法L2正則化Ridge回歸,相當于為模型添加先驗知識:w服從零均值正態(tài)分布。正態(tài)分布:引入正則項后,似然函數(shù)改寫為:Logistic回歸優(yōu)化算法L2正則化對似然函數(shù)取ln再取負,得到目標函數(shù):等價于原始損失函數(shù)后面加上L2正則化。本質(zhì)上L2正則本質(zhì)其實是為模型增加了模型參數(shù)服從零均值正態(tài)分布的先驗知識。右圖為L1和L2正則化對比目標函數(shù)-平方誤差項的等值線和L1、L2范數(shù)等值線(左邊是L1),我們正則化后的代價函數(shù)需要求解的目標就是在經(jīng)驗風險和模型復雜度之間的平衡取舍,在圖中形象地表示就是黑色線與彩色線的交叉點。Logistic回歸優(yōu)化算法Logistic回歸概述分類問題Logistic回歸原理Logistic回歸模型Logistic訓練和優(yōu)化多項式Logistic回歸多項式Logistic回歸當Y只有兩個選項時,可使用二分類Logistic,當Y有三項或更多時,則應該使用多分類Logistic回歸。二元邏輯回歸和多分類邏輯回歸的對比多項式Logistic回歸解決多分類問題,可把Sigmoid函數(shù)換成Softmax函數(shù)。Softmax回歸是直接對邏輯回歸在多分類的推廣。Softmax函數(shù)為:整體目標函數(shù)1.(單選)Logistic回歸適用于因變量為(
)?A.二分類變量
B.多分類有序變量
C.多分類無序變量D.連續(xù)型定量變量E.
A、B、C均可
講解邏輯回歸的基礎概念講解邏輯回歸的二分類和多分類問題講解邏輯回歸的模型原理和Sigmoid函數(shù)講解邏輯回歸的優(yōu)化方法L1,L2正則化謝謝第七章支持向量機本章主要講述支持向量機算法的基礎知識、線性以及非線性情況下的支持向量機和支持向量回歸機的算法知識。學習目標通過本章學習可以:支持向量機的基本知識線性可分下的支持向量機線性不可分下的支持向量機支持向量機的核函數(shù)多類分類支持向量機支持向量回歸機支持向量機的基本知識超平面間隔與間隔最大化函數(shù)間隔和幾何間隔不同情形下的支持向量機線性可分下的支持向量機線性不可分下的支持向量機非線性支持向量機非線性支持向量機之核函數(shù)多類分類支持向量機支持向量回歸機支持向量機概述支持向量機(SupportVectorMachine,SVM)是一種按照監(jiān)督學習方式對數(shù)據(jù)進行二元分類的廣義線性分類器(generalizedlinearclassifier),其決策邊界是對學習樣本求解的最大邊距超平面(maximum-marginhyperplane)。與邏輯回歸和神經(jīng)網(wǎng)絡相比,支持向量機,在學習復雜的非線性方程時提供一種更為清晰,更加強大的方式支持向量機概述算法思想找到集合邊緣上的若干數(shù)據(jù)(稱為支持向量),用這些點找出一個平面(稱為決策面),使得支持向量到該平面距離最大。支持向量機的基本知識超平面間隔與間隔最大化函數(shù)間隔和幾何間隔不同情形下的支持向量機線性可分下的支持向量機線性不可分下的支持向量機非線性支持向量機非線性支持向量機之核函數(shù)多類分類支持向量機支持向量回歸機支持向量機概述硬間隔、軟間隔硬間隔軟間隔硬間隔指的是完全分類正確,不能存在分類錯誤情況。軟間隔指的是允許一定量的樣本分類錯誤。支持向量機概述svm算法,就是找一分割線將兩類樣本分開,問題是如圖三條顏色都可以把點和星分開。但哪條最優(yōu)呢?假設一條直線為W?X+b=0為最優(yōu)的分割線,把兩類分開如下圖所示,那我們就要解決的是怎么獲取這條最優(yōu)直線呢?及W和b的值;在SVM中最優(yōu)分割面(超平面)就是:能使支持向量和超平面最小距離的最大值;目標是尋找一個超平面,使得離超平面比較近的點能有更大的間距。也就是我們不考慮所有的點都必須遠離超平面,我們關心求得的超平面能夠讓所有點中離它最近的點具有最大間距。支持向量機概述間隔超平面
如圖所示,支持向量到超平面的距離為d,其他點到超平面距離大于d。每個支持向量到超平面的距離可寫為:支持向量機概述間隔最大化根據(jù)支持向量到超平面的距離d,其他點到超平面距離大于d。于是得到如下公式:我們令d=1(令它為1,為了便于推導和優(yōu)化,且不會影響目標函數(shù)的優(yōu)化)將以上方程合并,簡寫為:至此得到最大間隔超平面的上下兩個超平面:支持向量機的基本知識超平面間隔與間隔最大化函數(shù)間隔和幾何間隔不同情形下的支持向量機線性可分下的支持向量機線性不可分下的支持向量機非線性支持向量機非線性支持向量機之核函數(shù)多類分類支持向量機支持向量回歸機支持向量機概述函數(shù)間隔
支持向量機概述幾何距離
支持向量機概述函數(shù)距離VS幾何距離從函數(shù)間隔和幾何間隔的定義可以看出:幾何間隔就是函數(shù)間隔處理||w||,而且函數(shù)間隔y*(wx+b)=y*f(x)實際上是|f(x)|,是人為定義的間隔度量,而幾何間隔|f(x)|/||w||才是直觀上的點到超平面的距離。函數(shù)間隔作用:表示分類預測的正確性的準確度函數(shù)間隔缺點:當w和b成比例改變,超平面沒有改變,但是函數(shù)間隔改變了函數(shù)間隔改進:幾何間隔幾何間隔的特點:當w和b成比例改變,幾何間隔不會改變。函數(shù)間隔和幾何間隔的關系:支持向量機的基本知識超平面間隔與間隔最大化函數(shù)間隔和幾何間隔不同情形下的支持向量機線性可分下的支持向量機線性不可分下的支持向量機非線性
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 衛(wèi)生系統(tǒng)平安建設活動方案(3篇)
- 質(zhì)控小組職責模版(2篇)
- 施工人員管理制度(3篇)
- 二零二五年度建筑工程施工服務外包合同2篇
- 課題申報書:大語言模型驅(qū)動三語教學的能動性分析和應用路徑研究
- 裝飾圖案課程設計理念
- 二零二五年度新能源設備技術出口服務協(xié)議3篇
- 2024年規(guī)范化勞務輸出協(xié)議模板
- 材料員崗位的具體職責說明范文(2篇)
- 課題申報書:大學生數(shù)字化生存境況及優(yōu)化路向研究
- 三相電能表測量誤差不確定分析報
- 色彩基礎知識ppt
- Q∕GDW 12082-2021 輸變電設備物聯(lián)網(wǎng)無線傳感器通用技術規(guī)范
- 加油站冬季安全教育
- 皮爾遜Ⅲ型曲線模比系數(shù)計算(共享版).xls
- 腹膜透析并發(fā)腹膜炎臨床路徑
- (完整版)市政工程施工工期定額(定稿).docx
- 商業(yè)發(fā)票INVOICE模板
- 超聲波焊接作業(yè)指導書(共8頁)
- 《你的生命有什么可能》PPT
- 雙梁橋式起重機設計
評論
0/150
提交評論