《數(shù)據(jù)挖掘與機器學習》 課件5.1.2 數(shù)據(jù)降維、處理玻璃成分數(shù)據(jù)_第1頁
《數(shù)據(jù)挖掘與機器學習》 課件5.1.2 數(shù)據(jù)降維、處理玻璃成分數(shù)據(jù)_第2頁
《數(shù)據(jù)挖掘與機器學習》 課件5.1.2 數(shù)據(jù)降維、處理玻璃成分數(shù)據(jù)_第3頁
《數(shù)據(jù)挖掘與機器學習》 課件5.1.2 數(shù)據(jù)降維、處理玻璃成分數(shù)據(jù)_第4頁
《數(shù)據(jù)挖掘與機器學習》 課件5.1.2 數(shù)據(jù)降維、處理玻璃成分數(shù)據(jù)_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

處理玻璃成分數(shù)據(jù)加工廠玻璃類別識別——決策樹、隨機森林任務(wù)描述數(shù)據(jù)預處理是數(shù)據(jù)分析的基礎(chǔ),基礎(chǔ)不牢,地動山搖,因此,數(shù)據(jù)預處理是關(guān)鍵一步。打好堅實的基礎(chǔ)才能為之后的騰飛做好準備。數(shù)據(jù)預處理的具體目標是將不同格式和單位的數(shù)據(jù),整合為同一形式,便于之后的數(shù)據(jù)分析。本任務(wù)將主要對加工廠生產(chǎn)的玻璃進行數(shù)據(jù)的預處理,包括數(shù)據(jù)集的劃分、數(shù)據(jù)的標準化,以及通過PCA降維,提取數(shù)據(jù)集的主要特征。任務(wù)要求利用sklearn庫進行標準差標準化。利用sklearn庫進行PCA降維。數(shù)據(jù)標準化數(shù)據(jù)降維數(shù)據(jù)降維數(shù)據(jù)降維是一種數(shù)據(jù)預處理技術(shù),它通過減少數(shù)據(jù)中的冗余信息,來降低數(shù)據(jù)的維度,同時盡量保留原始數(shù)據(jù)的重要特征。什么是數(shù)據(jù)降維?1減少計算成本。在大規(guī)模數(shù)據(jù)集上進行計算是一項非常耗時的任務(wù),通過降低數(shù)據(jù)維度,可以減少計算成本,并且加快算法的執(zhí)行速度。2去除冗余信息。數(shù)據(jù)通常包含很多冗余信息,這些信息可能對分析和建模沒有任何幫助。通過降維,可以去除這些冗余信息,提高數(shù)據(jù)的效率和準確性。易于可視化。通過將數(shù)據(jù)降低到較低的維度,可以更容易地可視化和理解數(shù)據(jù)。數(shù)據(jù)降維的意義3數(shù)據(jù)降維將高維數(shù)據(jù)映射到低維空間,并盡可能保留原始數(shù)據(jù)的信息將數(shù)據(jù)投影到一個新的低維空間,同時最大化類間距離,最小化類內(nèi)距離主成分分析(PCA)線性判別分析(LDA)常見的數(shù)據(jù)降維方法數(shù)據(jù)降維線性判別分析是一種經(jīng)典的線性降維技術(shù),也是一種常用的分類方法。用于在多類分類問題中尋找一個線性判別函數(shù),能夠最大程度地區(qū)分不同類別之間的差異。線性判別分析的基本思想是,將數(shù)據(jù)投影到一條直線或一個超平面上,使得同一類別的數(shù)據(jù)點盡量靠近,不同類別的數(shù)據(jù)點盡量遠離。投影后,根據(jù)每個數(shù)據(jù)點在這條直線上的位置進行分類。什么是線性判別分析?線性判別分析對于給定的數(shù)據(jù)集,LDA的目標是找到一個線性判別函數(shù),通過將數(shù)據(jù)點投影到一維或多維的超平面,使得同一類內(nèi)的數(shù)據(jù)點盡可能地接近,不同類之間的數(shù)據(jù)點盡可能地分開。投影向量偏置該線性判別函數(shù)可以表示為:

線性判別分析LDA的目標是最大化類間方差,最小化類內(nèi)方差。類間散度矩陣類內(nèi)散度矩陣線性判別分析其中,、

可以通過計算各類的均值向量和協(xié)方差矩陣得到。通過求解上述優(yōu)化問題,可以得到最優(yōu)的投影向量w,并將數(shù)據(jù)點投影到該向量上進行分類。線性判別分析使用sklearn庫中的LinearDiscriminantAnalysis類實現(xiàn)線性判別分析,其基本使用格式如下。classsklearn.discriminant_analysis.LinearDiscriminantAnalysis(solver=’svd’,shrinkage=None,priors=None,n_components=None,store_covariance=False,tol=0.0001)線性判別分析LinearDiscriminantAnalysis類常用參數(shù)及其說明如下。參數(shù)名稱說明solver接收str,表示指定求解的算法。取值“svd”時,表示奇異值分解;取值“l(fā)sqr”時,表示最小平方差算法;取值“eigen”時,表示特征值分解算法。默認為“svd”shrinkage接收“auto”或者float,該參數(shù)通常在訓練樣本數(shù)量小于特征數(shù)量的場合下使用。該參數(shù)只有在solver=“l(fā)sqr”或“eigen”下才有意義。接收“auto”時,表示自動決定該參數(shù)大?。唤邮說loat時,表示指定該參數(shù)大?。唤邮誑one時,表示不使用該參數(shù)。默認為Nonepriors接收array,表示數(shù)組中的元素依次指定了每個類別的先驗概率。如果為None,則認為每個類的先驗概率相等。默認為Nonen_components接收int,表示指定數(shù)據(jù)降維后的維度。默認為Nonestore_covariance接收boolean,表示是否計算每個類別的協(xié)方差矩陣。默認為False線性判別分析什么是主成分分析法?PCA降維可以提高計算效率,同時提高模型效果和泛化能力,從而在實際應(yīng)用中具有重要的意義和應(yīng)用價值。PCA降維的基本思想是找到一個新的坐標系,使得數(shù)據(jù)在新的坐標系下具有最大的方差。換句話說,PCA降維通過線性變換將原始數(shù)據(jù)映射到新的坐標系中,使得數(shù)據(jù)在新的坐標系下的方差最大化,從而找到數(shù)據(jù)中最重要的方向(即主成分)。主成分分析在主成分分析中,先對原始數(shù)據(jù)進行標準化,再計算協(xié)方差矩陣,協(xié)方差矩陣反映了數(shù)據(jù)中各個變量之間的相關(guān)性。如何計算協(xié)方差矩陣?主成分分析其中,

表示第i個樣本的特征向量,

表示第j個樣本的特征向量。設(shè)有

的p維的隨機向量,協(xié)方差矩陣計算方法如下。通過對協(xié)方差矩陣進行特征值分解,可以得到一組新的坐標系和相應(yīng)的特征向量。這些特征向量代表了原始數(shù)據(jù)在新的坐標系中的方向。主成分是按照特征值大小排序的特征向量,也就是說,第一主成分是方差最大的方向,第二主成分是在第一主成分方向上與其不相關(guān)的方向,如圖所示。第i個主成分第i個特征向量以此類推,則第i個主成分可以表示為主成分分析使用sklearn庫中的PCA類實現(xiàn)標準差標準化,其基本使用格式如下。classsklearn.decomposition.PCA(n_components=None,copy=True,whiten=False,svd_solver='auto',tol=0.0,iterated_power='auto',random_state=None)主成分分析PCA類常用參數(shù)及其說明如下。參數(shù)名稱說明n_components接收int或str,表示所要保留的主成分個數(shù)n,即保留下來的特征個數(shù)n,賦值為int時,表示降維的維度,如n_components=1,將把原始數(shù)據(jù)降到一個維度。賦值為str時,表示降維的模式,如取值為'mle'時,將自動選取特征個數(shù)n,使得滿足所要求的方差百分比。默認為Nonecopy接收bool,表示是否在運行算法時,將原始訓練數(shù)據(jù)復制一份。若為True,則運行后,原始訓練數(shù)據(jù)的值不會有任何改變,因為是在原始數(shù)據(jù)的副本上進行運算;若為False,則運行后,原始訓練數(shù)據(jù)的值會發(fā)生改變。默認為Truewhiten接收bool,表示是否白化,使得每個特征具有相同的方差。默認為False主成分分析某銷售公司想要對不同的客戶進行分析,客戶的信息儲存在客戶信心數(shù)據(jù)集中。數(shù)據(jù)集包括客戶的能力、品格、擔保、資源、教育5個輸入特征,以及客戶類型1個類別標簽,如下表所示。能力品格擔保資源教育客戶類型6972607184059946677981486060879116183699581269706977872為了對客戶的類型進行判定,需要對數(shù)據(jù)集進行降維。請分別使用線性判別分析和主成分分析法對數(shù)據(jù)集進行降維。0、1、2分別代表重要客戶、優(yōu)質(zhì)客戶和普通客戶數(shù)據(jù)降維讀取玻璃類別數(shù)據(jù)使用標準差標準化數(shù)據(jù)使用PCA進行數(shù)據(jù)降維讀取玻璃類別數(shù)據(jù)讀取玻璃類別數(shù)據(jù)主要通過以下4個步驟實現(xiàn)。查看玻璃類別數(shù)據(jù)使用import和from導入pandas、NumPy、StandardScaler、PCA等開發(fā)類庫使用pandas庫中read_csv函數(shù)讀取玻璃類別數(shù)據(jù)集使用iloc()方法提取自變量和因變量查看玻璃類別數(shù)據(jù)某加工廠采購了一批玻璃,玻璃的特性及元素成分儲存于玻璃類別數(shù)據(jù)集中。數(shù)據(jù)集包括折射率、鈉含量、鎂含量、鋁含量等9個輸入特征和1個類別標簽,類別標簽包括(1、2、3、4)4種玻璃,共192條數(shù)據(jù)。玻璃類別數(shù)據(jù)集的部分數(shù)據(jù)如下表所示。折射率/%鈉含量/%鎂含量/%鋁含量/%硅含量/%鉀含量/%鈣含量/%鋇含量/%鐵含量/%類別1.5210113.644.491.171.780.068.750011.5176113.893.61.3672.730.487.830011.5161813.533.551.5472.990.397.780011.5176613.213.691.2972.610.578.220011.5174213.273.621.2473.080.558.07001使用標準差標準化數(shù)據(jù)通過觀察數(shù)據(jù)集可以發(fā)現(xiàn),原始數(shù)據(jù)的尺度差異較

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論