版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
處理玻璃成分?jǐn)?shù)據(jù)加工廠玻璃類別識(shí)別——決策樹(shù)、隨機(jī)森林任務(wù)描述數(shù)據(jù)預(yù)處理是數(shù)據(jù)分析的基礎(chǔ),基礎(chǔ)不牢,地動(dòng)山搖,因此,數(shù)據(jù)預(yù)處理是關(guān)鍵一步。打好堅(jiān)實(shí)的基礎(chǔ)才能為之后的騰飛做好準(zhǔn)備。數(shù)據(jù)預(yù)處理的具體目標(biāo)是將不同格式和單位的數(shù)據(jù),整合為同一形式,便于之后的數(shù)據(jù)分析。本任務(wù)將主要對(duì)加工廠生產(chǎn)的玻璃進(jìn)行數(shù)據(jù)的預(yù)處理,包括數(shù)據(jù)集的劃分、數(shù)據(jù)的標(biāo)準(zhǔn)化,以及通過(guò)PCA降維,提取數(shù)據(jù)集的主要特征。任務(wù)要求利用sklearn庫(kù)進(jìn)行標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化。利用sklearn庫(kù)進(jìn)行PCA降維。數(shù)據(jù)標(biāo)準(zhǔn)化數(shù)據(jù)降維數(shù)據(jù)標(biāo)準(zhǔn)化什么是數(shù)據(jù)標(biāo)準(zhǔn)化?數(shù)據(jù)標(biāo)準(zhǔn)化是將數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的格式和結(jié)構(gòu),以便在不同系統(tǒng)和應(yīng)用程序之間進(jìn)行共享和交換,同時(shí)確保數(shù)據(jù)的一致性和可靠性。數(shù)據(jù)標(biāo)準(zhǔn)化標(biāo)準(zhǔn)化數(shù)據(jù)有何作用?在數(shù)據(jù)處理中進(jìn)行標(biāo)準(zhǔn)化的意義在于消除數(shù)據(jù)的尺度影響,原始數(shù)據(jù)的尺度可能差異較大。數(shù)據(jù)標(biāo)準(zhǔn)化可以將所有特征的取值范圍統(tǒng)一,消除尺度影響,提高模型的穩(wěn)定性和準(zhǔn)確性。數(shù)據(jù)標(biāo)準(zhǔn)化可以提高模型的收斂速度,在機(jī)器學(xué)習(xí)中,一些優(yōu)化算法可能需要多次迭代才能達(dá)到最優(yōu)解。如果數(shù)據(jù)的尺度不同,會(huì)導(dǎo)致算法在某些特征上迭代次數(shù)多,而在其他特征上則迭代次數(shù)少。提高數(shù)據(jù)質(zhì)量,標(biāo)準(zhǔn)化可以幫助識(shí)別和消除數(shù)據(jù)中的異常值和錯(cuò)誤,提高數(shù)據(jù)質(zhì)量。常見(jiàn)的數(shù)據(jù)標(biāo)準(zhǔn)化方法如下。方法意義小數(shù)定標(biāo)標(biāo)準(zhǔn)化將數(shù)據(jù)除以一個(gè)固定的基數(shù),例如10的冪,以消除數(shù)據(jù)中的單位差異標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化將數(shù)據(jù)轉(zhuǎn)換為其標(biāo)準(zhǔn)分?jǐn)?shù),適用于正態(tài)分布的數(shù)據(jù)最大最小標(biāo)準(zhǔn)化將數(shù)據(jù)縮放到指定范圍內(nèi),適用于數(shù)據(jù)分布在不同范圍的情況下數(shù)據(jù)標(biāo)準(zhǔn)化最大最小標(biāo)準(zhǔn)化通過(guò)對(duì)原始數(shù)據(jù)進(jìn)行線性變換,將數(shù)據(jù)縮放到指定的范圍內(nèi),通常是[0,1]。最大最小標(biāo)準(zhǔn)化的公式如下所示。最大最小標(biāo)準(zhǔn)化x的最大值x的最小值使用sklearn庫(kù)中的MinMaxScaler函數(shù)可以實(shí)現(xiàn)最大最小標(biāo)準(zhǔn)化,其基本使用格式如下。classsklearn.preprocessing.MinMaxScaler(feature_range=(0,1),copy=True)最大最小標(biāo)準(zhǔn)化MinMaxScaler函數(shù)常用參數(shù)及其說(shuō)明如下。參數(shù)名稱說(shuō)明feature_range接收tuple,用于指定數(shù)據(jù)轉(zhuǎn)換后的范圍,默認(rèn)值為(0,1)copy接收bool,表示是否復(fù)制輸入數(shù)據(jù),默認(rèn)為T(mén)rue標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化最常用的標(biāo)準(zhǔn)化方法是標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,也稱為Z-score標(biāo)準(zhǔn)化,是一種將原始數(shù)據(jù)轉(zhuǎn)換為均值為0,標(biāo)準(zhǔn)差為1的標(biāo)準(zhǔn)正態(tài)分布的方法。標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化的公式如下所示。
均值標(biāo)準(zhǔn)差classsklearn.preprocessing.StandardScaler(copy=True,with_mean=True,with_std=True)使用sklearn庫(kù)中的StandardScaler函數(shù)實(shí)現(xiàn)標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,其基本使用格式如下。標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化StandardScaler函數(shù)的參數(shù)及說(shuō)明如下。參數(shù)名稱說(shuō)明copy接收bool,表示是否復(fù)制輸入數(shù)據(jù),默認(rèn)為T(mén)ruewith_mean接收bool,表示是否進(jìn)行中心化處理,默認(rèn)為T(mén)ruewith_std接收bool,表示是否對(duì)每個(gè)特征的標(biāo)準(zhǔn)差進(jìn)行歸一化處理,默認(rèn)為T(mén)rue標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化加強(qiáng)國(guó)家科普能力建設(shè),深化全民閱讀活動(dòng)。廣泛的閱讀不僅可以開(kāi)闊視野,還可以發(fā)現(xiàn)自己的興趣導(dǎo)向。在閱讀時(shí),有時(shí)需要對(duì)一篇文獻(xiàn)的詞頻進(jìn)行分析。首先將文獻(xiàn)中的每個(gè)詞語(yǔ)作為一個(gè)特征,構(gòu)造一個(gè)詞頻矩陣。詞頻矩陣可以便于快速的瀏覽一篇文章的主要內(nèi)容。對(duì)這個(gè)詞頻矩陣進(jìn)行標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化處理,以消除詞頻之間的量級(jí)差異。最大最小標(biāo)準(zhǔn)化、標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化下表是關(guān)于詞頻矩陣的數(shù)據(jù)集,其中每行表示一篇文章,每列表示一個(gè)詞語(yǔ)的出現(xiàn)次數(shù)。最大最小標(biāo)準(zhǔn)化、標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化數(shù)字中國(guó)網(wǎng)絡(luò)51001042580670121025100將對(duì)該詞頻矩陣分別使用最大最小標(biāo)準(zhǔn)化和標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化方法進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理。小數(shù)定標(biāo)標(biāo)準(zhǔn)化,通過(guò)移動(dòng)數(shù)據(jù)的小數(shù)點(diǎn)位置來(lái)進(jìn)行標(biāo)準(zhǔn)化,將數(shù)據(jù)放縮到[0,1]之間,如下式所示。在具體標(biāo)準(zhǔn)化過(guò)程中,小數(shù)點(diǎn)移動(dòng)多少位取決于數(shù)據(jù)系列中的最大絕對(duì)值大小。例如,[100,2,30]標(biāo)準(zhǔn)化為[0.1,0.002,0.03],可以明顯的看出它的優(yōu)點(diǎn)在于不改變?cè)紨?shù)據(jù)的分布。小數(shù)定標(biāo)標(biāo)準(zhǔn)化下表是某省市的旅游人數(shù)的數(shù)據(jù)集,包括日期及旅游人數(shù)兩個(gè)特征。下面將對(duì)旅游人數(shù)的數(shù)據(jù)集進(jìn)行小數(shù)定標(biāo)標(biāo)準(zhǔn)化。日期旅游人數(shù)2022年10月1日3700682022年10月2日5900432022年10月3日2954032022年10月4日315698小數(shù)定標(biāo)標(biāo)準(zhǔn)化最大最小標(biāo)準(zhǔn)化方法簡(jiǎn)單,便于理解,標(biāo)準(zhǔn)化后的數(shù)據(jù)限定在[0,1]區(qū)間內(nèi)。標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化受數(shù)據(jù)分布的影響較小。小數(shù)定標(biāo)標(biāo)準(zhǔn)化方法的適用范圍廣,并且受數(shù)據(jù)分布的影響較小,相比較于前兩種方法,該方法適用程度適中。最大最小標(biāo)準(zhǔn)化、標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化、小數(shù)定標(biāo)標(biāo)準(zhǔn)化3種標(biāo)準(zhǔn)化方法各有其優(yōu)勢(shì)。數(shù)據(jù)標(biāo)準(zhǔn)化處理玻璃成分?jǐn)?shù)據(jù)加工廠玻璃類別識(shí)別——決策樹(shù)、隨機(jī)森林任務(wù)描述數(shù)據(jù)預(yù)處理是數(shù)據(jù)分析的基礎(chǔ),基礎(chǔ)不牢,地動(dòng)山搖,因此,數(shù)據(jù)預(yù)處理是關(guān)鍵一步。打好堅(jiān)實(shí)的基礎(chǔ)才能為之后的騰飛做好準(zhǔn)備。數(shù)據(jù)預(yù)處理的具體目標(biāo)是將不同格式和單位的數(shù)據(jù),整合為同一形式,便于之后的數(shù)據(jù)分析。本任務(wù)將主要對(duì)加工廠生產(chǎn)的玻璃進(jìn)行數(shù)據(jù)的預(yù)處理,包括數(shù)據(jù)集的劃分、數(shù)據(jù)的標(biāo)準(zhǔn)化,以及通過(guò)PCA降維,提取數(shù)據(jù)集的主要特征。任務(wù)要求利用sklearn庫(kù)進(jìn)行標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化。利用sklearn庫(kù)進(jìn)行PCA降維。數(shù)據(jù)標(biāo)準(zhǔn)化數(shù)據(jù)降維數(shù)據(jù)降維數(shù)據(jù)降維是一種數(shù)據(jù)預(yù)處理技術(shù),它通過(guò)減少數(shù)據(jù)中的冗余信息,來(lái)降低數(shù)據(jù)的維度,同時(shí)盡量保留原始數(shù)據(jù)的重要特征。什么是數(shù)據(jù)降維?1減少計(jì)算成本。在大規(guī)模數(shù)據(jù)集上進(jìn)行計(jì)算是一項(xiàng)非常耗時(shí)的任務(wù),通過(guò)降低數(shù)據(jù)維度,可以減少計(jì)算成本,并且加快算法的執(zhí)行速度。2去除冗余信息。數(shù)據(jù)通常包含很多冗余信息,這些信息可能對(duì)分析和建模沒(méi)有任何幫助。通過(guò)降維,可以去除這些冗余信息,提高數(shù)據(jù)的效率和準(zhǔn)確性。易于可視化。通過(guò)將數(shù)據(jù)降低到較低的維度,可以更容易地可視化和理解數(shù)據(jù)。數(shù)據(jù)降維的意義3數(shù)據(jù)降維將高維數(shù)據(jù)映射到低維空間,并盡可能保留原始數(shù)據(jù)的信息將數(shù)據(jù)投影到一個(gè)新的低維空間,同時(shí)最大化類間距離,最小化類內(nèi)距離主成分分析(PCA)線性判別分析(LDA)常見(jiàn)的數(shù)據(jù)降維方法數(shù)據(jù)降維線性判別分析是一種經(jīng)典的線性降維技術(shù),也是一種常用的分類方法。用于在多類分類問(wèn)題中尋找一個(gè)線性判別函數(shù),能夠最大程度地區(qū)分不同類別之間的差異。線性判別分析的基本思想是,將數(shù)據(jù)投影到一條直線或一個(gè)超平面上,使得同一類別的數(shù)據(jù)點(diǎn)盡量靠近,不同類別的數(shù)據(jù)點(diǎn)盡量遠(yuǎn)離。投影后,根據(jù)每個(gè)數(shù)據(jù)點(diǎn)在這條直線上的位置進(jìn)行分類。什么是線性判別分析?線性判別分析對(duì)于給定的數(shù)據(jù)集,LDA的目標(biāo)是找到一個(gè)線性判別函數(shù),通過(guò)將數(shù)據(jù)點(diǎn)投影到一維或多維的超平面,使得同一類內(nèi)的數(shù)據(jù)點(diǎn)盡可能地接近,不同類之間的數(shù)據(jù)點(diǎn)盡可能地分開(kāi)。投影向量偏置該線性判別函數(shù)可以表示為:
線性判別分析LDA的目標(biāo)是最大化類間方差,最小化類內(nèi)方差。類間散度矩陣類內(nèi)散度矩陣線性判別分析其中,、
可以通過(guò)計(jì)算各類的均值向量和協(xié)方差矩陣得到。通過(guò)求解上述優(yōu)化問(wèn)題,可以得到最優(yōu)的投影向量w,并將數(shù)據(jù)點(diǎn)投影到該向量上進(jìn)行分類。線性判別分析使用sklearn庫(kù)中的LinearDiscriminantAnalysis類實(shí)現(xiàn)線性判別分析,其基本使用格式如下。classsklearn.discriminant_analysis.LinearDiscriminantAnalysis(solver=’svd’,shrinkage=None,priors=None,n_components=None,store_covariance=False,tol=0.0001)線性判別分析LinearDiscriminantAnalysis類常用參數(shù)及其說(shuō)明如下。參數(shù)名稱說(shuō)明solver接收str,表示指定求解的算法。取值“svd”時(shí),表示奇異值分解;取值“l(fā)sqr”時(shí),表示最小平方差算法;取值“eigen”時(shí),表示特征值分解算法。默認(rèn)為“svd”shrinkage接收“auto”或者float,該參數(shù)通常在訓(xùn)練樣本數(shù)量小于特征數(shù)量的場(chǎng)合下使用。該參數(shù)只有在solver=“l(fā)sqr”或“eigen”下才有意義。接收“auto”時(shí),表示自動(dòng)決定該參數(shù)大??;接收f(shuō)loat時(shí),表示指定該參數(shù)大??;接收None時(shí),表示不使用該參數(shù)。默認(rèn)為Nonepriors接收array,表示數(shù)組中的元素依次指定了每個(gè)類別的先驗(yàn)概率。如果為None,則認(rèn)為每個(gè)類的先驗(yàn)概率相等。默認(rèn)為Nonen_components接收int,表示指定數(shù)據(jù)降維后的維度。默認(rèn)為Nonestore_covariance接收boolean,表示是否計(jì)算每個(gè)類別的協(xié)方差矩陣。默認(rèn)為False線性判別分析什么是主成分分析法?PCA降維可以提高計(jì)算效率,同時(shí)提高模型效果和泛化能力,從而在實(shí)際應(yīng)用中具有重要的意義和應(yīng)用價(jià)值。PCA降維的基本思想是找到一個(gè)新的坐標(biāo)系,使得數(shù)據(jù)在新的坐標(biāo)系下具有最大的方差。換句話說(shuō),PCA降維通過(guò)線性變換將原始數(shù)據(jù)映射到新的坐標(biāo)系中,使得數(shù)據(jù)在新的坐標(biāo)系下的方差最大化,從而找到數(shù)據(jù)中最重要的方向(即主成分)。主成分分析在主成分分析中,先對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,再計(jì)算協(xié)方差矩陣,協(xié)方差矩陣反映了數(shù)據(jù)中各個(gè)變量之間的相關(guān)性。如何計(jì)算協(xié)方差矩陣?主成分分析其中,
表示第i個(gè)樣本的特征向量,
表示第j個(gè)樣本的特征向量。設(shè)有
的p維的隨機(jī)向量,協(xié)方差矩陣計(jì)算方法如下。通過(guò)對(duì)協(xié)方差矩陣進(jìn)行特征值分解,可以得到一組新的坐標(biāo)系和相應(yīng)的特征向量。這些特征向量代表了原始數(shù)據(jù)在新的坐標(biāo)系中的方向。主成分是按照特征值大小排序的特征向量,也就是說(shuō),第一主成分是方差最大的方向,第二主成分是在第一主成分方向上與其不相關(guān)的方向,如圖所示。第i個(gè)主成分第i個(gè)特征向量以此類推,則第i個(gè)主成分可以表示為主成分分析使用sklearn庫(kù)中的PCA類實(shí)現(xiàn)標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,其基本使用格式如下。classsklearn.decomposition.PCA(n_components=None,copy=True,whiten=False,svd_solver='auto',tol=0.0,iterated_power='auto',random_state=None)主成分分析PCA類常用參數(shù)及其說(shuō)明如下。參數(shù)名稱說(shuō)明n_components接收int或str,表示所要保留的主成分個(gè)數(shù)n,即保留下來(lái)的特征個(gè)數(shù)n,賦值為int時(shí),表示降維的維度,如n_components=1,將把原始數(shù)據(jù)降到一個(gè)維度。賦值為str時(shí),表示降維的模式,如取值為'mle'時(shí),將自動(dòng)選取特征個(gè)數(shù)n,使得滿足所要求的方差百分比。默認(rèn)為Nonecopy接收bool,表示是否在運(yùn)行算法時(shí),將原始訓(xùn)練數(shù)據(jù)復(fù)制一份。若為T(mén)rue,則運(yùn)行后,原始訓(xùn)練數(shù)據(jù)的值不會(huì)有任何改變,因?yàn)槭窃谠紨?shù)據(jù)的副本上進(jìn)行運(yùn)算;若為False,則運(yùn)行后,原始訓(xùn)練數(shù)據(jù)的值會(huì)發(fā)生改變。默認(rèn)為T(mén)ruewhiten接收bool,表示是否白化,使得每個(gè)特征具有相同的方差。默認(rèn)為False主成分分析某銷售公司想要對(duì)不同的客戶進(jìn)行分析,客戶的信息儲(chǔ)存在客戶信心數(shù)據(jù)集中。數(shù)據(jù)集包括客戶的能力、品格、擔(dān)保、資源、教育5個(gè)輸入特征,以及客戶類型1個(gè)類別標(biāo)簽,如下表所示。能力品格擔(dān)保資源教育客戶類型6972607184059946677981486060879116183699581269706977872為了對(duì)客戶的類型進(jìn)行判定,需要對(duì)數(shù)據(jù)集進(jìn)行降維。請(qǐng)分別使用線性判別分析和主成分分析法對(duì)數(shù)據(jù)集進(jìn)行降維。0、1、2分別代表重要客戶、優(yōu)質(zhì)客戶和普通客戶數(shù)據(jù)降維讀取玻璃類別數(shù)據(jù)使用標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化數(shù)據(jù)使用PCA進(jìn)行數(shù)據(jù)降維讀取玻璃類別數(shù)據(jù)讀取玻璃類別數(shù)據(jù)主要通過(guò)以下4個(gè)步驟實(shí)現(xiàn)。查看玻璃類別數(shù)據(jù)使用import和from導(dǎo)入pandas、NumPy、StandardScaler、PCA等開(kāi)發(fā)類庫(kù)使用pandas庫(kù)中read_csv函數(shù)讀取玻璃類別數(shù)據(jù)集使用iloc()方法提取自變量和因變量查看玻璃類別數(shù)據(jù)某加工廠采購(gòu)了一批玻璃,玻璃的特性及元素成分儲(chǔ)存于玻璃類別數(shù)據(jù)集中。數(shù)據(jù)集包括折射率、鈉含量、鎂含量、鋁含量等9個(gè)輸入特征和1個(gè)類別標(biāo)簽,類別標(biāo)簽包括(1、2、3、4)4種玻璃,共192條數(shù)據(jù)。玻璃類別數(shù)據(jù)集的部分?jǐn)?shù)據(jù)如下表所示。折射率/%鈉含量/%鎂含量/%鋁含量/%硅含量/%鉀含量/%鈣含量/%鋇含量/%鐵含量/%類別1.5210113.644.491.171.780.068.750011.5176113.893.61.3672.730.487.830011.5161813.533.551.5472.990.397.780011.5176613.213.691.2972.610.578.220011.5174213.273.621.2473.080.558.07001使用標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化數(shù)據(jù)通過(guò)觀察數(shù)據(jù)集可以發(fā)現(xiàn),原始數(shù)據(jù)的尺度差異較大。鈉含量多數(shù)在13%上下,鉀含量卻不到1%。如果直接建??赡軐?dǎo)致鈉含量對(duì)模型的影響更大,而鉀含量對(duì)模型的影響微弱。因此,使用StandardScaler函數(shù)對(duì)模型進(jìn)行標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化。使用PCA進(jìn)行數(shù)據(jù)降維數(shù)據(jù)共有9個(gè)自變量,數(shù)據(jù)之間關(guān)系復(fù)雜。為了提高模型的計(jì)算速度與可視化,使用sklearn庫(kù)的PCA模塊對(duì)模型進(jìn)行PCA降維,并保留99.9%的方差。構(gòu)建加工廠玻璃類別識(shí)別模型加工廠玻璃類別識(shí)別——決策樹(shù)、隨機(jī)森林任務(wù)描述對(duì)于玻璃加工廠來(lái)說(shuō),對(duì)生產(chǎn)出來(lái)的玻璃進(jìn)行分類識(shí)別,有助于提高生產(chǎn)效率、降低生產(chǎn)成本和提高產(chǎn)品質(zhì)量。隨著人工智能技術(shù)的不斷發(fā)展,自動(dòng)化生產(chǎn)已成為工業(yè)發(fā)展的趨勢(shì)。為了響應(yīng)科技強(qiáng)國(guó)政策,某玻璃加工廠需要對(duì)不同玻璃的類別進(jìn)行自動(dòng)識(shí)別。任務(wù)要求使用sklearn庫(kù)構(gòu)建決策樹(shù)模型。決策樹(shù)決策樹(shù)決策樹(shù)是一種常見(jiàn)的分類和回歸模型,其基本思想是通過(guò)一系列的問(wèn)答,將數(shù)據(jù)逐步分類或回歸至最終結(jié)果。要堅(jiān)持問(wèn)題導(dǎo)向,問(wèn)題是時(shí)代的聲音,回答并指導(dǎo)解決問(wèn)題是理論的根本任務(wù)。什么是決策樹(shù)?蘋(píng)果紅色綠色硬軟硬軟好蘋(píng)果壞蘋(píng)果壞蘋(píng)果好蘋(píng)果在決策樹(shù)模型中,每個(gè)節(jié)點(diǎn)表示一個(gè)特征或?qū)傩?,分支表示這個(gè)特征或?qū)傩缘娜≈担~子節(jié)點(diǎn)表示最終的分類或回歸結(jié)果。通過(guò)不斷地對(duì)數(shù)據(jù)進(jìn)行分類或回歸,決策樹(shù)可以逐步劃分出不同的類別或預(yù)測(cè)結(jié)果。決策樹(shù)決策樹(shù)生成過(guò)程1特征選擇:選擇最優(yōu)的特征或?qū)傩宰鳛楫?dāng)前節(jié)點(diǎn),以使得每個(gè)子節(jié)點(diǎn)的純度或信息熵最大化。信息中排除了冗余后的平均信息量稱為“信息熵”。2樹(shù)的生成:根據(jù)選擇的特征或?qū)傩?,將?shù)據(jù)集劃分為不同的子集,生成子節(jié)點(diǎn)。遞歸生成子樹(shù):對(duì)每個(gè)子節(jié)點(diǎn)重復(fù)特征選擇和樹(shù)的生成,直到滿足停止條件,如到達(dá)預(yù)定的樹(shù)的深度、葉子節(jié)點(diǎn)數(shù)量達(dá)到預(yù)定值等。3決策樹(shù)使用sklearn庫(kù)中的DecisionTreeClassifier類建立決策樹(shù)模型,其基本使用格式如下。classsklearn.tree.DecisionTreeClassifier(*,criterion='gini',splitter='best',max_depth=None,min_samples_split=2,min_samples_leaf=1)決策樹(shù)DecisionTreeClassifier類常用的參數(shù)及說(shuō)明如下。參數(shù)名稱說(shuō)明min_samples_split接收int或float,表示進(jìn)行劃分的最小樣本數(shù)。默認(rèn)值為2min_samples_leaf接收int或float,表示葉子節(jié)點(diǎn)最少樣本數(shù)。默認(rèn)值為1criterion接收str,表示決策樹(shù)的衡量標(biāo)準(zhǔn)??梢允?gini"或"entropy"。默認(rèn)值為"gini"splitter接收str,表示決策樹(shù)節(jié)點(diǎn)的拆分策略,默認(rèn)為"best"max_depth接收int,表示樹(shù)的最大深度。默認(rèn)為"None"決策樹(shù)籃球世界杯是全球籃球迷引領(lǐng)狂歡的盛宴,但由于決賽階段的參賽隊(duì)伍數(shù)量有限,許多球隊(duì)最終只能在預(yù)選賽中結(jié)束征程,對(duì)于這些國(guó)家的球迷而言預(yù)選賽的比賽結(jié)果尤為重要。但是籃球比賽的結(jié)果常常難以預(yù)測(cè),往往需要在比賽的最后幾分鐘才能決定勝負(fù)。因此,在籃球運(yùn)動(dòng)中,對(duì)于勝負(fù)的預(yù)測(cè)較為困難。體育強(qiáng)國(guó),籃球是最為重要的元素之一,促進(jìn)群眾體育和競(jìng)技體育全面發(fā)展。通過(guò)運(yùn)用決策樹(shù)算法,可以對(duì)各支隊(duì)伍的勝負(fù)進(jìn)行預(yù)測(cè)和分析。決策樹(shù)下表是關(guān)于籃球各隊(duì)得分與勝負(fù)的數(shù)據(jù)集,PTS(visitor)表示客隊(duì)獲勝,PTS(home)表示主隊(duì)獲勝,win/lose表示客隊(duì)獲勝與否,獲勝為1失敗為0。PTS(visitor)PTS(home)win/lose871050100108011311211001030831110使用DecisionTreeClassifier類構(gòu)建決策樹(shù)模型,對(duì)籃球勝負(fù)進(jìn)行預(yù)測(cè)。決策樹(shù)決策樹(shù)模型的優(yōu)點(diǎn)是易于理解和解釋,同時(shí)可以處理非線性關(guān)系。它還可以處理多分類問(wèn)題和連續(xù)性特征的數(shù)據(jù)。此外,決策樹(shù)還可以在訓(xùn)練集上進(jìn)行有效的特征選擇,剔除掉冗余的特征,提高模型的泛化能力。然而,決策樹(shù)模型也存在一些缺點(diǎn):容易過(guò)擬合,特別是當(dāng)樹(shù)的深度很大或訓(xùn)練樣本數(shù)量不足時(shí);決策樹(shù)模型對(duì)數(shù)據(jù)中的噪聲和異常值比較敏感;決策樹(shù)模型生成的樹(shù)可能很復(fù)雜,難以解釋和可視化。在實(shí)際應(yīng)用中,為了克服決策樹(shù)模型的缺點(diǎn),通常會(huì)采用剪枝策略、集成學(xué)習(xí)、隨機(jī)森林等技術(shù)進(jìn)行改進(jìn)和優(yōu)化,從而提高決策樹(shù)模型的性能和魯棒性。決策樹(shù)模型優(yōu)缺點(diǎn)決策樹(shù)導(dǎo)入開(kāi)發(fā)庫(kù)拆分訓(xùn)練集和測(cè)試集構(gòu)建模型評(píng)估決策樹(shù)模型構(gòu)建加工廠玻璃類別識(shí)別模型主要通過(guò)以下4個(gè)步驟實(shí)現(xiàn)。使用import和from導(dǎo)入train_test_split、DecisionTreeClassifier、accuracy_score、recall_score、confusion_matrix等開(kāi)發(fā)類庫(kù).使用train_test_split類拆分為訓(xùn)練集和測(cè)試集使用sklearn庫(kù)的DecisionTreeClassifier類建立決策樹(shù)模型使用predict函數(shù)對(duì)測(cè)試集進(jìn)行預(yù)測(cè),并利用accuracy_score、recall_score、confusion_matrix類計(jì)算模型的準(zhǔn)確率、召回率、混淆矩陣構(gòu)建加工廠玻璃類別識(shí)別模型評(píng)估與優(yōu)化加工廠玻璃類別識(shí)別模型加工廠玻璃類別識(shí)別——決策樹(shù)、隨機(jī)森林任務(wù)描述大國(guó)工匠,精益求精。擁有精益求精的學(xué)習(xí)和工作精神,才能夠勇攀高峰,再創(chuàng)輝煌。在模型建立之后,通常需要對(duì)模型進(jìn)行評(píng)估。如果模型的性能較差,那么可以考慮對(duì)模型進(jìn)行調(diào)優(yōu)。本任務(wù)介紹幾種常見(jiàn)的評(píng)估方法,并在評(píng)估后對(duì)模型進(jìn)行調(diào)優(yōu)。在最后介紹了隨機(jī)森林算法。任務(wù)要求了解常見(jiàn)的評(píng)估方法。了解隨機(jī)森林的基本概念。使用sklearn庫(kù)對(duì)模型進(jìn)行評(píng)估。使用sklearn庫(kù)構(gòu)造隨機(jī)森林模型。K折交叉驗(yàn)證與GridSearch網(wǎng)絡(luò)搜索隨機(jī)森林K折交叉驗(yàn)證
K折交叉驗(yàn)證(K-foldcross-validation)是一種常用的機(jī)器學(xué)習(xí)模型評(píng)估方法。在K折交叉驗(yàn)證中,將數(shù)據(jù)集劃分為K個(gè)互不重疊的子集,每次用其中一個(gè)子集作為驗(yàn)證集,剩下的K-1個(gè)子集作為訓(xùn)練集。通過(guò)訓(xùn)練模型,計(jì)算模型在驗(yàn)證集上的性能指標(biāo)。這個(gè)過(guò)程重復(fù)K次,每個(gè)子集都會(huì)作為一次驗(yàn)證集,最終將K次驗(yàn)證的結(jié)果取平均值作為最終的性能指標(biāo)。什么是K折交叉驗(yàn)證?K折交叉驗(yàn)證通過(guò)K折交叉驗(yàn)證取平均值作為最終性能指標(biāo),體現(xiàn)數(shù)據(jù)的平等性,正如平等是人的最基本權(quán)利,是人類社會(huì)的理想價(jià)值追求,數(shù)據(jù)也是需要平等對(duì)待的,數(shù)據(jù)無(wú)大小,每一個(gè)都有其地位和作用。什么是K折交叉驗(yàn)證?K折交叉驗(yàn)證K折交叉驗(yàn)證的優(yōu)點(diǎn)在于可以更好地評(píng)估模型的泛化性能,因?yàn)槊總€(gè)子集都會(huì)被用作一次驗(yàn)證集,這樣可以使得模型在不同數(shù)據(jù)集上的性能表現(xiàn)更加穩(wěn)定。同時(shí),K折交叉驗(yàn)證也可以更充分地利用數(shù)據(jù)集,因?yàn)槊總€(gè)樣本都可以被用作一次驗(yàn)證集。K折交叉驗(yàn)證的優(yōu)點(diǎn)K折交叉驗(yàn)證劃分為K個(gè)大小相似的互斥子集K折交叉驗(yàn)證使用sklearn庫(kù)中的cross_val_score類執(zhí)行交叉驗(yàn)證并計(jì)算模型評(píng)分,其基本使用格式如下。sklearn.model_selection.cross_val_score(estimator,X,y=None,*,groups=None,scoring=None,cv=None,n_jobs=None,verbose=0,fit_params=None,pre_dispatch='2*n_jobs',error_score=nan)K折交叉驗(yàn)證cross_val_score類常用參數(shù)及其說(shuō)明如下。參數(shù)名稱說(shuō)明estimator接收任何可調(diào)用的Python對(duì)象,表示需要評(píng)估的模型對(duì)象,無(wú)默認(rèn)值X接收(n_samples,n_features)樣式的數(shù)組,表示特征矩陣,無(wú)默認(rèn)值y接收(n_samples,)或(n_samples,n_outputs)樣式的數(shù)組,表示目標(biāo)變量,默認(rèn)為Nonescoring接收str或任何可調(diào)用的python對(duì)象,表示模型評(píng)估指標(biāo)。默認(rèn)為None,使用模型的默認(rèn)評(píng)估指標(biāo)cv接收int、交叉驗(yàn)證生成器或可迭代器,表示交叉驗(yàn)證的次數(shù)或是指定使用交叉驗(yàn)證生成器或可迭代器,控制數(shù)據(jù)如何分割。默認(rèn)為None,使用5折交叉驗(yàn)證K折交叉驗(yàn)證1234劃分訓(xùn)練集和測(cè)試集訓(xùn)練決策樹(shù)模型使用cross_val_score類執(zhí)行交叉驗(yàn)證并計(jì)算模型評(píng)分?jǐn)M合決策樹(shù)模型GridSearch網(wǎng)絡(luò)搜索
GridSearch網(wǎng)絡(luò)搜索是一種參數(shù)調(diào)優(yōu)的手段。使用sklearn庫(kù)中的GridSearchCV類可以進(jìn)行網(wǎng)絡(luò)搜索,其基本使用格式如下。什么是GridSearch網(wǎng)絡(luò)搜索?classsklearn.model_selection.GridSearchCV(estimator,param_grid,*,scoring=None,n_jobs=None,iid='deprecated',refit=True,cv=None,verbose=0,pre_dispatch='2*n_jobs',error_score=nan,return_train_score=False)GridSearch網(wǎng)絡(luò)搜索GridSearchCV類常用參數(shù)及其說(shuō)明如下。參數(shù)名稱說(shuō)明estimator接收sklearn模型對(duì)象,表示需要調(diào)優(yōu)的模型對(duì)象,無(wú)默認(rèn)值param_grid接收字典,表示待調(diào)優(yōu)的超參數(shù)組合,字典的鍵是超參數(shù)的名稱,字典的值是待搜索的超參數(shù)列表,無(wú)默認(rèn)值GridSearch網(wǎng)絡(luò)搜索參數(shù)名稱說(shuō)明scoring接收str或一個(gè)Python可調(diào)用對(duì)象,如果是字符串,則表示使用預(yù)定義的評(píng)估指標(biāo),例如"accuracy"、"precision"、"recall"等;如果是可調(diào)用對(duì)象,則表示自定義的評(píng)估指標(biāo),默認(rèn)值為Nonecv接收整數(shù)、交叉驗(yàn)證生成器或可迭代器,表示交叉驗(yàn)證的次數(shù)或是指定使用交叉驗(yàn)證生成器或可迭代器,控制數(shù)據(jù)如何分割。默認(rèn)為None,使用5折交叉驗(yàn)證refit接收bool,表示是否在搜索結(jié)束后用最佳的參數(shù)重新擬合整個(gè)數(shù)據(jù)集,默認(rèn)值為T(mén)rueGridSearchCV類常用參數(shù)及其說(shuō)明如下。GridSearch網(wǎng)絡(luò)搜索12使用GridSearchCV類進(jìn)行網(wǎng)絡(luò)搜索,得到的最優(yōu)參數(shù)使用得到的最優(yōu)參數(shù),建立新的決策樹(shù)模型評(píng)估與優(yōu)化加工廠玻璃類別識(shí)別模型加工廠玻璃類別識(shí)別——決策樹(shù)、隨機(jī)森林任務(wù)描述大國(guó)工匠,精益求精。擁有精益求精的學(xué)習(xí)和工作精神,才能夠勇攀高峰,再創(chuàng)輝煌。在模型建立之后,通常需要對(duì)模型進(jìn)行評(píng)估。如果模型的性能較差,那么可以考慮對(duì)模型進(jìn)行調(diào)優(yōu)。本任務(wù)介紹幾種常見(jiàn)的評(píng)估方法,并在評(píng)估后對(duì)模型進(jìn)行調(diào)優(yōu)。在最后介紹了隨機(jī)森林算法。任務(wù)要求了解常見(jiàn)的評(píng)估方法。了解隨機(jī)森林的基本概念。使用sklearn庫(kù)對(duì)模型進(jìn)行評(píng)估。使用sklearn庫(kù)構(gòu)造隨機(jī)森林模型。K折交叉驗(yàn)證與GridSearch網(wǎng)絡(luò)搜索隨機(jī)森林隨機(jī)森林單棵決策樹(shù)雖然也能學(xué)習(xí)復(fù)雜的函數(shù),但容易出現(xiàn)過(guò)擬合的問(wèn)題。研究人員自然就想到是否能創(chuàng)建多棵決策樹(shù),讓每棵樹(shù)都參與模型的預(yù)測(cè),最后按照“少數(shù)服從多數(shù)”的原則,選出總體的預(yù)測(cè)結(jié)果。這就是隨機(jī)森林算法的雛形。隨機(jī)森林(RandomForest)是一種基于決策樹(shù)的集成學(xué)習(xí)算法。它將多個(gè)決策樹(shù)進(jìn)行集成,通過(guò)多數(shù)投票的方式對(duì)樣本進(jìn)行分類或回歸預(yù)測(cè)。什么是隨機(jī)森林?隨機(jī)森林決策樹(shù)1分類結(jié)果1決策樹(shù)2分類結(jié)果2決策樹(shù)K分類結(jié)果K…有放回的抽取樣本和特征構(gòu)建多個(gè)新的數(shù)據(jù)集訓(xùn)練樣本集Bootstrap抽樣訓(xùn)練集1訓(xùn)練集2訓(xùn)練集k…隨機(jī)森林分類結(jié)果1分類結(jié)果2分類結(jié)果K…投票分類結(jié)果隨機(jī)森林采用多數(shù)投票的方式,將每棵決策樹(shù)的分類結(jié)果進(jìn)行統(tǒng)計(jì)和匯總最終確定樣本的分類結(jié)果隨機(jī)森林具體來(lái)說(shuō),隨機(jī)森林的分類模型包含以下兩個(gè)步驟。對(duì)于給定的數(shù)據(jù)集,運(yùn)用Bootstrap自主抽樣法,有放回的抽取樣本和特征,構(gòu)建多個(gè)新的數(shù)據(jù)集。對(duì)新的數(shù)據(jù)集進(jìn)行決策樹(shù)的生成,如選擇最優(yōu)的特征或?qū)傩?、分裂?jié)點(diǎn)、生成子節(jié)點(diǎn)等。Bootstrap自主抽樣法是一種用于估計(jì)統(tǒng)計(jì)量抽樣分布的統(tǒng)計(jì)方法。它的基本思想是通過(guò)對(duì)樣本數(shù)據(jù)的有放回地抽取來(lái)模擬總體分布,并使用這些樣本數(shù)據(jù)的統(tǒng)計(jì)量來(lái)估計(jì)總體分布中的統(tǒng)計(jì)量。模型訓(xùn)練通過(guò)多次隨機(jī)抽取樣本集和構(gòu)建決策樹(shù),隨機(jī)森林可以產(chǎn)生多個(gè)不同的決策樹(shù)。隨機(jī)森林采用多數(shù)投票的方式,將每棵決策樹(shù)的分類結(jié)果進(jìn)行統(tǒng)計(jì)和匯總,最終確定樣本的分類結(jié)果。決策分類隨機(jī)森林使用sklearn庫(kù)中的RandomForestClassifier類可以建立隨機(jī)森林模型,其基本使用格式如下。classsklearn.ensemble.RandomForestClassifier(n_estimators=10,criterion='gini',max_depth=None,min_samples_split=2,min_samples_leaf=1,max_features=’auto’,n_jobs=1,random_state=None,class_weight=None)隨機(jī)森林RandomForestClassifier類常用參數(shù)及其說(shuō)明如下。參數(shù)名稱說(shuō)明n_estimators接收int,表示決策樹(shù)的數(shù)量,默認(rèn)為10criterion接收str,表示衡量拆分質(zhì)量的度量標(biāo)準(zhǔn),默認(rèn)為"gini"max_depth接收int,表示樹(shù)的最大深度。默認(rèn)為"None"
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《平衡記分卡的應(yīng)用》課件
- 《企業(yè)人力績(jī)效管理》課件
- 2024-2025學(xué)年天津市紅橋區(qū)高一上學(xué)期期中考試歷史試卷(解析版)
- 單位管理制度分享匯編人事管理
- 單位管理制度分享大全人力資源管理十篇
- 單位管理制度范例選集人力資源管理篇
- 《磺達(dá)肝癸鈉》課件
- 單位管理制度呈現(xiàn)大合集人力資源管理十篇
- 《市場(chǎng)營(yíng)銷學(xué)案例分》課件
- 《投資經(jīng)濟(jì)學(xué)》教學(xué)大綱
- 2024年首屆全國(guó)標(biāo)準(zhǔn)化知識(shí)競(jìng)賽真題題庫(kù)導(dǎo)出版-下(判斷題部分)
- 一年級(jí)下數(shù)學(xué)教案-筆算兩位數(shù)減兩位數(shù)(退位減)-蘇教版秋
- 2024-2025學(xué)年高一地理新教材必修1配套課件 第6章 第4節(jié) 地理信息技術(shù)在防災(zāi)減災(zāi)中的應(yīng)用
- 電梯維護(hù)保養(yǎng)分包合同
- 10以內(nèi)連加減口算練習(xí)題完整版139
- 2022-2023學(xué)年廣東省廣州市海珠區(qū)六年級(jí)(上)期末英語(yǔ)試卷(含答案)
- 2024至2030年中國(guó)瀝青攪拌站行業(yè)市場(chǎng)現(xiàn)狀調(diào)研及市場(chǎng)需求潛力報(bào)告
- 《平凡的世界》整本書(shū)閱讀指導(dǎo)教學(xué)設(shè)計(jì)基礎(chǔ)模塊上冊(cè)
- 2024政務(wù)服務(wù)綜合窗口人員能力與服務(wù)規(guī)范考試試題
- (高清版)AQ 2002-2018 煉鐵安全規(guī)程
- 虛擬現(xiàn)實(shí)與增強(qiáng)現(xiàn)實(shí)
評(píng)論
0/150
提交評(píng)論