版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
處理玻璃成分?jǐn)?shù)據(jù)加工廠玻璃類別識別——決策樹、隨機森林任務(wù)描述數(shù)據(jù)預(yù)處理是數(shù)據(jù)分析的基礎(chǔ),基礎(chǔ)不牢,地動山搖,因此,數(shù)據(jù)預(yù)處理是關(guān)鍵一步。打好堅實的基礎(chǔ)才能為之后的騰飛做好準(zhǔn)備。數(shù)據(jù)預(yù)處理的具體目標(biāo)是將不同格式和單位的數(shù)據(jù),整合為同一形式,便于之后的數(shù)據(jù)分析。本任務(wù)將主要對加工廠生產(chǎn)的玻璃進(jìn)行數(shù)據(jù)的預(yù)處理,包括數(shù)據(jù)集的劃分、數(shù)據(jù)的標(biāo)準(zhǔn)化,以及通過PCA降維,提取數(shù)據(jù)集的主要特征。任務(wù)要求利用sklearn庫進(jìn)行標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化。利用sklearn庫進(jìn)行PCA降維。數(shù)據(jù)標(biāo)準(zhǔn)化數(shù)據(jù)降維數(shù)據(jù)標(biāo)準(zhǔn)化什么是數(shù)據(jù)標(biāo)準(zhǔn)化?數(shù)據(jù)標(biāo)準(zhǔn)化是將數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的格式和結(jié)構(gòu),以便在不同系統(tǒng)和應(yīng)用程序之間進(jìn)行共享和交換,同時確保數(shù)據(jù)的一致性和可靠性。數(shù)據(jù)標(biāo)準(zhǔn)化標(biāo)準(zhǔn)化數(shù)據(jù)有何作用?在數(shù)據(jù)處理中進(jìn)行標(biāo)準(zhǔn)化的意義在于消除數(shù)據(jù)的尺度影響,原始數(shù)據(jù)的尺度可能差異較大。數(shù)據(jù)標(biāo)準(zhǔn)化可以將所有特征的取值范圍統(tǒng)一,消除尺度影響,提高模型的穩(wěn)定性和準(zhǔn)確性。數(shù)據(jù)標(biāo)準(zhǔn)化可以提高模型的收斂速度,在機器學(xué)習(xí)中,一些優(yōu)化算法可能需要多次迭代才能達(dá)到最優(yōu)解。如果數(shù)據(jù)的尺度不同,會導(dǎo)致算法在某些特征上迭代次數(shù)多,而在其他特征上則迭代次數(shù)少。提高數(shù)據(jù)質(zhì)量,標(biāo)準(zhǔn)化可以幫助識別和消除數(shù)據(jù)中的異常值和錯誤,提高數(shù)據(jù)質(zhì)量。常見的數(shù)據(jù)標(biāo)準(zhǔn)化方法如下。方法意義小數(shù)定標(biāo)標(biāo)準(zhǔn)化將數(shù)據(jù)除以一個固定的基數(shù),例如10的冪,以消除數(shù)據(jù)中的單位差異標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化將數(shù)據(jù)轉(zhuǎn)換為其標(biāo)準(zhǔn)分?jǐn)?shù),適用于正態(tài)分布的數(shù)據(jù)最大最小標(biāo)準(zhǔn)化將數(shù)據(jù)縮放到指定范圍內(nèi),適用于數(shù)據(jù)分布在不同范圍的情況下數(shù)據(jù)標(biāo)準(zhǔn)化最大最小標(biāo)準(zhǔn)化通過對原始數(shù)據(jù)進(jìn)行線性變換,將數(shù)據(jù)縮放到指定的范圍內(nèi),通常是[0,1]。最大最小標(biāo)準(zhǔn)化的公式如下所示。最大最小標(biāo)準(zhǔn)化x的最大值x的最小值使用sklearn庫中的MinMaxScaler函數(shù)可以實現(xiàn)最大最小標(biāo)準(zhǔn)化,其基本使用格式如下。classsklearn.preprocessing.MinMaxScaler(feature_range=(0,1),copy=True)最大最小標(biāo)準(zhǔn)化MinMaxScaler函數(shù)常用參數(shù)及其說明如下。參數(shù)名稱說明feature_range接收tuple,用于指定數(shù)據(jù)轉(zhuǎn)換后的范圍,默認(rèn)值為(0,1)copy接收bool,表示是否復(fù)制輸入數(shù)據(jù),默認(rèn)為True標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化最常用的標(biāo)準(zhǔn)化方法是標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,也稱為Z-score標(biāo)準(zhǔn)化,是一種將原始數(shù)據(jù)轉(zhuǎn)換為均值為0,標(biāo)準(zhǔn)差為1的標(biāo)準(zhǔn)正態(tài)分布的方法。標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化的公式如下所示。
均值標(biāo)準(zhǔn)差classsklearn.preprocessing.StandardScaler(copy=True,with_mean=True,with_std=True)使用sklearn庫中的StandardScaler函數(shù)實現(xiàn)標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,其基本使用格式如下。標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化StandardScaler函數(shù)的參數(shù)及說明如下。參數(shù)名稱說明copy接收bool,表示是否復(fù)制輸入數(shù)據(jù),默認(rèn)為Truewith_mean接收bool,表示是否進(jìn)行中心化處理,默認(rèn)為Truewith_std接收bool,表示是否對每個特征的標(biāo)準(zhǔn)差進(jìn)行歸一化處理,默認(rèn)為True標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化加強國家科普能力建設(shè),深化全民閱讀活動。廣泛的閱讀不僅可以開闊視野,還可以發(fā)現(xiàn)自己的興趣導(dǎo)向。在閱讀時,有時需要對一篇文獻(xiàn)的詞頻進(jìn)行分析。首先將文獻(xiàn)中的每個詞語作為一個特征,構(gòu)造一個詞頻矩陣。詞頻矩陣可以便于快速的瀏覽一篇文章的主要內(nèi)容。對這個詞頻矩陣進(jìn)行標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化處理,以消除詞頻之間的量級差異。最大最小標(biāo)準(zhǔn)化、標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化下表是關(guān)于詞頻矩陣的數(shù)據(jù)集,其中每行表示一篇文章,每列表示一個詞語的出現(xiàn)次數(shù)。最大最小標(biāo)準(zhǔn)化、標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化數(shù)字中國網(wǎng)絡(luò)51001042580670121025100將對該詞頻矩陣分別使用最大最小標(biāo)準(zhǔn)化和標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化方法進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理。小數(shù)定標(biāo)標(biāo)準(zhǔn)化,通過移動數(shù)據(jù)的小數(shù)點位置來進(jìn)行標(biāo)準(zhǔn)化,將數(shù)據(jù)放縮到[0,1]之間,如下式所示。在具體標(biāo)準(zhǔn)化過程中,小數(shù)點移動多少位取決于數(shù)據(jù)系列中的最大絕對值大小。例如,[100,2,30]標(biāo)準(zhǔn)化為[0.1,0.002,0.03],可以明顯的看出它的優(yōu)點在于不改變原始數(shù)據(jù)的分布。小數(shù)定標(biāo)標(biāo)準(zhǔn)化下表是某省市的旅游人數(shù)的數(shù)據(jù)集,包括日期及旅游人數(shù)兩個特征。下面將對旅游人數(shù)的數(shù)據(jù)集進(jìn)行小數(shù)定標(biāo)標(biāo)準(zhǔn)化。日期旅游人數(shù)2022年10月1日3700682022年10月2日5900432022年10月3日2954032022年10月4日315698小數(shù)定標(biāo)標(biāo)準(zhǔn)化最大最小標(biāo)準(zhǔn)化方法簡單,便于理解,標(biāo)準(zhǔn)化后的數(shù)據(jù)限定在[0,1]區(qū)間內(nèi)。標(biāo)準(zhǔn)差標(biāo)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年園林景觀工程施工監(jiān)理合同范本3篇
- 2024年度高端養(yǎng)生浴池租賃合作協(xié)議3篇
- 2024年標(biāo)準(zhǔn)協(xié)議免責(zé)條款模板版B版
- 2024年度文化旅游資源招商引資居間合同3篇
- 2024年度知識產(chǎn)權(quán)交易與評估合同范本3篇
- 2024年度校企合作人才培養(yǎng)與科研項目合作合同范本3篇
- 貴州省前期物業(yè)服務(wù)合同2025
- 定制代加工合同范例
- 火燒店加盟合同范例
- 網(wǎng)店運營兼職合同范例
- 中央空調(diào)工程售后服務(wù)的方案
- 核酸是遺傳信息的攜帶者課件 2024-2025學(xué)年高一上學(xué)期生物人教版必修1
- 2024內(nèi)置直驅(qū)動力刀塔
- TTJSFB 002-2024 綠色融資租賃項目評價指南
- 統(tǒng)編版(2024新版)七年級上冊歷史期末復(fù)習(xí)課件
- 2024-2030年串番茄行業(yè)市場發(fā)展分析及前景趨勢與投資研究報告
- 制造業(yè)數(shù)據(jù)架構(gòu)設(shè)計頂層規(guī)劃方案
- 新《建設(shè)工程施工合同司法解釋》逐條解讀
- 2024-2025學(xué)年高中英語學(xué)業(yè)水平合格性考試模擬測試卷一含解析
- 2024-2025學(xué)年廣東省東莞市高三思想政治上冊期末試卷及答案
- 9-XX人民醫(yī)院樣本外送檢測管理制度(試行)
評論
0/150
提交評論