版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)挖掘的清洗7/24/2023第1頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月為什么需要數(shù)據(jù)預(yù)處理?在現(xiàn)實(shí)社會(huì)中,存在著大量的“臟”數(shù)據(jù)不完整性(數(shù)據(jù)結(jié)構(gòu)的設(shè)計(jì)人員、數(shù)據(jù)采集設(shè)備和數(shù)據(jù)錄入人員)
缺少感興趣的屬性感興趣的屬性缺少部分屬性值僅僅包含聚合數(shù)據(jù),沒(méi)有詳細(xì)數(shù)據(jù)噪音數(shù)據(jù)(采集數(shù)據(jù)的設(shè)備、數(shù)據(jù)錄入人員、數(shù)據(jù)傳輸)數(shù)據(jù)中包含錯(cuò)誤的信息存在著部分偏離期望值的孤立點(diǎn)不一致性(數(shù)據(jù)結(jié)構(gòu)的設(shè)計(jì)人員、數(shù)據(jù)錄入人員)數(shù)據(jù)結(jié)構(gòu)的不一致性L(fǎng)abel的不一致性數(shù)據(jù)值的不一致性7/24/20232第2頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月為什么需要數(shù)據(jù)預(yù)處理?數(shù)據(jù)挖掘的數(shù)據(jù)源可能是多個(gè)互相獨(dú)立的數(shù)據(jù)源關(guān)系數(shù)據(jù)庫(kù)多維數(shù)據(jù)庫(kù)(DataCube)文件、文檔數(shù)據(jù)庫(kù)數(shù)據(jù)轉(zhuǎn)換為了數(shù)據(jù)挖掘的方便海量數(shù)據(jù)的處理數(shù)據(jù)歸約(在獲得相同或者相似結(jié)果的前提下)7/24/20233第3頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月為什么需要數(shù)據(jù)預(yù)處理?沒(méi)有高質(zhì)量的數(shù)據(jù),就沒(méi)有高質(zhì)量的挖掘結(jié)果高質(zhì)量的決策必須基于高質(zhì)量的數(shù)據(jù)基礎(chǔ)上數(shù)據(jù)倉(cāng)庫(kù)是在高質(zhì)量數(shù)據(jù)上的集成7/24/20234第4頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月數(shù)據(jù)預(yù)處理的主要任務(wù)數(shù)據(jù)清理填入缺失數(shù)據(jù)平滑噪音數(shù)據(jù)確認(rèn)和去除孤立點(diǎn)解決不一致性數(shù)據(jù)集成多個(gè)數(shù)據(jù)庫(kù)、DataCube和文件系統(tǒng)的集成數(shù)據(jù)轉(zhuǎn)換規(guī)范化、聚集等數(shù)據(jù)歸約在可能獲得相同或相似結(jié)果的前提下,對(duì)數(shù)據(jù)的容量進(jìn)行有效的縮減數(shù)據(jù)離散化對(duì)于一個(gè)特定的連續(xù)屬性,尤其是連續(xù)的數(shù)字屬性,可以把屬性值劃分成若干區(qū)間,以區(qū)間值來(lái)代替實(shí)際數(shù)據(jù)值,以減少屬性值的個(gè)數(shù).7/24/20235第5頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月數(shù)據(jù)預(yù)處理的形式數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)歸約7/24/20236第6頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月主要內(nèi)容為什么需要數(shù)據(jù)預(yù)處理?數(shù)據(jù)清洗
數(shù)據(jù)集成與轉(zhuǎn)換數(shù)據(jù)歸約數(shù)據(jù)離散化與概念層次的構(gòu)建本章小結(jié)7/24/20237第7頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月數(shù)據(jù)清洗主要任務(wù)補(bǔ)充缺失數(shù)據(jù)識(shí)別孤立點(diǎn),平滑噪音數(shù)據(jù)處理不一致的數(shù)據(jù)7/24/20238第8頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月缺失數(shù)據(jù)的處理部分?jǐn)?shù)據(jù)通常是不可用的在許多元組中部分屬性值為空。如:在客戶(hù)表中的客戶(hù)收入為空。導(dǎo)致數(shù)據(jù)缺失的原因數(shù)據(jù)采集設(shè)備的故障由于與其它信息的數(shù)據(jù)存在不一致性,因此數(shù)據(jù)項(xiàng)被刪除由于不理解或者不知道而未能輸入在當(dāng)時(shí)數(shù)據(jù)輸入的時(shí)候,該數(shù)據(jù)項(xiàng)不重要而忽略數(shù)據(jù)傳輸過(guò)程中引入的錯(cuò)誤缺失數(shù)據(jù)通常需要經(jīng)過(guò)合理的推斷予以添加7/24/20239第9頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月缺失數(shù)據(jù)的處理方法忽略該記錄(元組)通常在進(jìn)行分類(lèi)、描述、聚類(lèi)等挖掘,但是元組缺失類(lèi)標(biāo)識(shí)時(shí)該種方法通常不是最佳的,尤其是缺失數(shù)據(jù)比例比較大的時(shí)候手工填入空缺的值枯燥、費(fèi)時(shí),可操作性差,不推薦使用使用一個(gè)全局的常量填充空缺數(shù)值給定一個(gè)固定的屬性值如:未知、不祥、Unknown、Null等簡(jiǎn)單,但是沒(méi)有意義7/24/202310第10頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月使用屬性的平均值填充空缺數(shù)值簡(jiǎn)單方便、挖掘結(jié)果容易產(chǎn)生不精確的結(jié)果使用與給定元組同一個(gè)類(lèi)別的所有樣本的平均值分類(lèi)非常重要,尤其是分類(lèi)指標(biāo)的選擇使用最有可能的值予以填充利用回歸、基于推導(dǎo)的使用貝葉斯形式化的方法的工具或者判定樹(shù)歸納確定利用屬性之間的關(guān)系進(jìn)行推斷,保持了屬性之間的聯(lián)系缺失數(shù)據(jù)的處理方法(續(xù))7/24/202311第11頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月噪音數(shù)據(jù)噪音數(shù)據(jù):一個(gè)度量(指標(biāo))變量中的隨機(jī)錯(cuò)誤或者偏差主要原因數(shù)據(jù)采集設(shè)備的錯(cuò)誤數(shù)據(jù)錄入問(wèn)題數(shù)據(jù)傳輸問(wèn)題部分技術(shù)的限制數(shù)據(jù)轉(zhuǎn)換中的不一致數(shù)據(jù)清理中所需要處理的其它問(wèn)題重復(fù)的記錄不完整的數(shù)據(jù)不一致的數(shù)據(jù)7/24/202312第12頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月噪音數(shù)據(jù)的處理分箱(Binning)的方法聚類(lèi)方法檢測(cè)并消除異常點(diǎn)線(xiàn)性回歸對(duì)不符合回歸的數(shù)據(jù)進(jìn)行平滑處理人機(jī)結(jié)合共同檢測(cè)由計(jì)算機(jī)檢測(cè)可疑的點(diǎn),然后由用戶(hù)確認(rèn)7/24/202313第13頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月處理噪音數(shù)據(jù):分箱方法分箱(Binning)方法:基本思想:通過(guò)考察相鄰數(shù)據(jù)的值,來(lái)平滑存儲(chǔ)數(shù)據(jù)的值基本步驟:首先,對(duì)數(shù)據(jù)進(jìn)行排序,并分配到具有相同寬度/深度的不同的“箱子”中其次,通過(guò)箱子的平均值(Means)、中值(Median)、或者邊界值等來(lái)進(jìn)行平滑處理7/24/202314第14頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月分箱(Binning)方法舉例對(duì)數(shù)據(jù)進(jìn)行排序:4,8,9,15,21,21,24,25,26,28,29,34對(duì)數(shù)據(jù)進(jìn)行分割(相同深度):-Bin1:4,8,9,15-Bin2:21,21,24,25-Bin3:26,28,29,34根據(jù)bin中的平均值進(jìn)行離散化:-Bin1:9,9,9,9-Bin2:23,23,23,23-Bin3:29,29,29,297/24/202315第15頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月基于聚類(lèi)分析的平滑處理7/24/202316第16頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月通過(guò)線(xiàn)性回歸的平滑處理xyy=x+1X1Y1Y1’7/24/202317第17頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月主要內(nèi)容為什么需要數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗數(shù)據(jù)集成與轉(zhuǎn)換數(shù)據(jù)歸約數(shù)據(jù)離散化與概念層次的構(gòu)建本章小結(jié)7/24/202318第18頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月數(shù)據(jù)集成數(shù)據(jù)集成的概念將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來(lái)存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)中數(shù)據(jù)源包括:多個(gè)數(shù)據(jù)庫(kù)、多維數(shù)據(jù)庫(kù)和一般的文件數(shù)據(jù)集成也是數(shù)據(jù)倉(cāng)庫(kù)建設(shè)中的一個(gè)重要問(wèn)題數(shù)據(jù)集成的內(nèi)容模式集成利用數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)信息主要工作是識(shí)別現(xiàn)實(shí)世界中的實(shí)體定義冗余數(shù)據(jù)的處理檢測(cè)和解決數(shù)值沖突對(duì)于現(xiàn)實(shí)世界中的同一實(shí)體,來(lái)自于不同數(shù)據(jù)源的屬性值可能不同主要原因:不同的數(shù)據(jù)表示、度量單位、編碼方式以及語(yǔ)義的不同7/24/202319第19頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月數(shù)據(jù)集成數(shù)據(jù)集成的概念將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來(lái)存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)中數(shù)據(jù)源包括:多個(gè)數(shù)據(jù)庫(kù)、多維數(shù)據(jù)庫(kù)和一般的文件數(shù)據(jù)集成也是數(shù)據(jù)倉(cāng)庫(kù)建設(shè)中的一個(gè)重要問(wèn)題數(shù)據(jù)集成的內(nèi)容模式集成利用數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)信息主要工作是識(shí)別現(xiàn)實(shí)世界中的實(shí)體定義冗余數(shù)據(jù)的處理檢測(cè)和解決數(shù)值沖突對(duì)于現(xiàn)實(shí)世界中的同一實(shí)體,來(lái)自于不同數(shù)據(jù)源的屬性值可能不同主要原因:不同的數(shù)據(jù)表示、度量單位、編碼方式以及語(yǔ)義的不同7/24/202320第20頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月模式集成數(shù)據(jù)類(lèi)型沖突性別:string(Male、Female)、Char(M、F)、Interger(0、1)日期:Date、DateTime、String數(shù)據(jù)標(biāo)簽沖突:解決同名異義、異名同義學(xué)生成績(jī)、分?jǐn)?shù)度量單位沖突學(xué)生成績(jī)百分制:100~0五分制:A、B、C、D、E字符表示:優(yōu)、良、及格、不及格概念不清最近交易額:前一個(gè)小時(shí)、昨天、本周、本月?聚集沖突:根源在于表結(jié)構(gòu)的設(shè)計(jì)
7/24/202321第21頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月冗余數(shù)據(jù)的處理從多個(gè)數(shù)據(jù)源中抽取不同的數(shù)據(jù),容易導(dǎo)致數(shù)據(jù)的冗余不同的屬性在不同的數(shù)據(jù)源中是不同的命名方式有些屬性可以從其它屬性中導(dǎo)出,例如:銷(xiāo)售額=單價(jià)×銷(xiāo)售量有些冗余可以通過(guò)相關(guān)分析檢測(cè)到其中:n是元組的個(gè)數(shù),和分別是A和B的平均值,和分別是A和B的標(biāo)準(zhǔn)差元組級(jí)的“重復(fù)”,也是數(shù)據(jù)冗余的一個(gè)重要方面減少冗余數(shù)據(jù),可以大大提高數(shù)據(jù)挖掘的性能7/24/202322第22頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月數(shù)據(jù)轉(zhuǎn)換平滑處理:從數(shù)據(jù)中消除噪音數(shù)據(jù)聚集操作:對(duì)數(shù)據(jù)進(jìn)行綜合,類(lèi)似于DataCube的構(gòu)建數(shù)據(jù)概化:構(gòu)建概念層次數(shù)據(jù)規(guī)范化:將數(shù)據(jù)集中到一個(gè)較小的范圍之中最大-最小規(guī)范化z-score(零-均值)規(guī)范化小數(shù)范圍規(guī)范化(0–1規(guī)范化)屬性構(gòu)造構(gòu)造新的屬性并添加到屬性集中,以幫助數(shù)據(jù)挖掘7/24/202323第23頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月數(shù)據(jù)轉(zhuǎn)換:規(guī)范化最大-最小規(guī)范化對(duì)原始數(shù)據(jù)進(jìn)行線(xiàn)性變換保持了原始數(shù)據(jù)值之間的關(guān)系當(dāng)有新的輸入,落在原數(shù)據(jù)區(qū)之外,該方法將面臨“越界”錯(cuò)誤受到孤立點(diǎn)的影響可能會(huì)比較大7/24/202324第24頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月數(shù)據(jù)轉(zhuǎn)換:規(guī)范化(續(xù))z-score(零-均值)規(guī)范化屬性基于平均值和標(biāo)準(zhǔn)差規(guī)范化當(dāng)屬性的最大值和最小值未知,或者孤立點(diǎn)左右了最大-最小規(guī)范化時(shí),該方法有效0-1規(guī)范化(小數(shù)定標(biāo)規(guī)范化)通過(guò)移動(dòng)屬性的小數(shù)點(diǎn)位置進(jìn)行規(guī)范化例如A的值為125,那么|A|=125,則j=3,有v=0.125。WherejisthesmallestintegersuchthatMax(||)<17/24/202325第25頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月屬性構(gòu)造由給定的屬性構(gòu)造并增添新的屬性,以幫助提高精度和對(duì)高維數(shù)據(jù)結(jié)構(gòu)的理解屬性結(jié)構(gòu)還可以幫助平緩使用判定算法分類(lèi)的分裂問(wèn)題例如:Area=Width×Height銷(xiāo)售額=單價(jià)×銷(xiāo)售量7/24/202326第26頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月主要內(nèi)容為什么需要數(shù)據(jù)預(yù)處理?數(shù)據(jù)清洗數(shù)據(jù)集成與轉(zhuǎn)換數(shù)據(jù)歸約數(shù)據(jù)離散化與概念層次的構(gòu)建本章小結(jié)7/24/202327第27頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月主要內(nèi)容為什么需要數(shù)據(jù)預(yù)處理?數(shù)據(jù)清洗數(shù)據(jù)集成與轉(zhuǎn)換數(shù)據(jù)歸約數(shù)據(jù)離散化與概念層次的構(gòu)建本章小結(jié)7/24/202328第28頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月數(shù)據(jù)歸約的提出在數(shù)據(jù)倉(cāng)庫(kù)中可能保存TB級(jí)的數(shù)據(jù),大數(shù)據(jù)量的數(shù)據(jù)挖掘,可能需要大量的時(shí)間來(lái)完成整個(gè)數(shù)據(jù)的數(shù)據(jù)挖掘。數(shù)據(jù)歸約在可能獲得相同或相似結(jié)果的前提下,對(duì)數(shù)據(jù)的容量進(jìn)行有效的縮減數(shù)據(jù)歸約的方法數(shù)據(jù)立方體聚集:聚集操作作用于立方體中的數(shù)據(jù)減少數(shù)據(jù)維度(維歸約):可以檢測(cè)并刪除不相關(guān)、弱相關(guān)或者冗余的屬性或維數(shù)據(jù)壓縮:使用編碼機(jī)制壓縮數(shù)據(jù)集數(shù)值壓縮:用替代的、較小的數(shù)據(jù)表示替換或估計(jì)數(shù)據(jù)7/24/202329第29頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月DataCube的聚集“基點(diǎn)方體”“頂點(diǎn)方體”DataCube中的多個(gè)層次的聚集進(jìn)一步縮減所要處理的數(shù)據(jù)量當(dāng)響應(yīng)OLAP查詢(xún)或者數(shù)據(jù)挖掘時(shí),應(yīng)當(dāng)使用與給定任務(wù)相關(guān)的“最小方體”7/24/202330第30頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月維歸約(特征提取)維歸約:通過(guò)刪除不相關(guān)的屬性(或維)減少數(shù)據(jù)量特征選取(屬性子集的選取):選取最小的特征屬性集合,得到的數(shù)據(jù)挖掘結(jié)果與所有特征參加的數(shù)據(jù)挖掘結(jié)果相近或完全一致特征提取,對(duì)于d個(gè)屬性來(lái)說(shuō),具有2d
個(gè)可能的子集7/24/202331第31頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月維歸約的主要方法利用啟發(fā)式的方法來(lái)減少數(shù)據(jù)維度(隨著維度的增長(zhǎng)數(shù)據(jù)量將呈指數(shù)級(jí)別增長(zhǎng)):逐步向前選擇:維數(shù)逐步增多的方法(每次增添“最好”的屬性)逐步向后選擇:維數(shù)逐步減少的方法(每次刪除“最差”的屬性)兩者組合的方法判定樹(shù)歸納方法(ID3,C4.5)7/24/202332第32頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月基于判定樹(shù)歸納的方法Initialattributeset:{A1,A2,A3,A4,A5,A6}A4?A1?A6?Class1Class2Class1Class2>Reducedattributeset:{A1,A4,A6}YYYNNN7/24/202333第33頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月數(shù)據(jù)壓縮數(shù)據(jù)壓縮:應(yīng)用數(shù)據(jù)編碼或變換,以便得到數(shù)據(jù)的歸約或壓縮表示無(wú)損壓縮:原數(shù)據(jù)可以由壓縮數(shù)據(jù)重新構(gòu)造而不丟失任何信息字符串壓縮是典型的無(wú)損壓縮現(xiàn)在已經(jīng)有許多很好的方法但是它們只允許有限的數(shù)據(jù)操作有損壓縮:只能重新構(gòu)造原數(shù)據(jù)的近似表示影像文件的壓縮是典型的有損壓縮典型的方法:小波變換、主要成分分析7/24/202334第34頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月數(shù)值歸約數(shù)值歸約:通過(guò)選擇替代的、“較小”的數(shù)據(jù)表示形式來(lái)減少數(shù)據(jù)量有參的方法假設(shè)數(shù)據(jù)符合某些模型,通過(guò)評(píng)估模型參數(shù),僅需要存儲(chǔ)參數(shù),不需要存儲(chǔ)實(shí)際數(shù)據(jù)(孤立點(diǎn)也可能被存放)典型方法:對(duì)數(shù)線(xiàn)性模型,它估計(jì)離散的多維概率分布無(wú)參的方法不存在假想的模型典型方法:直方圖、聚類(lèi)和抽樣7/24/202335第35頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月直方圖類(lèi)似于分箱技術(shù),是一種流行的數(shù)據(jù)歸約方式將屬性值劃分為不相交的子集,或“桶”桶安放在水平軸上,而桶的高度(和面積)是該桶所代表的值的平均頻率。每個(gè)桶只表示單個(gè)屬性值,則稱(chēng)其為“單桶”。通常,“桶”表示給定屬性的一個(gè)連續(xù)空間可以通過(guò)編程,動(dòng)態(tài)修改部分參數(shù),進(jìn)行合理構(gòu)造。count51015202530123456789101-1011-2021-30510152025132515PricePricecount7/24/202336第36頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月主要內(nèi)容為什么需要數(shù)據(jù)預(yù)處理?數(shù)據(jù)清洗數(shù)據(jù)集成與轉(zhuǎn)換數(shù)據(jù)歸約數(shù)據(jù)離散化與概念層次的構(gòu)建本章小結(jié)7/24/202337第37頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月數(shù)據(jù)離散化和概念層次屬性值分類(lèi)枚舉型有序的無(wú)序的連續(xù)型:如Real類(lèi)型數(shù)據(jù)離散化對(duì)于一個(gè)特定的連續(xù)屬性,可以把屬性值劃分成若干區(qū)間,以區(qū)間值來(lái)代替實(shí)際數(shù)據(jù)值,以減少屬性值的個(gè)數(shù)。概念層次利用高層的概念(如兒童、青年、中年、老年等)來(lái)代替低層的實(shí)際數(shù)據(jù)值(實(shí)際年齡),以減少屬性值的個(gè)數(shù)。7/24/202338第38頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月數(shù)值數(shù)據(jù)的離散化和概念分層建立的方法分箱(Binning)直方圖分析聚類(lèi)分析的方法根據(jù)自然分類(lèi)進(jìn)行分割7/24/202339第39頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月分箱方法:一種簡(jiǎn)單的離散化技術(shù)相同寬度(距離)數(shù)據(jù)分割將數(shù)據(jù)分成N等份,各個(gè)等份數(shù)據(jù)之間具有相同的距離如果A和B分別為屬性值中的最大值和最小值,那么各個(gè)數(shù)據(jù)等份之間的距離為:W=(B-A)/N.異常點(diǎn)將會(huì)扮演很重要的角色傾斜的數(shù)據(jù)不能很好的解決相同深度(頻率)數(shù)據(jù)分割將數(shù)據(jù)分成N等份,各個(gè)等份具有相同的數(shù)據(jù)個(gè)數(shù)。具有較好的可伸縮性適合于數(shù)據(jù)分類(lèi)的情況7/24/202340第40頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月離散化:直方圖方法將數(shù)據(jù)分割到若干個(gè)桶之中,用桶中的平均值(或求和等)來(lái)表示各個(gè)桶??梢酝ㄟ^(guò)編程,動(dòng)態(tài)修改部分參數(shù),進(jìn)行合理構(gòu)造。count51015202530123456789101-1011-2021-30510152025132515PricePricecount7/24/202341第41頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月離散化:聚類(lèi)分析方法將數(shù)據(jù)按照“類(lèi)內(nèi)最大相似度,類(lèi)間最小相似度的原則”對(duì)數(shù)據(jù)進(jìn)行有效聚類(lèi)利用聚類(lèi)的中心點(diǎn)來(lái)表示該類(lèi)所包含的對(duì)象數(shù)據(jù)聚類(lèi)將非常有效,但是必須保證數(shù)據(jù)中沒(méi)有噪音數(shù)據(jù)7/24/202342第42頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月按照自然分類(lèi)進(jìn)行數(shù)據(jù)分割利用3-4-5法則對(duì)數(shù)字型數(shù)據(jù)分類(lèi),將數(shù)據(jù)分成若干個(gè)“自然”的區(qū)間:如果在所有數(shù)字的最高位覆蓋3,6,7或9個(gè)不同的值,則將數(shù)據(jù)分成3段。3(1,1,1)6(2,2,2)7(2,3,2)9(3,3,3)如果在所有數(shù)字的最高位覆蓋2,4,8個(gè)不同的值,則將數(shù)據(jù)分成4段。如果在所有數(shù)字的最高位覆蓋1,5,10個(gè)不同的值,則將數(shù)據(jù)分成5段。7/24/202343第43頁(yè),課件共46頁(yè),創(chuàng)作于2023年2月3-4-5法則舉例例1:包含數(shù)據(jù):101、110、203、222、305、315方法:最高位包含3個(gè)值(1、2、3)分成[100,200),[200,300),[300
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 多中心性網(wǎng)狀組織細(xì)胞增生癥的臨床護(hù)理
- 急性心力衰竭的護(hù)理
- 《第一章》課件-第七章第一節(jié):大數(shù)據(jù)技術(shù)與應(yīng)用-應(yīng)用場(chǎng)景
- 《第一章》課件-第七章第二節(jié):大數(shù)據(jù)技術(shù)與應(yīng)用-技術(shù)體驗(yàn)-天貓大數(shù)據(jù)之?dāng)?shù)據(jù)清洗
- 妊娠合并甲狀腺功能亢進(jìn)的臨床護(hù)理
- 癤癰的臨床護(hù)理
- 孕期臉色發(fā)黃的健康宣教
- 腺樣體切除術(shù)的健康宣教
- JJF(陜) 017-2019 數(shù)字溫濕度計(jì)校準(zhǔn)規(guī)范
- 模擬電子電路基礎(chǔ)課件大全課件
- 安徽省合肥市包河區(qū)2023-2024學(xué)年三年級(jí)上學(xué)期語(yǔ)文期末試卷
- 【MOOC】新媒體文化十二講-暨南大學(xué) 中國(guó)大學(xué)慕課MOOC答案
- 2024-2025學(xué)年二年級(jí)數(shù)學(xué)上冊(cè)期末樂(lè)考非紙筆測(cè)試題(二 )(蘇教版)
- 2024年度智能制造生產(chǎn)線(xiàn)改造項(xiàng)目合同
- 2024年度食堂檔口承包合同(含菜品研發(fā))3篇
- DB32T 4578.2-2023 丙型病毒性肝炎防治技術(shù)指南 第2部分:患者管理
- 護(hù)理輪科心得
- 英語(yǔ)期末復(fù)習(xí)講座模板
- 9《作息有規(guī)律》(說(shuō)課稿)2024-2025學(xué)年統(tǒng)編版(2024)道德與法治一年級(jí)上冊(cè)
- 2024年學(xué)校食堂工作計(jì)劃(五篇)
- 北京市西城區(qū)2023-2024學(xué)年六年級(jí)上學(xué)期語(yǔ)文期末試卷
評(píng)論
0/150
提交評(píng)論