數(shù)據(jù)挖掘知識點歸納_第1頁
數(shù)據(jù)挖掘知識點歸納_第2頁
數(shù)據(jù)挖掘知識點歸納_第3頁
數(shù)據(jù)挖掘知識點歸納_第4頁
數(shù)據(jù)挖掘知識點歸納_第5頁
已閱讀5頁,還剩4頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

學(xué)問點一數(shù)據(jù)倉庫數(shù)據(jù)倉庫是一個從多個數(shù)據(jù)源收集的信息存儲庫,存放在全都的模式下,并且通常駐留在單個站點上。數(shù)據(jù)倉庫通過數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)裝入和定期數(shù)據(jù)刷來構(gòu)造。數(shù)據(jù)倉庫圍繞主題組織數(shù)據(jù)倉庫基于歷史數(shù)據(jù)供給消息,是匯總的。數(shù)據(jù)倉庫用稱作數(shù)據(jù)立方體的多維數(shù)據(jù)構(gòu)造建模,每一個維對應(yīng)于模式中的一個或者一組屬性,每一個單元存放某種聚攏的度量值數(shù)據(jù)立方體供給數(shù)據(jù)的多維視圖,并允許估量算和快速訪問匯總數(shù)據(jù)供給供給多維數(shù)據(jù)視圖和匯總數(shù)據(jù)的估量算,數(shù)據(jù)倉庫格外適合聯(lián)機分析處理,允許在不同的抽象層供給數(shù)據(jù),這種操作適合不同的用戶角度OLAP例子包括下鉆和上卷,允許用戶在不同的匯總級別上觀看數(shù)據(jù)多維數(shù)據(jù)挖掘又叫做探究式多維數(shù)據(jù)挖掘OLAP風(fēng)格在多維空間進(jìn)展數(shù)據(jù)挖掘,允許在各種粒度進(jìn)展多維組合探查,因此更有可能代表學(xué)問的好玩模式。學(xué)問點二可以挖掘什么數(shù)據(jù)大量的數(shù)據(jù)挖掘功能,包括特征化和區(qū)分、頻繁模式、關(guān)聯(lián)和相關(guān)性分析挖掘、分類和回歸、聚類分析、離群點分析大量的數(shù)據(jù)挖掘功能,包括特征化和區(qū)分、頻繁模式、關(guān)聯(lián)和相關(guān)性分析挖掘、分類和回歸、聚類分析、離群點分析數(shù)據(jù)挖掘功能用于指定數(shù)據(jù)挖掘任務(wù)覺察的模式,分為描述性和推測性描述性挖掘任務(wù)刻畫目標(biāo)數(shù)據(jù)中數(shù)據(jù)的一般性質(zhì)推測性挖掘任務(wù)在當(dāng)前數(shù)據(jù)上進(jìn)展歸納,以便做出推測用匯總、簡潔、準(zhǔn)確的表達(dá)描述類和概念,稱為類/概念描述用匯總、簡潔、準(zhǔn)確的表達(dá)描述類和概念,稱為類/概念描述描述的方法有數(shù)據(jù)特征化〔針對目標(biāo)類、數(shù)據(jù)區(qū)分〔針對比照類、數(shù)據(jù)特征化和區(qū)分?jǐn)?shù)據(jù)特征化用來查詢用戶指定的數(shù)據(jù),上卷操作用來執(zhí)行用戶掌握的、沿著指定維的數(shù)系或者規(guī)章〔也叫特征規(guī)章〕供給。用規(guī)章表示的區(qū)分描述叫做區(qū)分規(guī)章。數(shù)據(jù)頻繁消滅的模式叫做頻繁模式,類型包括頻繁項集、頻繁子項集〔又叫頻繁序列、頻繁子構(gòu)造。頻繁項集一般指頻繁地在事務(wù)數(shù)據(jù)中一起消滅的商品的集合頻繁子序列就是一個頻繁序列模式子構(gòu)造涉及不同的構(gòu)造,可以與項集和子項集一起消滅挖掘頻繁模式導(dǎo)致覺察數(shù)據(jù)中好玩的關(guān)聯(lián)和相關(guān)性包含單個謂詞的關(guān)聯(lián)規(guī)章稱作單維關(guān)聯(lián)規(guī)章。多個謂詞的關(guān)聯(lián)規(guī)章叫做多維關(guān)聯(lián)規(guī)章。假設(shè)不能同時滿足最小支持度閾值和最小置信度閾值是無趣的關(guān)聯(lián)規(guī)章。頻繁模式挖掘的根底是頻繁項集挖掘分類找出描述和區(qū)分?jǐn)?shù)據(jù)類或概念的模型或者函數(shù)來推測類標(biāo)號未知對象的類標(biāo)號。導(dǎo)出模型是基于訓(xùn)練數(shù)據(jù)集的分析,推測類標(biāo)號未知對象的類標(biāo)號。形式有分類規(guī)章、決策樹、數(shù)學(xué)公式或者神經(jīng)網(wǎng)絡(luò)決策樹類似流程圖的樹構(gòu)造,每一個結(jié)點代表一個屬性上的測試,每一個分支代表測試的一個結(jié)果,樹葉代表類或者類分布。分類時,神經(jīng)網(wǎng)絡(luò)類似于神經(jīng)處理單元,單元之間加權(quán)連接。構(gòu)造分類模型的方法還有樸實貝葉斯分類、支持向量機、K最近鄰分類。分類推測類別〔離散的、無序的〕標(biāo)號,回歸建立連續(xù)值函數(shù)模型來推測缺失的、難以獲得的數(shù)據(jù)數(shù)據(jù)值術(shù)語推測指數(shù)值推測和類標(biāo)號推測回歸也包含基于可用數(shù)據(jù)的分布趨勢識別相關(guān)分析在分類和回歸之前進(jìn)展,試圖識別與分類和回歸過程顯著相關(guān)的屬性織成分層構(gòu)造,把類似的大事組織在一起織成分層構(gòu)造,把類似的大事組織在一起離群點指與數(shù)據(jù)的一般行為或模型不全都的數(shù)據(jù)對象,視為噪聲或者特別舍棄。離群點數(shù)據(jù)分析也叫離群點分析或特別挖掘,用統(tǒng)計監(jiān)測或者距離度量、基于密度方法識別好玩的模式指易于被人理解、在某種確信度上對于的或檢驗數(shù)據(jù)是有效的、潛在有用的、穎的模式。好玩的模式代表學(xué)問。模式興趣的度量包括客觀度量和反映特特定用戶需要和興趣的主觀度量??陀^度量基于〔也叫可行動的〕依據(jù)用戶供給的約束和興趣度度量對搜尋聚焦,對某些任務(wù)而言能夠保證算法的完全性模式興趣度量依據(jù)模式的興趣度對所覺察的模式進(jìn)展排位,可以通過減去模式空間中不滿足預(yù)先設(shè)定的興趣度約束的子集來指導(dǎo)和約束覺察過程。學(xué)問點三數(shù)據(jù)對象與數(shù)據(jù)屬性數(shù)據(jù)集由數(shù)據(jù)對象組成,一個對象代表一個實體。數(shù)據(jù)對象用屬性描述,又叫樣本、實例、數(shù)據(jù)點或?qū)ο?。存放在?shù)據(jù)庫中的數(shù)據(jù)對象叫做數(shù)據(jù)元組。屬性是一個數(shù)據(jù)字段,表示數(shù)據(jù)對象的一個特征,也叫維、特征、變量。用來描述一個給定對象的一組屬性叫做屬性向量〔或者特征向量。涉及一個屬性的叫做單變量、兩個屬性的叫做雙變量一個屬性的類型由該屬性可能具有的值的集合打算,分為標(biāo)稱的、二元的、序數(shù)的、數(shù)值的標(biāo)稱屬性的值是一些符號或者事物的名稱,每一個值代表某種類別、編碼或者狀態(tài),被看做是分類或者枚舉的,不必具有有意義的序二元屬性是一種標(biāo)稱屬性,又叫布爾屬性,只有兩個狀態(tài):0或者1,0代表不消滅,1代表消滅。假設(shè)兩種狀態(tài)具體同等價值并且攜帶一樣的權(quán)重,那二元屬性是對稱的。序數(shù)屬性可能的值之間具有有意義的序或秩評定,相繼之間的差是未知的,通常用于等級評定調(diào)查。數(shù)值屬性用整數(shù)或者實數(shù)值表示,可以是區(qū)間標(biāo)度或者比率標(biāo)度的。區(qū)間標(biāo)度屬性用相同的單位尺度度量,有序,可以為負(fù)、零、正,允許比較和度量評估值之間的值。比率標(biāo)度是具有固定零點的數(shù)值屬性,可以說一個數(shù)是另一個數(shù)的倍數(shù)機器學(xué)習(xí)領(lǐng)域開發(fā)的分類算法通常把屬性分為離散的、連續(xù)的。離散屬性具有有限或者位數(shù)字表示。學(xué)問點四數(shù)據(jù)的根本描述統(tǒng)計中心趨勢度量數(shù)據(jù)分布的中部或者中心位置,包括均值、中位數(shù)、眾數(shù)、中列數(shù)數(shù)據(jù)的分散度量包括極差、四分位數(shù)、四分位數(shù)極差、五數(shù)概括和和盒圖差圖形可視化打量數(shù)據(jù),包括條圖、餅圖、線圖為了抵消少數(shù)極端值的影響,使用截尾均值來凹凸極端值后的均值。具有一個、兩個、三個眾數(shù)的數(shù)據(jù)集合叫做單峰、雙峰、三峰值分位數(shù)是取自數(shù)據(jù)分布的每隔肯定間隔上的點合。識別可疑的離群點選擇落在第三個四分位數(shù)之上或者第一個四分位數(shù)之下至少1.5*IQR〔四分?jǐn)?shù)極差〕處的值。五數(shù)概括包括中位值、四分位數(shù)Q1、四分位數(shù)Q3、最小和最大觀測值組成盒圖。學(xué)問點五度量數(shù)據(jù)的相像性和相異性簇是數(shù)據(jù)對象的集合,使得每一個簇中的元素相互相像,與其他簇中的對象相異。〔存放數(shù)據(jù)對象〔存放數(shù)據(jù)對象對的相異性值〕鄰近性指相異性和相像性數(shù)據(jù)矩陣也叫二模矩陣,相異矩陣只包含一種實體,稱為單模矩陣歐幾里得距離和曼哈頓距離滿足:非負(fù)性、同一性、對稱性、三角不等式,滿足條件的測度叫做度量。上確界距離是兩個對象的最大值差學(xué)問點六數(shù)據(jù)預(yù)處理概述數(shù)據(jù)質(zhì)量包括預(yù)備性、完整性、全都性、時效性、可信性、可解釋性。質(zhì)量基于數(shù)據(jù)的應(yīng)用目的。數(shù)據(jù)預(yù)處理的主要任務(wù)數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)歸約、數(shù)據(jù)變換數(shù)據(jù)清理是為了填補缺失的值、光滑噪聲數(shù)據(jù)、識別和刪除離群點、訂正數(shù)據(jù)的不全都性。這是一個兩步的迭代的過程,分為偏差檢測和數(shù)據(jù)變換數(shù)據(jù)集成涉及集成多個文件、數(shù)據(jù)庫、數(shù)據(jù)立方體,整合成全都的數(shù)據(jù)存儲。語義異種性的解決、元數(shù)據(jù)、相關(guān)分析、元組重復(fù)檢測和數(shù)據(jù)沖突檢測都有助于數(shù)據(jù)的集成。數(shù)據(jù)歸約得到數(shù)據(jù)集的簡化表示,使信息內(nèi)容的損失最小化。策略包括維歸約和數(shù)值歸分析、屬性子集選擇和屬性創(chuàng)立。數(shù)值歸約歸約中,使用參數(shù)模型和非參數(shù)模型屬性的原始值被區(qū)間或者叫高層的概念所取代可以承受離散化和概念分層產(chǎn)生的方法,使得數(shù)據(jù)在多個抽象層上進(jìn)展。數(shù)據(jù)變換包括標(biāo)準(zhǔn)化、數(shù)據(jù)離散化、概念分層產(chǎn)生冗余數(shù)據(jù)的刪除既是數(shù)據(jù)清理也是數(shù)據(jù)歸約〔中位數(shù)或者均值、使用給定元組屬性的同一類的全部樣本的屬性均值或者中位數(shù)、使用最可能的值〔使用回歸或者貝葉斯推理得到〕噪聲是被測量的變量的隨機誤差或者方差識別噪聲的方法有根本統(tǒng)計描述技術(shù)和數(shù)據(jù)可視化方法數(shù)據(jù)光滑技術(shù)有分箱、回歸、離群點分析分箱通過考察數(shù)據(jù)的近鄰來光滑有序數(shù)據(jù)值,這些有序的值被安排到一些桶或箱中。分箱考察近鄰的值,它是局部光滑對于用箱均值光滑,全部值都被替換成均值;用箱中位數(shù)光滑,每一個數(shù)都替換成中位數(shù);用箱邊界光滑,每一個數(shù)字都替換成最近的邊界值,寬度越大代表光滑效果越好數(shù)據(jù)變換指數(shù)據(jù)被變換或者統(tǒng)一成適合挖掘的形式,策略包括光滑、屬性構(gòu)造、聚攏、離散化、由標(biāo)稱數(shù)據(jù)產(chǎn)生概念分層。光滑指去掉數(shù)據(jù)中的噪聲,技術(shù)包括分箱、回歸、聚類;屬性構(gòu)造通過屬性產(chǎn)生的屬性添加到屬性集中;聚類對數(shù)據(jù)的匯總和聚攏;概念分層將屬性泛化到較高的概念層離散化技術(shù)依據(jù)如何離散化加以分類,比方自頂向下的分類或者離散化。使用類信息叫做監(jiān)視的離散化。離散化和概念分層也是數(shù)據(jù)歸約的形式,原始數(shù)據(jù)被曲建或者標(biāo)簽取代。用較小的單位表示屬性將導(dǎo)致該屬性有較大值域,因此傾向于使這樣的屬性具有較大的影響或者較高的權(quán)重標(biāo)準(zhǔn)化或標(biāo)準(zhǔn)化的目的是避開對度量單位選擇的依靠性,標(biāo)準(zhǔn)化數(shù)據(jù)試圖賜予全部屬性相等的權(quán)重。方法有最小-最大標(biāo)準(zhǔn)化、z分?jǐn)?shù)標(biāo)準(zhǔn)化和按小數(shù)定標(biāo)標(biāo)準(zhǔn)化最小v-〕-〔-zv均值方差按小數(shù)定標(biāo)標(biāo)準(zhǔn)化:全部除以一個數(shù)字的離散化技術(shù),對用戶指定的箱個數(shù)敏感,簡潔受離群點的影響直方圖是一種非監(jiān)視的離散化方法,將屬性A的值劃分為不相交的區(qū)間,叫做桶或者預(yù)先設(shè)定的概念層數(shù),過程終止。對每一層使用最小區(qū)間長度來掌握遞歸。聚類將屬性A劃分為簇或組來離散化屬性A合并策略產(chǎn)生概念分層,其中每一個簇形成的概念分層的一個結(jié)點。決策樹承受自頂向下的方式,是監(jiān)視的離散化方法,使用了類標(biāo)號。的相像性就可以合并他們。ChiMerge把數(shù)值屬性A的每一個不同看做是一個區(qū)間,對每一個相鄰區(qū)間進(jìn)展檢驗,具有最小卡方檢驗值的說明有相像的類分布。合并過程遞歸地進(jìn)展,直至滿足定義的條件為止。構(gòu)造的一局部、說明屬性集但不說明它們的偏序、只說明局部屬性集。學(xué)問七數(shù)據(jù)倉庫與聯(lián)機分析處理信息處理供給支持。數(shù)據(jù)倉庫是一個面對主題的〔排解決策無用的數(shù)據(jù)、集成的〔來源于多個數(shù)據(jù)源、時變的〔隱式或顯式地包含時間元素、非易失的〔物理地分別存放數(shù)據(jù)〕數(shù)據(jù)集合,支持治理者的決策過程個數(shù)據(jù)訪問操作數(shù)據(jù)倉庫的構(gòu)建過程需要數(shù)據(jù)集成、數(shù)據(jù)清理、數(shù)據(jù)統(tǒng)一從異構(gòu)數(shù)據(jù)庫集成看,組織由多個異構(gòu)的、自治的和分布的數(shù)據(jù)源維護(hù)大型數(shù)據(jù)庫。傳統(tǒng)的數(shù)據(jù)庫集成建立一個包裝程序和一個集成程序的站點返回不一樣的結(jié)果被集成為全局答復(fù)處理,并且與局部數(shù)據(jù)源上的處理競爭資源數(shù)據(jù)倉庫使用更驅(qū)動的方法,將多個數(shù)據(jù)源的信息預(yù)先集成存在數(shù)據(jù)倉庫中,供直接查詢和分析。聯(lián)機操作數(shù)據(jù)庫系統(tǒng)的主要任務(wù)是執(zhí)行聯(lián)機事務(wù)和查詢處理和系統(tǒng)的面對性、數(shù)據(jù)內(nèi)容、數(shù)據(jù)庫設(shè)計、視圖、訪問模式。用戶和系統(tǒng)的面對性:聯(lián)機事務(wù)處理面對顧客,數(shù)據(jù)倉庫面對市場的數(shù)據(jù)內(nèi)容:聯(lián)機事務(wù)處理治理當(dāng)前數(shù)據(jù),數(shù)據(jù)倉庫治理大量的歷史數(shù)據(jù)ER,后者是星形或者雪花模型和面對主題的本,處理不同單位的數(shù)據(jù),數(shù)據(jù)量大,存放在多個介質(zhì)上。訪問模式:前者由短的原子事務(wù)組成,需要并發(fā)、恢復(fù)機制來保證全都性和事務(wù)的魯棒性。后者只需要訪問操作。其他區(qū)分包括數(shù)據(jù)庫大小、操作頻繁程度、性能度量等織、存取方法和實現(xiàn)方法。其次是訪問模式的不同。第三是兩者的功能和數(shù)據(jù)不同。的應(yīng)用程序。這一層包括元數(shù)據(jù)庫,存放關(guān)于數(shù)據(jù)倉庫和它的內(nèi)容的信息。中間是OLAP效勞器。頂層是前端客戶層,包括查詢和報告的工具、分析工具/數(shù)據(jù)挖掘工具。從構(gòu)造看,有三種數(shù)據(jù)倉庫模型:倉庫企業(yè)、數(shù)據(jù)集市、虛擬倉庫倉庫企業(yè):搜集了關(guān)于主題的全部信息,跨越整個企業(yè)個特定部門或者地區(qū)局部產(chǎn)生的數(shù)據(jù)。依靠數(shù)據(jù)集市直接來源于數(shù)據(jù)倉庫虛擬倉庫是操作數(shù)據(jù)上的視圖的集合,只有一些可能的匯總視圖被物化庫。數(shù)據(jù)倉庫系統(tǒng)使用的工具有數(shù)據(jù)提取、變換、裝入數(shù)據(jù)提?。河啥鄠€異構(gòu)的外部數(shù)據(jù)源搜集數(shù)據(jù)數(shù)據(jù)清理:檢測數(shù)據(jù)中的錯誤,可能時訂正它們數(shù)據(jù)變換:將數(shù)據(jù)由遺產(chǎn)或宿主格式轉(zhuǎn)換成數(shù)據(jù)倉庫格式裝入:排序、匯總、合并、計算視圖、檢查完整性、建立索引和劃分刷:傳播由數(shù)據(jù)源到數(shù)據(jù)倉庫的更數(shù)據(jù)清理和數(shù)據(jù)變換的目的是提高數(shù)據(jù)質(zhì)量述、用于匯總的算法、由操作環(huán)境到數(shù)據(jù)倉庫的映射、關(guān)于系統(tǒng)性能的數(shù)據(jù)、商務(wù)元數(shù)據(jù)。多維數(shù)據(jù)模型有星形模式、雪花模式、事實星座模式。星形模式:一個大的中心表〔包含大批數(shù)據(jù)不冗余,一組小的附屬表〔每維一個雪花模式:數(shù)據(jù)進(jìn)一步分解到附加的表中事實星座模式:多個事實表共享維表-值對聚焦數(shù)據(jù)計算該點的度量值。度量分為三類:分布、代數(shù)avg、整體的。學(xué)問點八頻繁項集、閉項集和關(guān)聯(lián)規(guī)章強規(guī)章同時滿足最小置信度閾值和最小支持度閾值。項的集合稱為項集,包含K個項的項集叫做k項集。項集的消滅頻度是包含項集的事務(wù)數(shù),稱為頻度、支持度計數(shù)或者計數(shù)。YYXD中具有一樣的支持度計數(shù),該項集在數(shù)據(jù)集中是閉的,叫做閉頻繁項集。假設(shè)X是頻繁的,并且不存在超項集Y使得Y包含X并且YD中是頻繁的,那么X是極大頻繁項集。Apriori算法:通過限制候選碼產(chǎn)生頻繁項集。先驗性質(zhì):頻繁項集的全部非空子集也肯定劃分、抽樣、動態(tài)項集,即削減掃描事務(wù)數(shù)據(jù)庫的次數(shù)、削減候選項集的數(shù)量、候選項支持度計算的簡化。FP-tree算法:將代表頻繁項集的數(shù)據(jù)庫壓縮到一棵頻繁模式樹,保存項集的關(guān)聯(lián)信息。把每一個條件數(shù)據(jù)庫,顯著地壓縮被搜尋的數(shù)據(jù)集的大小。反單調(diào)性指一個結(jié)合不能通過測試,它的全部超集也不能通過一樣的測試強規(guī)章不肯定是好玩的。用相關(guān)性度量拓展支持度-lift(A,B)=P(A∪B)/P(A)P(B)1表示一個消滅另一個肯定消滅,等于1=∑〔觀測值-期望值〕的平方/1,實際值小于觀測值說明是負(fù)相關(guān)的。四種評估模式度量:全置信度、最大置信度、Kulczynski和余弦全置信度稱為最小置信度;Kulczynski是兩個置信度的平均值;余弦看做是調(diào)和提升度量。提升度和卡方值識別事務(wù)數(shù)據(jù)集中的模式關(guān)聯(lián)關(guān)系的力量差由于不是零不變度量一種度量大型數(shù)據(jù)庫中的關(guān)聯(lián)模式的重要性質(zhì)。不平衡比評估規(guī)章蘊含式中兩個項集AB的不平衡程度。學(xué)問點九分類分類構(gòu)造一個模型或者分類器來推測類標(biāo)號序值。推測回歸的兩種主要類型是分類和回歸。數(shù)據(jù)分類包含學(xué)習(xí)階段〔構(gòu)造分類模型〕和分類階段〔使用模型推測給定數(shù)據(jù)的類標(biāo)號。第一階段建立描述預(yù)先定義的數(shù)據(jù)類或概念集的分類器,其中分類算法通過分析或從了數(shù)據(jù)的壓縮表示,它是監(jiān)視學(xué)習(xí)。訓(xùn)練集由數(shù)據(jù)庫元組和與他們相關(guān)聯(lián)的類標(biāo)號組成類標(biāo)號屬性是離散和無序的,是分類的〔標(biāo)稱,由于每一個值充當(dāng)一個類別或者類例、數(shù)據(jù)點或者對象訓(xùn)練元組,指不使用它們構(gòu)建分類器。分類器在給定檢驗集上的準(zhǔn)確率是分類器正確分類的檢驗元組所占的百分比驗元組的類標(biāo)號與學(xué)習(xí)模型對該元組的類推測進(jìn)展比較。學(xué)問點十決策樹歸納決策樹歸納指從有類標(biāo)號的訓(xùn)練元組中學(xué)習(xí)決策樹類標(biāo)號,最頂層是根結(jié)點。給定一個類標(biāo)號未知的元組X,在決策樹上測試該元組的屬性值。跟蹤一條從根到葉結(jié)點的路徑,該葉結(jié)點就存放著該元組的推測,決策樹簡潔轉(zhuǎn)換為分類規(guī)章。據(jù)在決策樹構(gòu)建的時候,使用屬性選擇度量來選擇將元組最好地劃分為不同的類的屬性開頭構(gòu)建決策樹。隨著構(gòu)建,訓(xùn)練集漸漸被劃分為較小的子集決策樹算法的策略:用三個參數(shù)D,attribute_list和attribution_selection_method調(diào)用該算法。該過程使用一種屬性選擇度量,比方信息增量、基尼指數(shù),它打算了樹是否為嚴(yán)格的二叉樹Ps:D代表數(shù)據(jù)分區(qū),是訓(xùn)練元組和它們相應(yīng)類標(biāo)號的完全集Attribute_list描述元組屬性的列表attribution_selection_method指定選擇屬性的啟發(fā)式過程,用來選擇可以按類最好地區(qū)分給定元組的屬性。樹從單個結(jié)點N開頭,ND中的訓(xùn)練元組假設(shè)D中的元組都為同一類,結(jié)點 N變成樹葉,并用類標(biāo)記它。否則,調(diào)用attribution_selection_method確定分類準(zhǔn)則。分類準(zhǔn)則確定把D中的元組劃分為個體類的最好方法在結(jié)點N上對哪一個屬性進(jìn)展測試對于選擇的測試從結(jié)點N生長出哪些分支。分類準(zhǔn)則指定分裂屬性,指出分裂點或者分裂子集,使得每個分支的屬性盡量純。結(jié)點N用分裂準(zhǔn)則作為結(jié)點的測試。終止原則:分區(qū)D中的全部元組都是一個類型的;沒有剩余的屬性可以連續(xù)劃分;給定的分支沒有元組O(n*|D|*log(|D|)),|D|D中的訓(xùn)練元組屬性選擇度量是一種選擇分裂準(zhǔn)則,把給定類標(biāo)號的元組的數(shù)據(jù)分區(qū)D最好地劃分為子集必需作為分裂準(zhǔn)則的一局部返回。為分區(qū)D構(gòu)建的樹結(jié)點用分類準(zhǔn)則標(biāo)記,從準(zhǔn)則的每一個輸誕生長出分支,并且相應(yīng)地劃分元組。主要有信息增量、基尼指數(shù)、增益率方法。選擇具有最高信息增益的屬性作為結(jié)點N的分裂屬性,使結(jié)果分區(qū)中對元組分類所需望測試數(shù)目最小,并確保找到一顆簡潔的樹。基尼指數(shù)度量數(shù)據(jù)分區(qū)或者訓(xùn)練元組集D的不純度導(dǎo)致相等大小的分區(qū)和純度?;谧钚∶枋鲩L度〔MDL〕二進(jìn)制的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論