精選數(shù)據(jù)挖掘復(fù)習(xí)題綱_第1頁
精選數(shù)據(jù)挖掘復(fù)習(xí)題綱_第2頁
精選數(shù)據(jù)挖掘復(fù)習(xí)題綱_第3頁
精選數(shù)據(jù)挖掘復(fù)習(xí)題綱_第4頁
精選數(shù)據(jù)挖掘復(fù)習(xí)題綱_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

精選數(shù)據(jù)挖掘復(fù)習(xí)題綱一、1.2數(shù)據(jù)倉庫與數(shù)據(jù)庫有何不同?它們有哪些相似之處?簡而言之,數(shù)據(jù)庫是面向事務(wù)的設(shè)計(jì),數(shù)據(jù)倉庫是面向主題設(shè)計(jì)的。數(shù)據(jù)庫一般存儲在線交易數(shù)據(jù),數(shù)據(jù)倉庫存儲的一般是歷史數(shù)據(jù)。數(shù)據(jù)庫設(shè)計(jì)是盡量防止冗余,一般采用符合范式的規(guī)那么來設(shè)計(jì),數(shù)據(jù)倉庫在設(shè)計(jì)是有意引入冗余,采用反范式的方式來設(shè)計(jì)。數(shù)據(jù)庫是為捕獲數(shù)據(jù)而設(shè)計(jì),數(shù)據(jù)倉庫是為分析數(shù)據(jù)而設(shè)計(jì),它的兩個根本的元素是維表和事實(shí)表。維是看問題的角度,比方時(shí)間,部門,維表放的就是這些東西的定義,事實(shí)表里放著要查詢的數(shù)據(jù),同時(shí)有維的ID。單從概念上講,有些晦澀。任何技術(shù)都是為應(yīng)用效勞的,結(jié)合應(yīng)用可以很容易地理解。以銀行業(yè)務(wù)為例。數(shù)據(jù)庫是事務(wù)系統(tǒng)的數(shù)據(jù)平臺,客戶在銀行做的每筆交易都會寫入數(shù)據(jù)庫,被記錄下來,這里,可以簡單地理解為用數(shù)據(jù)庫記帳。數(shù)據(jù)倉庫是分析系統(tǒng)的數(shù)據(jù)平臺,它從事務(wù)系統(tǒng)獲取數(shù)據(jù),并做匯總、加工,為決策者提供決策的依據(jù)。比方,某銀行某分行一個月發(fā)生多少交易,該分行當(dāng)前存款余額是多少。如果存款又多,消費(fèi)交易又多,那么該地區(qū)就有必要設(shè)立ATM了。顯然,銀行的交易量是巨大的,通常以百萬甚至千萬次來計(jì)算。事務(wù)系統(tǒng)是實(shí)時(shí)的,這就要求時(shí)效性,客戶存一筆錢需要幾十秒是無法忍受的,這就要求數(shù)據(jù)庫只能存儲很短一段時(shí)間的數(shù)據(jù)。而分析系統(tǒng)是事后的,它要提供關(guān)注時(shí)間段內(nèi)所有的有效數(shù)據(jù)。這些數(shù)據(jù)是海量的,匯總計(jì)算起來也要慢一些,但是,只要能夠提供有效的分析數(shù)據(jù)就到達(dá)目的了。數(shù)據(jù)倉庫,是在數(shù)據(jù)庫已經(jīng)大量存在的情況下,為了進(jìn)一步挖掘數(shù)據(jù)資源、為了決策需要而產(chǎn)生的,它決不是所謂的“大型數(shù)據(jù)庫〞。那么,數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫比擬,有哪些不同呢?讓我們先看看W.H.Inmon關(guān)于數(shù)據(jù)倉庫的定義:面向主題的、集成的、與時(shí)間相關(guān)且不可修改的數(shù)據(jù)集合?!懊嫦蛑黝}的〞:傳統(tǒng)數(shù)據(jù)庫主要是為應(yīng)用程序進(jìn)行數(shù)據(jù)處理,未必按照同一主題存儲數(shù)據(jù);數(shù)據(jù)倉庫側(cè)重于數(shù)據(jù)分析工作,是按照主題存儲的。這一點(diǎn),類似于傳統(tǒng)農(nóng)貿(mào)市場與超市的區(qū)別—市場里面,白菜、蘿卜、香菜會在一個攤位上,如果它們是一個小販賣的;而超市里,白菜、蘿卜、香菜那么各自一塊。也就是說,市場里的菜(數(shù)據(jù))是按照小販(應(yīng)用程序)歸堆(存儲)的,超市里面那么是按照菜的類型(同主題)歸堆的?!芭c時(shí)間相關(guān)〞:數(shù)據(jù)庫保存信息的時(shí)候,并不強(qiáng)調(diào)一定有時(shí)間信息。數(shù)據(jù)倉庫那么不同,出于決策的需要,數(shù)據(jù)倉庫中的數(shù)據(jù)都要標(biāo)明時(shí)間屬性。決策中,時(shí)間屬性很重要。同樣都是累計(jì)購置過九車產(chǎn)品的顧客,一位是最近三個月購置九車,一位是最近一年從未買過,這對于決策者意義是不同的?!安豢尚薷抹?數(shù)據(jù)倉庫中的數(shù)據(jù)并不是最新的,而是來源于其它數(shù)據(jù)源。數(shù)據(jù)倉庫反映的是歷史信息,并不是很多數(shù)據(jù)庫處理的那種日常事務(wù)數(shù)據(jù)(有的數(shù)據(jù)庫例如電信計(jì)費(fèi)數(shù)據(jù)庫甚至處理實(shí)時(shí)信息)。因此,數(shù)據(jù)倉庫中的數(shù)據(jù)是極少或根本不修改的;當(dāng)然,向數(shù)據(jù)倉庫添加數(shù)據(jù)是允許的。數(shù)據(jù)倉庫的出現(xiàn),并不是要取代數(shù)據(jù)庫。目前,大局部數(shù)據(jù)倉庫還是用關(guān)系數(shù)據(jù)庫管理系統(tǒng)來管理的。可以說,數(shù)據(jù)庫、數(shù)據(jù)倉庫相輔相成、各有千秋。補(bǔ)充一下,數(shù)據(jù)倉庫的方案建設(shè)的目的,是為前端查詢和分析作為根底,由于有較大的冗余,所以需要的存儲也較大。為了更好地為前端應(yīng)用效勞,數(shù)據(jù)倉庫必須有如下幾點(diǎn)優(yōu)點(diǎn),否那么是失敗的數(shù)據(jù)倉庫方案。1.效率足夠高??蛻粢蟮姆治鰯?shù)據(jù)一般分為日、周、月、季、年等,可以看出,日為周期的數(shù)據(jù)要求的效率最高,要求24小時(shí)甚至12小時(shí)內(nèi),客戶能看到昨天的數(shù)據(jù)分析。由于有的企業(yè)每日的數(shù)據(jù)量很大,設(shè)計(jì)不好的數(shù)據(jù)倉庫經(jīng)常會出問題,延遲1-3日才能給出數(shù)據(jù),顯然不行的。2.數(shù)據(jù)質(zhì)量??蛻粢锤鞣N信息,肯定要準(zhǔn)確的數(shù)據(jù),但由于數(shù)據(jù)倉庫流程至少分為3步,2次ETL,復(fù)雜的架構(gòu)會更多層次,那么由于數(shù)據(jù)源有臟數(shù)據(jù)或者代碼不嚴(yán)謹(jǐn),都可以導(dǎo)致數(shù)據(jù)失真,客戶看到錯誤的信息就可能導(dǎo)致分析出錯誤的決策,造成損失,而不是效益。3.擴(kuò)展性。之所以有的大型數(shù)據(jù)倉庫系統(tǒng)架構(gòu)設(shè)計(jì)復(fù)雜,是因?yàn)榭紤]到了未來3-5年的擴(kuò)展性,這樣的話,客戶不用太快花錢去重建數(shù)據(jù)倉庫系統(tǒng),就能很穩(wěn)定運(yùn)行。主要表達(dá)在數(shù)據(jù)建模的合理性,數(shù)據(jù)倉庫方案中多出一些中間層,使海量數(shù)據(jù)流有足夠的緩沖,不至于數(shù)據(jù)量大很多,就運(yùn)行不起來了。1.3定義以下數(shù)據(jù)挖掘功能:特征化、區(qū)分、關(guān)聯(lián)和相關(guān)性分析、分類、回歸、聚類、離君點(diǎn)分析。使用你熟悉的現(xiàn)實(shí)生活中的數(shù)據(jù)庫,給出每種數(shù)據(jù)挖掘功能的例子。特征化是一個目標(biāo)類數(shù)據(jù)的一般特性或特性的匯總。例如,學(xué)生的特征可被提出,形成所有大學(xué)的計(jì)算機(jī)科學(xué)專業(yè)一年級學(xué)生的輪廓,這些特征包括作為一種高的年級平均成績(GPA:Gradepointaversge)的信息,還有所修的課程的最大數(shù)量。?.區(qū)分是將目標(biāo)類數(shù)據(jù)對象的一般特性與一個或多個比照類對象的一般特性進(jìn)行比擬。例如,具有高GPA的學(xué)生的一般特性可被用來與具有低GPA的一般特性比擬。最終的描述可能是學(xué)生的一個一般可比擬的輪廓,就像具有高GPA的學(xué)生的75%是四年級計(jì)算機(jī)科學(xué)專業(yè)的學(xué)生,而具有低GPA的學(xué)生的65%不是。?.關(guān)聯(lián)是指發(fā)現(xiàn)關(guān)聯(lián)規(guī)那么,這些規(guī)那么表示一起頻繁發(fā)生在給定數(shù)據(jù)集的特征值的條件。例如,一個數(shù)據(jù)挖掘系統(tǒng)可能發(fā)現(xiàn)的關(guān)聯(lián)規(guī)那么為:major(X,“computingscience〞)?owns(X,“personalcomputer〞)[support=12%,confidence=98%]其中,X是一個表示學(xué)生的變量。這個規(guī)那么指出正在學(xué)習(xí)的學(xué)生,12%〔支持度〕主修計(jì)算機(jī)科學(xué)并且擁有一臺個人計(jì)算機(jī)。這個組一個學(xué)生擁有一臺個人電腦的概率是98%〔置信度,或確定度〕。?.分類與預(yù)測不同,因?yàn)榍罢叩淖饔檬菢?gòu)造一系列能描述和區(qū)分?jǐn)?shù)據(jù)類型或概念的模型〔或功能〕,而后者是建立一個模型去預(yù)測缺失的或無效的、并且通常是數(shù)字的數(shù)據(jù)值。它們的相似性是他們都是預(yù)測的工具:分類被用作預(yù)測目標(biāo)數(shù)據(jù)的類的標(biāo)簽,而預(yù)測典型的應(yīng)用是預(yù)測缺失的數(shù)字型數(shù)據(jù)的值。?.聚類分析的數(shù)據(jù)對象不考慮的類標(biāo)號。對象根據(jù)最大花蕾內(nèi)部的相似性、最小化類之間的相似性的原那么進(jìn)行聚類或分組。形成的每一簇可以被看作一個對象類。聚類也便于分類法組織形式,將觀測組織成類分層結(jié)構(gòu),把類似的事件組織在一起。?.數(shù)據(jù)延邊分析描述和模型化隨時(shí)間變化的對象的規(guī)律或趨勢,盡管這可能包括時(shí)間相關(guān)數(shù)據(jù)的特征化、區(qū)分、關(guān)聯(lián)和相關(guān)分析、分類、或預(yù)測,這種分析的明確特征包括時(shí)間序列數(shù)據(jù)分析、序列或周期模式匹配、和基于相似性的數(shù)據(jù)分析二、2.2假設(shè)所分析的數(shù)據(jù)包括屬性age,它在數(shù)據(jù)元組中的值〔以遞増〕為13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70A)該數(shù)據(jù)的均值是多少?中位數(shù)是什么?B)該數(shù)據(jù)的眾數(shù)是什么?討論數(shù)據(jù)的模態(tài)〔即二模,三模等〕。C)該數(shù)據(jù)的中列數(shù)是多少D)你能〔粗略地〕找出該據(jù)的第一個四分位數(shù)〔Q1〕和第三個四分位數(shù)〔Q3〕嗎?E)給出該數(shù)據(jù)的五數(shù)概括。F)繪制出該數(shù)據(jù)的盒圖。G)分位數(shù)——分位數(shù)圖與分位數(shù)圖有何不同?解答:(a)該數(shù)據(jù)的均值是什么?中位數(shù)是什么?(b)該數(shù)據(jù)的眾數(shù)是什么?討論數(shù)據(jù)的峰〔即雙峰、三峰等〕。這個數(shù)集的眾數(shù)有兩個:25和35,發(fā)生在同樣最高的頻率處,因此是雙峰眾數(shù)。(c)數(shù)據(jù)的中列數(shù)是什么?數(shù)據(jù)的中列數(shù)是最大術(shù)和最小是的均值。即:midrange=(70+13)/2=41.5。(d)你能〔粗略地〕找出數(shù)據(jù)的第一個四分位數(shù)〔Q1〕和第三個四分位數(shù)〔Q3〕嗎?數(shù)據(jù)集的第一個四分位數(shù)應(yīng)發(fā)生在25%處,即在(N+1)/4=7處。所以:Q1=20。而第三個四分位數(shù)應(yīng)發(fā)生在75%處,即在3×(N+1)/4=21處。所以:Q3=35(e)給出數(shù)據(jù)的五數(shù)概括。一個數(shù)據(jù)集的分布的5數(shù)概括由最小值、第一個四分位數(shù)、中位數(shù)、第三個四分位數(shù)、和最大值構(gòu)成。它給出了分布形狀良好的匯總,并且這些數(shù)據(jù)是:13、20、25、35、70。(f)畫出數(shù)據(jù)的盒圖。略。(g)分位數(shù)—分位數(shù)圖與分位數(shù)圖的不同之處是什么?分位數(shù)圖是一種用來展示數(shù)據(jù)值低于或等于在一個單變量分布中獨(dú)立的變量的粗略百分比。這樣,他可以展示所有數(shù)的分位數(shù)信息,而為獨(dú)立變量測得的值〔縱軸〕相對于它們的分位數(shù)〔橫軸〕被描繪出來。但分位數(shù)—分位數(shù)圖用縱軸表示一種單變量分布的分位數(shù),用橫軸表示另一單變量分布的分位數(shù)。兩個坐標(biāo)軸顯示它們的測量值相應(yīng)分布的值域,且點(diǎn)按照兩種分布分位數(shù)值展示。一條線〔y=x〕可畫到圖中,以增加圖像的信息。落在該線以上的點(diǎn)表示在y軸上顯示的值的分布比x軸的相應(yīng)的等同分位數(shù)對應(yīng)的值的分布高。反之,對落在該線以下的點(diǎn)那么低。2.3設(shè)給定的數(shù)據(jù)集已經(jīng)分組到區(qū)間。這些區(qū)間和對應(yīng)頻率如下所示:Age frequency1-5 2006-15 45016-20 30021-50 150051-80 70080-110 44計(jì)算該數(shù)據(jù)的近似中位數(shù)。2.4假設(shè)醫(yī)院對18個隨機(jī)挑選的成年人檢查年齡和身體肥胖,得到如下結(jié)果:Age 23 23 27 27 39 41 47 49 50Fat 9.5 26.5 7.8 17.8 31.4 25.9 27.4 27.2 31.2Age 52 54 54 56 57 58 58 60 61Fat 34.6 42.5 28.8 33.4 30.2 34.1 32.9 41.2 35.7計(jì)算age和%fat的均值,中位數(shù)和標(biāo)準(zhǔn)差。繪制age和%fat的盒圖。繪制基于這兩個變量的散點(diǎn)圖和q-q圖。三3.3在習(xí)題2.2中,age包括如下值〔以遞增序〕:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.使用蔞3的箱,用箱均值光滑以上數(shù)據(jù)。說明你的步驟,討論這種技術(shù)對緞帶定數(shù)據(jù)的效果。如何確定該數(shù)據(jù)中的離群點(diǎn)?還有什么其他方法來光滑數(shù)據(jù)?(a)使用分箱均值光滑對以上數(shù)據(jù)進(jìn)行光滑,箱的深度為3。解釋你的步驟。評述對于給定的數(shù)據(jù),該技術(shù)的效果。用箱深度為3的分箱均值光滑對以上數(shù)據(jù)進(jìn)行光滑需要以下步驟:步驟1:對數(shù)據(jù)排序?!惨?yàn)閿?shù)據(jù)已被排序,所以此時(shí)不需要該步驟?!巢襟E2:將數(shù)據(jù)劃分到大小為3的等頻箱中。箱1:13,15,16箱2:16,19,20箱3:20,21,22箱4:22,25,25箱5:25,25,30箱6:33,33,35箱7:35,35,35箱8:36,40,45箱9:46,52,70步驟3:計(jì)算每個等頻箱的算數(shù)均值。步驟4:用各箱計(jì)算出的算數(shù)均值替換每箱中的每個值。箱1:44/3,44/3,44/3箱2:55/3,55/3,55/3箱3:21,21,21箱4:24,24,24箱5:80/3,80/3,80/3箱6:101/3,101/3,101/3箱7:35,35,35箱8:121/3,121/3,121/3箱9:56,56,56(b)如何確定數(shù)據(jù)中的離群點(diǎn)?聚類的方法可用來將相似的點(diǎn)分成組或“簇〞,并檢測離群點(diǎn)。落到簇的集外的值可以被視為離群點(diǎn)。作為選擇,一種人機(jī)結(jié)合的檢測可被采用,而計(jì)算機(jī)用一種事先決定的數(shù)據(jù)分布來區(qū)分可能的離群點(diǎn)。這些可能的離群點(diǎn)能被用人工輕松的檢驗(yàn),而不必檢查整個數(shù)據(jù)集。(c)對于數(shù)據(jù)光滑,還有哪些其他方法?其它可用來數(shù)據(jù)光滑的方法包括別的分箱光滑方法,如中位數(shù)光滑和箱邊界光滑。作為選擇,等寬箱可被用來執(zhí)行任何分箱方式,其中每個箱中的數(shù)據(jù)范圍均是常量。除了分箱方法外,可以使用回歸技術(shù)擬合成函數(shù)來光滑數(shù)據(jù),如通過線性或多線性回歸。分類技術(shù)也能被用來對概念分層,這是通過將低級概念上卷到高級概念來光滑數(shù)據(jù)。3.5如下標(biāo)準(zhǔn)化方法的值域是什么?最小-最大標(biāo)準(zhǔn)化Z分?jǐn)?shù)標(biāo)準(zhǔn)化。Z分?jǐn)?shù)標(biāo)準(zhǔn)化,使用均值絕對念頭而不是標(biāo)準(zhǔn)差。小數(shù)定標(biāo)標(biāo)準(zhǔn)化。(a)min-max標(biāo)準(zhǔn)化。值域是[new_min,new_max]。(b)z-score標(biāo)準(zhǔn)化。值域是[(old_min-mean)/σ,(old_max-mean)/σ],總的來說,對于所有可能的數(shù)據(jù)集的值域是(-∞,+∞)。(c)小數(shù)定標(biāo)標(biāo)準(zhǔn)化。值域是(-1.0,1.0)。3.6使用如下方法標(biāo)準(zhǔn)化如下數(shù)據(jù)組:200,300,400,600,1000min=0,max=1,最小-最大標(biāo)準(zhǔn)化。Z分?jǐn)?shù)標(biāo)準(zhǔn)化。Z分?jǐn)?shù)標(biāo)準(zhǔn)化,使用均值絕對偏差而不是標(biāo)準(zhǔn)差。小數(shù)定標(biāo)標(biāo)準(zhǔn)化。(a)min-max標(biāo)準(zhǔn)化。值域是[new_min,new_max]。(b)z-score標(biāo)準(zhǔn)化。值域是[(old_min-mean)/σ,(old_max-mean)/σ],總的來說,對于所有可能的數(shù)據(jù)集的值域是(-∞,+∞)。(c)小數(shù)定標(biāo)標(biāo)準(zhǔn)化。值域是(-1.0,1.0)。4.1試述對于多個異構(gòu)信息源的集成,為什么許多公司更愿意使用更新驅(qū)動的方法〔構(gòu)造和使用數(shù)據(jù)倉庫〕,而不是查詢驅(qū)動的方法〔使用包裝程序和集成程序〕。描述一些查詢驅(qū)動方法比更新驅(qū)動方法更可取的情況。答:因?yàn)閷τ诙鄠€異種信息源的集成,查詢驅(qū)動方法需要復(fù)雜的信息過濾和集成處理,并且與局部數(shù)據(jù)源上的處理競爭資源,是一種低效的方法,并且對于頻繁的查詢,特別是需要聚集操作的查詢,開銷很大。而更新驅(qū)動方法為集成的異種數(shù)據(jù)庫系統(tǒng)帶來了高性能,因?yàn)閿?shù)據(jù)被處理和重新組織到一個語義一致的數(shù)據(jù)存儲中,進(jìn)行查詢的同時(shí)并不影響局部數(shù)據(jù)源上進(jìn)行的處理。此外,數(shù)據(jù)倉庫存儲并集成歷史信息,支持復(fù)雜的多維查詢。4.2簡略比擬以下概念,可以用例子解釋你的觀點(diǎn)。雪花模式、事實(shí)星座、星網(wǎng)查詢模型。數(shù)據(jù)清理、數(shù)據(jù)變換、刷新。發(fā)現(xiàn)驅(qū)動的立方體、多特征冷言冷語腐朽、虛擬倉庫雪花形模式、事實(shí)星座形、星形網(wǎng)查詢模型。答:雪花形和事實(shí)星形模式都是變形的星形模式,都是由事實(shí)表和維表組成,雪花形模式的維表都是標(biāo)準(zhǔn)化的;而事實(shí)星座形的某幾個事實(shí)表可能會共享一些維表;星形網(wǎng)查詢模型是一個查詢模型而不是模式模型,它是由中心點(diǎn)發(fā)出的涉嫌組成,其中每一條射線代表一個維的概念分層。數(shù)據(jù)清理、數(shù)據(jù)變換、刷新答:數(shù)據(jù)清理是指檢測數(shù)據(jù)中的錯誤,可能時(shí)訂正它們;數(shù)據(jù)變換是將數(shù)據(jù)由遺產(chǎn)或宿主格式轉(zhuǎn)換成數(shù)據(jù)倉庫格式;刷新是指傳播由數(shù)據(jù)源到數(shù)據(jù)倉庫的更新。4.5假定數(shù)據(jù)倉庫包含4個維——date,spectator,location,game,2個度量——count和charge,其中charge是觀眾在給定的日期觀看節(jié)目的費(fèi)用。觀眾可以是學(xué)生、成年人或老年人,每類觀眾有不同的收費(fèi)標(biāo)準(zhǔn)。畫出該數(shù)據(jù)倉庫的星形模式圖由根本方體【date,spectator,location,game】開始,為列出2023年學(xué)生觀眾在GM_place的總付費(fèi),應(yīng)當(dāng)執(zhí)行哪些OLAP操作?對于數(shù)據(jù)倉庫,位圖是有用的。以該數(shù)據(jù)立方體為例,簡略討論使用位圖索引結(jié)構(gòu)的優(yōu)點(diǎn)和問題。6.3Apriori算法使用子集支持度性質(zhì)的先驗(yàn)知識。證明頻繁項(xiàng)集的所有非空子集一定也是頻繁的。證明項(xiàng)集s的任意非空子集s’的支持度至少與s的支持度一樣大。給定頻繁項(xiàng)集l和l的子集s,證明規(guī)那么“s=>l(s’)〞的置信度不可能大于“s=>l(s)〞的置信度。其中,s’是s的子集Apriori算法的一種變形將事務(wù)數(shù)據(jù)庫D中的事務(wù)劃分成n個不重疊的分區(qū)。證明在D中頻繁的項(xiàng)集至少在D的一個分區(qū)中是頻繁的。1.證明頻繁集的所有非空子集必須也是頻繁的。

證明:根據(jù)定義,如果項(xiàng)集I不滿足最小支持度閾值min_sup,那么I不是頻繁的,即supmin_)(IP如果A想添加到I,那么結(jié)果項(xiàng)集不可能不更頻繁出現(xiàn)。因此,也不是頻繁的,即矛盾。

2.同理可證。36.6數(shù)據(jù)庫有5個事務(wù)。設(shè)min_sup=6-%,min_conf=80%。TID 購置的商品T100 {M,O,N,K,E,Y}T200 {D,O,N,K,E,Y}T300 {M,A,K,E}T400 {M,U,C,K,Y}T500 {C,O,O,K,I,E}分別使用Apriori算法和FP-growth算法找出頻繁項(xiàng)集。比擬兩種挖掘過程的有效性。列舉所有與下面元規(guī)那么匹配的強(qiáng)關(guān)聯(lián)規(guī)那么〔緞帶出支持度s和置信度c〕,其中,X是代表太陽穴的變量,item,是表示項(xiàng)的變量〔如“A〞,“B〞等〕:≯x∈transaction,buys(X,item1)∧buys〔X,item2〕=>buys(X,itm3)[s,c]6.8數(shù)據(jù)庫有4個事務(wù)。設(shè)min_sup=60%,min_conf=80%。Cust_ID TID 購置的商品〔以brand-item_category形式〕01 T100 {King’s-Carb,Sunset-Milk,Dairyland-Cheese,best-Bread}02 T200 {Best-Cheese,Dairyland-Milk,Goldenfarm-Apple,Tasty-Pie,Wonder-Bread}01 T300 {Westcoast-Apple,Dairyland-Milk,Wonder-Bread,Tasty-Pie}03 T400 {Wonder-Bread,Sunset-Milk,Dairyland-Cheese}在item_category粒度〔例如,item,所可能已經(jīng)〞milk〞),對于下面的規(guī)那么模板≯x∈transaction,buys(X,item1)∧buys(X,item2)=>buys(X,item3)[s,c]列出最大k的頻繁k項(xiàng)集和包含最大k的頻繁k諅的所有強(qiáng)關(guān)聯(lián)規(guī)那么〔包括它們的支持度s和置信度c〕。(b)在brand-item_category粒度〔例如,itemi可以是Sunset-Milk〕,對于下面的規(guī)那么模板≯x∈customer,buys(X,item1)∧buys(X,item2)=>buys(X,item3)列出最大k的頻繁k項(xiàng)集〔但不輸出任何規(guī)那么〕7.3量化關(guān)聯(lián)規(guī)那么可能提示數(shù)據(jù)集中的異常行為,其中“異常〞可以根據(jù)統(tǒng)計(jì)學(xué)理論定義。例如,7.2.3節(jié)說明關(guān)聯(lián)規(guī)那么Sex=female∧meanwage=7,90$/h(overallmeanwage=9.02$/h〕暗示一個異常模式。該規(guī)那么說明,女性的平均工資每小時(shí)只有7.90美元,顯著地于每小時(shí)9.02美元的總體平均工資。討論如何在具有量化屬性的大型數(shù)據(jù)集中系統(tǒng)而有效地發(fā)現(xiàn)這種量化規(guī)那么。8.1簡述決策樹分類的主要步驟。8.7下表由雇員數(shù)據(jù)庫的訓(xùn)練數(shù)據(jù)組成。數(shù)據(jù)已泛化。例如,age“31...35〞表示年齡在31-35之間。對于給定的行,count表department、status、age和salary在該行上具有給定值的元組數(shù)。Department status age salary countSales senior 31-35 46k-50k 30 Sales junior 26-30 26-30k 40Sales junior 31-35 31-35k 40Systems junior 21-25 46-50k 20Systems senior 31-35 66-70k 5Systems junior 26-30 46-50k 3Systems senior 41-45 66-70k 3Marketing senior 36-40 46-50k 10Marketing junior 31-35 41-45k 4Secretary senior 46-50 36-40k 4Secretary junior 26-30 26-30k 6如何修改根本決策樹算法,以便考慮每個廣義數(shù)據(jù)元組〔即每個行〕的count?使用修改正的算法,構(gòu)造繃帶定數(shù)據(jù)的決策樹給定一個數(shù)據(jù)元組,它的屬性department、age和salary的值分別為“system〞“26…30〞和“46…60〞。該元級status的相互貝葉斯分類是什么?解一:設(shè)元組的各個屬性之間相互獨(dú)立,所以先求每個屬性的類條件概率:P(systems|junior)=(20+3)/(40+40+20+3+4+6)=23/113;P(26-30|junior)=(40+3+6)/113=49/113;P(46K-50K|junior)=(20+3)/113=23/113;∵X=(department=system,age=26…30,salary=46K…50K);∴P(X|junior)=P(systems|junior)P(26-30|junior)P(46K-50K|junior)=23×49×23/1133=25921/1442897=0.01796;P(systems|senior)=(5+3)/(30+5+3+10+4)=23/52;P(26-30|senior)=(0)/53=0;P(46K-50K|senior)=(30+10)/52=40/52;∵X=(department=system,age=26…30,salary=46K…50K);∴

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論