最新數(shù)據(jù)倉庫復(fù)習(xí)提綱講課稿_第1頁
最新數(shù)據(jù)倉庫復(fù)習(xí)提綱講課稿_第2頁
最新數(shù)據(jù)倉庫復(fù)習(xí)提綱講課稿_第3頁
最新數(shù)據(jù)倉庫復(fù)習(xí)提綱講課稿_第4頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、學(xué)習(xí)資料數(shù)據(jù)庫應(yīng)用技術(shù)(數(shù)據(jù)倉庫與數(shù)據(jù)挖掘復(fù)習(xí)提綱)說明:考試形式:閉卷考試題型:填空、選擇、判斷、名詞解釋、簡答題、綜合題。 (由于試題是隨機(jī)從試題庫中抽取,有可能抽取的試題中不會全部包含上述的所有題型)另外:本提綱僅針對試題中的名詞解釋、簡答題和綜合題提供復(fù)習(xí)參考,不包括填空、選擇、判斷等其它題型的參考。一、名詞解釋:1、 數(shù)據(jù)倉庫:是面向主題的、綜合的、不同時間的、穩(wěn)定的數(shù)據(jù)的集合,用以支持經(jīng)營管理中的決策制定過程;2、 數(shù)據(jù)挖掘:就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可以理解的模式的過程;簡單的說是從大量數(shù)據(jù)中提取或挖掘知識,又被稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)。3、 操作數(shù)據(jù)存儲

2、: 是一種 DW 的混合形式, 它面向主題的、 及時的、 最近的和集成的信息,用于支持企業(yè)的日常的全局應(yīng)用和決策制定,其中數(shù)據(jù)可以作為DW 的通用數(shù)據(jù)源。4、 OLAP :是數(shù)據(jù)庫系統(tǒng)主要應(yīng)用,支持復(fù)雜的分析操作,側(cè)重決策支持,且提供直觀易懂的結(jié)果。5、 商業(yè)智能:是數(shù)據(jù)倉庫(DW )、聯(lián)機(jī)分析處理(OLAP )、數(shù)據(jù)挖掘等技術(shù)與資源管理系統(tǒng) ERP 結(jié)合起來應(yīng)用于商業(yè)活動實(shí)際過程中,實(shí)現(xiàn)了技術(shù)服務(wù)于決策的目的。二、簡答題:1、 試敘述數(shù)據(jù)倉庫系統(tǒng)與傳統(tǒng)數(shù)據(jù)庫系統(tǒng)的區(qū)別:( 1)、操作型數(shù)據(jù)庫中的數(shù)據(jù)針對事務(wù)處理任務(wù), 各個業(yè)務(wù)系統(tǒng)之間各自分離, 而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織的

3、;( 2)、操作型數(shù)據(jù)庫通常與某些特定的應(yīng)用相關(guān),數(shù)據(jù)庫之間相互獨(dú)立, 并且往往是并構(gòu)的,而數(shù)據(jù)倉庫中的數(shù)據(jù)在對原有分期的數(shù)據(jù)庫數(shù)據(jù)做抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)的加工、匯總和整理得到的;( 3)、操作型數(shù)據(jù)庫中的數(shù)據(jù)通常實(shí)時更新,數(shù)據(jù)根據(jù)需要及時發(fā)生變化, 數(shù)據(jù)倉庫的數(shù)據(jù)主要用于決策分析, 對涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢和定期更細(xì), 一旦某個數(shù)據(jù)加載到數(shù)據(jù)倉庫以后,一般情況下將作為數(shù)據(jù)檔案長期保存;( 4)、操作型數(shù)據(jù)庫主要關(guān)心當(dāng)前某一個時間段內(nèi)的數(shù)據(jù), 而數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含較久遠(yuǎn)的歷史單位,因此總是包括一個時間維,以便可以研究趨勢和變化。2、試敘述數(shù)據(jù)倉庫設(shè)計的步驟及每一步完成的工作:

4、( 1)、概念模型:界定系統(tǒng)的邊界;確定主要的主題域;( 2)、技術(shù)準(zhǔn)備工作:技術(shù)評估;技術(shù)環(huán)境準(zhǔn)備;( 3)、邏輯模型設(shè)計:分析主題域;粒度層次的劃分;確定數(shù)據(jù)分割策略;關(guān)系模式定義;定義記錄系統(tǒng);( 4)、物理模型設(shè)計:確定數(shù)據(jù)存儲結(jié)構(gòu);確定索引策略;確定數(shù)據(jù)存放位置;確定存儲分配;( 5)、數(shù)據(jù)倉庫生成:設(shè)計接口和數(shù)據(jù)裝入;( 6)、數(shù)據(jù)倉庫的使用和維護(hù):建立DSS;不斷理解需求和完善系統(tǒng);維護(hù)DW ;精品文檔學(xué)習(xí)資料3、 OLAP 與 OLTP 的區(qū)別有哪些?它們適合于運(yùn)行在同一個服務(wù)器上嗎?為什么?OLTPOLAP用戶操作人員 ,低層管理人員決策人員 ,高級管理人員功能日常操作處理分

5、析決策DB 設(shè)計面向應(yīng)用面向主題數(shù)據(jù)當(dāng)前的 , 最新的細(xì)節(jié)的 ,歷史的 , 聚集的 ,二維的分立的多維的集成的 , 統(tǒng)一的存取讀 / 寫數(shù)十條記錄讀上百萬條記錄工作單位簡單的事務(wù)復(fù)雜的查詢用戶數(shù)上千個上百萬個DB 大小100MB-GB100GB-TB時間要求具有實(shí)時性對時間的要求不嚴(yán)格主要應(yīng)用數(shù)據(jù)庫數(shù)據(jù)倉庫4、為什么要進(jìn)行數(shù)據(jù)的預(yù)處理及其方法:(適當(dāng)舉例即可)(1)、在現(xiàn)實(shí)社會中,存在著大量的“臟”數(shù)據(jù)1)、不完整性:缺少感興趣的屬性;感興趣的屬性缺少部分屬性值;僅僅包含聚合數(shù)據(jù),沒有詳細(xì)數(shù)據(jù);2)、噪音數(shù)據(jù):數(shù)據(jù)中包含錯誤的信息;存在著部分偏離期望值的孤立點(diǎn);3)、不一致性數(shù)據(jù)結(jié)構(gòu)的不一致性

6、;Label 的不一致性;數(shù)據(jù)值的不一致性;( 2)、數(shù)據(jù)挖掘的數(shù)據(jù)源可能是多個互相獨(dú)立的數(shù)據(jù)源關(guān)系數(shù)據(jù)庫;多維數(shù)據(jù)庫( Data Cube);文件、文檔數(shù)據(jù)庫( 3)、數(shù)據(jù)轉(zhuǎn)換為了數(shù)據(jù)挖掘的方便( 4)、海量數(shù)據(jù)的處理數(shù)據(jù)歸約(在獲得相同或者相似結(jié)果的前提下)數(shù)據(jù)預(yù)處理的方法:( 1)、數(shù)據(jù)清理填入缺失數(shù)據(jù);平滑噪音數(shù)據(jù);確認(rèn)和去除孤立點(diǎn);解決不一致性;( 2)、數(shù)據(jù)集成多個數(shù)據(jù)庫、 Data Cube 和文件系統(tǒng)的集成;( 3)、數(shù)據(jù)轉(zhuǎn)換規(guī)范化、聚集等;( 4)、數(shù)據(jù)歸約在可能獲得相同或相似結(jié)果的前提下,對數(shù)據(jù)的容量進(jìn)行有效的縮減;( 5)、數(shù)據(jù)離散化對于一個特定的連續(xù)屬性, 尤其是連續(xù)的

7、數(shù)字屬性, 可以把屬性值劃分成若干區(qū)間, 以區(qū)間值來代替實(shí)際數(shù)據(jù)值,以減少屬性值的個數(shù)。5、在現(xiàn)實(shí)世界的數(shù)據(jù)中, 元組在某些屬性上缺少值是常有的。 描述處理該問題的各種方法。6、對于類特征化,基于數(shù)據(jù)立方體的實(shí)現(xiàn)與諸如面向?qū)傩詺w納的關(guān)系實(shí)現(xiàn)之間的主要不同是什么?討論哪種方法最有效,在什么條件下最有效。精品文檔學(xué)習(xí)資料7、數(shù)據(jù)倉庫和數(shù)據(jù)集市的區(qū)別是什么?數(shù)據(jù)倉庫的體系環(huán)境具有什么特點(diǎn)?有哪些建立數(shù)據(jù)倉庫體系化環(huán)境的方法?它們各有何優(yōu)劣?8、 為了提高數(shù)據(jù)倉庫的性能,可以在哪些方面作一些努力?在各個方面分別采用什么樣的技術(shù)?這些技術(shù)易于實(shí)現(xiàn)嗎?9、數(shù)據(jù)倉庫中的數(shù)據(jù)是數(shù)據(jù)庫中數(shù)據(jù)的簡單堆積嗎?它有哪

8、些常用的數(shù)據(jù)組織方式?(1)、簡單堆積文件(2)、輪轉(zhuǎn)綜合文件(3)、簡單直接文件(4)、連續(xù)文件10、一般來說, 數(shù)據(jù)倉庫采用什么樣的數(shù)據(jù)模型?與OLTP 的數(shù)據(jù)庫模型相比,這些模型有什么特點(diǎn)?11、數(shù)據(jù)倉庫的設(shè)計包括哪些內(nèi)容?收集、 分析和確認(rèn)業(yè)務(wù)分析需求,分析和理解主題和元數(shù)據(jù), 事實(shí)及其量度,粒度和維度的選擇與設(shè)計,數(shù)據(jù)倉庫的物理存儲方式的設(shè)計等。12、在內(nèi)容和使用者方面,數(shù)據(jù)倉庫環(huán)境中的元數(shù)據(jù)與操作型環(huán)境中的元數(shù)據(jù)有何異同?內(nèi)容:( 1)、DW 的主題描述:主題名,公共碼鍵,描述信息等;( 2)、外部數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的描述:外部數(shù)據(jù)源名,存儲地點(diǎn),存儲內(nèi)容描述;( 3)、記錄系統(tǒng)定

9、義:主題名,屬性名,數(shù)據(jù)源系統(tǒng),源表名,源屬性名;( 4)、邏輯模型的定義:關(guān)系名,屬性1, ,屬性 n;( 5)、數(shù)據(jù)進(jìn)入 DW 的轉(zhuǎn)換規(guī)則;( 6)、數(shù)據(jù)的抽取歷史;( 7)、粒度的定義;( 8)、數(shù)據(jù)分割的定義;( 9)、廣義索引:廣義索引名,屬性1, ,屬性 n;( 10)、有關(guān)存儲路徑和結(jié)構(gòu)的描述。定義:元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù),它描述了數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容、碼、索引等項(xiàng)內(nèi)容。功能:(1)、元數(shù)據(jù)為決策人員訪問 DW 提供直接或輔助信息;(2)、元數(shù)據(jù)描述和管理從 DBS 到 DW 的數(shù)據(jù)轉(zhuǎn)換;(3)、元數(shù)據(jù)要管理 DW 中的數(shù)據(jù)。13、什么是維、維層次、維成員?舉例說明:維:觀察數(shù)據(jù)的特

10、定角度,比如時間維;維層次:數(shù)據(jù)的維可以存在細(xì)節(jié)程度不同的多個描述方面,比如時間維可以由日期、月份、季度、年等不同的層次來描述;維成員: 維的一個取值稱為該維的一個維成員。若一個維是多層次的,則該維的維成員是在不同維層次的取值的組合,比如2014 年夏季 6 月 22 日;14、 OLAP 提供哪些基本操作?( 1)、切片:選定二維數(shù)組的一個二維子集的動作;( 2)、切塊:選定二維數(shù)組的一個三維子集的動作;( 3)、旋轉(zhuǎn):改變一個頁面顯示的維方向的操作;( 4)、上卷:通過一個維的概念分層向上攀升或者通過維歸約,在數(shù)據(jù)立方體上進(jìn)行聚集。( 5)、下鉆:下鉆是上卷的逆操作,它由不太詳細(xì)的數(shù)據(jù)到更

11、詳細(xì)的數(shù)據(jù)。下鉆可以通過沿維的概念分層向下或引入新的維來實(shí)現(xiàn)。( 6)、查詢多維數(shù)據(jù)庫的星型網(wǎng)查詢模型: 多維數(shù)據(jù)庫查詢也可以基于星型網(wǎng)模型。 星型網(wǎng)由從中點(diǎn)發(fā)出的射線組成,其中每一條射線代表一個維概念分層。精品文檔學(xué)習(xí)資料15、 OLAP 服務(wù)器有哪些實(shí)現(xiàn)方法?它們的優(yōu)劣是什么?(1)、關(guān)系 OLAP (ROLAP )服務(wù)器優(yōu)勢:沒有大小限制;現(xiàn)有的關(guān)系數(shù)據(jù)庫技術(shù)可以沿用;可以通過SQL 實(shí)現(xiàn)詳細(xì)數(shù)據(jù)與概要數(shù)據(jù)的存儲;現(xiàn)有數(shù)據(jù)庫已經(jīng)對OLAP做了很多優(yōu)化,包括并行存儲,并行查詢,并行數(shù)據(jù)管理,基于成本的查詢優(yōu)化,位圖索引、SQL 的 OLAP 擴(kuò)展等大大提高了OLAP 的速度。缺點(diǎn):一般比

12、MDD 相應(yīng)的速度慢; 不支持有關(guān)預(yù)計算的讀寫操作;SQL 無法完成部分計算:無法完成多行的計算;無法完成維之間的計算。(2)、多維 OLAP (MOLAP )服務(wù)器優(yōu)勢:性能好,相應(yīng)速度快;專為 OLAP 所設(shè)計支持高性能的決策支持計算,如:復(fù)雜的跨維的計算;多用戶的讀寫操作;行級的計算。缺點(diǎn): 增加系統(tǒng)復(fù)雜度, 增加系統(tǒng)培訓(xùn)及維護(hù)費(fèi)用;受操作系統(tǒng)平臺中文件大小的限制,難以達(dá)到 TB 級( 10-20G)需要進(jìn)行預(yù)計算,可能導(dǎo)致數(shù)據(jù)爆炸;無法支持維的動態(tài)變化,缺乏數(shù)據(jù)模型和數(shù)據(jù)訪問的標(biāo)準(zhǔn)。( 3)、混合 OLAP (HOLAP )服務(wù)器16、為什么不能依靠傳統(tǒng)的業(yè)務(wù)處理系統(tǒng)決策分析?(1)、

13、所有聯(lián)機(jī)事務(wù)處理強(qiáng)調(diào)的是密集的數(shù)據(jù)更新處理性能和系統(tǒng)的可靠性, 并不太關(guān)心數(shù)據(jù)查詢的方便與快捷。( 2)、業(yè)務(wù)數(shù)據(jù)往往被存放于分散的衣鉤環(huán)境中, 不易統(tǒng)一查詢問題, 而且還有大量的歷史數(shù)據(jù)處于脫機(jī)狀態(tài),形同虛設(shè)。( 3)、業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)庫模式針對事務(wù)處理系統(tǒng)而設(shè)計, 數(shù)據(jù)的格式和描述方式并不太適合非計算機(jī)專業(yè)人員進(jìn)行業(yè)務(wù)上的分析和統(tǒng)計。17、自然演化體系結(jié)構(gòu)中存在的問題( 1)、 “蜘蛛網(wǎng)”問題;( 2)、數(shù)據(jù)缺乏可信性: a、數(shù)據(jù)無時機(jī); b、數(shù)據(jù)算法上的差異; c、抽取的多層; d、外部數(shù)據(jù)問題;( 3)、生產(chǎn)問題:生產(chǎn)率低;( 4)、從信息到數(shù)據(jù)的轉(zhuǎn)換不可行性:a、集成化問題; b、沒有

14、足夠的歷史數(shù)據(jù)18、試述建立多維數(shù)據(jù)庫的過程( 1)、選擇主題域及其主題域的商業(yè)過程;( 2)、確定事實(shí)表的粒度;( 3)、區(qū)分每一個事實(shí)表的維層次;( 4)、區(qū)分事實(shí)表的度量;( 5)、確定每一個維表的屬性;( 6)、讓用戶驗(yàn)證數(shù)據(jù)類型。19、數(shù)據(jù)挖掘的主要方法統(tǒng)計分析方法、決策樹、人工神經(jīng)網(wǎng)絡(luò)、基因算法、粗糙集、聯(lián)機(jī)分析處理技術(shù)20、數(shù)據(jù)挖掘中的數(shù)據(jù)分類是個兩步過程,簡述每步過程( 1)、學(xué)習(xí):建立一個模型,描述預(yù)定的數(shù)據(jù)類集或概念集,該模型是通過分析由屬性描述的 DB 元組而構(gòu)造的。假定每個元組屬于一個預(yù)定義的類,由類標(biāo)號屬性確定。為建立模型所使用的元組形成訓(xùn)練數(shù)據(jù)集。 其中的單個元組稱

15、作訓(xùn)練樣本, 并隨機(jī)地由樣本群選取。 由于提供了每個訓(xùn)練樣本的類標(biāo)號,該步也稱作有指導(dǎo)的學(xué)習(xí)。( 2)、分類:首先評估模型(分類法)的預(yù)測準(zhǔn)確率。保持方法是一種使用類標(biāo)號樣本測試集的簡單方法。 這些樣本隨機(jī)選取, 并獨(dú)立于訓(xùn)練樣本。 模型在給定測試集上的準(zhǔn)確率是正精品文檔學(xué)習(xí)資料確被模型分類的測試樣本的百分比。 對于每個測試樣本, 將已知的類標(biāo)號與該樣本的學(xué)習(xí)模型類預(yù)測比較。21、 試述商業(yè)智能系統(tǒng)的演化過程( 1)、第一代:基于主機(jī)的查詢與報表、面向?qū)<以缙诘纳虅?wù)信息系統(tǒng)使用批處理應(yīng)用程序?yàn)樯虡I(yè)用戶提供它們所需的信息。第一代的商務(wù)信息系統(tǒng)只能被諸如業(yè)務(wù)分析人員之類的熟悉數(shù)據(jù)且有相當(dāng)計算機(jī)經(jīng)驗(yàn)

16、的人員使用。管理人員很少能夠使用這些早期的系統(tǒng), 他們必須依靠信息提供者來解答他們的問題, 并給他們所需要的信息。( 2)、第二代 : 數(shù)據(jù)倉庫第二代信息系統(tǒng)應(yīng)用了數(shù)據(jù)倉庫技術(shù)。從而使性能有了一個飛躍。( 3)、第三代:商業(yè)智能數(shù)據(jù)倉庫仍然不能完全解決商業(yè)用戶的需求問題。22、 ODS 與 DW 的區(qū)別:(1)、存放的數(shù)據(jù)內(nèi)容不同(最大差別)ODS :當(dāng)前或接近當(dāng)前數(shù)據(jù),細(xì)節(jié)數(shù)據(jù),可聯(lián)機(jī)更新DW : 歷史數(shù)據(jù),細(xì)節(jié)數(shù)據(jù)和綜合數(shù)據(jù),不可變快照( 2)、數(shù)據(jù)量是不同等級( 3)、技術(shù)支持不同ODS: 要支持面向記錄的聯(lián)機(jī)更新,又要保證數(shù)據(jù)與源數(shù)據(jù)庫系統(tǒng)中數(shù)據(jù)的一致性,需要的技術(shù)支持同面向應(yīng)用的 D

17、BS 的一樣復(fù)雜。DW: 只需支持裝入和存取。(4)、面向的需求不同ODS: 滿足企業(yè)的全局應(yīng)用(企業(yè)級OLTP 和即時 OLAP )或作為 DW 的通用數(shù)據(jù)源。DW :長期趨勢分析或戰(zhàn)略決策。(5)、用戶不同ODS :企業(yè)的中層管理者。DW :DSS 分析員或企業(yè)高級決策者。23、 ODS 的作用( 1)、在 ODS 上可實(shí)現(xiàn)企業(yè)級的 OLTP( 2)、在 ODS 上可實(shí)現(xiàn)即時 OLAP( 3)、分層 ODS 體系24、 ODS 在 DB-ODS-DW 三層體系結(jié)構(gòu)的作用( 1)、一方面,在原來獨(dú)立的各個 DB 基礎(chǔ)上建立了一個一致的、面向主題的數(shù)據(jù)環(huán)境,使原有的 DBS 得到改造。( 2)

18、、另一面, ODS 將 DW 和 DB 隔離開,使 DW 卸去數(shù)據(jù)集成,結(jié)構(gòu)轉(zhuǎn)換等一系列負(fù)擔(dān),使往 DW 的數(shù)據(jù)追加通過 ODS 進(jìn)行從而變得異常簡單, 大大簡化了 DW 的數(shù)據(jù)傳輸接口及DW 管理數(shù)據(jù)的復(fù)雜度。(3)、由于數(shù)據(jù)已經(jīng)過ODS 集成,并且是面向主題組織的,所以所作的變換僅限于數(shù)據(jù)模式上某些差異的轉(zhuǎn)換,以及對碼結(jié)構(gòu)的改造。這樣使得DW 與操作型環(huán)境的界面變得簡單了。25、概念分層最常用的兩種類型( 1)、概念分層:以 DB 模式中屬性的全序或偏序來定義的概念分層稱作模式分層。( 2)、集合分組分層:通過將給定維或?qū)傩缘闹惦x散化或分組來定義概念分層。精品文檔學(xué)習(xí)資料26、試述維層次和

19、類的概念有什么不同1)維層次和類表達(dá)的意義不同維層次:是維所描述的變量的不同綜合層次。類:某一子集維成員的共同特征。2)在層次和類上進(jìn)行分析的動作不同按維層次關(guān)系分析從維低層到高層的數(shù)據(jù)綜合分析;從維高層到低層的數(shù)據(jù)鉆取分析。按維成員的類分析分類(選擇類屬性分類)歸納(歸納出類的共同特征)三、計算題1、 假設(shè)有如下的“雇員基本信息”表的結(jié)構(gòu)及數(shù)據(jù),其中屬性“工資”為類別標(biāo)識屬性,屬性“部門” 、“職位”、“年齡”作為決策屬性集,其中屬性“年齡”與“工資”以離散化,表中給出的是離散化后的數(shù)據(jù),屬性“工資”列中同時給出了相應(yīng)元組的類別屬性部門職位年齡工資銷售部高級31 4041K 55K C2銷售

20、部初級21 3026K 40K C3銷售部初級31 4026K 40K C3系統(tǒng)部初級21 3041K 55K C2系統(tǒng)部高級31 4056K 70K C1系統(tǒng)部初級21 3041K 55K C2系統(tǒng)部高級41 5056K 70K C1市場部高級31 4041K 55K C2市場部初級31 4041K 55K C2秘書處高級41 5026K 40K C3秘書處初級21 3026K 40K C3根據(jù)示例中的類別標(biāo)識屬性的取值,將該示例分為3 類(即 m=3 ),分別是c1、c2、c3。訓(xùn)練樣本數(shù)據(jù)集S 中,共有 11 個元組,其中c1、 c2、 c3 類所對應(yīng)的子集R1、R2、R3中元組的個數(shù)分

21、別為r1=2 、 r2=5 、 r3=4 。計算得到集合S 的關(guān)于分類的期望信息量:對每一個決策屬性計算其期望信息量(即熵值):對屬性“部門”有:當(dāng)部門 =銷售部時:s11=0, s21=1, s31=2, I ( s11, s21, S31) =0.918;當(dāng)部門 =系統(tǒng)部時:s12=2, s22=2, s32=0, I ( s12, s22, S32) =1 ;當(dāng)部門 =市場部時: s13=0, s23=2, s33=0, I ( s13, s23, S33) =0 ;當(dāng)部門 =秘書處時: s14=0, s24=0, s34=2, I ( s14, s24, S34) =0 ;由此得出屬性

22、“部門”的熵值:精品文檔學(xué)習(xí)資料因此屬性“部門”的信息增益為:Gain(部門) =I ( r1,r2,r3) -E(部門) =0.881 ;同理,可以分別得到屬性“職位”及“年齡”的信息增益:Gain(職位) =0.243;Gain(年齡) =0.326。由于屬性“部門”具有最大的信息增益值,故而選擇該屬性作為決策樹的根節(jié)點(diǎn)。對應(yīng)每一個分枝,重復(fù)上述步驟,例如,對于分枝:屬性部門 = “銷售部”來說,可以生成下表給出的子集, 對該子集重復(fù)上述屬性選擇操作。 依次對其他分枝進(jìn)行相同操作,可得到一個完整的決策樹。之后就可以對該決策樹進(jìn)行剪枝操作了。部門職位年齡工資銷售部高級31 4041K 55K

23、 C2銷售部初級21 3026K 40K C3銷售部初級31 4026K 40K C3決策樹:通過簡單貝葉斯分類對未知數(shù)據(jù)進(jìn)行分類:P(C1)=2/11=0.1818P(C2)=5/11=0.4545P(C3)=4/11=0.3636P(部門 = 系統(tǒng)部 |C1 ) =2/2=1P(部門 = 系統(tǒng)部 |C2 ) =2/5=0.4P(部門 = 系統(tǒng)部 |C3 ) =0/4=0P(職位 = 高級 |C1 )=2/2=1P(職位 = 高級 |C2 )=2/5=0.4P(職位 = 高級 |C3 )=1/4=0.25P(年齡 = 21 30 |C 1) =0P(年齡 = 21 30 |C2 ) =2/5

24、=0.4P(年齡 = 21 30 |C3 ) =2/4=0.5有上述結(jié)果可導(dǎo)出P(X|C1 )=0P(X|C2 )=0.4× 0.4× 0.4=0.064P(X|C3 )=0P(X|C1 )P( C1) =0精品文檔學(xué)習(xí)資料P(X|C2 )P( C2) =0.064× 0.4545=0.029P(X|C1 )P( C3) =0簡單貝葉斯分類方法的預(yù)測結(jié)果是該未知訓(xùn)練樣本數(shù)據(jù)有可能屬于C2 類,該結(jié)果表示對于年齡在21 30 歲之間,所屬部門是系統(tǒng)部同時其職位屬于高級的員工的工資水平最有可能在41K 55K 之間。2、 假設(shè)現(xiàn)有如下所示的一個事務(wù)數(shù)據(jù)庫,數(shù)據(jù)庫中有1

25、0 個事務(wù),即 |D|=10 。假定這些事務(wù)中的項(xiàng)按順序存放。最小支持度minsup=20% ,最小置信度閾值minconf=65% ,求出強(qiáng)關(guān)聯(lián)規(guī)則。TID項(xiàng)列表T11,2,5T21,2T32,4T41,2,4T51,3T61,2,3,5T71,2,3T82,5T92,3,4T103,4利用 Apriori 算法產(chǎn)生頻繁項(xiàng)集的過程如下:(1)由 I=1,2,3,4,5 的所有項(xiàng)目直接產(chǎn)生 1-候選項(xiàng)集 C1,計算其支持度。 去除支持度小于 supmin 的項(xiàng)集,形成 1-頻繁集 L1,如下表所示:項(xiàng)集 C1支持度項(xiàng)集 L1支持度16/1016/1028/1028/1035/1035/1044/1044/1053/1053/10(2) 為發(fā)現(xiàn)頻繁2-項(xiàng)集 L2,首先利用L1 中的各項(xiàng)目組

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論