數(shù)據(jù)挖掘概念與技術(shù)(第三版)課后答案-第四章_第1頁
數(shù)據(jù)挖掘概念與技術(shù)(第三版)課后答案-第四章_第2頁
數(shù)據(jù)挖掘概念與技術(shù)(第三版)課后答案-第四章_第3頁
數(shù)據(jù)挖掘概念與技術(shù)(第三版)課后答案-第四章_第4頁
數(shù)據(jù)挖掘概念與技術(shù)(第三版)課后答案-第四章_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、數(shù)據(jù)挖掘概念與技術(shù)(第三版)課后答案第四章=需要原版答案請留!=4.1 試述多個異構(gòu)信息源的集成,為什么許多公司更喜歡更新驅(qū)動的法(構(gòu)造和使數(shù)據(jù)倉庫),不是查詢驅(qū)動的法(適包裝器和集成器)。 描述查詢驅(qū)動的法更新驅(qū)動的法更可取的情況。對于決策查詢和經(jīng)常問到的查詢,更新驅(qū)動的法更為可取。這是因為昂貴的數(shù)據(jù)集成和聚合計算是在查詢處理時間之前完成的。為了將在多個異構(gòu)數(shù)據(jù)庫中收集的數(shù)據(jù)于決策過程,必須分析和解決多個數(shù)據(jù)庫之間的任何語義異構(gòu)問題,以便可以對數(shù)據(jù)進集成和匯總。如果采查詢驅(qū)動的法,這些查詢將被轉(zhuǎn)換為每個數(shù)據(jù)庫的多個(通常是復雜的)查詢。轉(zhuǎn)換后的查詢將與本地站點的活動競爭資源,從降低其性能。此

2、外,這些查詢將成個復雜的答案集,這將需要進步的過濾和集成。因此,查詢驅(qū)動的法通常是效且昂貴的。數(shù)據(jù)倉庫中使的更新驅(qū)動法更快,更效,因為多數(shù)查詢可以在線進。對于很少使的查詢,參考最新數(shù)據(jù)和/或不需要聚合的查詢,與更新驅(qū)動法相,查詢驅(qū)動法更為可取。在這種情況下,如果僅使少量和/或相對較的數(shù)據(jù)庫,則組織為建和維護數(shù)據(jù)倉庫付出的沉重費可能是不合理的。如果查詢依賴于當前數(shù)據(jù),則情況也是如此,因為數(shù)據(jù)倉庫不包含最新信息。4.2 簡要較以下概念,可以使例解釋你的觀點。(a)雪花模型,事實星座,星查詢模型(b)數(shù)據(jù)清理,數(shù)據(jù)轉(zhuǎn)換,刷新(c)企業(yè)倉庫,數(shù)據(jù)集市,虛擬倉庫(a)雪花模式和事實星座都是星形模式的變種

3、,它由個事實表和組維表組成;雪花模式包含些規(guī)范化的維度表,事實星座則包含組事實表共享維表。星查詢模型是查詢模型(不是模式模型),它由從中點發(fā)出的組徑向線組成。 每條徑向線代表個尺,沿該線的每個點(稱為“跡”)代表該尺的平。 距中的每步代表維度概念層次的逐步降低。 顧名思義,星查詢模型于查詢,并為戶提供OLAP操作的全局視圖。(b)數(shù)據(jù)清理是檢測數(shù)據(jù)中的錯誤并在可能時進糾正的過程。 數(shù)據(jù)轉(zhuǎn)換是將數(shù)據(jù)從異構(gòu)源轉(zhuǎn)換為統(tǒng)的數(shù)據(jù)倉庫格式或語義的過程。 刷新是將更新從數(shù)據(jù)源傳播到倉庫的功能。(c)企業(yè)倉庫收集有關(guān)整個組織的主題的所有信息,數(shù)據(jù)集市則包含整個企業(yè)范圍數(shù)據(jù)的集,這對特定的戶群來說很有價值。企業(yè)

4、倉庫通常通過個或多個操作系統(tǒng)或外部信息提供者提供企業(yè)范圍的數(shù)據(jù)集成,并且在范圍上具有跨功能,數(shù)據(jù)集市則局限于特定的選定主題(例如客戶,物料和銷售對象,營銷數(shù)據(jù)集市)。企業(yè)倉庫通常包含詳細數(shù)據(jù)以及匯總數(shù)據(jù),數(shù)據(jù)集市中的數(shù)據(jù)往往是匯總的。 企業(yè)數(shù)據(jù)倉庫可以在傳統(tǒng)型機,計算機超級服務器或并體系結(jié)構(gòu)平臺上實現(xiàn),數(shù)據(jù)集市通常在基于UNIX /LINUX或Windows的低成本部門服務器上實現(xiàn)。企業(yè)倉庫的實施周期可能需要數(shù)或數(shù)年,數(shù)據(jù)集市的實施周期更可能以周為單位。虛擬倉庫是對操作數(shù)據(jù)庫的組視圖。 為了進有效的查詢處理,可能僅實現(xiàn)些可能的摘要視圖。 虛擬倉庫易于構(gòu)建,但在操作數(shù)據(jù)庫服務器上需要額外的容量。

5、4.3 假設數(shù)據(jù)倉庫包含三個維 time, doctor, 和patient,兩個度量count和charge,其中,charge是醫(yī)對位病的次診治的費。(a)列舉三種流的數(shù)據(jù)倉庫建模模式。(b)使(a)中列出的模式類別之為上述數(shù)據(jù)倉庫繪制個模式圖。(c)由基本體day,doctor,patient開始,為列出2010年每位醫(yī)的收費總數(shù),應該執(zhí)哪些的OLAP操作?(d)為了獲得相同的結(jié)果,編寫個SQL查詢,假設數(shù)據(jù)已存放在關(guān)系數(shù)據(jù)庫中,其模式為fee(day,month,year,doctor,hospital,patient,count,charge)。(b)(c)time維:由“day”上

6、卷到“year”, patient維:由“patient_name”上卷到“all”,對year=2010進切(d)select doctor, SUM(charge) from fee where year=2010 group by doctor4.4 假設Big_University的數(shù)據(jù)倉庫包含如下四個維student,course,semester和teacher,兩個度量count 和 avg_grade。在最低的概念層時(例如,對于給定的學,課程,學期和教師的組合),度量avg_grade存放學的實際課程成績。 在較的概念層,avg_grade存放給定組合的平均成績。(a)繪制該

7、數(shù)據(jù)倉庫的雪花模式圖。(b)由基本體student,course,semester,instructor開始,為列出Big_University每個學的CS課程的平均成績學,應該執(zhí)哪些特定的OLAP操作(如由學期上卷年級)。(c)如果每個維有5層(包括all),例如“student major status university all”,那么這個數(shù)據(jù)體將包含多少個體(包括基礎體和頂點體)?(a)(c)這個數(shù)據(jù)體包含個體。4.5 假定數(shù)據(jù)倉庫包含4個維 date、 spectator、 location 和game,2個度量count和charge,其中charge是觀眾在給定的期觀看節(jié)的費。

8、觀眾可以是學、成年或年,每類觀眾有不同的收費標準。(a)畫出該數(shù)據(jù)倉庫的星形模式圖。(b)由基本體date,spectator, location, game 開始,為列出2010年學觀眾在GM_Place 的總付費,應當執(zhí)哪些OLAP操作?(c)對于數(shù)據(jù)倉庫,位圖索引是有的。以該數(shù)據(jù)體為例,簡略討論使位圖索引結(jié)構(gòu)的優(yōu)點和問題。(a)(b) Roll-up on date from date_id to year. Roll-up on game from game_id to all. Roll-up on location from location_id to location name

9、. Roll-up on spectator from spectator_id to status. Dice with status=“students”, location_name=“GM_Place”, and year=2010.(c)位圖索引對于基數(shù)較的值域是有利的。 例如,在此多維數(shù)據(jù)集中,如果對維度位置進了位圖索引,則位置上的較,聯(lián)接和聚集操作將化為位算術(shù),從減少了處理時間。 此外,長位置名稱的字符串可以個位表,這導致空間和I/ O的顯著減少。對于具有基數(shù)的維(例如本例中的期),于表位圖索引的向量可能會很長。 例如,年的數(shù)據(jù)收集可能會產(chǎn)3650個期記錄,這意味著事實表中的每個

10、元組都需要3650位(或約456個字節(jié))來保存位圖索引。4.6 數(shù)據(jù)倉庫可以星形模式或雪花模式建模。簡略討論這兩種模式的相似點和不同點,然后分析它們的相對優(yōu)缺點。哪種模式更實?給出你的觀點并陳述理由。從某種意義上來說,它們都是相似的,因為它們都具有個事實表以及些維表。主要區(qū)別在于雪花模式中的某些維表已被規(guī)范化,從將數(shù)據(jù)進步拆分為其他表。星型模式的優(yōu)點是其簡單性,可以提效率,但需要更多空間。對于雪花模式,它通過共享公表來減少些冗余:這些表易于維護并節(jié)省些空間。但是,與事實表的典型相,效率較低且節(jié)省的空間可忽略不計。因此,從經(jīng)驗上講,星型案會更好,因為只要空間要求不是太,效率通常就空間具有更的優(yōu)先

11、級。在業(yè)中,有時來雪花模式的數(shù)據(jù)可能會被規(guī)范化成星形模式以加快處理速度。另個選擇是使雪花模式來維護維,然后向戶呈現(xiàn)折疊成星形的相同數(shù)據(jù)。4.7為地區(qū)象局設計 個數(shù)據(jù)倉庫。象局約有1000個觀測點,散布在該地區(qū)的陸地和海洋,收集基本象數(shù)據(jù),包括每時的壓、溫度、降量。所有的數(shù)據(jù)都送到中站,那已收集了這種數(shù)據(jù)長達余年。你的設計應當有利于有效的查詢和聯(lián)機分析處理,以及有效地導出多維空間的般天模式。由于象局在整個陸地和海洋各地散布著約1000個探測器,因此我們需要構(gòu)建個空間數(shù)據(jù)倉庫,以便戶可以按,按地區(qū)以及溫度和降的不同組合在地圖上查看天模式, 并可以在任何維度上動態(tài)向下或向上滾動以探索所需的模式。4.

12、8 數(shù)據(jù)倉庫實現(xiàn)的流法是構(gòu)造-個稱為數(shù)據(jù)體的多維數(shù)據(jù)庫。不幸的是,這常常產(chǎn)的、稀疏的多維矩陣。(a) 給出個例,解釋這種型稀疏數(shù)據(jù)體。(b) 設計種實現(xiàn)法,可以很好地克服稀疏矩陣問題。注意,你需要詳細解釋你的數(shù)據(jù)結(jié)構(gòu),討論空間需求,以及如何從你的結(jié)構(gòu)中提取數(shù)據(jù)。(c)修改你在(b)中的設計,以便處理增量數(shù)據(jù)更新。給出你的設計理由。(a)個巨稀疏的數(shù)據(jù)體的例:是從電話公司的計費數(shù)據(jù)庫中成的,該數(shù)據(jù)庫保留有關(guān)每個客戶的計費信息的記錄,例如聯(lián)系信息,付款式,付款期和詳細的呼叫記錄。 對于電話公司,為每個客戶保留詳細的通話記錄超過三個將常昂貴。因此,從數(shù)據(jù)庫中刪除該信息將是有益的,例如,僅保留已撥打的

13、電話總數(shù),記帳的總分鐘數(shù)和記帳的額。 計費數(shù)據(jù)庫的最終計算出的數(shù)據(jù)體將具有量丟失或刪除的數(shù)據(jù),從導致龐稀疏的數(shù)據(jù)體。(類似于個魔樣,該多維體有好多屬性缺失就類似于魔有好多個組成塊丟失。)(b)(c)4.9 關(guān)于數(shù)據(jù)體度量計算:(a)根據(jù)計算數(shù)據(jù)體所的聚集函數(shù),列出度量的三種類型。(b)對于具有三個維time、location 和product的數(shù)據(jù)體,函數(shù)variance (差)屬于哪類?如果體被分割成些塊,說明如何計算它。提:計算variance函數(shù)的公式是:(c) 假定函數(shù)是“最的10個銷售額”。討論如何在數(shù)據(jù)體中有效地計算該度量。(a)度量的三種類型:分布的(整體計算和將整體分成多個單元

14、計算的結(jié)果樣),代數(shù)的(不是分布的,但可由分布函數(shù)相互之間的運算得到)和整體的(只能直接由整體給出結(jié)果)。(b)差屬于代數(shù)的度量。如果將多維數(shù)據(jù)集劃分為多個塊,則可以按以下式計算差:逐讀取塊,跟蹤累積(1)元組數(shù)量,(2)(xi)2之和,(3)xi之和。 讀取所有塊后,計算xi的平均值,即xi的總和除以元組總數(shù)。 使提中所的公式來獲得差。在體中讀元組,如果其銷售額于這10個銷售額中的元素,就把該元素插到剛好它的元組后,并且去掉最后個最的銷售額。重復3中的操作,直到整個體的元組取完。4.10 假設公司想設計個數(shù)據(jù)倉庫,以便于以聯(lián)機分析處理式分析移動車輛。公司以如下格式記錄量汽車運動數(shù)據(jù):(Aut

15、o_JID,location, speed, time)。 其中Auto_ID每個代表個車輛,涉及諸如ve-hicle_category、 driver_category 等信息;每個location 沙及城市的條街道。假定有個該城市的街道圖。(a)設計個數(shù)據(jù)倉庫,以便于多維空間的有效聯(lián)機分析處理。(b)運動數(shù)據(jù)可能包含噪聲。討論如何開發(fā)種法, 動地發(fā)現(xiàn)該數(shù)據(jù)庫中可能被錯誤地記錄的數(shù)據(jù)記錄。(c)運動數(shù)據(jù)可能是稀疏的。討論如何開發(fā)種法, 盡管數(shù)據(jù)稀疏,但是仍然能夠構(gòu)造可靠的數(shù)據(jù)倉庫。(d)如果你想在特定的時間開車從A到B.討論系統(tǒng)如何使倉庫中的數(shù)據(jù),設計條快速的路線。4.11 射頻識別 (RF

16、ID)通常來跟蹤對象運動,進庫存控制。RFID閱讀器可以在任意預定的時間近距離成功地讀取RFID標簽。假設公司想設計個數(shù)據(jù)倉庫,便于以聯(lián)機分析處理式分析具有RFID標簽的對象。假設公司以格式(RFID,at_lcation, time) 記錄量RFID數(shù)據(jù),并且還有些關(guān)于攜帶RFID標簽的對象的信息,例如(RFID,produed_mame, product_calegory, poducer, date_produced, price)。(a)設計個數(shù)據(jù)倉庫,以便這類數(shù)據(jù)的有效登記和聯(lián)機分析處理。(b) RFID數(shù)據(jù)可能包含量冗余信息。討論種法, 它在數(shù)據(jù)登該RFID數(shù)據(jù)倉庫時,最限度減少冗

17、余。(c) RFID數(shù)據(jù)可能包含量噪聲,如遺漏登記和ID誤讀。討論-種有效清理 RFID數(shù)據(jù)倉庫中噪聲的法。(d)你可能想進聯(lián)機分析處理,按、品牌和價格區(qū)間確定有多少臺電視機從洛杉磯港運到伊利諾伊州尚佩恩市的BestBuy。如果你在該數(shù)據(jù)倉庫中存放了這種RFID數(shù)據(jù),概述如何有效地做這件事。(e)如果位顧客送回桶奶,并抱怨說在過期之前它已經(jīng)變質(zhì),討論如何在數(shù)據(jù)倉庫中調(diào)查這情況,找出問題是出在運輸還是儲在上。4.12在許多應中,新的數(shù)據(jù)集遞增地添加到已有的型數(shù)據(jù)集中。因此,個重要的考慮是,度量是否能夠以增量式有效地計算。以計數(shù)、標準差和中位數(shù)為例,說明分布或代數(shù)度量有利于有效的增量計算,整體度量

18、不。4.13 假設你需要在數(shù)據(jù)體中記錄三種度量:min()、average ()和median()。 倘若數(shù)據(jù)體允許遞增地刪除數(shù)據(jù)(即每次部分),為每種度量設計有效的計算和存儲法。對于min,請為每個長體保留對,以注冊最值和其計數(shù)。 對于每個刪除的元組,如果其值于min_val,則不執(zhí)任何操作。 否則,減少相應節(jié)點的計數(shù)。 如果計數(shù)減少到零,請重新計算結(jié)構(gòu)。對于平均值,每個長體都保持對。 對于每個刪除的節(jié)點N,減少計數(shù)并從總和中減去值N。 計算平均值=總和/計數(shù)。對于中位數(shù),請保留少量的中值p(例如p = 10)和兩個計數(shù):向上計數(shù)和向下計數(shù)。 每次刪除可能會更改計數(shù)或刪除中值。 如果中位數(shù)不

19、再屬于這些中值,請重新計算該集合。 否則,可以很容易地從以上設置中計算出中位數(shù)。4.14 在數(shù)據(jù)倉庫技術(shù)中,多維視圖可以關(guān)系數(shù)據(jù)庫技術(shù)(ROLAP)、或多維數(shù)據(jù)庫技術(shù)(MOLAP)或混合數(shù)據(jù)庫技術(shù)(HOLAP)實現(xiàn)。(a)簡要描述每種實現(xiàn)技術(shù)。(b)對每種技術(shù),解釋如下函數(shù)如何實現(xiàn):i數(shù)據(jù)倉庫的產(chǎn)(包括聚集)ii.上卷i下鉆iv.增量更新(c)你喜歡哪種實現(xiàn)技術(shù)?為什么?(a)ROLAP服務器:這是種中間服務器,介于關(guān)系的后端服務器和客戶前端具之間。它們使關(guān)系的或擴充關(guān)系的DBMS存儲并管理數(shù)據(jù)倉庫數(shù)據(jù),OLAP中間件持其余部分。MOLAP服務器:這些服務器通過基于數(shù)組的多維存儲引擎,持數(shù)據(jù)的

20、多維視圖。它們將多維視圖直接映射到數(shù)據(jù)體數(shù)組結(jié)構(gòu)。HOLAP服務器:結(jié)合POLAP和MOLAP技術(shù),得益于POLAP較的伸縮性和MOLAP的快速計算。HOLAP服務器將量詳細的數(shù)據(jù)存放在關(guān)系數(shù)據(jù)庫中,聚集保持在分離的MOLAP存儲中。(b)i數(shù)據(jù)倉庫的產(chǎn)(包括聚集)ROLAP:使個OLAP服務器,由個匯總事實表關(guān)系的或擴充關(guān)系的DBMS來產(chǎn)數(shù)據(jù)倉庫,這個事實表可以存儲給定體的聚集數(shù)據(jù)和給定體的模式連接鍵指出的抽象級別的數(shù)據(jù)。ROLAP:為了執(zhí)增量更新,先檢查相應元組是否在匯總的事實表中,如若不在,則插元組到匯總的事實表中,并且向上傳播;否則更新元組值,并且也向上傳播。MOLAP:檢查相應元組是

21、否在數(shù)據(jù)體中,如若不在則插元組到數(shù)據(jù)體中,并向上傳播;否則更新元組值,并且向上傳播。HOLAP通常是選,因為它結(jié)合了ROLAP和MOLAP法的優(yōu)點并避免了它們的缺點。 如果體常密集,則通常選MOLAP。 如果數(shù)據(jù)稀疏且維數(shù),則單元太多(由于指數(shù)增長),在這種情況下,通常希望計算冰體不是實現(xiàn)完整的體。4.15 假設數(shù)據(jù)倉庫包含20個維,每個維有5級粒度。(a)戶感興趣的主要是4個特定的維,每維有3個上卷和下鉆頻繁訪問的層。如何設計數(shù)據(jù)體結(jié)構(gòu),能有效地對此予以持?(b)戶時常想從兩個特定的維鉆透數(shù)據(jù)體,到原始數(shù)據(jù)。如何持這特征?(a)個有效的數(shù)據(jù)體結(jié)構(gòu)能夠給予持,可以使部分物化或者體的選擇計算。通過僅計算整個可能的體集合的適當集,可以將所需的存儲空間總量最化,同時保持快速的響應時間并避免重復計算。(b)由于戶只想在維或維中鉆透數(shù)據(jù)體,因此可以通過動態(tài)計算所需的體來持這特征。由于戶可能很少需要該功能,因此在運中維或維上計算聚合所需的時間應該可以接受。4.16數(shù)據(jù)體C具有n個維。 每個維在基本體中怡有p個不同值。假定沒有與這些維相關(guān)聯(lián)的概念(a)基本體單元的最個數(shù)可能是多少?(b)基本體單元的最個數(shù)可能是多少?(c)數(shù)據(jù)體C的單元(包括基本單元和聚集單元)的最個數(shù)是多少?(d)數(shù)據(jù)體C的單元的最個數(shù)是多少?(a) ,這是您可以在每個維度上使p個不同值形成的最元組數(shù)。(b)p,少需要p

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論