




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、1 .數(shù)據(jù)倉庫的四個基本特征是指數(shù)據(jù)倉庫中的數(shù)據(jù)是面向主題的、集成的、不可更新的和隨時間不斷變化的 。2 . OLAP的實現(xiàn)方式有以下兩種:基于關系數(shù)據(jù)庫系統(tǒng)的實現(xiàn)和基于多維數(shù)據(jù)組織 的實現(xiàn)。3 .數(shù)據(jù)從操作型環(huán)境到數(shù)據(jù)倉庫過程中,通常需要進行的處理操作有數(shù)據(jù)X (extraction )、轉換 (transformation )、裝載 (Load)和清洗 (cleaning)。4 .數(shù)據(jù)倉庫中數(shù)據(jù)的分割是指將 數(shù)據(jù)分散到各自的物理單元中去以便能分別獨立處理。數(shù)據(jù)分割后的數(shù)據(jù)單元稱為 分片,數(shù)據(jù)分片的類型有 水平分片、垂直分片、混合分片和導 出分片等。5 .數(shù)據(jù)倉庫系統(tǒng)是多種技術的綜合體,它是
2、由 數(shù)據(jù)倉庫的前臺后臺工具 、數(shù)據(jù)倉庫服務 壁和OLAP服務器三部分組成。6 .聚集函數(shù)分為三種類型,分別是分布型聚集函數(shù)、 代數(shù)型聚集函數(shù) 、 和整體型聚集函數(shù) 。7 .粒度是數(shù)據(jù)倉庫的重要概念,粒度越 小,數(shù)據(jù)的細節(jié)程度越 直,可以回答查詢的種類 就越上,但是查詢效率將會很低;提高粒度將會提高查詢效率, 在數(shù)據(jù)倉庫中通常采用多重粒度。OLAP展現(xiàn)在用戶面前的是一幅幅多維視圖。聯(lián)機分析處理維(Dimension ):是人們觀察數(shù)據(jù)的特定角度,是考慮問題時的一類屬性,屬性集合構成 一個維(時間維、地理維等)。維的層次(Level):人們觀察數(shù)據(jù)的某個特定角度(即某個維)還可以存在細節(jié)程度 不同
3、的各個描述方面(時間維:日期、月份、季度、年)。維的成員(Member ):維的一個取值,是數(shù)據(jù)項在某維中位置的描述。(某年某月某日”是在時間維上位置的描述)。度量(Measure ):多維數(shù)組的取值。(2000年1月,上海,筆記本電腦, 0000 )。OLAP的基本多維分析操作有鉆取 (Drill-up和Drill-down )、切片(Slice)和切塊(Dice)、 以及旋轉(Pivot)等。鉆?。菏歉淖兙S的層次,變換分析的粒度。它包括向下鉆?。?Drill-down )和向上鉆取(Drill-up ) /上卷(Roll-up)。Drill-up是在某一維上將低層次的細節(jié)數(shù)據(jù)概括到高層次的
4、匯總 數(shù)據(jù),或者減少維數(shù);而Drill-down則相反,它從匯總數(shù)據(jù)深入到細節(jié)數(shù)據(jù)進行觀察或增加 新維。二 切片和切塊:二是在一部分維上選定值后,二關心度量數(shù)據(jù)在剩余維上的分布。二如果剩余的 維只有兩個,則是切片;如果有三個或以上,則是切塊。旋轉:是變換維的方向,即在表格中重新安排維的放置(例如行列互換)。:、名次解釋:1 .數(shù)據(jù)集市:數(shù)據(jù)集市包含企業(yè)范圍數(shù)據(jù)的一個子集,對于特定的用戶是有用的。其范圍 限于選定的主題。例如, 一個商場的數(shù)據(jù)集市可能限定其主題為顧客、商品和銷售。包括在數(shù)據(jù)集市中的數(shù)據(jù)通常是匯總的。2 .數(shù)據(jù)倉庫的元數(shù)據(jù): 關于數(shù)據(jù)的數(shù)據(jù)第一種:從操作型環(huán)境向數(shù)據(jù)倉庫環(huán)境轉換而建
5、立 的元數(shù)據(jù)。包含:所有源數(shù)據(jù)項名、屬性及其在數(shù)據(jù)倉庫中的轉換.第二種:與終端用戶的多維商業(yè)模型/前端工具之間建立映射的DSS元數(shù)據(jù)3 .粒度:對數(shù)據(jù)倉庫中的數(shù)據(jù)的綜合程度高低的一個度量 ,粒度越小,細節(jié)程度越高,綜合 程度越低,粒度大小影響數(shù)據(jù)倉庫效率、能回答詢問的種類 ,數(shù)據(jù)倉庫是多粒度的,不同的粒 度回答不同的查詢4 .分割:指將數(shù)據(jù)分散到各自的物理單元中去以便能分別獨立處理。5 .聚類分析:根據(jù)數(shù)據(jù)的特征找出數(shù)據(jù)間的相似性,將相似的數(shù)據(jù)分成一個類。又稱無指 導的學習,客觀根據(jù)被處理對象的特征分類,將相同特征的對象歸為一類。6 .數(shù)據(jù)倉庫的主題: 主題是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)
6、綜合、歸類并進行分析 利用的抽象。邏輯意義:對應企業(yè)中某一宏觀分析領域所涉及的分析對象。7 .分類:分類就是按照分析對象的屬性分門別類,加以定義建立類組,分類的關鍵是按照 什么樣的標準和規(guī)律進行分類,所以分類需要先確定規(guī)則,再進行分類。分類聚類區(qū)別:分類規(guī)則需要預先定義類別和訓練樣本,而聚類分析直接面向數(shù)據(jù)源數(shù)據(jù),沒有預先定義類別和訓練樣本,所有記錄都根據(jù)彼此相似程序加以歸類。預測:利用歷史數(shù)據(jù)建立模型,再運用新數(shù)據(jù)作為輸入值,獲得未來變化趨勢,或評估 給定樣本可能具有的屬性范圍。8 .序列模式分析: 給定一個由不同序列組成的集合,其中,每個序列由不同的元素按順序 有序排列,每個元素由不同項目
7、組成, 同時給定一個用戶指定的最小支持度閾值,序列模式挖掘就是找出所有的頻繁子序列,即該子序列在序列集中的出現(xiàn)頻率不低于用戶指定的最小支持度閾值。9 .廣義索引:預先計算出來的,用來記錄具有某些特殊性質數(shù)據(jù)的索引。比如最小值,top-k值等。特點:非常小,大大提高查詢效率。最流行的數(shù)據(jù)倉庫數(shù)據(jù)模型是多維數(shù)據(jù)模型。這種模型可以以 星形模式、雪花模式、或事實星座模式形式存在。10 .星型模型:最常見的模型范例星形模式;其中數(shù)據(jù)倉庫包括(1) 一個大的、包含大批數(shù)據(jù)、不含冗余的 中心表(事實表);(2) 一組小的附屬表(維表),每維一個。這種模 式圖很象星星爆發(fā),維表圍繞中心表顯示在射線上。sale
8、s事實表item舞表11 . OLAP中的維和維層次:觀察數(shù)據(jù)的角度、程度不同分層。12 .雪片模型:雪花模式是星型模式的變種,其中某些維表是規(guī)范化的,因而把數(shù)據(jù)進一步分解到附加的表中。 結果,模式圖形成類似于雪花的形狀。雪花模式和星形模式的主要不同在于,雪花模式的維表可能是規(guī)范化形式,以便減少冗余。這種表易于維護,并節(jié)省存儲空間,因為當維結構作為列包含在內時,大維表可能非常大。11nte推表e止日軍買強血亞琳強,呼Pr推表-值頻繁地在給定數(shù)據(jù)集中一起13 .關聯(lián)分析:關聯(lián)分析發(fā)現(xiàn)關聯(lián)規(guī)則,這些規(guī)則展示屬性 出現(xiàn)的條件。關聯(lián)分析廣泛用于購物籃或事務數(shù)據(jù)分析。1 .操作型數(shù)據(jù)和分析型數(shù)據(jù)的主要區(qū)
9、別是什么?答:OLTP和OLAP的主要區(qū)別如下:用戶和系統(tǒng)的面向性, OLTP是面向顧客的,用于辦事員、客戶和信息技術人員到額事務和查詢處理,而 OLAP是面向市場的,用于知識工人的數(shù)據(jù)分析。從數(shù)據(jù)內容上區(qū)別,OLTP是當前數(shù)據(jù),通常這種數(shù)據(jù)太瑣碎,難以方面地用于決策,OLAP系統(tǒng)管理大量的歷史數(shù)據(jù),提供匯總和匯聚機制,并在不同的粒度級別上存儲和管理信息。這些特點使得歷史數(shù)據(jù)容易用于見多識廣的決策。從數(shù)據(jù)庫設計上,通常 OLTP采用實體-聯(lián)系模型和面向應用的數(shù)據(jù)庫設計。而OLAP系統(tǒng)通常采用星型或者雪花模型和面向主題的數(shù)據(jù)庫設計。從視圖上區(qū)別:OLTP系統(tǒng)主要關注一個企業(yè)或者部門內部的當前數(shù)據(jù)
10、,而不涉及歷史數(shù)據(jù) 或不聽組織的數(shù)據(jù),相比之下,由于組織的變化,OLAP系統(tǒng)常??缭綌?shù)據(jù)庫模式的多個版本,OLAP系統(tǒng)也出來來自不同組織的信息,由多個數(shù)據(jù)存儲集成的信息,由于數(shù)據(jù)量巨大,OLAP數(shù)據(jù)頁存放在多個存儲介質上。訪問模式:OLTP系統(tǒng)的訪問主要由短的原子事務組成,這種系統(tǒng)需要并行控制和恢復機制,然而對OLAP系統(tǒng)的訪問大部分是只讀操作,盡管許多查詢是復雜的查詢。L操作型分析型效據(jù) 細節(jié)的籌含的.或置母的在存展牖間,凈礴的代表討夫的毆櫥可更新不更新幄和窩笊輪可知他操作需求事苑不知遒生脩周期符合SDLC克至不同的生命周明對性旄費求高附性能要求寬松一個時為一單元f時期操作帶嬖動.分折膽動此
11、向應用面向分析一次操作數(shù)16量小一次操作數(shù)據(jù)量大芨持日常報祚支持瞥理需求2 .你是如何理解數(shù)據(jù)倉庫的數(shù)據(jù)是不可更新的,數(shù)據(jù)倉庫的數(shù)據(jù)又是隨時間不斷變化的。 數(shù)據(jù)倉庫中的數(shù)據(jù)不可更新是針對應用而言的,用戶進行分析處理時是不進行數(shù)據(jù)更新操作的.數(shù)據(jù)倉庫的數(shù)據(jù)是隨時間的變化不斷變化的,隨時間變化不斷增加新的數(shù)據(jù)內容,隨時間變化不斷刪去舊的數(shù)據(jù)內容。數(shù)據(jù)倉庫中包含有大量的跟時間有關的綜合數(shù)據(jù), 經(jīng)常按照時間段進行綜合,隨著時間的變化不斷地進行重新綜合。3 .舉例說明數(shù)據(jù)倉庫有哪三類聚集函數(shù)。(1)分布的:一個聚集函數(shù)是分布的,如果它能以如下分布方式進行計算:設數(shù) 據(jù)被劃分為n個集合,函數(shù)在每一部分上的
12、計算得到一個聚集值。如果將函數(shù)用于n個聚集值得到的結果,與將函數(shù)用于所有數(shù)據(jù)得到的結果一樣,則該函數(shù)可以用分布方式 計算。例如,count()可以這樣計算:首先將數(shù)據(jù)方分割成子方的集合,對每個子方計算 count(),然后對這些子方得到的計數(shù)求和。因此,count()是分布聚集函數(shù)。 同理,sum(),min()和max()是分布聚集函數(shù)。一個度量是分布的,如果它可以用分布聚集函數(shù)得到。(2)代數(shù)的:一個聚集函數(shù)是代數(shù)的,如果它能夠由一個具有 M (其中,M是一 個整數(shù)界)個參數(shù)的代數(shù)函數(shù)計算,而每個參數(shù)都可以用一個分布聚集函數(shù)求得。例如,avg()可以由sum()/count()計算,其中s
13、um()和count()是分布聚集函數(shù)。類似地,可以表 明min_N(), max_N()和standard_deviation()是代數(shù)聚集函數(shù)。 一個度量是代數(shù)的,如果它可以用代數(shù)聚集函數(shù)得到。(3)整體的:一個聚集函數(shù)是整體的,如果描述它的子聚集所需的存儲沒有一個 常數(shù)界。即,不存在一個具有 M個(其中,M是常數(shù))參數(shù)的代數(shù)函數(shù)進行這一計算。 整體函數(shù)的常見例子包括median(),mode()(即,最常出現(xiàn)的項),和rank()。一個度量是整體的,如果它可以用整體聚集函數(shù)得到。大部分數(shù)據(jù)方應用需要有效地計算分布的和 代數(shù)的度量。對于這些,存在許多有效的技術。相比之下,有效地計算整體度量
14、是很困 難的。然而,對于有些整體函數(shù)的近似計算,有效的技術是存在的。4 .為什么說 naive Bayesian分類法是 na?Ve的?樸素貝葉斯分類假定一個屬性值對給定類的影響獨立于其它屬性的值。該假定稱作類條件獨立。做此假定是為了簡化所需計算,并在此意義下稱為“樸素的”。5 .請簡述數(shù)據(jù)倉庫的體系結構。a)數(shù)據(jù)倉庫的后臺工具b)數(shù)據(jù)倉庫服務器c) OLAP服務器d) 前臺工具n;ktaA IVIulti-Tiered AivhitectuiviI*'- "hi! itaCesratarDis Mmi t Mira4i Tr-iiiaf«tn Lc41d Reia
15、eitATHljTiisQ忙門Rep mt$口ai 日 miningflData Sourees Dti Storage口LAP 日咂h亡 FrcuM-End Tools6 .舉例說明多維分析操作(drill-down , roll-up)的含義是什么?saleprodikdstore Iddat»amip1c1112p1ci111ple3150P?C21Bpid244Plq22境saleprod Iddateamtpl162成1J9P124Brollupdrill-down(Vwaqvw.Qlj 安全)計置機馥1計H機安坐電話 ifafeni在bftlt上_1_卷一個通常用于數(shù)據(jù)倉
16、庫多維數(shù)據(jù)方,(a)展示AllElectronics的匯總數(shù)據(jù)(b)展示數(shù)據(jù)方(a)上的下鉆與上卷結果。7 .舉例說明數(shù)據(jù)倉庫有哪三類聚集函數(shù)(同3)8 .試述常用的數(shù)值屬性離散化方法等寬:每個bin的距離間隔一樣。等深:每個bin所具有的元組的數(shù)目相等。等質:bin的大小決定后,每一個 bin中的元組是統(tǒng)一分布的9 .向數(shù)據(jù)倉庫追加數(shù)據(jù)時,捕捉數(shù)據(jù)變化常用的途徑有哪些?數(shù)據(jù)追加:數(shù)據(jù)倉庫白數(shù)據(jù)初裝完成后,再向數(shù)據(jù)倉輸入數(shù)據(jù)的過程追加內容:上次數(shù)據(jù)追加后在OLT啖據(jù)庫中變化了的數(shù)據(jù)變化數(shù)據(jù)的捕捉途徑:1)時標方法(如果數(shù)據(jù)含有時標,對新插入或更新的數(shù)據(jù)記錄,加更新時的時標)2) DELTA文件
17、(由應用生成DELTAS件,記錄應用所改變的所有內容)3)前后映象文件(抽取數(shù)據(jù)到數(shù)據(jù)倉庫之后,本次將抽取數(shù)據(jù)之前,對數(shù)據(jù)庫分別作一次快照,比較兩幅快照的不同,確定追加的數(shù)據(jù))4)日志文件(利用 DB的固有機制,數(shù)據(jù)只限于日志文件,不用掃描整個數(shù)據(jù)庫)10 .試述數(shù)據(jù)倉庫的設計中提高數(shù)據(jù)倉庫性能的方法和技術?由于數(shù)據(jù)倉庫的數(shù)據(jù)極少甚至不再更新,可采取如下技術來提高數(shù)據(jù)倉庫的性能:11 .簡要說明事務處理環(huán)境不適宜DSS應用的原因?操作型處理也叫事務處理,是指對數(shù)據(jù)庫聯(lián)機的日常操作,通常是對一個或一組記錄的查詢和修改,主要是為企業(yè)的特定應用服務的,人們關心的是響應時間,數(shù)據(jù)的安全性和完整性。分析
18、型處理則用于管理人員的決策分析。例如:DSS (決策支持系統(tǒng)),EIS (主管信息系統(tǒng))和多維分析等,經(jīng)常要訪問大量的歷史數(shù)據(jù)。事務處理環(huán)境不適宜 DSS應用的原因:(1)事務處理和分析處理的性能特性不同(在事務處理環(huán)境中,數(shù)據(jù)的存取操作頻率高而每次操作處理的時間短,在分析處理環(huán)境中,DSS應用需要運行時間長,消耗系統(tǒng)資源多.)(2)數(shù)據(jù)集成問題(DSS需要的數(shù)據(jù):全面、集成、相關數(shù)據(jù)收集得越完整結果就越可靠)(3)數(shù)據(jù)動態(tài)集成問題(事務處理的數(shù)據(jù): 與本部門業(yè)務有關當前數(shù)據(jù),對整個企業(yè)范圍內 的集成應用考慮少,當前企業(yè)內數(shù)據(jù)的狀況a.分散而非集成一一這是事務處理環(huán)境所固有的 b.事務處理應用
19、產生的細節(jié)數(shù)據(jù)不能成為統(tǒng)一的整體c.DSS應用必須在應用程序中進行數(shù)據(jù)集成)(4)歷史數(shù)據(jù)問題(事務處理系統(tǒng)中的數(shù)據(jù):當前數(shù)據(jù)及短期數(shù)據(jù);決策分析的數(shù)據(jù):必 須要歷史數(shù)據(jù))(5)數(shù)據(jù)的綜合問題(DSS系統(tǒng)的分析對象:一般不對細節(jié)數(shù)據(jù)進行分析,分析前需要對細節(jié) 數(shù)據(jù)進行不同程度的綜合.事務處理系統(tǒng)的對象:只關心細節(jié)數(shù)據(jù),不具備綜合能力,綜合是一種數(shù)據(jù)冗余,需要加以限制)12 .數(shù)據(jù)倉庫的設計方法與操作型環(huán)境中系統(tǒng)設計采用的系統(tǒng)生命周期法有什么不同?SDLC操作型環(huán)境中,業(yè)務過程和規(guī)則比較規(guī)范和固定。系統(tǒng)設計人員能夠清晰地了解應用 的需求和數(shù)據(jù)流程,系統(tǒng)的設計一般采取系統(tǒng)生命周期法(Systems
20、 Development Life Cycle)CLDS分析型環(huán)境中,DSS分析對決策分析的需求不能預先作出規(guī)范說明,只能給設計人員 一個抽象模糊的描述。設計人員必須在與用戶不斷的交流中,將系統(tǒng)需求逐步明確與完善。為了強調這種開發(fā)的不確定型,將此設計方法定名為CLDS方法(與SDLC相反)SDLC與CLD5方,法比較魚!5C LDS13 .舉例說明多維分析操作(切片、切塊、旋轉)的含義是什么?切片和切塊:切片操作在給定的數(shù)據(jù)方的一個維上進行選擇,導致一個子方。圖2.10圖示了一個對維time的切片操作,它對中心數(shù)據(jù)方使用條件time = "Q1”選擇銷售數(shù)據(jù)。切塊操作通過對兩個或多個
21、維執(zhí)行選擇,定義子方。圖2.10圖示了一個切塊操作,它涉及三個維,根據(jù)如下條件對中心表切塊:(location = " Montreal 0r ' Vancouver" a"d (time = 'Q1"or "Q2" a nd (item = " homeentertainmentor "" computer。")轉軸:轉軸(又稱旋轉)是一種目視操作,它轉動數(shù)據(jù)的視角,提供數(shù)據(jù)的替代表示。 圖2.10 給出一個轉軸操作, 這里item和location在一個2-D切片上轉動。其它
22、例子包括轉動3-D數(shù) 據(jù)方,或將一個3-D立方轉換成2-D平面序列。14 .數(shù)據(jù)挖掘的步驟是什么?數(shù)據(jù)挖掘作為KDD (知識發(fā)現(xiàn))的一個步驟。KDD是一個以知識使用者為中心,人機交互的探索過程,包括了在指定的數(shù)據(jù)庫中用數(shù)據(jù) 挖掘算法提取模型,以及圍繞數(shù)據(jù)挖掘所進行的預處理和結果表達等一系列的步驟。甌】轄駐據(jù)費看作KDD的一個凈一15 .簡要說明數(shù)據(jù)倉庫環(huán)境中元數(shù)據(jù)的內容。元數(shù)據(jù)是關于數(shù)據(jù)的數(shù)據(jù) 。在數(shù)據(jù)倉庫中,元數(shù)據(jù)是定義倉庫對象的數(shù)據(jù)。對于給定數(shù)據(jù)倉庫的數(shù)據(jù)名和定義,創(chuàng)建元數(shù)據(jù)。其它元數(shù)據(jù)包括對提取數(shù)據(jù)添加的時間標簽、提取數(shù)據(jù)的源、被數(shù)據(jù)清理或集成處理添加的字段等。16 .企業(yè)的數(shù)據(jù)庫體系化
23、環(huán)境的四個層次是什么?它們之間的關系是什么?層次的體系化環(huán)境四個層次分別為:操作型環(huán)境、全局級數(shù)據(jù)倉庫、部門級的局部倉庫、個人級數(shù)據(jù)倉庫。操作型環(huán)境存放:細節(jié)的操作型數(shù)據(jù),服務于高性能事務處理全局級數(shù)據(jù)倉庫:存放細節(jié)數(shù)據(jù)、導出數(shù)據(jù)部門級局部倉庫:一般存放導出數(shù)據(jù)個人級數(shù)據(jù)倉庫:數(shù)據(jù)一般是暫時存放,用于啟發(fā)式分析。探件型環(huán)境|金碗 副演"一 王式鷲掾作型壞盤 斗|仝局倉床|* 部門倉& 1 飪k倉囪任:口 一 “蠹小 i Kiss 的揚|aH.17 .簡要說明數(shù)據(jù)倉庫設計的步驟。數(shù)據(jù)倉庫的設計方法:CLDS方法(與SDLC相反)參考12題18 .簡要說明異常點挖掘有哪些方法?一
24、定普代定布 二二有替代分布 飛:溫含靜代外粘異常點挖他方法框于承元的罪法,臺值離模型V就靛圖W守密點花就其法紂兗19 .什么是元數(shù)據(jù)?簡要說明數(shù)據(jù)倉庫環(huán)境中元數(shù)據(jù)的內容。(參考15)20 .你是如何理解數(shù)據(jù)倉庫的數(shù)據(jù)是不可更新的,數(shù)據(jù)倉庫的數(shù)據(jù)又是隨時間不斷變化的。答:數(shù)據(jù)倉庫存放的數(shù)據(jù)都是歷史數(shù)據(jù),基本操作都是查詢操作,一般情況下并不進行修改操作,數(shù)據(jù)一旦超過存儲期限是可以刪除的。數(shù)據(jù)倉庫隨時間變化不斷增加新的數(shù)據(jù)內容,并且存在大量和時間有關的綜合數(shù)據(jù),數(shù)據(jù)倉庫數(shù)據(jù)的碼鍵都包含時間項,以標明數(shù)據(jù)的歷史時期。21 .什么是數(shù)據(jù)驅動的系統(tǒng)設計方法?(參考 12)22 .試簡述數(shù)據(jù)倉庫的體系結構(
25、參考4)23 .簡述采用決策樹方法進行分類的過程。1)基本算法(貪婪算法)由上到下,分而治之,遞歸構造樹開始時,所有的訓練樣本都在樹根屬性都是可分類的屬性(如果是連續(xù)值的話,首先要對其進行離散化)根據(jù)選擇的屬性,對樣本遞歸地進行劃分在啟發(fā)式或統(tǒng)計度量(如information gain) 的基礎上選擇測試屬性2)停止劃分的條件某個節(jié)點上的所有樣本都屬于相同的類所有的屬性都用到了-這時采用多數(shù)有效的方法對葉子節(jié)點進行分類沒有樣本了24請簡述采用神經(jīng)元網(wǎng)絡進行分類的過程。在開始訓練之前,用戶必須說明輸入層的單元數(shù)、隱藏層數(shù)(如果多于一層)、每一隱藏層的單元數(shù)和輸出層的單元數(shù),以確定網(wǎng)絡拓撲。定義網(wǎng)
26、絡拓撲向傳播算法學習過程:迭代地處理一組訓練樣本,將每個樣本的網(wǎng)絡預測與實際的類標號比較。每次迭代后,修改權值,使得網(wǎng)絡預測和實際類之間的均方差最小25舉一個實例說明如何確定數(shù)據(jù)倉庫的主題,如何確定主題所應包含的數(shù)據(jù)內容?數(shù)據(jù)倉庫中的數(shù)據(jù)是面向主題進行組織的主題 是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進行分析利用的抽象邏輯意義:對應企業(yè)中某一宏觀分析領域所涉及的分析對象面向主題的數(shù)據(jù)組織步驟1、 抽取主題: 按照分析的要求來確定2、 確定每個主題所應包含的數(shù)據(jù)內容例如:商場商品采購1)在OLTP數(shù)據(jù)庫中,“訂單” “訂單細則”“供應商”三個數(shù)據(jù)庫模式清晰完整地描述了一筆采購業(yè)務所涉及
27、的數(shù)據(jù)內容, 這是面向應用來進行數(shù)據(jù)組織的方式;2)在數(shù)據(jù)倉庫中,主要是進行數(shù)據(jù)分析處理, 商品采購時的分析活動主要是要了解各供應商的情況 , “供應商”是采購分析時的分析對象。所以不需要組織象“訂單”和“訂單細則”這樣的數(shù)據(jù)庫模式,因為它們包含的是純操作型的數(shù)據(jù);但是僅僅只用OLTP數(shù)據(jù)庫的“供應商”中的數(shù)據(jù)又是不夠的 , 因而要重新組織“供應商”這么一個主題。26舉例說明數(shù)據(jù)倉庫的多粒度。粒度對數(shù)據(jù)倉庫中的數(shù)據(jù)的綜合程度高低的一個度量粒度越小,細節(jié)程度越高,綜合程度越低, 粒度大小影響數(shù)據(jù)倉庫效率、能回答詢問的種類,數(shù)據(jù)倉庫是多粒度的,不同的粒度回答不同的查詢實際:兩種形式的粒度都存在例:
28、 “商品”主題表的劃分:銷售綜合表和采購綜合表是屬于第一種形式的粒度(時間段上信息的綜合)庫存信息的不同表:則屬于第二種形式粒度劃分(不同時點上的粒度)27舉例說明什么是“星星模式”。 (名詞解10)28常用的聚類方法有哪些?(1)劃分方法( 2)層次方法( 3)基于密度的方法( 4)基于網(wǎng)格的方法(5)基于模型的方法四、計算題:1 .現(xiàn)有如下事務數(shù)據(jù)庫,設min sup = 60%, min conf = 80%.請用Apriori算法找出所有的頻繁項目集。掃描口對每個候選計數(shù)集 口J3J40 口"1515) 頁 1 11L.22-I T1 I W1 I I I _I I I fl
29、 n -JI fl- ft ft- fl ix ft J11方127g6蚓21_21項集支持度計麴HJ2J4HJ3J4口1刊12UI34IWJ212,15)201X151(4,1510掃描D,對每個候選計數(shù)1支持度計數(shù)1比較候選支持度計數(shù)HJ2與是小支持度計數(shù)山4*-(11,15)2UI3I2J4LL_1L史由L2產生 候選。3C3項集支持度討數(shù)ILI2J322面也I掃描口對每 一如晟個候選i+數(shù)11,12 I 口回|項集支持度計數(shù)(1143,13HJ2J5J22叱莪候選支持度計數(shù) 與最小支持度計數(shù)TIDLhl of iltm IDS1100T2CI0T3(IO T400T500T600 17
30、00TS00T900riJ2.15 12J4 I2J3 riJ2.M Il.B 12J3 I LB rLI2.B.I5 11,12,132 .請根據(jù)能找出的cluster的形狀、預先指定的參數(shù)、所存在的缺陷這三個方面對如下聚類 方法進行評價:1 . K-MeansK-Mean分群法是一種分割式分群方法,其主要目標是要在大量高緯的資料點中找出具有代表性的資料點;這些資料點可以稱為群中心,代表點;然后再根據(jù)這些群中心,進行后續(xù)的處理,這些處理可以包含1 )資料壓縮:以少數(shù)的資料點來代表大量的資料,達到資料壓縮的功能;2 )資料分類:以少數(shù)代表點來代表特點類別的資料,可以降低資料量及計算量;2.實現(xiàn)
31、k-means算法接受輸入量 k ;然后將n個數(shù)據(jù)對象劃分為 k個聚類以便使得所獲得的聚類滿足:同 一聚類中的對象相似度較高;而不同聚類中的對象相似度較小。聚類相似度是利用各聚類中對象的均值所 獲得一個 中心對象”(引力中心)來進行計算的。k-means算法的工作過程說明如下: 首先從n個數(shù)據(jù)對象任意選擇 k個對象作為初始聚類中心; 而對 于所剩下其它對象,則根據(jù)它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然后再計算每個所獲新聚類的聚類中心(該聚類中所有對象的均值);不斷重復這一過程直到標準測度函數(shù)開始收斂為止。一般都采用均方差作為標準測度函數(shù).k
32、個聚類具有以下特點:各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開。K-means算法的特點采用兩階段反復循環(huán)過程算法,結束的條件是不再有數(shù)據(jù)元素被重新分配: 指定聚類即指定數(shù)據(jù)到某一個聚類,使得它與這個聚類中心的距離比它到其它聚類中心的距離要近。 修改聚類中心優(yōu)點:本算法確定的 K個劃分到達平方誤差最小。當聚類是密集的,且類與類之間區(qū)別明顯時,效 果較好。對于處理大數(shù)據(jù)集,這個算法是相對可伸縮和高效的,計算的復雜度為O(NKt),其中N是數(shù)據(jù)對象的數(shù)目,t是迭代的次數(shù)。一般來說,K<<N, t<<N。缺點: 在K-means算法中K是事先給定的,這個 K值的選定是非
33、常難以估計的。很多時候,事先并不知道 給定的數(shù)據(jù)集應該分成多少個類別才最合適。這也是K-means算法的一個不足。有的算法是通過類的自動合并和分裂,得到較為合理的類型數(shù)目K,例如ISODATA算法。關于K-means算法中聚類數(shù)目K值的確定在文獻中,是根據(jù)方差分析理論,應用混合F統(tǒng)計量來確定最佳分類數(shù),并應用了模糊劃分燧來驗證最佳分類數(shù)的正確性。在文獻中,使用了一種結合全協(xié)方差矩陣的RPCL算法,并逐步刪除那些只包含少量訓練數(shù)據(jù)的類。而文獻中使用的是一種稱為次勝者受罰的競爭學習規(guī)則,來自動決定類的適當數(shù)目。它的 思想是:對每個輸入而言,不僅競爭獲勝單元的權值被修正以適應輸入值,而且對次勝單元采
34、用懲罰的方 法使之遠離輸入值。在K-means算法中,首先需要根據(jù)初始聚類中心來確定一個初始劃分,然后對初始劃分進行優(yōu)化。這個初始聚類中心的選擇對聚類結果有較大的影響,一旦初始值選擇的不好,可能無法得到有效的聚類結果,這也成為 K-means算法的一個主要問題。對于該問題的解決,許多算法采用遺傳算法(GA),例如文獻中采用遺傳算法(GA)進行初始化,以內部聚類準則作為評價指標。從K-means算法框架可以看出,該算法需要不斷地進行樣本分類調整,不斷地計算調整后的新的 聚類中心,因此當數(shù)據(jù)量非常大時,算法的時間開銷是非常大的。 所以需要對算 法的時間復雜度進行分析、 改進,提高算法應用范圍。在文
35、獻中從該算法的時間復雜度進行分析考慮,通過一定的相似性準則來去掉 聚類中心的侯選集。而在文獻中,使用的 K-means算法是對樣本數(shù)據(jù)進行聚類,無論是初始點的選擇還是一次迭代完成時對數(shù)據(jù)的調整,都是建立在隨機選取的樣本數(shù)據(jù)的基礎之上,這樣可以提高算法的收斂 速度。2 . BIRCHBIRCH算法即平衡迭代削減聚類法,其核心是用一個聚類特征3元組表示一個簇的有關信息,從而使一簇點的表示可用對應的聚類特征,而不必用具體的一組點來表示。它通過構造滿足分支因子和簇直徑限制的 聚類特征樹來求聚類。BIRCH算法通過聚類特征可以方便地進行中心、半徑、直徑及類內、類間距離的運算。算法的聚類特征樹是一個具有兩
36、個參數(shù)分枝因子B和類直徑T的高度平衡樹。分枝因子規(guī)定了樹的每個節(jié)點子女的最多個數(shù),而類直徑體現(xiàn)了對一類點的直徑大小的限制即這些點在多大范圍內可以聚為一類, 非葉子結點為它的子女的最大關鍵字,可以根據(jù)這些關鍵字進行插人索弓I,它總結了其子女的信息。聚類特征樹可以動態(tài)構造,因此不要求所有數(shù)據(jù)讀人內存,而可以在外存上逐個讀人。新的數(shù)據(jù)項總是插人到樹中與該數(shù) 據(jù)距離最近的葉子中。如果插人后使得該葉子的直徑大于類直徑T,則把該葉子節(jié)點分裂。 其它葉子結點也需要檢查是否超過分枝因子來判斷其分裂與否,直至該數(shù)據(jù)插入到葉子中,并且滿足不超過類直徑,而每個非葉子節(jié)點的子女個數(shù)不大于分枝因子。算法還可以通過改變類
37、直徑修改特征樹 大小,控制其占內存容量。BIRCH算法通過一次掃描就可以進行較好的聚類,由此可見,該算法適合于大數(shù)據(jù)量。對于給定的M兆內存空間,其空間復雜度為O(M),時間間復雜度為 O(dNBlnB(M/P).其中d為維數(shù),N為節(jié)點數(shù),P為內存頁的大小,B為由P決定的分枝因子。I/O花費與數(shù)據(jù)量成線性關系。BIRCH算法只 適用于類的分布呈凸形 及球形的情況,并且由于 BIRCH算法需提供正確的聚類個數(shù)和簇直徑限制,對不可視的高維數(shù)據(jù)不可行。3 DBSCANDBSCANB法即基于密度的聚類算法。該算法利用類的密度連通性可以快速發(fā)現(xiàn)任意形狀的類。其基本思想是: 對于一個類中的每個對象,在其給定
38、半徑的領域中包含的對象不能少于某一給定的最小數(shù)目。在 DBSCAN算法中, 發(fā)現(xiàn)一個類的過程是基于這樣的事實:一 個類能夠被其中的任意一個核心對象所確定。為了發(fā)現(xiàn)一個類,DBSCANfc從對象集D中找到任意一對象 P,并查找D中關于關徑Eps和最小對象數(shù) Minpts的從 P密度可達的所有對象。如果P是核心對象,即半徑為 Eps的P的鄰域中包含的對象不少于Minpts,則根據(jù)算法,可以找到一個關于參數(shù)Eps和Minpts的類。如果P是一個邊界點,則半徑為 Eps的P鄰域包含的對象少于Minpts, P被暫時標注為噪聲點。然后,DBSCANb理D中的下一個對象。密度可達對象的獲取是通過不斷執(zhí)行區(qū)
39、域查詢來實現(xiàn)的。一個區(qū)域查詢返回指定區(qū)域中的所有對象。為了 有效地執(zhí)行區(qū)域查詢,DBSCANB法使用了空間查詢 R樹結構。在進行聚類前,必須建立針對所有數(shù)據(jù)的 R*-樹。另外,DBSCAN要求用戶指定一個全局參數(shù)Eps(為了減少計算量,預先確定參數(shù) Minpts)。為了確定取值,DBSCAN計算任意對象與它的第 k個最臨近的對象之間的距離。然后,根據(jù)求得的距離由小到大排序,并繪出排序后的圖,稱做k-dist 圖。 k-dist 圖中的橫坐標表示數(shù)據(jù)對象與它的第k 個最近的對象間的距離;縱坐標為對應于某一 k- dist距離值的數(shù)據(jù)對象的個數(shù)。R*-樹的建立和k-dist圖的繪制非常消耗時間。此外,為了得到較好的聚類結果,用戶必須根據(jù) k-dist圖,通過 試探選定一個比較合適的Eps值。DBSCAN算法不進行任何的預處理而直接對整個數(shù)據(jù)集進行聚類操作。當數(shù)據(jù)量非常大時,就必須有大內存量支持,I/O 消耗也非常大。其時間復雜度為O(nlogn)(n 為數(shù)據(jù)量),聚類過程的大部分時間用在區(qū)域查詢操作上。DBSCAN法對參數(shù)Eps及Minpts非常
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度果樹種植土地托管承包與農村金融創(chuàng)新合作協(xié)議
- 2025年度汽車維修行業(yè)安全生產責任簡易合同
- 二零二五年度高科技研發(fā)項目勞務合同風險評估書
- 二零二五年度健康醫(yī)療合伙投資公司股權合作協(xié)議
- 二零二五年度智能制造合同履行流程監(jiān)督與執(zhí)行協(xié)議
- 二零二五年度文化藝術交流正規(guī)藝術家合作協(xié)議
- 二零二五年度倆孩子撫養(yǎng)權及財產分割協(xié)議確保子女未來
- 二零二五年度旅游行業(yè)返利分成合同
- 2025年度長租公寓租賃合同風險評估與應對策略
- 2025年南京貨運從業(yè)資格證考試試題答案
- 風電工作流程圖
- 社會救助公共基礎知識題庫及答案
- 《論文所用框架圖》課件
- 人教版三年級下冊說課標、說教材
- 2022版《義務教育科學課程標準》試題及答案
- 組織效能概述和提高組織效能的方法
- 《民法典》背景下違約精神損害賠償制度適用問題
- 松下機器人操作手冊
- 數(shù)字電路邏輯設計(第3版)PPT全套完整教學課件
- 境外道路貨物運輸應急預案
- 廣東省深圳市南山區(qū)2022-2023學年下學期學科素養(yǎng)期末學業(yè)評價三年級科學試卷(掃描版無答案)
評論
0/150
提交評論