



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第一章1、數(shù)據(jù)倉庫就是一個(gè)面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合。2、元數(shù)據(jù)是描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù),它為訪問數(shù)據(jù)倉庫提供了一個(gè)信息目錄,根據(jù)數(shù)據(jù)用途的不同可將數(shù)據(jù)倉庫的元數(shù)據(jù)分為技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)兩類。3、數(shù)據(jù)處理通常分成兩大類:聯(lián)機(jī)事務(wù)處理和聯(lián)機(jī)分析處理。4、多維分析是指以“維”形式組織起來的數(shù)據(jù)(多維數(shù)據(jù)集)采取切片、切塊、鉆取和旋轉(zhuǎn)等各種分析動(dòng)作,以求剖析數(shù)據(jù),使擁護(hù)能從不同角度、不同側(cè)面觀察數(shù)據(jù)倉庫中的數(shù)據(jù),從而深入理解多維數(shù)據(jù)集中的信息。5、ROLAP是基于關(guān)系數(shù)據(jù)庫的 OLAP實(shí)現(xiàn),而MOLAP是基于多維數(shù)據(jù)結(jié)構(gòu)組織的 OLAP實(shí)現(xiàn)。6、數(shù)據(jù)
2、倉庫按照其開發(fā)過程,其關(guān)鍵環(huán)節(jié)包括數(shù)據(jù)抽取、數(shù)據(jù)存儲(chǔ)與管理和數(shù)據(jù)表現(xiàn)等。7、數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)根據(jù)應(yīng)用需求的不同,可以分為以下4種類型:兩層架構(gòu)、獨(dú)立型數(shù)據(jù)集合、以來型數(shù)據(jù)結(jié)合和操作型數(shù)據(jù)存儲(chǔ)和邏輯型數(shù)據(jù)集中和實(shí)時(shí)數(shù)據(jù)倉庫。8、操作型數(shù)據(jù)存儲(chǔ)實(shí)際上是一個(gè)集成的、面向主題的、可更新的、當(dāng)前值的(但是可“揮發(fā)”的)、企業(yè)級的、詳細(xì)的數(shù)據(jù)庫,也叫運(yùn)營數(shù)據(jù)存儲(chǔ)。9、“實(shí)時(shí)數(shù)據(jù)倉庫”以為著源數(shù)據(jù)系統(tǒng)、決策支持服務(wù)和倉庫倉庫之間以一個(gè)接近實(shí)時(shí)的速度交換數(shù)據(jù)和業(yè)務(wù)規(guī)則。10、從應(yīng)用的角度看,數(shù)據(jù)倉庫的發(fā)展演變可以歸納為5個(gè)階段:以報(bào)表為主、以分析為主、以預(yù)測模型為主、以運(yùn)營導(dǎo)向?yàn)橹骱鸵詫?shí)時(shí)數(shù)據(jù)倉庫和自動(dòng)
3、決策為主。第二章1、調(diào)和數(shù)據(jù)是存儲(chǔ)在企業(yè)級數(shù)據(jù)倉庫和操作型數(shù)據(jù)存儲(chǔ)中的數(shù)據(jù)。2、抽取、轉(zhuǎn)換、加載過程的目的是為決策支持應(yīng)用提供一個(gè)單一的、權(quán)威數(shù)據(jù)源。因此,我們要求ETL過程產(chǎn)生的數(shù)據(jù)(即調(diào)和數(shù)據(jù)層)是詳細(xì)的、歷史的、規(guī)范的、可理解的、即時(shí)的和質(zhì)量可控制的。3、數(shù)據(jù)抽取的兩個(gè)常見類型是靜態(tài)抽取和增量抽取。靜態(tài)抽取用于最初填充數(shù)據(jù)倉庫,增量抽取用于進(jìn)行數(shù)據(jù)倉庫的維護(hù)。4、粒度是對數(shù)據(jù)倉庫中數(shù)據(jù)的綜合程度高低的一個(gè)衡量。粒度越小,細(xì)節(jié)程度越高,綜合程度越低,回答 查詢的種類越多。5、使用星型模式可以從一定程度上提高查詢效率。因?yàn)樾切湍J街袛?shù)據(jù)的組織已經(jīng)經(jīng)過預(yù)處理,主要數(shù)據(jù)都在龐大的事實(shí)表中。6、維
4、度表一般又主鍵、分類層次和描述屬性組成。對于主鍵可以選擇兩種方式:一種是采用自然鍵,另一種是采用代理鍵。7、雪花型模式是對星型模式維表的進(jìn)一步層次化和規(guī)范化來消除冗余的數(shù)據(jù)。8、數(shù)據(jù)倉庫中存在不同綜合級別的數(shù)據(jù)。一般把數(shù)據(jù)分成4個(gè)級別:早期細(xì)節(jié)級、當(dāng)前細(xì)節(jié)級、輕度綜合級和高度綜合級。第三章1、SQL Server SSAS提供了所有業(yè)務(wù)數(shù)據(jù)的同意整合試圖,可以作為傳統(tǒng)報(bào)表、在線分析處理、關(guān)鍵性能指示器記分卡和數(shù)據(jù)挖掘的基礎(chǔ)。2、數(shù)據(jù)倉庫的概念模型通常采用信息包圖法來進(jìn)行設(shè)計(jì),要求將其5個(gè)組成部分(包括名稱、維度、類別、層次和度量)全面地描述出來。3、數(shù)據(jù)倉庫的邏輯模型通常采用星型圖法來進(jìn)行設(shè)計(jì)
5、,要求將星型的各類邏輯實(shí)體完整地描述出來。4、按照事實(shí)表中度量的可加性情況,可以把事實(shí)表對應(yīng)的事實(shí)分為4種類型:事務(wù)事實(shí)、快照事實(shí)、線性項(xiàng)目事實(shí)和事件事實(shí)。5、確定了數(shù)據(jù)倉庫的粒度模型以后,為提高數(shù)據(jù)倉庫的使用性能,還需要根據(jù)擁護(hù)需求設(shè)計(jì)聚合模型。6、在項(xiàng)目實(shí)施時(shí),根據(jù)事實(shí)表的特點(diǎn)和擁護(hù)的查詢需求,可以選用時(shí)間、業(yè)務(wù)類型、區(qū)域和下屬組織等多種數(shù)據(jù)分割類型。7、當(dāng)維表中的主鍵在事實(shí)表中沒有與外鍵關(guān)聯(lián)時(shí),這樣的維稱為退化維。它于事實(shí)表并無關(guān)系,但有時(shí)在 查詢限制條件(如訂單號碼、出貨單編號等)中需要用到。8、維度可以根據(jù)其變化快慢分為元變化維度、緩慢變化維度和劇烈變化維度三類。9、數(shù)據(jù)倉庫的數(shù)據(jù)量
6、通常較大,且數(shù)據(jù)一般很少更新,可以通過設(shè)計(jì)和優(yōu)化索引結(jié)構(gòu)來提高數(shù)據(jù)存取性能。10、數(shù)據(jù)倉庫數(shù)據(jù)庫常見的存儲(chǔ)優(yōu)化方法包括表的歸并與簇文件、反向規(guī)范化引入冗余、表的物理分割(分區(qū))。第四章1、關(guān)聯(lián)規(guī)則的經(jīng)典算法包括Apriori算法和FP-growth算法,其中FP-grownth算法的效率更高。2、如果 L2=a,b,a,c,a,d,b,c,b,d, 則連接產(chǎn)生的 C3=a,b,c,a,b,d,a,c,d,b,c,d再經(jīng)過彳修剪,C3=a,b,c,a,b,d3、設(shè)定supmin=50%,交易集如則 L1=A , B , CL2=A,CT1ABCT2ACT3ADT4BEF第五章1、分類的過程包括獲
7、取數(shù)據(jù)、預(yù)處理、分類器設(shè)計(jì)和分類決策。2、分類器設(shè)計(jì)階段包含三個(gè)過程:劃分?jǐn)?shù)據(jù)集、分類器構(gòu)造和分類器測試。3、分類問題中常用的評價(jià)準(zhǔn)則有精確度、查全率和查準(zhǔn)率和集合均值。4、支持向量機(jī)中常用的核函數(shù)有多項(xiàng)式核函數(shù)、徑向基核函數(shù)和S型核函數(shù)第六章1、聚類分析包括連續(xù)型、二值離散型、多值離散型和混合類型4種類型描述屬性的相似度計(jì)算方法。2、連續(xù)型屬性的數(shù)據(jù)樣本之間的距離有歐氏距離、曼哈頓距離和明考斯基距離。3、劃分聚類方法對數(shù)據(jù)集進(jìn)行聚類時(shí)包含三個(gè)要點(diǎn):選種某種距離作為數(shù)據(jù)樣本減的相似性度量、二| 選擇評價(jià)聚類性能的準(zhǔn)則函數(shù)和選擇某個(gè)初始分類,之后用迭代的方法得到聚類結(jié)果,使得評價(jià)聚類的準(zhǔn)則函數(shù)取
8、得最優(yōu)值。4、層次聚類方法包括凝聚型和分解型兩中層次聚類方法。填空題20分,簡答題25分,計(jì)算題2個(gè)(25分),綜合題30分1、數(shù)據(jù)倉庫的組成? P2數(shù)據(jù)倉庫數(shù)據(jù)庫,數(shù)據(jù)抽取工具,元數(shù)據(jù),訪問工具,數(shù)據(jù)集市,數(shù)據(jù)倉庫管理,信息發(fā)布系統(tǒng)2、數(shù)據(jù)挖掘技術(shù)對聚類分析的要求有哪幾個(gè)方面?P131可伸縮性;處理不同類型屬性的能力;發(fā)現(xiàn)任意形狀聚類的能力;減小對先驗(yàn)知識和用戶自定義參數(shù) 的依賴性;處理噪聲數(shù)據(jù)的能力;可解釋性和實(shí)用性3、數(shù)據(jù)倉庫在存儲(chǔ)和管理方面的特點(diǎn)與關(guān)鍵技術(shù)?P7數(shù)據(jù)倉庫面對的是大量數(shù)據(jù)的存儲(chǔ)與管理并行處理針對決策支持查詢的優(yōu)化支持多維分析的查詢模式4、常見的聚類算法可以分為幾類?P13
9、2基于劃分的聚類算法,基于層次的聚類算法,基于密度的聚類算法,基于網(wǎng)格的聚類算法,基于模型的聚類算法等。5、一個(gè)典型的數(shù)據(jù)倉庫系統(tǒng)的組成?P12數(shù)據(jù)源、數(shù)據(jù)存儲(chǔ)與管理、OLAP服務(wù)器、前端工具與應(yīng)用6、數(shù)據(jù)倉庫常見的存儲(chǔ)優(yōu)化方法?P71表的歸并與簇文件;反向規(guī)范化,引入冗余;表的物理分割。7、數(shù)據(jù)倉庫發(fā)展演變的 5個(gè)階段? P20以報(bào)表為主以分析為主以預(yù)測模型為主以運(yùn)行向?qū)橹饕詫?shí)時(shí)數(shù)據(jù)倉庫、自動(dòng)決策應(yīng)用為主8、 ID3算法主要存在的缺點(diǎn)? P116(1) ID3算法在選擇根結(jié)點(diǎn)和各內(nèi)部結(jié)點(diǎn)中的分枝屬性時(shí),使用信息增益作為評價(jià)標(biāo)準(zhǔn)。信息增益的缺點(diǎn)是傾向于選擇取值較多的屬性,在有些情況下這類屬性
10、可能不會(huì)提供太多有價(jià)值的信息。(2) ID3算法只能對描述屬性為離散型屬性的數(shù)據(jù)集構(gòu)造決策樹。9、簡述數(shù)據(jù)倉庫ETL軟件的主要功能和對產(chǎn)生數(shù)據(jù)的目標(biāo)要求。P30ETL軟件的主要功能:數(shù)據(jù)的抽取,數(shù)據(jù)的轉(zhuǎn)換,數(shù)據(jù)的加載對產(chǎn)生數(shù)據(jù)的目標(biāo)要求:詳細(xì)的、歷史的、規(guī)范化的、可理解的、即時(shí)的、質(zhì)量可控制的10、簡述分類器設(shè)計(jì)階段包含的 3個(gè)過程。劃分?jǐn)?shù)據(jù)集,分類器構(gòu)造,分類器測試11、什么是數(shù)據(jù)清洗? P33數(shù)據(jù)清洗是一種使用模式識別和其他技術(shù),在將原始數(shù)據(jù)轉(zhuǎn)換和移到數(shù)據(jù)倉庫之前來升級原始數(shù)據(jù)質(zhì)量的技術(shù)。12、支持度和置信度的計(jì)算公式及數(shù)據(jù)計(jì)算(P90)找出所有的規(guī)則X aY,使支持度和置信度分別大于門限
11、支持度:事務(wù)中X和丫同時(shí)發(fā)生的比例,P(X? Y)置信度:項(xiàng)集X發(fā)生時(shí),Y同時(shí)發(fā)生的條件概率 P(Y|X)Example:Beer(0.4, 0.67)Support(X I Y)c(X Y)Milk , Diaper13、利用信息包圖設(shè)計(jì)數(shù)據(jù)栩ppo&IX上確定的三方面內(nèi)容。P57確定指標(biāo),確定維度,確定類別14、K-近鄰分類方法的操作步驟(包括算法的輸入和輸出)。P128輸入:UI練集工未知走標(biāo)號即數(shù)據(jù)樣本發(fā)二為). p隔出:樹類標(biāo)號的教指樣本X的類標(biāo)號I(1)對于未知類標(biāo)號的數(shù)據(jù)樣本露授照下式計(jì)蹩它與訓(xùn)煉集X”由每一個(gè)數(shù) 據(jù)樣本的蛛距用-當(dāng) 學(xué)嗎 /| d瑞-xj, 1=1; 2
12、 :otalP(2)將第(1)步中的所有歐氏距寓接照由小到大的順序進(jìn)行由序,并且取前k 個(gè)距著從而觸#在X3就k楨'假設(shè)pm小分睚k個(gè)五 鄰中屬于類別MJ,a的樣本就t #(3)如果P廣中外i=l溫”,則K的類標(biāo)號為C,即虻* ¥15、什么是技術(shù)元數(shù)據(jù),主要包含的內(nèi)容? P29技術(shù)元數(shù)據(jù)是描述關(guān)于數(shù)據(jù)倉庫技術(shù)細(xì)節(jié)的數(shù)據(jù),應(yīng)用于開發(fā)、管理和維護(hù)DW,包含:DW結(jié)構(gòu)的描述,如DW的模式、視圖、維、層次結(jié)構(gòu)和導(dǎo)出數(shù)據(jù)的定義,數(shù)據(jù) 集市的位置和內(nèi)容等業(yè)務(wù)系統(tǒng)、DW和數(shù)據(jù)集市的體系結(jié)構(gòu)和模式匯總算法。包括度量和維定義算法,數(shù)據(jù)粒度、主題領(lǐng)域、聚合、匯總和預(yù)定 義的查詢和報(bào)告。由操作型業(yè)
13、務(wù)環(huán)境到數(shù)據(jù)倉庫業(yè)務(wù)環(huán)境的映射。包括源數(shù)據(jù)和他們的內(nèi)容、數(shù)據(jù)分割、數(shù)據(jù)提取、清洗、轉(zhuǎn)換規(guī)則和數(shù)據(jù)刷新規(guī)則及安全(用戶授權(quán)和存取控制)16、業(yè)務(wù)元數(shù)據(jù)主要包含的內(nèi)容? P29業(yè)務(wù)元數(shù)據(jù):從業(yè)務(wù)角度描述了 DW中的數(shù)據(jù),提供了介于使用者和實(shí)際系統(tǒng)之間的語義層,主要包括:使用者的業(yè)務(wù)屬于所表達(dá)的數(shù)據(jù)模型、對象名和屬性名訪問數(shù)據(jù)的原則和數(shù)據(jù)的來源系統(tǒng)提供的分析方法及公式和報(bào)表的信息。17、K-means算法的基本操作步驟(包括算法的輸入和輸出) 。P138*輸入;數(shù)據(jù)集齊值.|所匕2,,totwl),其中的題據(jù)樣本只包含描述屬性,不 包含類別屬性f聚類個(gè)數(shù)ko P總 出:使誤差平方和準(zhǔn)則最小的k個(gè)聚類
14、. u(1)從數(shù)據(jù)集衛(wèi)中隨機(jī)地選擇k個(gè)數(shù)據(jù)樣本作為聚美的初始代表點(diǎn),每一個(gè)代表 點(diǎn)表示一個(gè)類別.J(2)對于冗中的任一數(shù)據(jù)樣本x.(iWnWtQtal),計(jì)算它與k個(gè)初始代表點(diǎn)的 距離,并且將它劃分到距離最近的初始代表點(diǎn)所表示的類別中0 +(3)完成毅據(jù)樣本的劃分之后,對于每一個(gè)聚類,計(jì)理其中所有數(shù)據(jù)樣本的均值, 并且將其作為該聚美的新的代表點(diǎn),由此得到上個(gè)均值代表點(diǎn). ,(d)對于X中的任一數(shù)據(jù)樣本x. ( total),計(jì)算它與k個(gè)均值代表點(diǎn).的距離,并且將它劃分到距離最近的均值代表點(diǎn)所表示的類別中"()重復(fù)步驟(3)和14),直到各個(gè)聚類不再發(fā)生變化為止,即誤差平方和準(zhǔn) 則函數(shù)
15、的值達(dá)到最優(yōu).邛18、數(shù)據(jù)從集結(jié)區(qū)加載到數(shù)據(jù)倉庫中的主要方法?P36SQL 命令(如 Insert 或 Update)由DW供應(yīng)商或第三方提供專門的加載工具由DW管理員編寫自定義程序19、多維數(shù)據(jù)模型中的基本概念:維,維類別,維屬性,粒度 P37維:人們觀察數(shù)據(jù)的特定角度,是考慮問題的一類屬性,如時(shí)間維或產(chǎn)品維維類別:也稱維分層。即同一維度還可以存在細(xì)節(jié)程度不同的各個(gè)類別屬性(如時(shí)間維包括年、季度、月等)維屬性:是維的一個(gè)取值,是數(shù)據(jù)線在某維中位置的描述。粒度:DW中數(shù)據(jù)綜合程度高低的一個(gè)衡量。粒度低,細(xì)節(jié)程度高,回答查詢的種類多? ? 20、Apriori算法的基本操作步驟 P93*Apriori使用一種稱作逐層搜索的迭代方法,K項(xiàng)集用于探索K+1項(xiàng)集。該方法是基于候選的策略,降低候選數(shù)Apriori剪枝原則:若任何項(xiàng)集是非頻繁的,則其超集必然是非頻繁的(不用產(chǎn)生和測試超集)該原則基于以下支持度
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 養(yǎng)豬場建設(shè)前景及可行性研究報(bào)告
- 生活垃圾處理廠的社會(huì)效益與可行性研究報(bào)告(范文)
- 《雪橇》(教學(xué)設(shè)計(jì))-2024-2025學(xué)年人教版(2012)音樂二年級上冊
- 中小學(xué)用電安全安全教育
- 工商儲(chǔ)能項(xiàng)目的資源配置與可行性研究報(bào)告(僅供參考)
- 河道護(hù)路施工方案
- 二零二五版出租車經(jīng)營權(quán)出租合同書
- 學(xué)校與家長的協(xié)議書范例二零二五年
- 簡單租賃倉庫合同書范例二零二五年
- 路肩處施工方案
- 貫徹落實(shí)清理規(guī)范非融資性擔(dān)保方案指導(dǎo)意見
- 工程甩項(xiàng)合同協(xié)議
- 期中模擬卷(新疆專用)-2024-2025學(xué)年八年級英語下學(xué)期核心素養(yǎng)素質(zhì)調(diào)研模擬練習(xí)試題(考試版)A4
- 2025廣東省深圳市中考數(shù)學(xué)復(fù)習(xí)分類匯編《函數(shù)綜合題》含答案解析
- 金融工程重點(diǎn)總結(jié)
- 漁業(yè)資源與漁場學(xué)課件藍(lán)點(diǎn)馬鮫學(xué)習(xí)資料
- 2025年度毛絨玩具采購合同
- (T8聯(lián)考)2025屆高三部分重點(diǎn)中學(xué)3月聯(lián)合測評生物試卷(含答案詳解)河北版
- 2024年四川成都農(nóng)業(yè)科技中心招聘筆試真題
- 胸腔積液課件
- 《內(nèi)河運(yùn)輸船舶重大事故隱患判定標(biāo)準(zhǔn)》知識培訓(xùn)
評論
0/150
提交評論