




已閱讀5頁,還剩18頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)挖掘數(shù)據(jù)挖掘 概念概念與技術(shù)概念概念與技術(shù) DataDataDataData MiningMiningMiningMining ConceptsConceptsConceptsConcepts andandandand TechniquesTechniquesTechniquesTechniques 習(xí)題解答習(xí)題解答 JiaweiJiaweiJiaweiJiawei HanHanHanHanMichelineMichelineMichelineMicheline KamberKamberKamberKamber著著 范明范明孟曉峰孟曉峰 譯譯 目錄目錄目錄目錄 第第第第 1 1 1 1 章章章章 引言引言引言引言 1 1 什么是數(shù)據(jù)挖掘 在你的回答中 針對(duì)以下問題 1 2 1 6 定義下列數(shù)據(jù)挖掘功能 特征化 區(qū)分 關(guān)聯(lián)和相關(guān)分析 預(yù)測聚 類和演變分析 使用你熟悉的現(xiàn)實(shí)生活的數(shù)據(jù)庫 給出每種數(shù)據(jù)挖掘功 能的例子 解答 解答 特征化特征化是一個(gè)目標(biāo)類數(shù)據(jù)的一般特性或特性的匯總 例如 學(xué)生的特征 可被提出 形成所有大學(xué)的計(jì)算機(jī)科學(xué)專業(yè)一年級(jí)學(xué)生的輪廓 這些特 征包括作為一種高的年級(jí)平均成績 GPA Grade point aversge 的信息 還有所修的課程的最大數(shù)量 區(qū)分區(qū)分是將目標(biāo)類數(shù)據(jù)對(duì)象的一般特性與一個(gè)或多個(gè)對(duì)比類對(duì)象的一般 特性進(jìn)行比較 例如 具有高 GPA 的學(xué)生的一般特性可被用來與具有 低 GPA 的一般特性比較 最終的描述可能是學(xué)生的一個(gè)一般可比較的 輪廓 就像具有高 GPA 的學(xué)生的 75 是四年級(jí)計(jì)算機(jī)科學(xué)專業(yè)的學(xué)生 而具有低 GPA 的學(xué)生的 65 不是 關(guān)聯(lián)關(guān)聯(lián)是指發(fā)現(xiàn)關(guān)聯(lián)規(guī)則 這些規(guī)則表示一起頻繁發(fā)生在給定數(shù)據(jù)集的特 征值的條件 例如 一個(gè)數(shù)據(jù)挖掘系統(tǒng)可能發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則為 major X computingscience owns X personalcomputer support 12 confidence 98 其中 X 是一個(gè)表示學(xué)生的變量 這個(gè)規(guī)則指出正在學(xué)習(xí)的學(xué)生 12 支持度支持度 主修計(jì)算機(jī)科學(xué)并且擁有一臺(tái)個(gè)人計(jì)算機(jī) 這個(gè)組一個(gè)學(xué)生 擁有一臺(tái)個(gè)人電腦的概率是 98 置信度 或確定度 分類分類與預(yù)測預(yù)測不同 因?yàn)榍罢叩淖饔檬菢?gòu)造一系列能描述和區(qū)分?jǐn)?shù)據(jù)類型 或概念的模型 或功能 而后者是建立一個(gè)模型去預(yù)測缺失的或無效 的 并且通常是數(shù)字的數(shù)據(jù)值 它們的相似性是他們都是預(yù)測的工具 分類被用作預(yù)測目標(biāo)數(shù)據(jù)的類的標(biāo)簽 而預(yù)測典型的應(yīng)用是預(yù)測缺失的 數(shù)字型數(shù)據(jù)的值 聚類聚類分析的數(shù)據(jù)對(duì)象不考慮已知的類標(biāo)號(hào) 對(duì)象根據(jù)最大花蕾內(nèi)部的相 似性 最小化類之間的相似性的原則進(jìn)行聚類或分組 形成的每一簇可 以被看作一個(gè)對(duì)象類 聚類也便于分類法組織形式 將觀測組織成類分 層結(jié)構(gòu) 把類似的事件組織在一起 數(shù)據(jù)延邊分析數(shù)據(jù)延邊分析描述和模型化隨時(shí)間變化的對(duì)象的規(guī)律或趨勢 盡管這可 能包括時(shí)間相關(guān)數(shù)據(jù)的特征化 區(qū)分 關(guān)聯(lián)和相關(guān)分析 分類 或預(yù)測 這種分析的明確特征包括時(shí)間序列數(shù)據(jù)分析 序列或周期模式匹配 和 基于相似性的數(shù)據(jù)分析 1 3 1 9 列舉并描述說明數(shù)據(jù)挖掘任務(wù)的五種原語 解答 解答 用于指定數(shù)據(jù)挖掘任務(wù)的五種原語是 任務(wù)相關(guān)數(shù)據(jù)任務(wù)相關(guān)數(shù)據(jù) 這種原語指明給定挖掘所處理的數(shù)據(jù) 它包括指明數(shù)據(jù) 庫 數(shù)據(jù)庫表 或數(shù)據(jù)倉庫 其中包括包含關(guān)系數(shù)據(jù) 選擇關(guān)系數(shù)據(jù)的 條件 用于探索的關(guān)系數(shù)據(jù)的屬性或維 關(guān)于修復(fù)的數(shù)據(jù)排序和分組 挖掘的數(shù)據(jù)類型挖掘的數(shù)據(jù)類型 這種原語指明了所要執(zhí)行的特定數(shù)據(jù)挖掘功能 如特 征化 區(qū)分 關(guān)聯(lián) 分類 聚類 或演化分析 同樣 用戶的要求可能 更特殊 并可能提供所發(fā)現(xiàn)的模式必須匹配的模版 這些模版或超模式 也被稱為超規(guī)則 能被用來指導(dǎo)發(fā)現(xiàn)過程 背景知識(shí)背景知識(shí) 這種原語允許用戶指定已有的關(guān)于挖掘領(lǐng)域的知識(shí) 這樣的 知識(shí)能被用來指導(dǎo)知識(shí)發(fā)現(xiàn)過程 并且評(píng)估發(fā)現(xiàn)的模式 關(guān)于數(shù)據(jù)中關(guān) 系的概念分層和用戶信念是背景知識(shí)的形式 模式興趣度度量模式興趣度度量 這種原語允許用戶指定功能 用于從知識(shí)中分割不感 興趣的模式 并且被用來指導(dǎo)挖掘過程 也可評(píng)估發(fā)現(xiàn)的模式 這樣就 允許用戶限制在挖掘過程返回的不感興趣的模式的數(shù)量 因?yàn)橐环N數(shù)據(jù) 挖掘系統(tǒng)可能產(chǎn)生大量的模式 興趣度測量能被指定為簡易性 確定性 適用性 和新穎性的特征 發(fā)現(xiàn)模式的可視化發(fā)現(xiàn)模式的可視化 這種原語述及發(fā)現(xiàn)的模式應(yīng)該被顯示出來 為了使 數(shù)據(jù)挖掘能有效地將知識(shí)傳給用戶 數(shù)據(jù)挖掘系統(tǒng)應(yīng)該能將發(fā)現(xiàn)的各種 形式的模式展示出來 正如規(guī)則 表格 餅或條形圖 決策樹 立方體 或其它視覺的表示 1 4 1 13 描述以下數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫或數(shù)據(jù)倉庫集成方法的差別 不耦 合 松散耦合 半緊耦合和緊密耦合 你認(rèn)為哪種方法最流行 為什么 解答 解答 數(shù)據(jù)挖掘系統(tǒng)和數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)的集成的層次的差別如下 不耦合不耦合 數(shù)據(jù)挖掘系統(tǒng)用像平面文件這樣的原始資料獲得被挖掘的原始 數(shù)據(jù)集 因?yàn)闆]有數(shù)據(jù)庫系統(tǒng)或數(shù)據(jù)倉庫系統(tǒng)的任何功能被作為處理過 程的一部分執(zhí)行 因此 這種構(gòu)架是一種糟糕的設(shè)計(jì) 松散耦合松散耦合 數(shù)據(jù)挖掘系統(tǒng)不與數(shù)據(jù)庫或數(shù)據(jù)倉庫集成 除了使用被挖掘 的初始數(shù)據(jù)集的源數(shù)據(jù)和存儲(chǔ)挖掘結(jié)果 這樣 這種構(gòu)架能得到數(shù)據(jù)庫 和數(shù)據(jù)倉庫提供的靈活 高效 和特征的優(yōu)點(diǎn) 但是 在大量的數(shù)據(jù)集 中 由松散耦合得到高可測性和良好的性能是非常困難的 因?yàn)樵S多這 種系統(tǒng)是基于內(nèi)存的 半緊密耦合半緊密耦合 一些數(shù)據(jù)挖掘原語 如聚合 分類 或統(tǒng)計(jì)功能的預(yù)計(jì)算 可在數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)有效的執(zhí)行 以便數(shù)據(jù)挖掘系統(tǒng)在挖掘 查詢 過程的應(yīng)用 另外 一些經(jīng)常用到的中間挖掘結(jié)果能被預(yù)計(jì)算并存儲(chǔ)到 數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)中 從而增強(qiáng)了數(shù)據(jù)挖掘系統(tǒng)的性能 緊密耦合 緊密耦合 數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)被完全整合成數(shù)據(jù)挖掘系統(tǒng)的一部 份 并且因此提供了優(yōu)化的數(shù)據(jù)查詢處理 這樣的話 數(shù)據(jù)挖掘子系統(tǒng) 被視為一個(gè)信息系統(tǒng)的功能組件 這是一中高度期望的結(jié)構(gòu) 因?yàn)樗?利于數(shù)據(jù)挖掘功能 高系統(tǒng)性能和集成信息處理環(huán)境的有效實(shí)現(xiàn) 從以上提供的體系結(jié)構(gòu)的描述看 緊密耦合是最優(yōu)的 沒有值得顧慮的技術(shù) 和執(zhí)行問題 但緊密耦合系統(tǒng)所需的大量技術(shù)基礎(chǔ)結(jié)構(gòu)仍然在發(fā)展變化 其實(shí)現(xiàn) 并非易事 因此 目前最流行的體系結(jié)構(gòu)仍是半緊密耦合 因?yàn)樗撬缮Ⅰ詈虾?緊密耦合的折中 1 5 1 14 描述關(guān)于數(shù)據(jù)挖掘方法和用戶交互問題的三個(gè)數(shù)據(jù)挖掘挑戰(zhàn) 第第第第 2 2 2 2 章章章章 數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理 2 1 2 2 假設(shè)給定的數(shù)據(jù)集的值已經(jīng)分組為區(qū)間 區(qū)間和對(duì)應(yīng)的頻率如下 年齡頻率 1 5200 5 15450 15 20300 20 501500 50 80700 80 11044 計(jì)算數(shù)據(jù)的近似中位數(shù)值 解答 解答 先判定中位數(shù)區(qū)間 N 200 450 300 1500 700 44 3194 N 2 1597 200 450 300 950 1597 2450 950 1500 20 50 對(duì)應(yīng)中位數(shù)區(qū)間 我們有 L1 20 N 3197 freq l 950 freqmedian 1500 width 30 使用公 式 2 3 97 3230 1500 9502 3197 20 2 1 width freq freqN Lmedian median l median 32 97 歲 2 2 2 4 假定用于分析的數(shù)據(jù)包含屬性 age 數(shù)據(jù)元組的 age 值 以遞增序 是 13 15 16 16 19 20 20 21 22 22 25 25 25 25 30 33 33 35 35 35 35 36 40 45 46 52 70 a 該數(shù)據(jù)的均值是什么 中位數(shù)是什么 b 該數(shù)據(jù)的眾數(shù)是什么 討論數(shù)據(jù)的峰 即雙峰 三峰等 c 數(shù)據(jù)的中列數(shù)是什么 d 你能 粗略地 找出數(shù)據(jù)的第一個(gè)四分位數(shù) Q1 和第三個(gè)四分位數(shù) Q3 嗎 e 給出數(shù)據(jù)的五數(shù)概括 f 畫出數(shù)據(jù)的盒圖 g 分位數(shù) 分位數(shù)圖與分位數(shù)圖的不同之處是什么 解答 解答 a 該數(shù)據(jù)的均值是什么 中位數(shù)是什么 均值是 3096 2927 809 1 1 N i i x N x 公式 2 1 中位數(shù)應(yīng)是第 14 個(gè) 即x14 25 Q2 b 該數(shù)據(jù)的眾數(shù)是什么 討論數(shù)據(jù)的峰 即雙峰 三峰等 這個(gè)數(shù)集的眾數(shù)有兩個(gè) 25 和 35 發(fā)生在同樣最高的頻率處 因此是雙峰 眾數(shù) c 數(shù)據(jù)的中列數(shù)是什么 數(shù)據(jù)的中列數(shù)是最大術(shù)和最小是的均值 即 midrange 70 13 2 41 5 d 你能 粗略地 找出數(shù)據(jù)的第一個(gè)四分位數(shù) Q1 和第三個(gè)四分位數(shù) Q3 嗎 數(shù)據(jù)集的第一個(gè)四分位數(shù)應(yīng)發(fā)生在 25 處 即在 N 1 4 7 處 所以 Q1 20 而第三個(gè)四分位數(shù)應(yīng)發(fā)生在 75 處 即在 3 N 1 4 21 處 所以 Q3 35 e 給出數(shù)據(jù)的五數(shù)概括 一個(gè)數(shù)據(jù)集的分布的 5 數(shù)概括由最小值 第一個(gè)四分位數(shù) 中位數(shù) 第三個(gè) 四分位數(shù) 和最大值構(gòu)成 它給出了分布形狀良好的匯總 并且這些數(shù)據(jù)是 13 20 25 35 70 f 畫出數(shù)據(jù)的盒圖 略 g 分位數(shù) 分位數(shù)圖與分位數(shù)圖的不同之處是什么 分位數(shù)圖是一種用來展示數(shù)據(jù)值低于或等于在一個(gè)單變量分布中獨(dú)立的變 量的粗略百分比 這樣 他可以展示所有數(shù)的分位數(shù)信息 而為獨(dú)立變量測得的 值 縱軸 相對(duì)于它們的分位數(shù) 橫軸 被描繪出來 但分位數(shù) 分位數(shù)圖用縱軸表示一種單變量分布的分位數(shù) 用橫軸表示另一 單變量分布的分位數(shù) 兩個(gè)坐標(biāo)軸顯示它們的測量值相應(yīng)分布的值域 且點(diǎn)按照 兩種分布分位數(shù)值展示 一條線 y x 可畫到圖中 以增加圖像的信息 落在 該線以上的點(diǎn)表示在y軸上顯示的值的分布比x軸的相應(yīng)的等同分位數(shù)對(duì)應(yīng)的值 的分布高 反之 對(duì)落在該線以下的點(diǎn)則低 2 3 2 7 使用習(xí)題 2 4 給出的 age 數(shù)據(jù)回答下列問題 a 使用分箱均值光滑對(duì)以上數(shù)據(jù)進(jìn)行光滑 箱的深度為 3 解釋你的步驟 評(píng)述對(duì)于給定的數(shù)據(jù) 該技術(shù)的效果 b 如何確定數(shù)據(jù)中的離群點(diǎn) c 對(duì)于數(shù)據(jù)光滑 還有哪些其他方法 解答 解答 a 使用分箱均值光滑對(duì)以上數(shù)據(jù)進(jìn)行光滑 箱的深度為 3 解釋你的步驟 評(píng)述對(duì)于給定的數(shù)據(jù) 該技術(shù)的效果 用箱深度為 3 的分箱均值光滑對(duì)以上數(shù)據(jù)進(jìn)行光滑需要以下步驟 步驟 1 對(duì)數(shù)據(jù)排序 因?yàn)閿?shù)據(jù)已被排序 所以此時(shí)不需要該步驟 步驟 2 將數(shù)據(jù)劃分到大小為 3 的等頻箱中 箱 1 13 15 16箱 2 16 19 20箱 3 20 21 22 箱 4 22 25 25箱 5 25 25 30 箱 6 33 33 35 箱 7 35 35 35箱 8 36 40 45箱 9 46 52 70 步驟 3 計(jì)算每個(gè)等頻箱的算數(shù)均值 步驟 4 用各箱計(jì)算出的算數(shù)均值替換每箱中的每個(gè)值 箱 1 44 3 44 3 44 3 箱 2 55 3 55 3 55 3箱 3 21 21 21 箱 4 24 24 24箱 5 80 3 80 3 80 3 箱 6 101 3 101 3 101 3 箱 7 35 35 35箱 8 121 3 121 3 121 3 箱 9 56 56 56 b 如何確定數(shù)據(jù)中的離群點(diǎn) 聚類的方法可用來將相似的點(diǎn)分成組或 簇 并檢測離群點(diǎn) 落到簇的集 外的值可以被視為離群點(diǎn) 作為選擇 一種人機(jī)結(jié)合的檢測可被采用 而計(jì)算機(jī) 用一種事先決定的數(shù)據(jù)分布來區(qū)分可能的離群點(diǎn) 這些可能的離群點(diǎn)能被用人工 輕松的檢驗(yàn) 而不必檢查整個(gè)數(shù)據(jù)集 c 對(duì)于數(shù)據(jù)光滑 還有哪些其他方法 其它可用來數(shù)據(jù)光滑的方法包括別的分箱光滑方法 如中位數(shù)光滑和箱邊界 光滑 作為選擇 等寬箱可被用來執(zhí)行任何分箱方式 其中每個(gè)箱中的數(shù)據(jù)范圍 均是常量 除了分箱方法外 可以使用回歸技術(shù)擬合成函數(shù)來光滑數(shù)據(jù) 如通過 線性或多線性回歸 分類技術(shù)也能被用來對(duì)概念分層 這是通過將低級(jí)概念上卷 到高級(jí)概念來光滑數(shù)據(jù) 2 4 2 10 如下規(guī)范化方法的值域是什么 a min max 規(guī)范化 b z score 規(guī)范化 c 小數(shù)定標(biāo)規(guī)范化 解答 解答 a min max 規(guī)范化 值域是 new min new max b z score 規(guī)范化 值域是 old min mean old max mean 總的來說 對(duì)于所有可能 的數(shù)據(jù)集的值域是 c 小數(shù)定標(biāo)規(guī)范化 值域是 1 0 1 0 2 5 2 12 使用習(xí)題 2 4 給出的 age 數(shù)據(jù) 回答以下問題 a 使用 min max 規(guī)范化將 age值 35 變換到 0 0 1 0 區(qū)間 b 使用 z score規(guī)范化變換 age 值 35 其中 age 的標(biāo)準(zhǔn)差為 12 94 歲 c 使用小數(shù)定標(biāo)規(guī)范化變換 age 值 35 d 對(duì)于給定的數(shù)據(jù) 你愿意使用哪種方法 陳述你的理由 解答 解答 a 使用 min max 規(guī)范化將 age值 35 變換到 0 0 1 0 區(qū)間 minA 13 maxA 70 new minA 0 0 new maxA 1 0 而 v 35 3860 00 00 00 1 1370 1335 min min max minmax min AAA AA A newnewnew v v b 使用 z score規(guī)范化變換 age 值 35 其中 age 的標(biāo)準(zhǔn)差為 12 94 歲 963 29 27 809 27 70524645403635433230 27 25422221202191621513 A 2949 161 12 N AA N i i A 7002 12 2 AA 或 4986 167 12 N AA s N i i A 9421 12 2 AA ss v 35 400 0 3966 0 7002 12 037 5 7002 12 963 2935 A Av v 或39 0 3892 0 9421 12 037 5 9421 12 963 2935 A s s Av v c 使用小數(shù)定標(biāo)規(guī)范化變換 age 值 35 由于最大的絕對(duì)值為 70 所以 j 2 35 0 10 35 10 2 j v v d 對(duì)于給定的數(shù)據(jù) 你愿意使用哪種方法 陳述你的理由 略 2 6 2 14 假設(shè) 12 個(gè)銷售價(jià)格記錄組已經(jīng)排序如下 5 10 11 13 15 35 50 55 72 92 204 215 使用如下每種方法將其劃分成三個(gè)箱 a 等頻 等深 劃分 b 等寬劃分 c 聚類 解答 解答 a 等頻 等深 劃分 bin15 10 11 13 bin115 35 50 55 bin172 91 204 215 b 等寬劃分 每個(gè)區(qū)間的寬度是 215 5 3 70 bin15 10 11 13 15 35 50 55 72 bin191 bin1204 215 c 聚類 我們可以使用一種簡單的聚類技術(shù) 用 2 個(gè)最大的間隙將數(shù)據(jù)分成 3 個(gè)箱 bin15 10 11 13 15 bin135 50 55 72 91 bin1204 215 2 7 2 15 使用習(xí)題 2 4 給出的 age 數(shù)據(jù) a 畫出一個(gè)等寬為 10 的等寬直方圖 b 為如下每種抽樣技術(shù)勾畫例子 SRSWOR SRSWR 聚類抽樣 分層 抽樣 使用大小為 5 的樣本和層 青年 中年 和 老年 解答 解答 a 畫出一個(gè)等寬為 10 的等寬直方圖 152535455565 0 1 2 3 4 5 6 7 8 b 為如下每種抽樣技術(shù)勾畫例子 SRSWOR SRSWR 聚類抽樣 分層 抽樣 使用大小為 5 的樣本和層 青年 中年 和 老年 元組 T113T1022T1935 T215T1125T2035 T316T1225T2135 T416T1325T2236 T519T1425T2340 T620T1530T2445 T720T1633T2546 T821T1733T2652 T922T1835T2770 SRSWOR 和 SRSWR 不是同次的隨機(jī)抽樣結(jié)果可以不同 但前者因無放回 所以不能有相同的元組 SRSWOR n 5 SRSWR n 5 T416T720 T620T720 T1022T2035 T1125T2135 T2652T2546 聚類抽樣 設(shè)起始聚類共有 6 類 可抽其中的 m 類 Sample1Sample2Sample3Sample4Sample5Sample6 T113T620T1125T1633T2135T2652 T215T720T1225T1733T2236T2770 T316T821T1325T1835T2340 T416T922T1425T1935T2445 T519T1022T1530T2035T2546 Sample2Sample5 T620T2135 T720T2236 T821T2340 T922T2445 T1022T2546 分層抽樣 按照年齡分層抽樣時(shí) 不同的隨機(jī)試驗(yàn)結(jié)果不同 T113youngT1022youngT1935middle age T215youngT1125youngT2035middle age T316youngT1225youngT2135middle age T416youngT1325youngT2236middle age T519youngT1425youngT2340middle age T620youngT1530middleageT2445middle age T720youngT1633middleageT2546middle age T821youngT1733middleageT2652middle age T922youngT1835middleageT2770senior T416young T1225young T1733middleage T2546middleage T2770Senior 2 8 55555555555555555555555555 第第第第 3 3 3 3 章章章章 數(shù)據(jù)倉庫與數(shù)據(jù)倉庫與數(shù)據(jù)倉庫與數(shù)據(jù)倉庫與 OLAPOLAPOLAPOLAP 技術(shù)概述技術(shù)概述技術(shù)概述技術(shù)概述 3 1 3 4 假定 BigUniversity的數(shù)據(jù)倉庫包含如下4 個(gè)維 student student name area id major status university course course name department semester semester year 和 instructor dept rank 2 個(gè)度量 count 和 avg grade 在最低概念層 度量 avg grade 存放學(xué)生的實(shí)際課程成績 在較高概念層 avg grade 存放給定組合的平均成績 a 為該數(shù)據(jù)倉庫畫出雪花形模式圖 b 由 基 本 方 體 student course semester instructor 開 始 為 列 出 BigUniversity 每個(gè)學(xué)生的 CS 課程的平均成績 應(yīng)當(dāng)使用哪些特殊的 OLAP 操作 c 如果每維有 5 層 包括all 如 student major status university all 該立方體包含多少方體 解答 解答 a 為該數(shù)據(jù)倉庫畫出雪花形模式圖 雪花模式如圖所示 b 由 基 本 方 體 student course semester instructor 開 始 為 列 出 BigUniversity 每個(gè)學(xué)生的 CS課程的平均成績 應(yīng)當(dāng)使用哪些特殊的 OLAP 操作 這些特殊的聯(lián)機(jī)分析處理 OLAP 操作有 i 沿課程 course 維從 course id 上卷 到 department ii 沿學(xué)生 student 維從 student id 上卷 到 university iii 取 department CS 和 university Big University 沿課程 course 維和學(xué)生 student 維切片 iv 沿學(xué)生 student 維從 university 下鉆到 student name c 如果每維有 5 層 包括all 如 student major status university all 該立方體包含多少方體 這個(gè)立方體將包含 54 625 個(gè)方體 instructor 維表 semester 維表 student 維表 student id course id semester id instructor id count avg grade course id course name department semester id semester year Instructor id dept rank student id student name area id major status university area id city province country course 維表 univ 事實(shí)表 area 維表 題 3 4 圖 題 3 4 中數(shù)據(jù)倉庫的雪花形模式 3 2 2222222 3 3 3333333 第第第第 4 4 4 4 章章章章 數(shù)據(jù)立方體計(jì)算與數(shù)據(jù)泛化數(shù)據(jù)立方體計(jì)算與數(shù)據(jù)泛化數(shù)據(jù)立方體計(jì)算與數(shù)據(jù)泛化數(shù)據(jù)立方體計(jì)算與數(shù)據(jù)泛化 4 1 2008 11 29 4 2 有幾種典型的立方體計(jì)算方法 4 3 題 4 12 考慮下面的多特征立方體查詢 按 item region month 的所有 子集分組 對(duì)每組找出 2004 年的最小貨架壽命 并對(duì)價(jià)格低于 100 美元 貨架 壽命在最小貨架壽命的 1 25 1 5 倍之間的元組找出總銷售額部分 d 畫出該查詢的多特征立方體圖 e 用擴(kuò)充的 SQL 表示該查詢 f 這是一個(gè)分布式多特征立方體嗎 為什么 解答 解答 a 畫出該查詢的多特征立方體圖 R0 R1 1 25 min shelf and 1 5 min shelf b 用擴(kuò)充的 SQL 表示該查詢 selectitem region month Min shelf SUM R1 fromPurchase whereyear 2004 cube byitem region month R1 such thatR1 shelf 1 25 MIN Shelf and R1 Shelf 1 5 MIN Shelf and R1 Price0 0 P X senior P senior
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2.1 減數(shù)分裂和受精作用(第3課時(shí))課件-高一下學(xué)期生物人教版(2019)必修2
- 建筑師考試試題及答案
- 《2025年學(xué)院教職工試用期合同》
- 中藥集團(tuán)考試試題及答案
- 買門市股合同范例
- 產(chǎn)品技術(shù)授權(quán)合同范例范例
- 護(hù)資兒科考試試題及答案
- 鄉(xiāng)間建道路合同范例
- 2025合同法對(duì)合同違約金的規(guī)定
- 農(nóng)業(yè)獸醫(yī)考試試題及答案
- 特種設(shè)備重大事故隱患判定準(zhǔn)則
- 貝葉斯時(shí)間序列分析-深度研究
- 學(xué)校物業(yè)假期管理制度
- 學(xué)前教育專業(yè)實(shí)習(xí)總結(jié)
- 文藝復(fù)興式跨學(xué)科-深度研究
- 神經(jīng)病 神經(jīng)病學(xué)學(xué)習(xí)指導(dǎo)與習(xí)題集學(xué)習(xí)課件
- 中藥材種植藥用植物的采收與產(chǎn)地加工方案
- 《采油工理論試題庫》(附答案)
- 以終為始 育夢成光-初二上期末家長會(huì)
- 《哺乳動(dòng)物尿酸酶重組構(gòu)建篩選及Cys殘基結(jié)構(gòu)功能研究》
- 《貨物運(yùn)輸實(shí)務(wù)》課件 7.2大件物品的運(yùn)輸組織
評(píng)論
0/150
提交評(píng)論