【數(shù)據(jù)挖掘重點(diǎn)、知識(shí)點(diǎn)】+【常見(jiàn)數(shù)據(jù)挖掘分析方法介紹】+【數(shù)據(jù)庫(kù)講義】

上傳人：1*** IP屬地：廣東上傳時(shí)間：2024-12-14 格式：DOC 頁(yè)數(shù)：47 大?。?19.50KB 積分：11.88 舉報(bào) 版權(quán)申訴

【數(shù)據(jù)挖掘重點(diǎn)、知識(shí)點(diǎn)】+【常見(jiàn)數(shù)據(jù)挖掘分析方法介紹】+【數(shù)據(jù)庫(kù)講義】_第2頁(yè)

【數(shù)據(jù)挖掘重點(diǎn)、知識(shí)點(diǎn)】+【常見(jiàn)數(shù)據(jù)挖掘分析方法介紹】+【數(shù)據(jù)庫(kù)講義】_第3頁(yè)

【數(shù)據(jù)挖掘重點(diǎn)、知識(shí)點(diǎn)】+【常見(jiàn)數(shù)據(jù)挖掘分析方法介紹】+【數(shù)據(jù)庫(kù)講義】_第4頁(yè)

【數(shù)據(jù)挖掘重點(diǎn)、知識(shí)點(diǎn)】+【常見(jiàn)數(shù)據(jù)挖掘分析方法介紹】+【數(shù)據(jù)庫(kù)講義】_第5頁(yè)

已閱讀5頁(yè)，還剩42頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘知識(shí)點(diǎn)匯講數(shù)據(jù)庫(kù)技術(shù)的演化20世紀(jì)60年代：數(shù)據(jù)收集，數(shù)據(jù)庫(kù)創(chuàng)建，信息管理系統(tǒng)（IMS)和數(shù)據(jù)庫(kù)管理系統(tǒng)(DBMS)

20世紀(jì)70年代:關(guān)系數(shù)據(jù)模型，關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)工具

20世紀(jì)80年代:關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)（RDBMS）,高級(jí)數(shù)據(jù)模型(面向?qū)ο?、演繹等等)和面向應(yīng)用的DBMS(空間的、科學(xué)的、工程的）

20世紀(jì)90年代至今:數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)，多媒體數(shù)據(jù)庫(kù)和web數(shù)據(jù)庫(kù)

數(shù)據(jù)挖掘（數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)）?

在大型數(shù)據(jù)庫(kù)中提取有趣的（重要的，隱含的，目前未知的，潛在有用的）信息和模式知識(shí)發(fā)現(xiàn)過(guò)程KDD過(guò)程的步驟了解應(yīng)用領(lǐng)域:相關(guān)的預(yù)備知識(shí)和應(yīng)用目標(biāo)

創(chuàng)建一個(gè)目標(biāo)數(shù)據(jù)集：數(shù)據(jù)選擇,數(shù)據(jù)清理和預(yù)加工（可能占用60%精力）

數(shù)據(jù)變換：發(fā)現(xiàn)有用的特征，維/變量的變換，常量的表示

選擇數(shù)據(jù)挖掘功能:匯總，分類(lèi)，關(guān)聯(lián)，聚集,選擇挖掘算法

數(shù)據(jù)挖掘：搜索興趣模式

模式評(píng)估和知識(shí)表達(dá):可視化，變形，去掉冗余模式等等

使用發(fā)現(xiàn)的知識(shí)

何種數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘關(guān)系數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù),事務(wù)數(shù)據(jù)庫(kù),高級(jí)數(shù)據(jù)庫(kù)與信息庫(kù),面向?qū)ο蠛蛯?duì)象-關(guān)系數(shù)據(jù)庫(kù)

空間數(shù)據(jù)庫(kù),時(shí)間序列數(shù)據(jù)庫(kù)和暫時(shí)數(shù)據(jù)庫(kù),文本數(shù)據(jù)庫(kù)和多媒體數(shù)據(jù)庫(kù)

異源數(shù)據(jù)庫(kù)和繼承數(shù)據(jù)庫(kù)模式興趣度度量：一個(gè)模式是有趣的如果（1）它易于被人理解；(2)在某種程度上，對(duì)于新的或測(cè)試數(shù)據(jù)是有效的；（3）是潛在有用的；（4）是新穎的或?qū)τ脩?hù)正在尋求證實(shí)的假設(shè)是有效的。

數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)結(jié)合數(shù)據(jù)挖掘系統(tǒng)，數(shù)據(jù)庫(kù)管理系統(tǒng)，數(shù)據(jù)倉(cāng)庫(kù),非耦合，疏松耦合，半緊密耦合，緊密耦合

聯(lián)機(jī)分析數(shù)據(jù)挖掘

數(shù)據(jù)挖掘和OLAP的結(jié)合,交互式挖掘多層知識(shí)

通過(guò)下鉆/上卷，轉(zhuǎn)軸，切片/切塊等，在不同的層次，挖掘知識(shí)和模式的必要性。

多種挖掘功能的綜合特征化的分類(lèi)，先聚集再關(guān)聯(lián)數(shù)據(jù)倉(cāng)庫(kù)一個(gè)與組織結(jié)構(gòu)的操作數(shù)據(jù)庫(kù)分別維護(hù)的決定支持?jǐn)?shù)據(jù)庫(kù)。

為統(tǒng)一的歷史數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺(tái)，對(duì)信息處理提供支持。

“數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主體的、集成的、時(shí)變的、非易失的數(shù)據(jù)集合，支持管理過(guò)程的決策過(guò)程”—W.H.Inmon數(shù)據(jù)倉(cāng)庫(kù)和異源DBMS傳統(tǒng)的異種數(shù)據(jù)庫(kù)的集成:在異種數(shù)據(jù)庫(kù)的頂部建立一個(gè)包裝程序和集成程序

查詢(xún)驅(qū)動(dòng)方法

當(dāng)一個(gè)查詢(xún)提交客戶(hù)站點(diǎn)，首先使用元數(shù)據(jù)字典對(duì)查詢(xún)進(jìn)行轉(zhuǎn)換，將它轉(zhuǎn)換成相應(yīng)異種站點(diǎn)上的查詢(xún)，然后，不同站點(diǎn)返回的結(jié)果被集成為全局回答

查詢(xún)驅(qū)動(dòng)方法需要復(fù)雜的信息過(guò)濾，并且與局部數(shù)據(jù)源上的處理競(jìng)爭(zhēng)資源

數(shù)據(jù)倉(cāng)庫(kù)：使用更新驅(qū)動(dòng)的方法，為集成的異種數(shù)據(jù)庫(kù)系統(tǒng)帶來(lái)了高性能

將來(lái)自多個(gè)異種源的信息預(yù)先集成，并存儲(chǔ)與數(shù)據(jù)倉(cāng)庫(kù)中，供直接查詢(xún)和分析OLTP和OLAP的區(qū)別

用戶(hù)和系統(tǒng)的面向性:OLTP面向顧客，而OLAP面向市場(chǎng)

數(shù)據(jù)內(nèi)容：OLTP系統(tǒng)管理當(dāng)前數(shù)據(jù)，而OLAP管理歷史的數(shù)據(jù)。

數(shù)據(jù)庫(kù)設(shè)計(jì)：OLTP系統(tǒng)采用實(shí)體-聯(lián)系（ER)模型和面向應(yīng)用的數(shù)據(jù)庫(kù)設(shè)計(jì)，而OLAP系統(tǒng)通常采用星形和雪花模型

視圖：OLTP系統(tǒng)主要關(guān)注一個(gè)企業(yè)或部門(mén)內(nèi)部的當(dāng)前數(shù)據(jù)，而OLAP系統(tǒng)主要關(guān)注匯總的統(tǒng)一的數(shù)據(jù)。

訪問(wèn)模式：OLTP訪問(wèn)主要有短的原子事務(wù)組成，而OLAP系統(tǒng)的訪問(wèn)大部分是只讀操作，盡管許多可能是復(fù)雜的查詢(xún)

為什么需要一個(gè)分離的數(shù)據(jù)倉(cāng)庫(kù)提高兩個(gè)系統(tǒng)的性能

數(shù)據(jù)庫(kù)管理系統(tǒng)—OLTP的協(xié)調(diào):存取方法，索引，同步控制，恢復(fù)

數(shù)據(jù)倉(cāng)庫(kù)—OLAP的協(xié)調(diào):復(fù)雜的OLAP查詢(xún)，多維視圖，合并

不同的功能和不同的數(shù)據(jù):

數(shù)據(jù)維護(hù):決策支持需要?dú)v史數(shù)據(jù)，而操作數(shù)據(jù)庫(kù)一般不維護(hù)歷史數(shù)據(jù)

數(shù)據(jù)統(tǒng)一:決策支持需要將來(lái)自異種源的數(shù)據(jù)統(tǒng)一（如聚集和匯總）

數(shù)據(jù)質(zhì)量:不同的數(shù)據(jù)源通常使用不一致的數(shù)據(jù)表達(dá)，代碼和形式，這些都需要協(xié)調(diào)雪花模式:雪花模式是星型模式的變種，其中某些維表示規(guī)范化的，而數(shù)據(jù)進(jìn)一步分解到附加的維表中，它的圖形類(lèi)似于雪花的形狀

事實(shí)星座表:多個(gè)事實(shí)表共享維表，這種模式可以看作星型模式及，因此稱(chēng)為星系模式或事實(shí)星座數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)關(guān)于數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的四種視圖

自頂向下視圖:允許選擇數(shù)據(jù)倉(cāng)庫(kù)的所需的相關(guān)信息

數(shù)據(jù)源視圖:揭示被操作數(shù)據(jù)庫(kù)系統(tǒng)捕獲、存儲(chǔ)和管理的信息。

數(shù)據(jù)倉(cāng)庫(kù)視圖:由事實(shí)表和維表構(gòu)成

商務(wù)查詢(xún)視圖:從最終用戶(hù)的角度透視數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)DM的過(guò)程數(shù)據(jù)準(zhǔn)備階段:數(shù)據(jù)的選擇（選擇相關(guān)的數(shù)據(jù)，凈化（消除噪音、冗余數(shù)據(jù)），推測(cè)（推算缺失數(shù)據(jù)），轉(zhuǎn)化（離散值數(shù)據(jù)與連續(xù)值數(shù)據(jù)之間的相互轉(zhuǎn)換、數(shù)據(jù)值的分組分類(lèi)、數(shù)據(jù)項(xiàng)之間的計(jì)算組合等），數(shù)據(jù)縮減（減少數(shù)據(jù)量），經(jīng)過(guò)處理過(guò)的數(shù)據(jù)一般存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中。數(shù)據(jù)準(zhǔn)備是否做得充分將影響到數(shù)據(jù)挖掘的效率和準(zhǔn)確度以及最終模式的有效性。挖掘階段：該階段是數(shù)據(jù)挖掘的核心步驟，也是技術(shù)難點(diǎn)所在。根據(jù)數(shù)據(jù)挖掘的目標(biāo)，采用人工智能、集合論、統(tǒng)計(jì)學(xué)等方法，應(yīng)用相應(yīng)的數(shù)據(jù)挖掘算法，分析數(shù)據(jù)并通過(guò)可視化工具表述所獲得的模式或規(guī)則。評(píng)價(jià)階段：在數(shù)據(jù)挖掘中得到的模式可能是沒(méi)有實(shí)際意義或沒(méi)有使用價(jià)值的，也有可能不能準(zhǔn)確反映數(shù)據(jù)的真實(shí)意義，甚至在某些情況下是與事實(shí)相反的，因此需要評(píng)估，確定哪些是有效的、有用的模式。評(píng)估可以根據(jù)用戶(hù)多年的經(jīng)驗(yàn)，有些模式也可以直接用數(shù)據(jù)來(lái)檢驗(yàn)其準(zhǔn)確性。

鞏固和運(yùn)用階段：用戶(hù)理解的、并被認(rèn)為是符合實(shí)際和有價(jià)值的模式形成了知識(shí)。同時(shí)還要對(duì)知識(shí)進(jìn)行一致性檢查，解決與以前得到的知識(shí)互相沖突、矛盾的地方，使知識(shí)得到鞏固。運(yùn)用知識(shí)有兩種方法：一種是只需看知識(shí)本身所描述的關(guān)系或結(jié)果，就可以對(duì)決策提供支持；另一種是要求運(yùn)用知識(shí)對(duì)新的數(shù)據(jù)進(jìn)行分析，由此可能產(chǎn)生新的問(wèn)題，而需要對(duì)知識(shí)作進(jìn)一步的優(yōu)化。

數(shù)據(jù)預(yù)處理的必要性:數(shù)據(jù)挖掘要求的數(shù)據(jù)：干凈、準(zhǔn)確、簡(jiǎn)潔、完整。

原始數(shù)據(jù)存在的問(wèn)題：

雜亂性：來(lái)自多種數(shù)據(jù)庫(kù)和文件系統(tǒng)，缺乏統(tǒng)一標(biāo)準(zhǔn)和定義。

冗余性：同一個(gè)事務(wù)在數(shù)據(jù)庫(kù)中可能存在多個(gè)相同的物理描述。

不完整性：設(shè)計(jì)缺陷或人為原因造成數(shù)據(jù)丟失、不確定、不完整。數(shù)據(jù)預(yù)處理的基本功能：數(shù)據(jù)清洗，數(shù)據(jù)集成，數(shù)據(jù)變換，數(shù)據(jù)約簡(jiǎn)數(shù)據(jù)預(yù)處理的基本功能－數(shù)據(jù)清洗功能：去除源數(shù)據(jù)中的噪聲數(shù)據(jù)和無(wú)關(guān)數(shù)據(jù)，重復(fù)數(shù)據(jù)處理，缺值數(shù)據(jù)處理

數(shù)據(jù)類(lèi)型轉(zhuǎn)換

方法：，有監(jiān)督方法：有領(lǐng)域?qū)＜抑笇?dǎo)：無(wú)監(jiān)督方法：樣本數(shù)據(jù)訓(xùn)練算法

數(shù)據(jù)預(yù)處理的基本功能－數(shù)據(jù)集成功能：

數(shù)據(jù)的選擇：從多數(shù)據(jù)源中選擇數(shù)據(jù)

數(shù)據(jù)沖突處理：如字段同名異義、異名同義、長(zhǎng)度不同。

數(shù)據(jù)不一致處理：如單位、命名、結(jié)構(gòu)、含義不一致。

數(shù)據(jù)類(lèi)型的選擇數(shù)據(jù)預(yù)處理的基本功能－數(shù)據(jù)變換功能：格式化：將元組集按照格式化條件合并，即對(duì)屬性值量綱的歸一化處理。

歸納：處理元組屬性值之間的“is-a”語(yǔ)義關(guān)系。

多維數(shù)據(jù)組織：采用切片、旋轉(zhuǎn)、投影等操作將原始數(shù)據(jù)按照多維立方體形式組織成為不同層次、不同粒度、不同維度的聚集。數(shù)據(jù)預(yù)處理的基本功能－數(shù)據(jù)簡(jiǎn)化功能：在對(duì)數(shù)據(jù)挖掘任務(wù)和原始數(shù)據(jù)充分理解的基礎(chǔ)上，發(fā)現(xiàn)依賴(lài)于目標(biāo)的表達(dá)數(shù)據(jù)的有用特征，從而盡可能地精簡(jiǎn)數(shù)據(jù)量。

方法：屬性選擇：屬性剪枝、并枝、相關(guān)分析。

數(shù)據(jù)抽樣：隨機(jī)抽樣、等間隔抽樣、分層抽樣。數(shù)據(jù)預(yù)處理的主要方法基于約略集的屬性約簡(jiǎn)方法：按等價(jià)關(guān)系對(duì)屬性集進(jìn)行劃分，求出最小約簡(jiǎn)集。

基于概念樹(shù)的數(shù)據(jù)濃縮方法：將元組逐層歸納為概念樹(shù)，并去除噪聲數(shù)據(jù)。

基于信息論的數(shù)據(jù)泛化方法：數(shù)據(jù)立方體法、面向?qū)傩缘臍w納方法、最大熵方法。

基于統(tǒng)計(jì)分析的屬性選取方法：主成分分析、回歸分析、公共因素模型分析，找出特征屬性。

遺傳算法：高效進(jìn)行數(shù)據(jù)聚類(lèi)預(yù)處理。OLAP服務(wù)器類(lèi)型關(guān)系OLAP(ROLAP)

使用關(guān)系和擴(kuò)充關(guān)系DBMS存放并管理數(shù)據(jù)倉(cāng)庫(kù)，而OLAP中間件支持其余部分。

包括每個(gè)DBMS后短的優(yōu)化，聚集導(dǎo)航邏輯的實(shí)現(xiàn)，和附加的工具和服務(wù)

更大的可伸縮性

多維OLAP(MOLAP)

基于數(shù)組的多維存儲(chǔ)引擎（稀疏矩陣技術(shù)）

對(duì)預(yù)計(jì)算的匯總數(shù)據(jù)的快速索引

混合OLAP(HOLAP)

用戶(hù)的靈活性，例如，低層次：相關(guān)的，高層次：數(shù)組

特殊的SQL服務(wù)器

在星型和雪花模式上支持SQL查詢(xún)

數(shù)據(jù)倉(cāng)庫(kù)后端工具和實(shí)用程序數(shù)據(jù)提取:從多個(gè)異種的外部數(shù)據(jù)源收集數(shù)據(jù)

數(shù)據(jù)清理:檢測(cè)數(shù)據(jù)中的錯(cuò)誤，可能時(shí)更正它們。

數(shù)據(jù)變換:將數(shù)據(jù)由遺產(chǎn)或宿主格式轉(zhuǎn)換成數(shù)據(jù)倉(cāng)庫(kù)格式

21．表的存儲(chǔ)空間，除了數(shù)據(jù)存儲(chǔ)空間外，還包含索引存儲(chǔ)空間。22．?dāng)?shù)據(jù)挖掘可以針對(duì)任何類(lèi)型的數(shù)據(jù)庫(kù)進(jìn)行，既包括傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)，也包括非數(shù)據(jù)庫(kù)組織的文本數(shù)據(jù)源、Web數(shù)據(jù)源以及復(fù)雜的多媒體數(shù)據(jù)源等1．關(guān)系數(shù)據(jù)庫(kù)2．?dāng)?shù)據(jù)倉(cāng)庫(kù)3．文本數(shù)據(jù)庫(kù)4.復(fù)雜類(lèi)型數(shù)據(jù)庫(kù)23．元數(shù)據(jù)按其所描述的內(nèi)容，可以分為三類(lèi)。(1)關(guān)于基本數(shù)據(jù)的元數(shù)據(jù)。(2)關(guān)于數(shù)據(jù)處理的元數(shù)據(jù)。(3)關(guān)于企業(yè)組織的元數(shù)據(jù)。24．根據(jù)用戶(hù)對(duì)數(shù)據(jù)倉(cāng)庫(kù)的認(rèn)識(shí)和使用目的，從用戶(hù)的角度分類(lèi)可將數(shù)據(jù)倉(cāng)庫(kù)劃分為兩大類(lèi)(1)技術(shù)元數(shù)據(jù)(TechnicalMetadata)。(2)業(yè)務(wù)元數(shù)據(jù)(BusinessMetadata)。25．元數(shù)據(jù)定義了數(shù)據(jù)從被抽取，到清洗、轉(zhuǎn)換，再到導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)的全部過(guò)程。元數(shù)據(jù)在數(shù)據(jù)抽?。D(zhuǎn)換中的作用如下。(1)確定數(shù)據(jù)的來(lái)源。(2)保證數(shù)據(jù)倉(cāng)庫(kù)內(nèi)容的質(zhì)量。(3)實(shí)現(xiàn)屬性間的映射與轉(zhuǎn)換。26．元數(shù)據(jù)的收集的方法有哪些(1)數(shù)據(jù)源中元數(shù)據(jù)的收集。(2)數(shù)據(jù)模型中元數(shù)據(jù)的收集。(3)映射關(guān)系元數(shù)據(jù)的收集。(4)數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用元數(shù)據(jù)的收集。27．按使用目的的不同，數(shù)據(jù)倉(cāng)庫(kù)的使用者可分為開(kāi)發(fā)人員、維護(hù)人員和最終用戶(hù)三類(lèi)28．時(shí)間維在幾乎所有的MDDB或數(shù)據(jù)倉(cāng)庫(kù)中，都是最要的一個(gè)維，使用最為普遍。時(shí)間維有以下兩個(gè)特點(diǎn)。(1)周期特征。時(shí)間維中包含許多周期(時(shí)間單位)，如日、周、月、季、年等。這些周期之間，存在著固定的轉(zhuǎn)換規(guī)則。(2)行業(yè)特征。不同的行業(yè)，其工作日各有特點(diǎn)。一般是每周5個(gè)工作日，但也有許例外，如交通運(yùn)輸、零售等行業(yè)全年無(wú)休息日。29．?dāng)?shù)據(jù)挖掘項(xiàng)目是一項(xiàng)系統(tǒng)工程，它作為從數(shù)據(jù)庫(kù)中自動(dòng)發(fā)現(xiàn)知識(shí)的過(guò)程，仍然需要來(lái)自不同領(lǐng)域?qū)＜夜餐瑓⑴c知識(shí)發(fā)現(xiàn)的全部過(guò)程。其中，發(fā)揮著主要作用的專(zhuān)家包括主題領(lǐng)域?qū)＜?、?shù)據(jù)專(zhuān)家、數(shù)據(jù)分析專(zhuān)家和數(shù)據(jù)挖掘?qū)＜?0．?dāng)?shù)值型數(shù)據(jù)概念分層的方法主要有分箱、聚類(lèi)分析、基于熵的離散化。31．?dāng)?shù)據(jù)泛化的方法很多，較為常用和有效的方法有數(shù)據(jù)立方體、面向?qū)傩缘臍w納等方法。32．從不同的角度考察，關(guān)聯(lián)規(guī)則有多種分類(lèi)。(1)根據(jù)項(xiàng)對(duì)應(yīng)屬性的數(shù)據(jù)類(lèi)型，關(guān)聯(lián)規(guī)則可以分為布爾型和數(shù)值型。(2)根據(jù)規(guī)則中數(shù)據(jù)的抽象層次，可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則。(3)根據(jù)規(guī)則中涉及到的數(shù)據(jù)的維數(shù)，關(guān)聯(lián)規(guī)則可以分為單維的和多維的。(4)關(guān)聯(lián)并不一定意味著相關(guān)或因果，有時(shí)需要識(shí)別不同的項(xiàng)是否相關(guān)，是否存在因果關(guān)系。根據(jù)關(guān)聯(lián)規(guī)則的各種擴(kuò)展，可分為相關(guān)分析、最大模式和頻繁閉項(xiàng)集、添加約束等類(lèi)型。33．多層、多維的數(shù)量型關(guān)聯(lián)規(guī)則是前三種規(guī)則的復(fù)合體，挖掘的難度比較大。最簡(jiǎn)單的關(guān)聯(lián)規(guī)則是單維、單層的布爾關(guān)聯(lián)規(guī)則。在數(shù)據(jù)庫(kù)挖掘中經(jīng)常使用下列幾種約束。(1)知識(shí)類(lèi)型約束。(2)數(shù)據(jù)約束。(3)維或?qū)哟渭s束。(4)興趣度約束。(5)規(guī)則約束。35．規(guī)則約束可以分為反單調(diào)的、單調(diào)的、簡(jiǎn)潔的、可轉(zhuǎn)變的和不可轉(zhuǎn)變的五種類(lèi)型。36．分類(lèi)是數(shù)據(jù)挖掘的基本功能之一，它的目標(biāo)是從數(shù)據(jù)集中提取出能夠描述數(shù)據(jù)類(lèi)基本特征的模型，并利用這些模型把數(shù)據(jù)集中的每個(gè)對(duì)象都?xì)w入到其中某個(gè)已知的數(shù)據(jù)類(lèi)中。37．聚類(lèi)分析的數(shù)據(jù)源可以分為兩種類(lèi)型，即結(jié)構(gòu)化的數(shù)據(jù)和非結(jié)構(gòu)化的數(shù)據(jù)。38數(shù)據(jù)取樣的過(guò)程有哪些A．Web數(shù)據(jù)采樣。A．Web數(shù)據(jù)分析。A．Web數(shù)據(jù)調(diào)整。Web數(shù)據(jù)轉(zhuǎn)換39．?dāng)?shù)據(jù)預(yù)處理就是將來(lái)自不同數(shù)據(jù)源的各類(lèi)數(shù)據(jù)，組織成為模式挖掘所必需的數(shù)據(jù)結(jié)構(gòu)。數(shù)據(jù)預(yù)處理的過(guò)程有哪些(1)數(shù)據(jù)清洗。(2)數(shù)據(jù)集成。(3)數(shù)據(jù)轉(zhuǎn)換。(4)數(shù)據(jù)約簡(jiǎn)。40．自動(dòng)摘錄方法的突出優(yōu)點(diǎn)是不受領(lǐng)域的限制。自動(dòng)摘錄方法的不足之處在于(1)文章的書(shū)寫(xiě)是否規(guī)范對(duì)摘錄效果的影響很大。(2)主題析出難以全面。(3)易產(chǎn)生冗余句。(4)缺乏連貫。數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)有何不同？它們有那些相似之處？數(shù)據(jù)倉(cāng)庫(kù)與傳統(tǒng)數(shù)據(jù)庫(kù)的關(guān)系數(shù)據(jù)倉(cāng)庫(kù)在傳統(tǒng)數(shù)據(jù)庫(kù)的基礎(chǔ)之上發(fā)展起來(lái)的，但它并不是對(duì)傳統(tǒng)數(shù)庫(kù)的徹底拋棄，而是旨在彌補(bǔ)統(tǒng)數(shù)據(jù)庫(kù)在數(shù)據(jù)分析能力方面的不足，以提供良好的大規(guī)模數(shù)據(jù)分析能力為己任，圖為決策提供有效的技術(shù)支持。和傳統(tǒng)數(shù)據(jù)庫(kù)相比，數(shù)據(jù)倉(cāng)庫(kù)在體特征、存儲(chǔ)內(nèi)容、向用戶(hù)等方面，都有著重大的差異。正是由于這些差的存在，實(shí)現(xiàn)了數(shù)倉(cāng)庫(kù)技術(shù)在分析能力上的突破。數(shù)據(jù)抽取:在構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程中，外部數(shù)據(jù)源所提供的數(shù)據(jù)并不都是有用的，有些數(shù)據(jù)對(duì)決策并能提供支持，同時(shí)，外部數(shù)據(jù)源中數(shù)據(jù)冗余的現(xiàn)象也很普遍。數(shù)據(jù)倉(cāng)庫(kù)既然是面向主題，么在外部數(shù)據(jù)源中，只有那些與主題相關(guān)的內(nèi)容才是必需的、有使用價(jià)值的。因此，必以主題的需求為依據(jù)，對(duì)數(shù)據(jù)源的內(nèi)容進(jìn)行有目的地選擇，這一過(guò)程被稱(chēng)為“數(shù)據(jù)抽取”（DataExtraction）。數(shù)據(jù)清洗:數(shù)據(jù)倉(cāng)庫(kù)的外部數(shù)據(jù)源所提供的數(shù)據(jù)內(nèi)容并不完美，存在著“臟數(shù)據(jù)”—即數(shù)據(jù)有空缺、噪聲等缺陷，而且在數(shù)據(jù)倉(cāng)庫(kù)的各據(jù)源之間，其內(nèi)容也存在著不一致的現(xiàn)象。為了控制這些對(duì)其進(jìn)行處理，這一處理過(guò)程稱(chēng)為“數(shù)據(jù)清洗”（DataCleaning）。對(duì)于任何數(shù)據(jù)倉(cāng)庫(kù)而言，數(shù)據(jù)清洗過(guò)程都是必不可少的。元數(shù)據(jù):所謂元數(shù)據(jù)，就是有關(guān)數(shù)據(jù)的數(shù)據(jù)，它是關(guān)于數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)，操作數(shù)據(jù)的進(jìn)程以及應(yīng)用程序的結(jié)構(gòu)和意義的描述信息，元數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)的建立過(guò)程中，有著十分重要的作用它所描述的對(duì)象，涉及數(shù)據(jù)倉(cāng)庫(kù)的各個(gè)方面?？傊?，數(shù)據(jù)是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)中的核心部件。數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的非易失性:數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的非易失性，又稱(chēng)數(shù)據(jù)的穩(wěn)定性，它包括兩方面的含義：其一是指數(shù)據(jù)倉(cāng)庫(kù)內(nèi)容的更新、追加等操作是不頻繁的，一般依據(jù)既定的周期或條件閾值進(jìn)行；其二是指，數(shù)據(jù)在導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)后，雖然也有刪除、更新等操作，但決定這種操作的閾值條件是較難滿(mǎn)足的，這種情況的發(fā)生是非常罕見(jiàn)的，可以近似地認(rèn)為，數(shù)據(jù)一旦導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)后，就不再發(fā)生變化在數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建過(guò)程中，將客觀事物從現(xiàn)實(shí)世界的存在到計(jì)算機(jī)內(nèi)物理實(shí)現(xiàn)的抽象過(guò)程劃分為四個(gè)階段，所謂現(xiàn)實(shí)世界，即客觀存在的世界，它是存在于現(xiàn)實(shí)中的各種客觀事物及其相互關(guān)系的總和。對(duì)于數(shù)據(jù)倉(cāng)庫(kù)而言，它的內(nèi)容只是完整的客觀世界的一個(gè)真子集，包含了對(duì)特定決策進(jìn)行支持所必需的所有客觀對(duì)象。所謂概念世界，是人們對(duì)現(xiàn)實(shí)世界中對(duì)象的屬性進(jìn)行條析、逐步概括和歸納之后，將其以抽象的形式反映出來(lái)的結(jié)果。它包括概念和關(guān)系兩大部分內(nèi)容。所謂邏輯世界，是指人們依據(jù)計(jì)算機(jī)物理存儲(chǔ)的要求，將頭腦中的概念世界進(jìn)行轉(zhuǎn)化，從而形成的邏輯表達(dá)結(jié)果。計(jì)算機(jī)世界，是指現(xiàn)實(shí)世界中的客觀對(duì)象在計(jì)算機(jī)中的最終表達(dá)形式，即計(jì)算機(jī)系統(tǒng)中的實(shí)際存儲(chǔ)模型?？陀^對(duì)象的內(nèi)容只有在計(jì)算機(jī)中實(shí)現(xiàn)了物理存儲(chǔ)，才能供人們有效地進(jìn)行分析和處理。粒度模型:粒度模型，是指數(shù)據(jù)倉(cāng)庫(kù)在構(gòu)造過(guò)程中各種粒度參數(shù)的總和。在從概念模型構(gòu)造邏輯模型，由邏輯模型轉(zhuǎn)換成計(jì)算機(jī)模型，最終構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程中，它也起著至關(guān)重要的作用。粒度:所謂粒度，是指數(shù)據(jù)倉(cāng)庫(kù)中記錄數(shù)據(jù)或?qū)?shù)據(jù)進(jìn)行綜合時(shí)所使用的時(shí)間段參數(shù)，它決定了數(shù)據(jù)倉(cāng)庫(kù)中所存儲(chǔ)的數(shù)據(jù)單元在時(shí)間上的詳細(xì)程度和級(jí)別。時(shí)間段參數(shù)越小，粒度級(jí)別越低，數(shù)據(jù)就越詳細(xì)、越具體；反之，時(shí)間段參數(shù)越大，粒度級(jí)別越高，就意味著數(shù)據(jù)綜合度越高，同時(shí)細(xì)節(jié)的損失也就越多。OLAP:聯(lián)機(jī)分析處理(OnlineAnalyticalProcess,OLAP)就是這樣一門(mén)分析技術(shù)，它以數(shù)據(jù)倉(cāng)庫(kù)為應(yīng)用平臺(tái)，根據(jù)決策者的需求，迅速而靈活地對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的大量數(shù)據(jù)進(jìn)行復(fù)雜、有效的分析處理，并將結(jié)果以直觀的形式提供給決策分析人員，從而實(shí)現(xiàn)對(duì)決策的支持。數(shù)據(jù)單元:“數(shù)據(jù)單元”又稱(chēng)“數(shù)據(jù)單元格”，是指多維數(shù)組的取值，即維數(shù)組的每個(gè)維都選中一個(gè)維成員后所構(gòu)成的數(shù)據(jù)組合。數(shù)據(jù)單元的表示方法為(維度1維成員，維度2維成員，…，維度n維成員，變量值)。多維數(shù)組:如果一個(gè)數(shù)據(jù)集合可以從多個(gè)角度進(jìn)行觀察，即具有多個(gè)維度，則根據(jù)這些維度將數(shù)據(jù)組織所構(gòu)成的數(shù)組，就是多維數(shù)組。多維數(shù)組是OLAP的核心，按其維度的數(shù)量，也可稱(chēng)為“數(shù)據(jù)立方體”或“數(shù)據(jù)超立方”。多維數(shù)組可以用(維1，維2,維3,…，維n，變量)來(lái)表示。維成員:“維成員”是指某個(gè)維的某個(gè)具體取值。如果該維具有多個(gè)層次，則維成員也是由在該維各層次上的取值組合而成的。維:維是指人們觀察某個(gè)數(shù)據(jù)集合的特定角度，它是以對(duì)數(shù)據(jù)的某個(gè)共性的提取為前提的。維的層次:在同一個(gè)維度上，可以存在多個(gè)程度不同的細(xì)節(jié)，這些細(xì)節(jié)就是“維的層次”，它是對(duì)“維”的進(jìn)一步細(xì)化。當(dāng)人們從某個(gè)特定角度觀察問(wèn)題時(shí)，按所依據(jù)的細(xì)節(jié)程度(即維層次)的不同，可以得到多種描述方法。維表:維表是用于記錄維度的關(guān)系表。多維數(shù)據(jù)立方體中每個(gè)坐標(biāo)軸上的值，各記錄在一個(gè)維表中，這樣，一個(gè)n維的數(shù)據(jù)立方體，就有n張維表。事實(shí)表:事實(shí)表是用于記錄度量信息的關(guān)系表。多維數(shù)據(jù)立方體中所有的度量信息，均可記錄在同一個(gè)事實(shí)表中。因此，事實(shí)表的提交要比維表大得多?？臻g數(shù)據(jù)庫(kù)。主要指存儲(chǔ)空間信息的數(shù)據(jù)庫(kù)，其中數(shù)據(jù)可能以光柵格式提供，也可能用矢量圖形數(shù)據(jù)表示。對(duì)空間數(shù)據(jù)庫(kù)的挖掘可以為城市規(guī)劃、生態(tài)規(guī)劃、道路修建提供決策支持。時(shí)序數(shù)據(jù)庫(kù)。主要用于存放與時(shí)間相關(guān)的數(shù)據(jù)，它可用來(lái)反映隨時(shí)間變化的即時(shí)數(shù)據(jù)或不同時(shí)間發(fā)生的不同事件。對(duì)時(shí)序數(shù)據(jù)的挖掘可以發(fā)現(xiàn)事件的發(fā)展趨勢(shì)、事物的演變過(guò)程和隱藏特征，這些信息將對(duì)事件的計(jì)劃、決策和預(yù)警是非常有用的。關(guān)聯(lián)分析:關(guān)聯(lián)分析(AssociationAnalysis)就是從大量的數(shù)據(jù)中發(fā)現(xiàn)項(xiàng)集之間有趣的聯(lián)系、相關(guān)關(guān)系或因果結(jié)構(gòu)，以及項(xiàng)集的頻繁模式。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫(kù)中存在的一類(lèi)重要的知識(shí)。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性，則稱(chēng)之為關(guān)聯(lián)。關(guān)聯(lián)可分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)規(guī)則。分類(lèi):分類(lèi)(Classification)在數(shù)據(jù)挖掘中是一項(xiàng)非常重要的任務(wù)，目前在商業(yè)上應(yīng)用最多。分類(lèi)的目的是找出一組能夠描述數(shù)據(jù)集合典型特征的模型或函數(shù)，以便能夠識(shí)別未知數(shù)據(jù)的歸屬或類(lèi)別。數(shù)據(jù)挖掘中分類(lèi)和回歸的不同分類(lèi)和回歸都可用于預(yù)測(cè)。預(yù)測(cè)的目的是從利用歷史數(shù)據(jù)記錄中自動(dòng)推導(dǎo)出對(duì)給定數(shù)據(jù)的推廣描述，從而能對(duì)未來(lái)數(shù)據(jù)進(jìn)行預(yù)測(cè)。和回歸方法不同的是，分類(lèi)的輸出是離散的類(lèi)別值，而回歸的輸出則是連續(xù)數(shù)值。聚類(lèi):聚類(lèi)(Clustering)是將物理或抽象對(duì)象的集合分組成為由類(lèi)似的對(duì)象組成的多個(gè)類(lèi)的過(guò)程。數(shù)據(jù)挖掘中聚類(lèi)與分類(lèi)分析方法的不同聚類(lèi)與分類(lèi)分析方法不同，聚類(lèi)分析是在沒(méi)有給定劃分類(lèi)的情況下(如沒(méi)有預(yù)定的分類(lèi)表、沒(méi)有預(yù)定的類(lèi)目)，根據(jù)信息相似度進(jìn)行信息聚集的一種方法。所以，聚類(lèi)分析的輸入數(shù)據(jù)集是一組未標(biāo)記的對(duì)象。聚類(lèi)的目的是根據(jù)一定的規(guī)則，合理地進(jìn)行分組或聚類(lèi)，并用顯式或隱式的方法描述不同的類(lèi)別。由于分析可以采用不同的算法，所以對(duì)于相同的數(shù)據(jù)集合可能有不同的劃分。在機(jī)器學(xué)習(xí)中，聚類(lèi)是無(wú)指導(dǎo)學(xué)習(xí)的一個(gè)例子，分類(lèi)是有指導(dǎo)學(xué)習(xí)的一個(gè)例子，兩者所采用的方法相差甚遠(yuǎn)，并且聚類(lèi)的時(shí)間復(fù)雜度要比分類(lèi)大得多。信息摘要:信息摘要(InformationSummarization)是一種自動(dòng)編制文摘的技術(shù)，即利用計(jì)算機(jī)將一篇文章濃縮成一篇短文的過(guò)程。文摘是以簡(jiǎn)潔的篇幅，忠實(shí)地反映原文內(nèi)容的一段簡(jiǎn)短文字。通過(guò)閱讀文摘，人們可以快速地掌握大量文獻(xiàn)的基本內(nèi)容，提高獲取信息的效率。信息抽取:信息抽取(InformationExtraction)就是根據(jù)一個(gè)事先定義好的、描述所需信息規(guī)格的模板，從非結(jié)構(gòu)化的文本中抽取相關(guān)信息的過(guò)程。這個(gè)模板通常說(shuō)明了某些事件、實(shí)體或關(guān)系的類(lèi)型。元數(shù)據(jù)挖掘:元數(shù)據(jù)挖掘(MetadataMining)是指對(duì)元數(shù)據(jù)進(jìn)行的挖掘。例如，對(duì)文本元數(shù)據(jù)的挖掘。文本元數(shù)據(jù)可以分為兩類(lèi)：一類(lèi)是描述性元數(shù)據(jù)，包括文本的名稱(chēng)、日期、大小、類(lèi)型等信息；一類(lèi)是語(yǔ)義性元數(shù)據(jù)，包括文本的作者、標(biāo)題、機(jī)構(gòu)、內(nèi)容等信息。數(shù)據(jù)立方體:數(shù)據(jù)立方體是數(shù)據(jù)倉(cāng)庫(kù)和聯(lián)機(jī)分析處理的核心概念之一。數(shù)據(jù)立方體中存放著預(yù)先對(duì)部分或所有維(屬性)的匯總結(jié)果。利用數(shù)據(jù)立方體對(duì)數(shù)據(jù)泛化的目的是把那些經(jīng)常被查詢(xún)到的、運(yùn)算開(kāi)銷(xiāo)較高的計(jì)算預(yù)先執(zhí)行，并將執(zhí)行結(jié)果存儲(chǔ)到數(shù)據(jù)立方體中，以便于知識(shí)發(fā)現(xiàn)、決策支持以及其他應(yīng)用。數(shù)據(jù)立方體的維數(shù)不限定為3，它可以為n(n>1)。聚類(lèi):聚類(lèi)就是將數(shù)據(jù)對(duì)象組成不同的類(lèi)(或簇)，使得不同類(lèi)對(duì)象之間的相似性盡量小，而同類(lèi)對(duì)象之間的相似性盡量大。事實(shí)表是星形模型的核心，其內(nèi)容可以分為那些部分？作用是什么？事實(shí)表是星形模型的核心，其內(nèi)容可以分為鍵和詳細(xì)指標(biāo)兩部分。事實(shí)表通過(guò)鍵將各維表組織起來(lái)，共同滿(mǎn)足用戶(hù)的查詢(xún)需求；詳細(xì)指標(biāo)則是指記錄在事實(shí)表中的具體數(shù)據(jù)，因其構(gòu)成與內(nèi)容較為簡(jiǎn)單，因此在事實(shí)表中直接記錄，供查詢(xún)使用。元數(shù)據(jù)的收集的作用與業(yè)務(wù)數(shù)據(jù)相比，元數(shù)據(jù)的量是很小的，并且其變化的頻率與幅度也遠(yuǎn)不如業(yè)務(wù)數(shù)據(jù)，因此，對(duì)元數(shù)據(jù)采取自動(dòng)收集的機(jī)制，不會(huì)對(duì)數(shù)據(jù)倉(cāng)庫(kù)的運(yùn)行效率產(chǎn)生大的影響，也不會(huì)給開(kāi)發(fā)人員帶來(lái)大量的額外工作。另一方面，有效的元數(shù)據(jù)收集機(jī)制，卻可以大大提高數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā)、維護(hù)與工作的效率。項(xiàng):對(duì)一個(gè)數(shù)據(jù)表而言，表的每個(gè)字段都具有一個(gè)或多個(gè)不同的值。字段的每種取值都是一個(gè)項(xiàng)(Item)。在進(jìn)行挖掘關(guān)聯(lián)規(guī)則時(shí)，項(xiàng)一般表示成謂詞的形式，如商品類(lèi)型(計(jì)算機(jī))，其中“商品類(lèi)型”是字段名，“計(jì)算機(jī)”是字段的值。有時(shí)也直接用字段的值來(lái)表示。事務(wù):事務(wù)是項(xiàng)的集合。本質(zhì)上，一個(gè)事務(wù)就是事實(shí)表中的一條記錄。事務(wù)是項(xiàng)集I的子集。事務(wù)的集合稱(chēng)為事務(wù)集，通常就是事務(wù)數(shù)據(jù)庫(kù)。但E-R圖法很難直接用于開(kāi)發(fā)數(shù)據(jù)倉(cāng)庫(kù)，目前采用的解決方法是什么？答：為了將用E-R圖描述的企業(yè)模型方便地映射為數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型，可以采取措施對(duì)傳統(tǒng)的E-R圖方法進(jìn)行改進(jìn)，即引入以下概念。(1)事實(shí)實(shí)體(FactEntity)用于表示現(xiàn)實(shí)世界中一系列相互關(guān)聯(lián)的事實(shí)，一般是查詢(xún)分析的焦點(diǎn)，在E-R圖中用矩形表示；(2)維度實(shí)體(DimensionEntity)用于對(duì)事實(shí)實(shí)體的各種屬性作細(xì)化的描述，是開(kāi)展查詢(xún)分析的重要依據(jù)，在E-R圖中用菱形表示；(3)引用實(shí)體(QuotationEntity)對(duì)應(yīng)于現(xiàn)實(shí)世界中的某個(gè)具體實(shí)體或?qū)ο?，在事?wù)數(shù)據(jù)查詢(xún)時(shí)能提供詳細(xì)的數(shù)據(jù)，在E-R圖中用六角形表示。事實(shí)實(shí)體是數(shù)據(jù)倉(cāng)庫(kù)的中心，對(duì)應(yīng)著數(shù)據(jù)倉(cāng)庫(kù)中的事實(shí)表。在數(shù)據(jù)倉(cāng)庫(kù)的高層模型中，它具有以下的作用：為用戶(hù)提供定量的數(shù)據(jù)基本分析點(diǎn)，提供多種訪問(wèn)事實(shí)數(shù)據(jù)的路徑、維度或指標(biāo)，提供相關(guān)的標(biāo)準(zhǔn)數(shù)據(jù)，構(gòu)成每個(gè)維度中最低一級(jí)的類(lèi)別和一個(gè)信息組中的指標(biāo)，作為存儲(chǔ)大量數(shù)據(jù)的基礎(chǔ)表格。在數(shù)據(jù)倉(cāng)庫(kù)中，維度實(shí)體可以作為對(duì)用戶(hù)查詢(xún)結(jié)果進(jìn)行篩選的工具。維度實(shí)體的另一個(gè)重要作用，是支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)的整體構(gòu)建，為不同的事實(shí)實(shí)體之間建立聯(lián)系，從而將維度實(shí)體和引用實(shí)體結(jié)合成一個(gè)完整的整體，以滿(mǎn)足用戶(hù)對(duì)數(shù)據(jù)倉(cāng)庫(kù)的訪問(wèn)需求。引用實(shí)體的內(nèi)容是從業(yè)務(wù)數(shù)據(jù)庫(kù)中轉(zhuǎn)換而來(lái)的。在數(shù)據(jù)倉(cāng)庫(kù)中，它往往體現(xiàn)為物理數(shù)據(jù)庫(kù)，向用戶(hù)提供詳細(xì)的數(shù)據(jù)，以實(shí)現(xiàn)對(duì)決策的支持。數(shù)據(jù)倉(cāng)庫(kù)的反規(guī)范化處理的意義？規(guī)范化處理的結(jié)果，表現(xiàn)為將一個(gè)復(fù)雜的、依賴(lài)關(guān)系眾多的大表分解成為若干個(gè)內(nèi)容簡(jiǎn)潔、關(guān)系清楚的小表。應(yīng)該指出，即使分解過(guò)程能滿(mǎn)足連接無(wú)損性和依賴(lài)保持性的要求，這種分解結(jié)果也不是最佳的。因?yàn)閿?shù)據(jù)倉(cāng)庫(kù)要實(shí)現(xiàn)對(duì)決策的支持，常常需要進(jìn)行大規(guī)模的查詢(xún)操作，這種操作必然涉及對(duì)眾多的小表進(jìn)行動(dòng)態(tài)的關(guān)聯(lián)。反規(guī)范化的另一種情況，是保持?jǐn)?shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的適度冗余。在數(shù)據(jù)倉(cāng)庫(kù)中，有些數(shù)據(jù)是基本的，涉及到大多數(shù)，甚至是全部的業(yè)務(wù)。依據(jù)規(guī)范化理論的要求，這類(lèi)數(shù)據(jù)應(yīng)當(dāng)存放在一個(gè)基本的表中，與記錄其他具體業(yè)務(wù)數(shù)據(jù)的表相互獨(dú)立，以供查詢(xún)使用。這樣的結(jié)果是：每次進(jìn)行查詢(xún)操作時(shí)，都必須同時(shí)訪問(wèn)業(yè)務(wù)數(shù)據(jù)表和上述基本表，再對(duì)其進(jìn)行關(guān)聯(lián)操作，這就增加了CPU和系統(tǒng)I/O的負(fù)擔(dān)。因此，有必要將基本表中的內(nèi)容作為冗余數(shù)據(jù)，重復(fù)地插入到各個(gè)業(yè)務(wù)數(shù)據(jù)表中，從而以適當(dāng)犧牲存儲(chǔ)空間為代價(jià)，求得系統(tǒng)整體效率的提升。邏輯模型中，包括4種基本的結(jié)構(gòu)元素。(1)初始數(shù)據(jù)組。每個(gè)主要實(shí)體均擁有且只擁有一個(gè)初始數(shù)據(jù)組，它體現(xiàn)實(shí)體的本質(zhì)特征。初始數(shù)據(jù)組的內(nèi)容和屬性需要借助邏輯模型中的其他部件(如二次數(shù)據(jù)組等)來(lái)詳細(xì)說(shuō)明。(2)二次數(shù)據(jù)組。每個(gè)主要實(shí)體均可擁有多個(gè)二次數(shù)據(jù)組，它們通過(guò)鏈接部件與初始數(shù)據(jù)組相連，對(duì)初始數(shù)據(jù)組的內(nèi)容和屬性加以詳細(xì)說(shuō)明。(3)連接數(shù)據(jù)組。它是在數(shù)據(jù)組之間建立聯(lián)系的部件。借助于連接數(shù)據(jù)組，初始數(shù)據(jù)組與二次數(shù)據(jù)組之間的聯(lián)系得到了體現(xiàn)，二次數(shù)據(jù)組因而可以對(duì)初始數(shù)據(jù)組的內(nèi)容作出詳細(xì)說(shuō)明。(4)類(lèi)型數(shù)據(jù)組。它可以理解為在初始數(shù)據(jù)組主題下，逐級(jí)細(xì)化的分類(lèi)數(shù)據(jù)，在圖示中通過(guò)初始數(shù)據(jù)組指向右側(cè)的線(xiàn)段來(lái)表示。相對(duì)靠左側(cè)的是超類(lèi)型數(shù)據(jù)組，相對(duì)靠右側(cè)的稱(chēng)為子類(lèi)型數(shù)據(jù)組。說(shuō)明邏輯模型4種基本結(jié)構(gòu)間的關(guān)系？從數(shù)據(jù)穩(wěn)定性的角度來(lái)觀察，除連接數(shù)據(jù)組之外，從初始數(shù)據(jù)組，到二次數(shù)據(jù)組，再到類(lèi)型數(shù)據(jù)組，其穩(wěn)定性是逐步降低的。通過(guò)邏輯模型，設(shè)計(jì)者可向數(shù)據(jù)倉(cāng)庫(kù)的用戶(hù)提供出與概念模型相比更為詳細(xì)的“系統(tǒng)功能結(jié)構(gòu)圖”。用戶(hù)可以從中了解到系統(tǒng)所能提供的功能，以及他們所能夠獲得的信息。在邏輯模型中，數(shù)據(jù)的屬性已經(jīng)初步體現(xiàn)出來(lái)，具備了向物模型過(guò)渡的條件。數(shù)據(jù)倉(cāng)庫(kù)的物理模型設(shè)計(jì)，必須依據(jù)以下要點(diǎn)進(jìn)行。物理模型設(shè)計(jì)的主要內(nèi)容，包括以下哪幾個(gè)方面。(1)數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)的確定。。(2)索引策略的確定。(3)數(shù)據(jù)存放位置的確定。(4)存儲(chǔ)分配參數(shù)的確定。MOLAP與ROLAP的比較MOLAP與ROLAP是OLAP實(shí)現(xiàn)的兩種主要方式，本節(jié)將從體系結(jié)構(gòu)、數(shù)據(jù)存取等幾方面，對(duì)這兩種實(shí)現(xiàn)方式進(jìn)行比較①。1．體系結(jié)構(gòu):在ROLAP處理過(guò)程中，ROLAP服務(wù)器通過(guò)用戶(hù)界面接受多維查詢(xún)，將其轉(zhuǎn)化為標(biāo)準(zhǔn)的SQL查詢(xún)，在RDBMS中執(zhí)行，然后再將查詢(xún)的結(jié)果，以適當(dāng)?shù)男问酵ㄟ^(guò)用戶(hù)端界面顯示出來(lái)。多維數(shù)據(jù)立方體是借助RDBMS平臺(tái)實(shí)現(xiàn)的，因此系統(tǒng)的工作過(guò)程稍顯復(fù)雜2．?dāng)?shù)據(jù)的存取:MOLAP基本上是專(zhuān)為OLAP處理而設(shè)計(jì)的，具備良好的預(yù)綜合能力，可自建索引，可以多維查詢(xún)語(yǔ)言直接對(duì)數(shù)據(jù)立方體進(jìn)行存取操作，具有較快的數(shù)據(jù)存取速度。但在MOLAP中，數(shù)據(jù)的細(xì)節(jié)并不是物理地存儲(chǔ)在MDDB中，不可直接訪問(wèn)。3.數(shù)據(jù)的存儲(chǔ)管理:在存儲(chǔ)實(shí)現(xiàn)上，為了保證訪問(wèn)速度，MDDB一般以平面文件的形式存放，文件的大小受操作系統(tǒng)的限制。4.元數(shù)據(jù)的管理對(duì)OLAP和數(shù)據(jù)倉(cāng)庫(kù)而言，元數(shù)據(jù)的地位是至關(guān)重要的，它是系統(tǒng)的核心數(shù)據(jù)。OLAP的元數(shù)據(jù)包括數(shù)據(jù)層次關(guān)系的定義、數(shù)據(jù)間的轉(zhuǎn)換規(guī)則、時(shí)間序列信息、數(shù)據(jù)的安全控制規(guī)則、數(shù)據(jù)更新?tīng)顟B(tài)與方法的定義、數(shù)據(jù)源的描述等。在元數(shù)據(jù)的管理上，MOLAP和ROLAP都缺乏統(tǒng)一的標(biāo)準(zhǔn)，5.適應(yīng)性:OLAP的適應(yīng)性主要包括以下幾方面的內(nèi)容。(1)對(duì)維數(shù)變化的適應(yīng)性。MOLAP具有較高的預(yù)綜合度，隨維數(shù)的增加，數(shù)據(jù)超立方體的體積增長(zhǎng)十分迅速，管理較難；相比之下，RLOAP的預(yù)綜合度較低，管理靈活，維的增加對(duì)數(shù)據(jù)庫(kù)總體的影響較小，適應(yīng)性較強(qiáng)。(2)對(duì)數(shù)據(jù)變化的適應(yīng)性。由于MOLAP的高效率是建立在預(yù)綜合基礎(chǔ)上的，當(dāng)數(shù)據(jù)變化頻繁時(shí)，MDDB進(jìn)行預(yù)綜合所需的開(kāi)銷(xiāo)將十分可觀，因此其對(duì)數(shù)據(jù)變化的適應(yīng)性不如ROLAP。(3)對(duì)數(shù)據(jù)量的適應(yīng)性。作為ROLAP基礎(chǔ)的RDBMS,其發(fā)展歷程要遠(yuǎn)遠(yuǎn)超過(guò)MDDB,目前已擁有較強(qiáng)的并行處理能力，能較好地適應(yīng)大數(shù)據(jù)量的運(yùn)算，同時(shí)在對(duì)軟硬件環(huán)境的適應(yīng)能力上，也具有明顯的優(yōu)勢(shì)。應(yīng)該指出，MOLAP與ROLAP二者之間，并沒(méi)有絕對(duì)的優(yōu)劣之分，特別是在對(duì)中小規(guī)模數(shù)據(jù)的分析處理上，MOLAP高效率的優(yōu)勢(shì)十分明顯。隨著MDDB技術(shù)的不斷發(fā)展，研究的不斷深入，MOLAP技術(shù)必將會(huì)有質(zhì)的提高。競(jìng)爭(zhēng)情報(bào)系統(tǒng)概念競(jìng)爭(zhēng)情報(bào)系統(tǒng)是企業(yè)感知競(jìng)爭(zhēng)環(huán)境變化、了解競(jìng)爭(zhēng)對(duì)手動(dòng)向、制定經(jīng)營(yíng)戰(zhàn)略和競(jìng)爭(zhēng)決策的信息系統(tǒng)。通過(guò)它，可以幫助企業(yè)完成競(jìng)爭(zhēng)情報(bào)的收集、整理、加工、儲(chǔ)存、分析、研究和管理等多項(xiàng)工作，提高企業(yè)獲取競(jìng)爭(zhēng)情報(bào)的效率，為企業(yè)在競(jìng)爭(zhēng)上取得優(yōu)勢(shì)提供必要的保障。競(jìng)爭(zhēng)情報(bào)系統(tǒng)的使用有助于企業(yè)提高競(jìng)爭(zhēng)情報(bào)工作的效率，降低獲取情報(bào)的成本，幫助企業(yè)抓住市場(chǎng)機(jī)遇，使企業(yè)在市場(chǎng)變化中能夠主動(dòng)采取應(yīng)變措施，同時(shí)也能夠?qū)⒉煌块T(mén)提供的單功能情報(bào)進(jìn)行綜合分析，得到重要的決策支持信息。數(shù)據(jù)挖掘應(yīng)用在企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)中，數(shù)據(jù)挖掘可以解決文本自動(dòng)分類(lèi)、自動(dòng)聚類(lèi)、信息抽取、自動(dòng)摘要、關(guān)聯(lián)規(guī)則分析等問(wèn)題。1．文本自動(dòng)分類(lèi)和聚類(lèi):利用自動(dòng)分類(lèi)和自動(dòng)聚類(lèi)技術(shù)，既可過(guò)濾掉不相關(guān)的文檔，又可將相關(guān)文檔按照相關(guān)程度從高到低排序，方便用戶(hù)查詢(xún)，還可以將收集到的電子文檔按類(lèi)別建立相應(yīng)的數(shù)據(jù)庫(kù)，提高查全率和查準(zhǔn)率。信息抽取:利用信息抽取工具，競(jìng)爭(zhēng)情報(bào)人員根據(jù)情報(bào)要求可以從不同信息源中抽取多種情報(bào)，如競(jìng)爭(zhēng)對(duì)手情報(bào)收集指標(biāo)。競(jìng)爭(zhēng)情報(bào)收集指標(biāo)的值只是文本中的信息片段，在文本中只占很小的比例，這不是文本所談?wù)摰闹黝}之一。3.自動(dòng)摘要:利用自動(dòng)摘要功能可以大大節(jié)省情報(bào)人員每天花費(fèi)在收集和閱讀大量書(shū)面文檔上的時(shí)間，也可以在情報(bào)循環(huán)的報(bào)告階段幫助情報(bào)人員生成報(bào)告的摘要，使主管能夠選擇是否閱讀分析報(bào)告的全文。4.關(guān)聯(lián)規(guī)則分析:利用關(guān)聯(lián)規(guī)則分析方法可以實(shí)現(xiàn)競(jìng)爭(zhēng)對(duì)手分析、客戶(hù)分析，將關(guān)聯(lián)分析與Web挖掘相結(jié)合可以分析網(wǎng)絡(luò)欺騙、訪問(wèn)者的個(gè)人愛(ài)好，利用關(guān)聯(lián)規(guī)則分析方法還可以挖掘例外規(guī)則與意外規(guī)則?？梢蕴岣邲Q策的科學(xué)性，降低企業(yè)在經(jīng)營(yíng)活動(dòng)中的風(fēng)險(xiǎn)。常見(jiàn)數(shù)據(jù)挖掘分析方法介紹本文標(biāo)簽：數(shù)據(jù)分析,數(shù)據(jù)挖掘下面介紹十種\o"查看數(shù)據(jù)挖掘中的全部文章"數(shù)據(jù)挖掘（DataMining）的分析方法，以便于大家對(duì)模型的初步了解，這些都是日常挖掘中經(jīng)常遇到的算法，希望對(duì)大家有用！（甚至有\(zhòng)o"查看數(shù)據(jù)挖掘中的全部文章"數(shù)據(jù)挖掘公司，用其中的一種算法就能獨(dú)步天下）1、基于歷史的MBR分析（Memory-BasedReasoning；MBR）基于歷史的MBR分析方法最主要的概念是用已知的案例（case）來(lái)預(yù)測(cè)未來(lái)案例的一些屬性（attribute），通常找尋最相似的案例來(lái)做比較。記憶基礎(chǔ)推理法中有兩個(gè)主要的要素，分別為距離函數(shù)（distancefunction）與結(jié)合函數(shù)（combinationfunction）。距離函數(shù)的用意在找出最相似的案例；結(jié)合函數(shù)則將相似案例的屬性結(jié)合起來(lái)，以供預(yù)測(cè)之用。記憶基礎(chǔ)推理法的優(yōu)點(diǎn)是它容許各種型態(tài)的數(shù)據(jù)，這些數(shù)據(jù)不需服從某些假設(shè)。另一個(gè)優(yōu)點(diǎn)是其具備學(xué)習(xí)能力，它能藉由舊案例的學(xué)習(xí)來(lái)獲取關(guān)于新案例的知識(shí)。較令人詬病的是它需要大量的歷史數(shù)據(jù)，有足夠的歷史數(shù)據(jù)方能做良好的預(yù)測(cè)。此外記憶基礎(chǔ)推理法在處理上亦較為費(fèi)時(shí)，不易發(fā)現(xiàn)最佳的距離函數(shù)與結(jié)合函數(shù)。其可應(yīng)用的范圍包括欺騙行為的偵測(cè)、客戶(hù)反應(yīng)預(yù)測(cè)、醫(yī)學(xué)診療、反應(yīng)的歸類(lèi)等方面。2、購(gòu)物籃分析（MarketBasketAnalysis）購(gòu)物籃分析最主要的目的在于找出什么樣的東西應(yīng)該放在一起？商業(yè)上的應(yīng)用在藉由顧客的購(gòu)買(mǎi)行為來(lái)了解是什么樣的顧客以及這些顧客為什么買(mǎi)這些產(chǎn)品，找出相關(guān)的聯(lián)想（association）規(guī)則，企業(yè)藉由這些規(guī)則的挖掘獲得利益與建立競(jìng)爭(zhēng)優(yōu)勢(shì)。舉例來(lái)說(shuō)，零售店可藉由此分析改變置物架上的商品排列或是設(shè)計(jì)吸引客戶(hù)的商業(yè)套餐等等。購(gòu)物籃分析基本運(yùn)作過(guò)程包含下列三點(diǎn)：（1）選擇正確的品項(xiàng)：這里所指的正確乃是針對(duì)企業(yè)體而言，必須要在數(shù)以百計(jì)、千計(jì)品項(xiàng)中選擇出真正有用的品項(xiàng)出來(lái)。（2）經(jīng)由對(duì)共同發(fā)生矩陣（co-occurrencematrix）的探討挖掘出聯(lián)想規(guī)則。（3）克服實(shí)際上的限制：所選擇的品項(xiàng)愈多，計(jì)算所耗費(fèi)的資源與時(shí)間愈久（呈現(xiàn)指數(shù)遞增），此時(shí)必須運(yùn)用一些技術(shù)以降低資源與時(shí)間的損耗。購(gòu)物籃分析技術(shù)可以應(yīng)用在下列問(wèn)題上：（1）針對(duì)信用卡購(gòu)物，能夠預(yù)測(cè)未來(lái)顧客可能購(gòu)買(mǎi)什么。（2）對(duì)于電信與金融服務(wù)業(yè)而言，經(jīng)由購(gòu)物籃分析能夠設(shè)計(jì)不同的服務(wù)組合以擴(kuò)大利潤(rùn)。（3）保險(xiǎn)業(yè)能藉由購(gòu)物籃分析偵測(cè)出可能不尋常的投保組合并作預(yù)防。（4）對(duì)病人而言，在療程的組合上，購(gòu)物籃分析能作為是否這些療程組合會(huì)導(dǎo)致并發(fā)癥的判斷依據(jù)。3、決策樹(shù)（DecisionTrees）決策樹(shù)在解決歸類(lèi)與預(yù)測(cè)上有著極強(qiáng)的能力，它以法則的方式表達(dá)，而這些法則則以一連串的問(wèn)題表示出來(lái)，經(jīng)由不斷詢(xún)問(wèn)問(wèn)題最終能導(dǎo)出所需的結(jié)果。典型的決策樹(shù)頂端是一個(gè)樹(shù)根，底部有許多的樹(shù)葉，它將紀(jì)錄分解成不同的子集，每個(gè)子集中的字段可能都包含一個(gè)簡(jiǎn)單的法則。此外，決策樹(shù)可能有著不同的外型，例如二元樹(shù)、三元樹(shù)或混和的決策樹(shù)型態(tài)。4、遺傳算法（GeneticAlgorithm）遺傳算法學(xué)習(xí)細(xì)胞演化的過(guò)程，細(xì)胞間可經(jīng)由不斷的選擇、復(fù)制、交配、突變產(chǎn)生更佳的新細(xì)胞?；蛩惴ǖ倪\(yùn)作方式也很類(lèi)似，它必須預(yù)先建立好一個(gè)模式，再經(jīng)由一連串類(lèi)似產(chǎn)生新細(xì)胞過(guò)程的運(yùn)作，利用適合函數(shù)（fitnessfunction）決定所產(chǎn)生的后代是否與這個(gè)模式吻合，最后僅有最吻合的結(jié)果能夠存活，這個(gè)程序一直運(yùn)作直到此函數(shù)收斂到最佳解?；蛩惴ㄔ谌杭╟luster）問(wèn)題上有不錯(cuò)的表現(xiàn)，一般可用來(lái)輔助記憶基礎(chǔ)推理法與類(lèi)神經(jīng)網(wǎng)絡(luò)的應(yīng)用。5、聚類(lèi)分析（ClusterDetection）這個(gè)技術(shù)涵蓋范圍相當(dāng)廣泛，包含基因算法、類(lèi)神經(jīng)網(wǎng)絡(luò)、統(tǒng)計(jì)學(xué)中的群集分析都有這個(gè)功能。它的目標(biāo)為找出數(shù)據(jù)中以前未知的相似群體，在許許多多的分析中，剛開(kāi)始都運(yùn)用到群集偵測(cè)技術(shù)，以作為研究的開(kāi)端。6、連接分析（LinkAnalysis）連接分析是以數(shù)學(xué)中之圖形理論（graphtheory）為基礎(chǔ)，藉由記錄之間的關(guān)系發(fā)展出一個(gè)模式，它是以關(guān)系為主體，由人與人、物與物或是人與物的關(guān)系發(fā)展出相當(dāng)多的應(yīng)用。例如電信服務(wù)業(yè)可藉連結(jié)分析收集到顧客使用電話(huà)的時(shí)間與頻率，進(jìn)而推斷顧客使用偏好為何，提出有利于公司的方案。除了電信業(yè)之外，愈來(lái)愈多的營(yíng)銷(xiāo)業(yè)者亦利用連結(jié)分析做有利于企業(yè)的研究。7、OLAP分析（On-LineAnalyticProcessing；OLAP）嚴(yán)格說(shuō)起來(lái)，OLAP分析并不算特別的一個(gè)數(shù)據(jù)挖掘技術(shù)，但是透過(guò)在線(xiàn)分析處理工具，使用者能更清楚的了解數(shù)據(jù)所隱藏的潛在意涵。如同一些視覺(jué)處理技術(shù)一般，透過(guò)圖表或圖形等方式顯現(xiàn)，對(duì)一般人而言，感覺(jué)會(huì)更友善。這樣的工具亦能輔助將數(shù)據(jù)轉(zhuǎn)變成信息的目標(biāo)。8、神經(jīng)網(wǎng)絡(luò)（NeuralNetworks）神經(jīng)網(wǎng)絡(luò)是以重復(fù)學(xué)習(xí)的方法，將一串例子交與學(xué)習(xí)，使其歸納出一足以區(qū)分的樣式。若面對(duì)新的例證，神經(jīng)網(wǎng)絡(luò)即可根據(jù)其過(guò)去學(xué)習(xí)的成果歸納后，推導(dǎo)出新的結(jié)果，乃屬于機(jī)器學(xué)習(xí)的一種。數(shù)據(jù)挖掘的相關(guān)問(wèn)題也可采類(lèi)神經(jīng)學(xué)習(xí)的方式，其學(xué)習(xí)效果十分正確并可做預(yù)測(cè)功能。9、判別分析（DiscriminantAnalysis）當(dāng)所遭遇問(wèn)題它的因變量為定性（categorical），而自變量（預(yù)測(cè)變量）為定量（metric）時(shí)，判別分析為一非常適當(dāng)之技術(shù)，通常應(yīng)用在解決分類(lèi)的問(wèn)題上面。若因變量由兩個(gè)群體所構(gòu)成，稱(chēng)之為雙群體—判別分析（Two-GroupDiscriminantAnalysis）；若由多個(gè)群體構(gòu)成，則稱(chēng)之為多元判別分析（MultipleDiscriminantAnalysis；MDA）。（1）找出預(yù)測(cè)變量的線(xiàn)性組合，使組間變異相對(duì)于組內(nèi)變異的比值為最大，而每一個(gè)線(xiàn)性組合與先前已經(jīng)獲得的線(xiàn)性組合均不相關(guān)。（2）檢定各組的重心是否有差異。（3）找出哪些預(yù)測(cè)變量具有最大的區(qū)別能力。（4）根據(jù)新受試者的預(yù)測(cè)變量數(shù)值，將該受試者指派到某一群體。10、羅吉斯回歸分析（LogisticAnalysis）當(dāng)判別分析中群體不符合正態(tài)分布假設(shè)時(shí)，羅吉斯回歸分析是一個(gè)很好的替代方法。羅吉斯回歸分析并非預(yù)測(cè)事件（event）是否發(fā)生，而是預(yù)測(cè)該事件的機(jī)率。它將自變量與因變量的關(guān)系假定是S行的形狀，當(dāng)自變量很小時(shí)，機(jī)率值接近為零；當(dāng)自變量值慢慢增加時(shí)，機(jī)率值沿著曲線(xiàn)增加，增加到一定程度時(shí)，曲線(xiàn)協(xié)率開(kāi)始減小，故機(jī)率值介于0與1之間。數(shù)據(jù)庫(kù)系統(tǒng)重要知識(shí)點(diǎn)緒論本章屬于基礎(chǔ)知識(shí)，主要是對(duì)一些概念的理解和記憶。沒(méi)有難點(diǎn)，相對(duì)的重點(diǎn)在于ER模型的設(shè)計(jì)和關(guān)系模型的掌握。一、數(shù)據(jù)管理技術(shù)的發(fā)展階段(識(shí)記)數(shù)據(jù)管理技術(shù)共經(jīng)歷了三個(gè)階段：人工管理階段、文件系統(tǒng)階段、數(shù)據(jù)庫(kù)階段：1、人工管理階段的特點(diǎn)： (1)數(shù)據(jù)不保存在機(jī)器中 (2)沒(méi)有專(zhuān)用軟件對(duì)數(shù)據(jù)進(jìn)行管理 (3)只有程序的概念，沒(méi)有文件的概念。2、文件系統(tǒng)階段的特點(diǎn)與缺陷： (1)數(shù)據(jù)可長(zhǎng)期保存在磁盤(pán)上。 (2)數(shù)據(jù)的邏輯結(jié)構(gòu)與物理結(jié)構(gòu)有了區(qū)別 (3)文件組織呈現(xiàn)多樣化 (4)數(shù)據(jù)不再屬于某個(gè)特定程序，可以重復(fù)使用。其缺陷是：數(shù)據(jù)冗余性數(shù)據(jù)不一致性數(shù)據(jù)聯(lián)系弱3、數(shù)據(jù)庫(kù)階段的特點(diǎn) 采用復(fù)雜的數(shù)據(jù)模型表示數(shù)據(jù)結(jié)構(gòu) 有較高的數(shù)據(jù)獨(dú)立性(數(shù)據(jù)結(jié)構(gòu)分成用戶(hù)的邏輯結(jié)構(gòu)、整體邏輯結(jié)構(gòu)和物理結(jié)構(gòu)三級(jí)) 數(shù)據(jù)庫(kù)系統(tǒng)為用戶(hù)提供方便的用戶(hù)接口，可以使用查詢(xún)語(yǔ)言、終端命令或程序方式操作數(shù)據(jù)庫(kù)。系統(tǒng)提供了四個(gè)方面的數(shù)據(jù)控制功能：數(shù)據(jù)庫(kù)的恢復(fù)、并發(fā)控制、數(shù)據(jù)完整性和數(shù)據(jù)安全性。對(duì)數(shù)據(jù)的操作不一定以記錄為單位，還可以數(shù)據(jù)項(xiàng)為單位。數(shù)據(jù)庫(kù)技術(shù)中的四個(gè)名詞:DB、DBMS、DBS、數(shù)據(jù)庫(kù)技術(shù)。其概念是不同的，要分清。DB：數(shù)據(jù)庫(kù)（Database),DB是統(tǒng)一管理的相關(guān)數(shù)據(jù)的集合。DBMS：數(shù)據(jù)庫(kù)管理系統(tǒng)（DatabaseManagementSystem)，DBMS是位于用戶(hù)與操作系統(tǒng)之間的一層數(shù)據(jù)管理軟件，為用戶(hù)或應(yīng)用程序提供訪問(wèn)DB的方法，包括DB的建立、查詢(xún)、更新及各種數(shù)據(jù)控制。DBMS總是基于某種數(shù)據(jù)模型，可以分為層次型、網(wǎng)狀型、關(guān)系型、面向?qū)ο笮虳BMS。DBS：數(shù)據(jù)庫(kù)系統(tǒng)（DatabaseSystem),DBS是實(shí)現(xiàn)有組織地、動(dòng)態(tài)地存儲(chǔ)大量關(guān)聯(lián)數(shù)據(jù)，方便多用戶(hù)訪問(wèn)的計(jì)算機(jī)軟件、硬件和數(shù)據(jù)資源組成的系統(tǒng)，即采用了數(shù)據(jù)庫(kù)技術(shù)的計(jì)算機(jī)系統(tǒng)。數(shù)據(jù)庫(kù)技術(shù)：是一門(mén)研究數(shù)據(jù)庫(kù)結(jié)構(gòu)、存儲(chǔ)、管理和使用的軟件學(xué)科。二、數(shù)據(jù)描述的術(shù)語(yǔ)(領(lǐng)會(huì))1、數(shù)據(jù)描述的三個(gè)領(lǐng)域：現(xiàn)實(shí)世界、信息世界和機(jī)器世界。信息世界中的幾個(gè)概念：實(shí)體(即客觀存在可以相互區(qū)別的事物)、實(shí)體集(同類(lèi)實(shí)體的集合)、屬性(實(shí)體的特性)、實(shí)體標(biāo)識(shí)符(唯一標(biāo)識(shí)實(shí)體的屬性(集))。機(jī)器世界中的四個(gè)概念：字段、記錄、文件、鍵(關(guān)鍵碼)。2、數(shù)據(jù)描述的兩種形式：物理描述和邏輯描述。前者是指數(shù)據(jù)在存儲(chǔ)設(shè)備上的存取方式，后者是指程序員或用戶(hù)以用以操作的數(shù)據(jù)形式。3、數(shù)據(jù)聯(lián)系的描述： 1：1聯(lián)系：如果實(shí)體集E1中的每個(gè)實(shí)體最多只能和實(shí)體集E2中的一個(gè)實(shí)體有聯(lián)系，反之亦然，好么實(shí)體集E1對(duì)E2的聯(lián)系稱(chēng)為"一對(duì)一聯(lián)系"，記為"1：1"。 1：N聯(lián)系：如果實(shí)體集E1中每個(gè)實(shí)體與實(shí)體集E2中任意個(gè)（零個(gè)或多個(gè)）實(shí)體有聯(lián)系，而E2中每個(gè)實(shí)體至多和E1中的一個(gè)實(shí)體有聯(lián)系，那么E1對(duì)E2的聯(lián)系是"一對(duì)多聯(lián)系"，記為"1：N"。 M：N聯(lián)系：如果實(shí)體集E1中每個(gè)實(shí)體與實(shí)體集E2中任意個(gè)（零個(gè)或多個(gè)）實(shí)體有聯(lián)系，反之亦然，那么E1對(duì)E2的聯(lián)系是"多對(duì)多聯(lián)系"，記為"M：N"。三、數(shù)據(jù)模型1、數(shù)據(jù)模型的概念(領(lǐng)會(huì))：表示實(shí)體類(lèi)型及實(shí)體類(lèi)型間聯(lián)系的模型稱(chēng)為"數(shù)據(jù)模型"。它可分為兩種類(lèi)型：概念數(shù)據(jù)模型和結(jié)構(gòu)數(shù)據(jù)模型。2、概念數(shù)據(jù)模型(領(lǐng)會(huì))：它是獨(dú)立于計(jì)算機(jī)系統(tǒng)的模型，完全不涉及信息在系統(tǒng)中的表示，只是用來(lái)描述某個(gè)特定組織所關(guān)心的信息結(jié)構(gòu)。(掌握ER模型)3、結(jié)構(gòu)數(shù)據(jù)模型：它是直接面向數(shù)據(jù)庫(kù)的邏輯結(jié)構(gòu)，是現(xiàn)實(shí)世界的第二層抽象。這類(lèi)模型涉及到計(jì)算機(jī)系統(tǒng)和數(shù)據(jù)庫(kù)管理系統(tǒng)，所以稱(chēng)為"結(jié)構(gòu)數(shù)據(jù)模型"。結(jié)構(gòu)數(shù)據(jù)模型應(yīng)包含：數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)操作、數(shù)據(jù)完整性約束三部分。層次模型(識(shí)記)：用樹(shù)型結(jié)構(gòu)表示實(shí)體間聯(lián)系的數(shù)據(jù)模型關(guān)系模型(領(lǐng)會(huì))：是由若干個(gè)關(guān)系模式組成的集合，其主要特征是用二維表格結(jié)構(gòu)表達(dá)實(shí)體集，用外鍵表示實(shí)體間聯(lián)系。四、數(shù)據(jù)庫(kù)的體系結(jié)構(gòu)(領(lǐng)會(huì))1、三級(jí)結(jié)構(gòu)模式：數(shù)據(jù)庫(kù)的體系結(jié)構(gòu)分為三級(jí)：內(nèi)部級(jí)、概念級(jí)和外部級(jí)：外部級(jí)：?jiǎn)蝹€(gè)用戶(hù)所能看到的數(shù)據(jù)特性，稱(chēng)外模式。概念級(jí)：涉及到所有用戶(hù)的數(shù)據(jù)定義，是全局的數(shù)據(jù)視圖,稱(chēng)"概念模式"。內(nèi)部級(jí)：最接近于物理存儲(chǔ)，涉及到實(shí)際數(shù)據(jù)存儲(chǔ)的結(jié)構(gòu)，稱(chēng)"內(nèi)模式"。2、兩級(jí)映象：模式/內(nèi)模式映象：用于定義概念模式和內(nèi)模式之間的對(duì)應(yīng)性。一般在內(nèi)模式中描述。外模式/模式映象：用于定義外模式和概念模式間的對(duì)應(yīng)性。一般在外模式中描述。3.兩級(jí)數(shù)據(jù)獨(dú)立性：物理數(shù)據(jù)獨(dú)立性：修改內(nèi)模式時(shí)盡量不影響概念模式及外模式，則達(dá)到物理數(shù)據(jù)獨(dú)立性。邏輯數(shù)據(jù)獨(dú)立性：修改概念模式時(shí)盡量不影響外模式和應(yīng)用程序。五、數(shù)據(jù)庫(kù)管理系統(tǒng)(DBMS領(lǐng)會(huì))1、DBMS的主要功能：（1）數(shù)據(jù)庫(kù)的定義功能（2）數(shù)據(jù)庫(kù)的操縱功能（3）數(shù)據(jù)庫(kù)的保護(hù)功能（4）數(shù)據(jù)庫(kù)的存儲(chǔ)管理（5）數(shù)據(jù)庫(kù)的維護(hù)功能（6）數(shù)據(jù)字典2、DBMS的組成：由兩大部分組成：查詢(xún)處理器和存儲(chǔ)管理器，前者包括DDL編譯器、DML編譯器、嵌入型DML預(yù)編譯器、查詢(xún)運(yùn)行核心程序。后者包括授權(quán)和完整性管理器，事務(wù)管理器、文件管理器，緩沖區(qū)管理器。六、數(shù)據(jù)庫(kù)系統(tǒng)(DBS領(lǐng)會(huì))DBS由四部分組成：數(shù)據(jù)庫(kù)、硬件、軟件、數(shù)據(jù)庫(kù)管理員。DBS的全局結(jié)構(gòu)及DBS的效益，了解一下。第二章關(guān)系數(shù)據(jù)庫(kù)本章為次重點(diǎn)章，我們經(jīng)常使用的數(shù)據(jù)庫(kù)均采用關(guān)系模型，本章主要介紹了關(guān)系模型的關(guān)系運(yùn)算理論，主要在于對(duì)關(guān)系演算運(yùn)算的理解，為后面章節(jié)的SQL作準(zhǔn)備。一、關(guān)系模型的基本概念(識(shí)記)1、關(guān)系模型的基本術(shù)語(yǔ)：用二維表格結(jié)構(gòu)表示實(shí)體集、外鍵表示實(shí)體間聯(lián)系的數(shù)據(jù)模型稱(chēng)為關(guān)系模型。基本術(shù)語(yǔ)有：字段(屬性)、字段值(屬性值)、記錄(元組)、二維表格(元組集合、關(guān)系或?qū)嵗?。在這里，括號(hào)中的表述為關(guān)系模型中的術(shù)語(yǔ)。它與表格中術(shù)語(yǔ)可以一一對(duì)應(yīng)。還有，關(guān)系中屬性個(gè)數(shù)稱(chēng)為元數(shù)，元組個(gè)數(shù)為基數(shù)。鍵：由一個(gè)或幾個(gè)屬性組成。(注意鍵不一定是唯一的一個(gè)屬性)。超鍵：在關(guān)系中能唯一標(biāo)識(shí)元組的屬性集稱(chēng)為關(guān)系模式的超鍵。(注意，超鍵也是一個(gè)屬性集，不一定只是一個(gè)屬性) 候選鍵：不含有多余屬性的超鍵稱(chēng)為候選鍵。主鍵：用戶(hù)選作元組標(biāo)識(shí)的一個(gè)候選鍵為主鍵。外鍵：某個(gè)關(guān)系的主鍵相應(yīng)的屬性在另一關(guān)系中出現(xiàn)，此時(shí)該主鍵在就是另一關(guān)系的外鍵，如有兩個(gè)關(guān)系S和SC,其中S#是關(guān)系S的主鍵，相應(yīng)的屬性S#在關(guān)系SC中也出現(xiàn)，此時(shí)S#就是關(guān)系SC的外鍵。2、關(guān)系模式、關(guān)系子模式關(guān)系模式：關(guān)系模式實(shí)際上就是記錄類(lèi)型。它包括：模式名，屬性名，值域名以及模式的主鍵。關(guān)系模式僅是對(duì)數(shù)據(jù)特性的描述。(這通常在數(shù)據(jù)庫(kù)中表現(xiàn)為一個(gè)數(shù)據(jù)表的結(jié)構(gòu)) 關(guān)系子模式：就是用戶(hù)所用到那部分?jǐn)?shù)據(jù)的描述。 3、關(guān)系模型的三類(lèi)完整性規(guī)則實(shí)體完整性規(guī)則：要求關(guān)系中組成主鍵的屬性上不能有空值。參照完整性規(guī)則：要求不引用不存在的實(shí)體。用戶(hù)定義完整性規(guī)則：由具體應(yīng)用環(huán)境決定，系統(tǒng)提供定義和檢驗(yàn)這類(lèi)完整性的機(jī)制。4、關(guān)系模型的形式定義：數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)操作和完整性規(guī)則。二、關(guān)系代數(shù)運(yùn)算(簡(jiǎn)單應(yīng)用)1、關(guān)系代數(shù)的五個(gè)基本操作：并、差、笛卡爾積、投影和選擇。并(∪)：兩個(gè)關(guān)系需有相同的關(guān)系模式，并的對(duì)象是元組，由兩個(gè)關(guān)系所有元組構(gòu)成。差(-)：同樣，兩個(gè)關(guān)系有相同的模式，R和S的差是由屬于R但不屬于S的元組構(gòu)成的集合。投影(σ)：對(duì)關(guān)系進(jìn)行垂直分割，消去某些列，并重新安排列的順序。選擇(π)：根據(jù)某些條件關(guān)系作水平分割，即選擇符合條件的元組。2、關(guān)系代數(shù)的四個(gè)組合操作：交、聯(lián)接、自然聯(lián)接和除法交(∩)：R和S的交是由既屬于R又屬于S的元組構(gòu)成的集合。聯(lián)接包括θ聯(lián)接和F聯(lián)接，是選擇R×S中滿(mǎn)足iθ(r+j)或F條件的元組構(gòu)成的集合，特別注意等值聯(lián)接(θ為等號(hào)"=")。自然聯(lián)接(R|X|S)：在R×S中，選擇R和S公共屬性值均相等的元組，并去掉R×S中重復(fù)的公共屬性列。如果兩個(gè)關(guān)系沒(méi)有公共屬性，則自然聯(lián)接就轉(zhuǎn)化為笛卡爾積。除法(÷)：首先除法的結(jié)果中元數(shù)為兩個(gè)元數(shù)的差，以例2.6為例，我們可以直接用觀察法來(lái)得到結(jié)果，把S看作一個(gè)塊，拿到R中去和相同屬性集中的元組作比較，如果有相同的塊，且除去此塊后留下的相應(yīng)元組均相同，那么可以得到一條元組，所有這些元組的集合就是除法的結(jié)果。對(duì)于上述的五個(gè)基本操作和組合操作，應(yīng)當(dāng)從實(shí)際運(yùn)算方面進(jìn)行理解和運(yùn)用，對(duì)其形式定義可不必深究。注意課本上的例子和給的練習(xí)題。3、關(guān)系代數(shù)表達(dá)式及應(yīng)用在關(guān)系代數(shù)表達(dá)式中，復(fù)合了上述五個(gè)基本操作，在給出相應(yīng)的表格(關(guān)系)中，應(yīng)該能夠根據(jù)給出的關(guān)系代數(shù)表達(dá)式計(jì)算關(guān)系值，也要能根據(jù)相應(yīng)查詢(xún)要求列出關(guān)系表達(dá)式。在列關(guān)系表達(dá)式時(shí)，通常有以下形式：π...(σ...(R×S))或者π...(σ...(R|X|S))首先把查詢(xún)涉及到的關(guān)系取來(lái)，執(zhí)行笛卡爾積或自然聯(lián)接操作得到一張大的表格，然后對(duì)大表格執(zhí)行水平分割(選擇)和垂直分割(投影)操作。但是注意當(dāng)查詢(xún)涉及到否定或全部值時(shí)，就不能用上述形式，而要用到差或除法操作。第三章關(guān)系數(shù)據(jù)庫(kù)SQL語(yǔ)言本章為重點(diǎn)章，應(yīng)熟悉和掌握SQL的數(shù)據(jù)定義、數(shù)據(jù)查詢(xún)、數(shù)據(jù)更新的句法及其應(yīng)用，特別是數(shù)據(jù)查詢(xún)的應(yīng)用。結(jié)合上機(jī)操作進(jìn)行理解和掌握。一、SQL概述。1、SQL發(fā)展歷程(識(shí)記)SQL從1970年美國(guó)IBM研究中心的E.F.Codd發(fā)表論文到1974年Boyce和Chamberlin把SQUARE語(yǔ)言改為SEQUEL語(yǔ)言，到現(xiàn)在還在不斷完善和發(fā)展之中，SQL(結(jié)構(gòu)式查詢(xún)語(yǔ)言)雖然名為查詢(xún)，但實(shí)際上具有定義、查詢(xún)、更新和控制等多種功能。2、SQL數(shù)據(jù)庫(kù)的體系結(jié)構(gòu)(領(lǐng)會(huì))SQL數(shù)據(jù)庫(kù)的體系結(jié)構(gòu)也是三級(jí)結(jié)構(gòu)，但術(shù)語(yǔ)與傳統(tǒng)關(guān)系模型術(shù)語(yǔ)不同，在SQL中，關(guān)系模式稱(chēng)為"基本表"，存儲(chǔ)模式稱(chēng)為"存儲(chǔ)文件"，子模式稱(chēng)為"視圖"，元組稱(chēng)"行"，屬性稱(chēng)"列"。SQL數(shù)據(jù)庫(kù)體系的結(jié)構(gòu)要點(diǎn)如下： (1)一個(gè)SQL數(shù)據(jù)庫(kù)是表的匯集。 (2)一個(gè)SQL表由行集構(gòu)成，行是列的序列，每列對(duì)應(yīng)一個(gè)數(shù)據(jù)項(xiàng)。 (3)表或者是基本表，或者是視圖?；颈硎菍?shí)際存儲(chǔ)在數(shù)據(jù)庫(kù)中的表，視圖由是由若干基本表或其他視圖構(gòu)成的表的定義。 (4)一個(gè)基本表可以跨一個(gè)或多個(gè)存儲(chǔ)文件，一個(gè)存儲(chǔ)文件也可存放一個(gè)或多個(gè)基本表。存儲(chǔ)文件與物理文件對(duì)應(yīng)。 (5)用戶(hù)可以用SQL語(yǔ)句對(duì)表進(jìn)行操作，包括視圖和基本表。 (6)SQL的用戶(hù)可以是應(yīng)用程序，也可以是終端用戶(hù)。3、SQL的組成(識(shí)記)SQL由三部分組成： (1)數(shù)據(jù)定義：SQLDDL。定義SQL模式，基本表、視圖和索引。 (2)數(shù)據(jù)操縱：SQLDML。包括數(shù)據(jù)查詢(xún)和數(shù)據(jù)更新(增、刪、改)。 (3)數(shù)據(jù)控制：包括對(duì)基本表和視圖的授權(quán)、完整性規(guī)則的描述，事務(wù)控制等。二、SQL的數(shù)據(jù)定義(簡(jiǎn)單應(yīng)用)1、SQL模式的創(chuàng)建和撤消：SQL模式的創(chuàng)建可簡(jiǎn)單理解為建立一個(gè)數(shù)據(jù)庫(kù)，定義一個(gè)存儲(chǔ)空間，其句法是：CREATSCHEMA<模式名>AUTHORIZATION<用戶(hù)名>撤消SQL模式的句法為：DROPSCHEMA<模式名>[CASCADE|RESTRICT]方括號(hào)中的選項(xiàng)參數(shù)CASCADE表示連鎖方式，執(zhí)行時(shí)將模式下所有基本表、視圖、索引等元素全部撤消。RESTRICT表示約束式，執(zhí)行時(shí)必須在SQL模式中沒(méi)有任何下屬元素時(shí)方可撤消模式。2、SQL提供的基本數(shù)據(jù)類(lèi)型數(shù)值型：包括integer、smallint、real、doubleprecision、float(n),numeric(p，d) 字符串型：char(n)、varchar(n)，前者是定長(zhǎng)，后者為變長(zhǎng)串位串型：bit(n),bitvarying(n)，同上。時(shí)間型：date、time。3、基本表的創(chuàng)建、修改和撤消基本表的創(chuàng)建：(可理解為建立表結(jié)構(gòu))CREATTABLESQL模式名.基本表名(列名，類(lèi)型，……完整性約束...)完整性約束包括主鍵子句(PRIMARYKEY)、檢查子句(CHECK)和外鍵子句(ForeignKEY). 基本表結(jié)構(gòu)的修改ALTERTABLE基本表名ADD/DROP(增加/刪除)列名類(lèi)型名(增加時(shí)寫(xiě)出)刪除時(shí)有子句[CASCADE|RESTRICT]，前者為連鎖刪除，后者為約束刪除，即沒(méi)有對(duì)本列的任何引用時(shí)才能刪除。基本表的撤消DROPTABLE基本表名[CASCADE|RESTRICT]4、視圖的創(chuàng)建和撤消創(chuàng)建：CREATVIEW視圖名(列名表)ASSELECT查詢(xún)語(yǔ)句撤消：DROPVIEW視圖名5、索引的創(chuàng)建和撤消創(chuàng)建：CREAT[UNIQUE]INDEX索引名ON基本表名(列名表[ASC|DESC]) 撤消：DROPINDEX索引名總結(jié)：凡創(chuàng)建都用CREAT,刪除都用DROP,改變用alter,再跟類(lèi)型和名字，附加子句很容易了。三、SQL的數(shù)據(jù)查詢(xún)(綜合應(yīng)用)這一段是本章的重點(diǎn)內(nèi)容，應(yīng)該熟練掌握。首先了解基本句法：1、SELECT-FROM-WHERE句型 SELECT列名表(逗號(hào)隔開(kāi))FROM基本表或視圖序列WHERE條件表達(dá)式在這里，重點(diǎn)要掌握條件表達(dá)式中各種運(yùn)算符的應(yīng)用，如=，>,<,<>等算術(shù)比較運(yùn)算符、邏輯運(yùn)算符AND、OR、NOT、集合成員資格運(yùn)算符：IN，NOTIN，以及嵌套的SELECT語(yǔ)句的用法要特別注意理解。針對(duì)課本的例題和課后習(xí)題進(jìn)行掌握。在查詢(xún)時(shí)，SELECT語(yǔ)句可以有多種寫(xiě)法，如聯(lián)接查詢(xún)、嵌套查詢(xún)和使用存在量詞的嵌套查詢(xún)等。最好都掌握，但是起碼應(yīng)能寫(xiě)出一種正確的查詢(xún)語(yǔ)句。2.SELECT語(yǔ)句完整的句法： SELECT列名表(逗號(hào)隔開(kāi))FROM基本表或視圖序列[WHERE條件表達(dá)式](此為和條件子句)[GROUPBY列名序列](分組子句)[HAVING組條件表達(dá)式](組條件子句)[ORDERBY列名[ASC|DESC]..](排序子句)這段關(guān)于完整句法的內(nèi)容能夠理解也就問(wèn)題不大了。3、SELECT語(yǔ)句中的限定這一段內(nèi)容主要是對(duì)SELECT語(yǔ)句進(jìn)一步使用進(jìn)行的深入學(xué)習(xí)，領(lǐng)會(huì)下列各種限定的使用目的和方法。要求輸出表格中不出現(xiàn)重復(fù)元組，則在SELECT后加一DISTINCT SELECT子句中允許出現(xiàn)加減乘除及列名，常數(shù)的算術(shù)表達(dá)式 WHERE子句中可以用BETWEEN...AND...來(lái)限定一個(gè)值的范圍同一個(gè)基本表在SELECT語(yǔ)句中多次引用時(shí)可用AS來(lái)增加別名 WHERE子句中字符串匹配用LIKE和兩個(gè)通配符，%和下劃線(xiàn)_. 查詢(xún)結(jié)果的結(jié)構(gòu)完全一致時(shí)可將兩個(gè)查詢(xún)進(jìn)行并(UNION)交(INTERSECT)差(EXCPT)操作查詢(xún)空值操作不是用='null',而是用ISNULL來(lái)測(cè)試。集合成員資格比較用IN/NOTIN，集合成員算術(shù)比較用元組θSOME/ALL 可以用子查詢(xún)結(jié)果取名(表名(列名序列))來(lái)作為導(dǎo)出表使用基本表的自然聯(lián)接操作是用NATURALINNERJOIN來(lái)實(shí)現(xiàn)的。四、SQL的數(shù)據(jù)更新(簡(jiǎn)單應(yīng)用)簡(jiǎn)單應(yīng)用就是掌握基本的句型并能套用在一些簡(jiǎn)單的查詢(xún)要求上。1、數(shù)據(jù)插入：INSERTINTO基本表名(列名表)VALUES(元組值)或INSERTINTO基本表名(列名表)SELECT查詢(xún)語(yǔ)句其中元組值可以連續(xù)插入。用查詢(xún)語(yǔ)句可以按要求插入所需數(shù)據(jù)。2、數(shù)據(jù)刪除：DELETEFROM基本表名[WHERE條件表達(dá)式]3、數(shù)據(jù)修改：UPDATE基本表名SET列名=值表達(dá)式,[列名=值表達(dá)式...][WHERE條件表達(dá)式]這一節(jié)的關(guān)于增刪改的操作要和前面關(guān)于數(shù)據(jù)庫(kù)模式、表的增刪改操作進(jìn)行對(duì)比學(xué)習(xí)，以加深理解。不要忘記上機(jī)實(shí)踐。第五章關(guān)系數(shù)據(jù)理論本章的理論性較強(qiáng)，學(xué)習(xí)時(shí)有無(wú)從下手的感覺(jué)，在學(xué)習(xí)時(shí)應(yīng)多加思考，從概念出發(fā)去理解理論，前后的理論有較強(qiáng)的聯(lián)系，因此要逐個(gè)理解，但對(duì)于理論的證明等內(nèi)容則不必深究，本章重點(diǎn)是函數(shù)依賴(lài)和范式的概念。一、關(guān)系模式的設(shè)計(jì)問(wèn)題(識(shí)記)關(guān)系數(shù)據(jù)庫(kù)是以關(guān)系模型為基礎(chǔ)的數(shù)據(jù)庫(kù)，它利用關(guān)系來(lái)描述現(xiàn)實(shí)世界。一個(gè)關(guān)系既可以用來(lái)描述一個(gè)實(shí)體及其屬性，也可以用來(lái)描述實(shí)體間的聯(lián)系。關(guān)系實(shí)質(zhì)上就是一張二維表，表的行稱(chēng)為元組，列稱(chēng)為屬性。關(guān)系模式是用來(lái)定義關(guān)系的，這里的關(guān)系模式我們可以簡(jiǎn)單地理解為一個(gè)表的結(jié)構(gòu)，一個(gè)關(guān)系數(shù)據(jù)庫(kù)包含一組關(guān)系，也就是包含一組二維表，這些二維表結(jié)構(gòu)體的集合就構(gòu)成數(shù)據(jù)庫(kù)的模式(也可以理解為數(shù)據(jù)庫(kù)的結(jié)構(gòu))。關(guān)系數(shù)據(jù)庫(kù)設(shè)計(jì)理論包括三個(gè)方面內(nèi)容：數(shù)據(jù)依賴(lài)、范式、模式設(shè)計(jì)方法。核心內(nèi)容是數(shù)據(jù)依賴(lài)。關(guān)系模式的存儲(chǔ)異常:數(shù)據(jù)冗余、更新異常、插入異常和刪除異常二、函數(shù)依賴(lài)(FD)1、函數(shù)依賴(lài)的定義(領(lǐng)會(huì))：設(shè)有關(guān)系模式R(A1，A2，...An)或簡(jiǎn)記為R(U)，X，Y是U的子集，r是R的任一具體關(guān)系，如果對(duì)r的任意兩個(gè)元組t1,t2,由t1[X]=t2[X]導(dǎo)致t1[Y]=t2[Y]，則稱(chēng)X函數(shù)決定Y，或Y函數(shù)依賴(lài)于X，記為X→Y。X→Y為模式R的一個(gè)函數(shù)依賴(lài)。這個(gè)定義可以這樣理解：有一張?jiān)O(shè)計(jì)好的二維表，X，Y是表的某些列(可以是一列，也可以是多列)，若在表中的第t1行，和第t2行上的X值相等，那么必有t1行和t2行上的Y值也相等，這就是說(shuō)Y函數(shù)依賴(lài)于X。如下圖所示:教師課程張老師物理?xiàng)罾蠋熁瘜W(xué)李老師物理在表中，凡教師名相同的，對(duì)應(yīng)的課程名也必是相同的，則此時(shí)說(shuō)教師名函數(shù)決定課程名，或"課程名"函數(shù)依賴(lài)于"教師名"。但是反過(guò)來(lái)不一定，課程名相同時(shí)并不一定教師名相同，所以這里的Y→X是不成立的。要特別注意的是，在這張表中，任何一行的關(guān)系均應(yīng)符合上述條件，如果有一行不符合函數(shù)依賴(lài)的條件，則函數(shù)依賴(lài)對(duì)于這個(gè)關(guān)系就不成立。還有應(yīng)該了解的是，函數(shù)依賴(lài)是否成立是不可證明的，只能通過(guò)屬性的含義來(lái)判斷，上述表是一個(gè)關(guān)系實(shí)例，可以一條條進(jìn)行驗(yàn)證，但是對(duì)于模式設(shè)計(jì)來(lái)說(shuō)，開(kāi)始時(shí)并沒(méi)有數(shù)據(jù)插入，我們只能從屬性的含義出發(fā)，如這個(gè)關(guān)系模式保存了全校所有教師和課程對(duì)應(yīng)關(guān)系，則有可能出現(xiàn)相同的教師名而課程名不是一樣的情況（有同名教師），那么"課程名→教師名"這個(gè)函數(shù)依賴(lài)就不成立了。上述例子可對(duì)照課本理論進(jìn)行領(lǐng)會(huì)。2、鍵和FD的關(guān)系(領(lǐng)會(huì))鍵是唯一標(biāo)識(shí)實(shí)體的屬性集。對(duì)于鍵和函數(shù)依賴(lài)的關(guān)系：有兩個(gè)條件：設(shè)關(guān)系模式R(A1,A2...An)，F(xiàn)是R上的函數(shù)依賴(lài)集，X是R的一個(gè)子集， (1)X→A1A2...An∈F+(它的意思是X能夠決定唯一的一個(gè)元組) (2)不存在X的真子集Y，使得Y也能決定唯一的一個(gè)元組，則X就是R的一個(gè)候選鍵。(它的意思是X能決定唯一的一個(gè)元組但又沒(méi)有多余的屬性集)包含在任何一個(gè)候選鍵中的屬性稱(chēng)為主屬性，不包含在任何鍵中的屬性為非主屬性(非鍵屬性)，注意主屬性應(yīng)當(dāng)包含在候選鍵中。3、函數(shù)依賴(lài)(FD)的推理規(guī)則(了解)前面我們舉的例子中是以實(shí)際經(jīng)驗(yàn)來(lái)確定一個(gè)函數(shù)依賴(lài)的邏輯蘊(yùn)涵，但是我們需要一個(gè)推理規(guī)則才能完全確定F或F+的所有函數(shù)依賴(lài)。設(shè)有關(guān)系模式R(U)，X，Y，Z，W均是U的子集，F(xiàn)是R上只涉及到U中屬性的函數(shù)依賴(lài)集，推理規(guī)則如下：自反律：如果YXU,則X→Y在R上成立。增廣律：如果X→Y為F所蘊(yùn)涵，ZU，則XZ→YZ在R上成立。(XZ表示X∪Z，下同) 傳遞律：如果X→Y和Y→Z在R上成立，則X→Z在R上成立。合并律：如果X→Y和X→Z成立，那么X→YZ成立。偽傳遞律：如果X→Y和WY→Z成立，那么WX→Z成立。分解律：如果X→Y和ZY成立，那么X→Z成立。三、關(guān)系模式的范式(領(lǐng)會(huì))1、1NF、2NF、3NF、BCNF的定義： 1NF：第一范式。即關(guān)系模式中的屬性的值域中每一個(gè)值都是不可再分解的值。如果某個(gè)數(shù)據(jù)庫(kù)模式都是第一范式的，則稱(chēng)該數(shù)據(jù)庫(kù)模式是屬于第一范式的數(shù)據(jù)庫(kù)模式。比如有一個(gè)關(guān)系顧客={顧客，送貨地址}，若有這樣幾行記錄：顧客送貨地址張三北京、上海李四北京這時(shí)的第一條記錄就表示本關(guān)系模式不是1NF的，因?yàn)檎n程中的值域還是可以分解的，它包括了兩個(gè)地址，如分為：顧客送貨地址張三北京張三上海李四北京就成為第一范式的關(guān)系模式。 2NF：第二范式。如果關(guān)系模式R為第一范式，并且R中每一個(gè)非主屬性完全函數(shù)依賴(lài)于R的某個(gè)候選鍵，則稱(chēng)為第二范式模式。在這里要先了解"非主屬性"、"完全函數(shù)依賴(lài)"、"候選鍵"這三個(gè)名詞的含義。候選鍵就是指可以唯一決定關(guān)系模式R中某元組值且不含有多余屬性的屬性集。非主屬性也就是非鍵屬性，指關(guān)系模式R中不包含在任何建中的屬性。設(shè)有函數(shù)依賴(lài)W→A，若存在XW，有X→A成立，那么稱(chēng)W→A是局部依賴(lài)，否則就稱(chēng)W→A是完全函數(shù)依賴(lài)。在分析是否為第2范式時(shí)，應(yīng)首先確定候選鍵，然后把關(guān)系模式中的非主屬性與鍵的依賴(lài)關(guān)系進(jìn)行考察，是否都為完全函數(shù)依賴(lài)，如是，則此關(guān)系模式為2NF。如果數(shù)據(jù)庫(kù)模式中每個(gè)關(guān)系模式都是2NF的，則此數(shù)據(jù)庫(kù)模式屬于2NF的數(shù)據(jù)庫(kù)模式。 3NF：第三范式。如果關(guān)系模式R是第二范式，且每個(gè)非主屬性都不傳遞依賴(lài)于R的候選鍵，則稱(chēng)R為第三范式的模式。這里首先要了解傳遞依賴(lài)的含義：在關(guān)系模式中，如果Y→X，X→A，且X不決定Y和A不屬于X，那么Y→A是傳遞依賴(lài)。注意的是，這里要求非主屬性都不傳遞依賴(lài)于候選鍵。 BCNF：這個(gè)范式和第三范式有聯(lián)系，它是3NF的改進(jìn)形式。若關(guān)系模式R是第一范式，且每個(gè)屬性都不傳遞依賴(lài)于R的候選鍵。這種關(guān)系模式就是BCNF模式?？v觀四種范式，可以發(fā)現(xiàn)它們之間存在如下關(guān)系：BCNF3NF2NF1NF1NF ↓ 消去非主屬性對(duì)鍵的部分函數(shù)依賴(lài)2NF ↓ 消去非主屬性對(duì)鍵的傳遞函數(shù)依賴(lài)3NF ↓ 消去主屬性對(duì)鍵的傳遞函數(shù)依賴(lài)BCNF2、多值依賴(lài)。簡(jiǎn)單了解一下。第六章數(shù)據(jù)庫(kù)設(shè)計(jì)與上一章不同，本章的實(shí)用性較強(qiáng)，詳細(xì)講述了數(shù)據(jù)庫(kù)應(yīng)用系統(tǒng)設(shè)計(jì)的全過(guò)程。重點(diǎn)是概念設(shè)計(jì)中ER模型的設(shè)計(jì)方法，邏輯設(shè)計(jì)中ER模型向關(guān)系模型的轉(zhuǎn)換方法。一、數(shù)據(jù)庫(kù)設(shè)計(jì)概述(識(shí)記)1、軟件生存期：是指從軟件的規(guī)劃、研制、實(shí)現(xiàn)、投入運(yùn)行后的維護(hù)、直到它被新的軟件所取代而停止使用的整個(gè)期間。它包括六個(gè)階段：(規(guī)需設(shè)編試運(yùn)維) (1)規(guī)劃階段 (2)需求分析階段 (3)設(shè)計(jì)階段 (4)程序編制階段 (5)調(diào)試階段 (6)運(yùn)行維護(hù)階段2、數(shù)據(jù)庫(kù)系統(tǒng)生存期數(shù)據(jù)庫(kù)應(yīng)用系統(tǒng)的開(kāi)發(fā)也是一項(xiàng)軟件工程，稱(chēng)為數(shù)據(jù)庫(kù)工程，數(shù)據(jù)庫(kù)應(yīng)用系統(tǒng)也有生存期的概念，通常包括七個(gè)階段： (1)規(guī)劃階段 (2)需求分析階段 (3)概念設(shè)計(jì)階段 (4)邏輯設(shè)計(jì)階段 (5)物理設(shè)計(jì)階段 (6)實(shí)現(xiàn)階段 (7)運(yùn)行維護(hù)階段3、數(shù)據(jù)庫(kù)設(shè)計(jì)方法學(xué)一個(gè)好的數(shù)據(jù)庫(kù)設(shè)計(jì)方法應(yīng)該能在合理的期限內(nèi)，以合理的工作量產(chǎn)生一個(gè)有實(shí)用價(jià)值的數(shù)據(jù)庫(kù)結(jié)構(gòu)。數(shù)據(jù)庫(kù)及其應(yīng)用系統(tǒng)的設(shè)計(jì)分為以下幾個(gè)階段：規(guī)劃、需求分析、概念設(shè)計(jì)、邏輯設(shè)計(jì)、物理設(shè)計(jì)。二、需求分析(識(shí)記)需求分析階段應(yīng)對(duì)系統(tǒng)的整個(gè)應(yīng)用情況作全面的、詳細(xì)的調(diào)查、確定用戶(hù)的目標(biāo)，收集支持系統(tǒng)總的設(shè)計(jì)目標(biāo)的基礎(chǔ)數(shù)據(jù)和對(duì)這些數(shù)據(jù)的要求，確定用戶(hù)需求，并把這些要求寫(xiě)成用戶(hù)和數(shù)據(jù)庫(kù)設(shè)計(jì)者都

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

【數(shù)據(jù)挖掘重點(diǎn)、知識(shí)點(diǎn)】+【常見(jiàn)數(shù)據(jù)挖掘分析方法介紹】+【數(shù)據(jù)庫(kù)講義】

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論