【數(shù)據(jù)挖掘重點(diǎn)、知識(shí)點(diǎn)】+【常見(jiàn)數(shù)據(jù)挖掘分析方法介紹】+【數(shù)據(jù)庫(kù)講義】_第1頁(yè)
【數(shù)據(jù)挖掘重點(diǎn)、知識(shí)點(diǎn)】+【常見(jiàn)數(shù)據(jù)挖掘分析方法介紹】+【數(shù)據(jù)庫(kù)講義】_第2頁(yè)
【數(shù)據(jù)挖掘重點(diǎn)、知識(shí)點(diǎn)】+【常見(jiàn)數(shù)據(jù)挖掘分析方法介紹】+【數(shù)據(jù)庫(kù)講義】_第3頁(yè)
【數(shù)據(jù)挖掘重點(diǎn)、知識(shí)點(diǎn)】+【常見(jiàn)數(shù)據(jù)挖掘分析方法介紹】+【數(shù)據(jù)庫(kù)講義】_第4頁(yè)
【數(shù)據(jù)挖掘重點(diǎn)、知識(shí)點(diǎn)】+【常見(jiàn)數(shù)據(jù)挖掘分析方法介紹】+【數(shù)據(jù)庫(kù)講義】_第5頁(yè)
已閱讀5頁(yè),還剩42頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘知識(shí)點(diǎn)匯講數(shù)據(jù)庫(kù)技術(shù)的演化20世紀(jì)60年代:數(shù)據(jù)收集,數(shù)據(jù)庫(kù)創(chuàng)建,信息管理系統(tǒng)(IMS)和數(shù)據(jù)庫(kù)管理系統(tǒng)(DBMS)

20世紀(jì)70年代:關(guān)系數(shù)據(jù)模型,關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)工具

20世紀(jì)80年代:關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS),高級(jí)數(shù)據(jù)模型(面向?qū)ο?、演繹等等)和面向應(yīng)用的DBMS(空間的、科學(xué)的、工程的)

20世紀(jì)90年代至今:數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù),多媒體數(shù)據(jù)庫(kù)和web數(shù)據(jù)庫(kù)

數(shù)據(jù)挖掘(數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn))?

在大型數(shù)據(jù)庫(kù)中提取有趣的(重要的,隱含的,目前未知的,潛在有用的)信息和模式知識(shí)發(fā)現(xiàn)過(guò)程KDD過(guò)程的步驟了解應(yīng)用領(lǐng)域:相關(guān)的預(yù)備知識(shí)和應(yīng)用目標(biāo)

創(chuàng)建一個(gè)目標(biāo)數(shù)據(jù)集:數(shù)據(jù)選擇,數(shù)據(jù)清理和預(yù)加工(可能占用60%精力)

數(shù)據(jù)變換:發(fā)現(xiàn)有用的特征,維/變量的變換,常量的表示

選擇數(shù)據(jù)挖掘功能:匯總,分類(lèi),關(guān)聯(lián),聚集,選擇挖掘算法

數(shù)據(jù)挖掘:搜索興趣模式

模式評(píng)估和知識(shí)表達(dá):可視化,變形,去掉冗余模式等等

使用發(fā)現(xiàn)的知識(shí)

何種數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘關(guān)系數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù),事務(wù)數(shù)據(jù)庫(kù),高級(jí)數(shù)據(jù)庫(kù)與信息庫(kù),面向?qū)ο蠛蛯?duì)象-關(guān)系數(shù)據(jù)庫(kù)

空間數(shù)據(jù)庫(kù),時(shí)間序列數(shù)據(jù)庫(kù)和暫時(shí)數(shù)據(jù)庫(kù),文本數(shù)據(jù)庫(kù)和多媒體數(shù)據(jù)庫(kù)

異源數(shù)據(jù)庫(kù)和繼承數(shù)據(jù)庫(kù)模式興趣度度量:一個(gè)模式是有趣的如果(1)它易于被人理解;(2)在某種程度上,對(duì)于新的或測(cè)試數(shù)據(jù)是有效的;(3)是潛在有用的;(4)是新穎的或?qū)τ脩?hù)正在尋求證實(shí)的假設(shè)是有效的。

數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)結(jié)合數(shù)據(jù)挖掘系統(tǒng),數(shù)據(jù)庫(kù)管理系統(tǒng),數(shù)據(jù)倉(cāng)庫(kù),非耦合,疏松耦合,半緊密耦合,緊密耦合

聯(lián)機(jī)分析數(shù)據(jù)挖掘

數(shù)據(jù)挖掘和OLAP的結(jié)合,交互式挖掘多層知識(shí)

通過(guò)下鉆/上卷,轉(zhuǎn)軸,切片/切塊等,在不同的層次,挖掘知識(shí)和模式的必要性。

多種挖掘功能的綜合特征化的分類(lèi),先聚集再關(guān)聯(lián)數(shù)據(jù)倉(cāng)庫(kù)一個(gè)與組織結(jié)構(gòu)的操作數(shù)據(jù)庫(kù)分別維護(hù)的決定支持?jǐn)?shù)據(jù)庫(kù)。

為統(tǒng)一的歷史數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺(tái),對(duì)信息處理提供支持。

“數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主體的、集成的、時(shí)變的、非易失的數(shù)據(jù)集合,支持管理過(guò)程的決策過(guò)程”—W.H.Inmon數(shù)據(jù)倉(cāng)庫(kù)和異源DBMS傳統(tǒng)的異種數(shù)據(jù)庫(kù)的集成:在異種數(shù)據(jù)庫(kù)的頂部建立一個(gè)包裝程序和集成程序

查詢(xún)驅(qū)動(dòng)方法

當(dāng)一個(gè)查詢(xún)提交客戶(hù)站點(diǎn),首先使用元數(shù)據(jù)字典對(duì)查詢(xún)進(jìn)行轉(zhuǎn)換,將它轉(zhuǎn)換成相應(yīng)異種站點(diǎn)上的查詢(xún),然后,不同站點(diǎn)返回的結(jié)果被集成為全局回答

查詢(xún)驅(qū)動(dòng)方法需要復(fù)雜的信息過(guò)濾,并且與局部數(shù)據(jù)源上的處理競(jìng)爭(zhēng)資源

數(shù)據(jù)倉(cāng)庫(kù):使用更新驅(qū)動(dòng)的方法,為集成的異種數(shù)據(jù)庫(kù)系統(tǒng)帶來(lái)了高性能

將來(lái)自多個(gè)異種源的信息預(yù)先集成,并存儲(chǔ)與數(shù)據(jù)倉(cāng)庫(kù)中,供直接查詢(xún)和分析OLTP和OLAP的區(qū)別

用戶(hù)和系統(tǒng)的面向性:OLTP面向顧客,而OLAP面向市場(chǎng)

數(shù)據(jù)內(nèi)容:OLTP系統(tǒng)管理當(dāng)前數(shù)據(jù),而OLAP管理歷史的數(shù)據(jù)。

數(shù)據(jù)庫(kù)設(shè)計(jì):OLTP系統(tǒng)采用實(shí)體-聯(lián)系(ER)模型和面向應(yīng)用的數(shù)據(jù)庫(kù)設(shè)計(jì),而OLAP系統(tǒng)通常采用星形和雪花模型

視圖:OLTP系統(tǒng)主要關(guān)注一個(gè)企業(yè)或部門(mén)內(nèi)部的當(dāng)前數(shù)據(jù),而OLAP系統(tǒng)主要關(guān)注匯總的統(tǒng)一的數(shù)據(jù)。

訪問(wèn)模式:OLTP訪問(wèn)主要有短的原子事務(wù)組成,而OLAP系統(tǒng)的訪問(wèn)大部分是只讀操作,盡管許多可能是復(fù)雜的查詢(xún)

為什么需要一個(gè)分離的數(shù)據(jù)倉(cāng)庫(kù)提高兩個(gè)系統(tǒng)的性能

數(shù)據(jù)庫(kù)管理系統(tǒng)—OLTP的協(xié)調(diào):存取方法,索引,同步控制,恢復(fù)

數(shù)據(jù)倉(cāng)庫(kù)—OLAP的協(xié)調(diào):復(fù)雜的OLAP查詢(xún),多維視圖,合并

不同的功能和不同的數(shù)據(jù):

數(shù)據(jù)維護(hù):決策支持需要?dú)v史數(shù)據(jù),而操作數(shù)據(jù)庫(kù)一般不維護(hù)歷史數(shù)據(jù)

數(shù)據(jù)統(tǒng)一:決策支持需要將來(lái)自異種源的數(shù)據(jù)統(tǒng)一(如聚集和匯總)

數(shù)據(jù)質(zhì)量:不同的數(shù)據(jù)源通常使用不一致的數(shù)據(jù)表達(dá),代碼和形式,這些都需要協(xié)調(diào)雪花模式:雪花模式是星型模式的變種,其中某些維表示規(guī)范化的,而數(shù)據(jù)進(jìn)一步分解到附加的維表中,它的圖形類(lèi)似于雪花的形狀

事實(shí)星座表:多個(gè)事實(shí)表共享維表,這種模式可以看作星型模式及,因此稱(chēng)為星系模式或事實(shí)星座數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)關(guān)于數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的四種視圖

自頂向下視圖:允許選擇數(shù)據(jù)倉(cāng)庫(kù)的所需的相關(guān)信息

數(shù)據(jù)源視圖:揭示被操作數(shù)據(jù)庫(kù)系統(tǒng)捕獲、存儲(chǔ)和管理的信息。

數(shù)據(jù)倉(cāng)庫(kù)視圖:由事實(shí)表和維表構(gòu)成

商務(wù)查詢(xún)視圖:從最終用戶(hù)的角度透視數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)DM的過(guò)程數(shù)據(jù)準(zhǔn)備階段:數(shù)據(jù)的選擇(選擇相關(guān)的數(shù)據(jù),凈化(消除噪音、冗余數(shù)據(jù)),推測(cè)(推算缺失數(shù)據(jù)),轉(zhuǎn)化(離散值數(shù)據(jù)與連續(xù)值數(shù)據(jù)之間的相互轉(zhuǎn)換、數(shù)據(jù)值的分組分類(lèi)、數(shù)據(jù)項(xiàng)之間的計(jì)算組合等),數(shù)據(jù)縮減(減少數(shù)據(jù)量),經(jīng)過(guò)處理過(guò)的數(shù)據(jù)一般存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中。數(shù)據(jù)準(zhǔn)備是否做得充分將影響到數(shù)據(jù)挖掘的效率和準(zhǔn)確度以及最終模式的有效性。挖掘階段:該階段是數(shù)據(jù)挖掘的核心步驟,也是技術(shù)難點(diǎn)所在。根據(jù)數(shù)據(jù)挖掘的目標(biāo),采用人工智能、集合論、統(tǒng)計(jì)學(xué)等方法,應(yīng)用相應(yīng)的數(shù)據(jù)挖掘算法,分析數(shù)據(jù)并通過(guò)可視化工具表述所獲得的模式或規(guī)則。評(píng)價(jià)階段:在數(shù)據(jù)挖掘中得到的模式可能是沒(méi)有實(shí)際意義或沒(méi)有使用價(jià)值的,也有可能不能準(zhǔn)確反映數(shù)據(jù)的真實(shí)意義,甚至在某些情況下是與事實(shí)相反的,因此需要評(píng)估,確定哪些是有效的、有用的模式。評(píng)估可以根據(jù)用戶(hù)多年的經(jīng)驗(yàn),有些模式也可以直接用數(shù)據(jù)來(lái)檢驗(yàn)其準(zhǔn)確性。

鞏固和運(yùn)用階段:用戶(hù)理解的、并被認(rèn)為是符合實(shí)際和有價(jià)值的模式形成了知識(shí)。同時(shí)還要對(duì)知識(shí)進(jìn)行一致性檢查,解決與以前得到的知識(shí)互相沖突、矛盾的地方,使知識(shí)得到鞏固。運(yùn)用知識(shí)有兩種方法:一種是只需看知識(shí)本身所描述的關(guān)系或結(jié)果,就可以對(duì)決策提供支持;另一種是要求運(yùn)用知識(shí)對(duì)新的數(shù)據(jù)進(jìn)行分析,由此可能產(chǎn)生新的問(wèn)題,而需要對(duì)知識(shí)作進(jìn)一步的優(yōu)化。

數(shù)據(jù)預(yù)處理的必要性:數(shù)據(jù)挖掘要求的數(shù)據(jù):干凈、準(zhǔn)確、簡(jiǎn)潔、完整。

原始數(shù)據(jù)存在的問(wèn)題:

雜亂性:來(lái)自多種數(shù)據(jù)庫(kù)和文件系統(tǒng),缺乏統(tǒng)一標(biāo)準(zhǔn)和定義。

冗余性:同一個(gè)事務(wù)在數(shù)據(jù)庫(kù)中可能存在多個(gè)相同的物理描述。

不完整性:設(shè)計(jì)缺陷或人為原因造成數(shù)據(jù)丟失、不確定、不完整。數(shù)據(jù)預(yù)處理的基本功能:數(shù)據(jù)清洗,數(shù)據(jù)集成,數(shù)據(jù)變換,數(shù)據(jù)約簡(jiǎn)數(shù)據(jù)預(yù)處理的基本功能-數(shù)據(jù)清洗功能:去除源數(shù)據(jù)中的噪聲數(shù)據(jù)和無(wú)關(guān)數(shù)據(jù),重復(fù)數(shù)據(jù)處理,缺值數(shù)據(jù)處理

數(shù)據(jù)類(lèi)型轉(zhuǎn)換

方法:,有監(jiān)督方法:有領(lǐng)域?qū)<抑笇?dǎo):無(wú)監(jiān)督方法:樣本數(shù)據(jù)訓(xùn)練算法

數(shù)據(jù)預(yù)處理的基本功能-數(shù)據(jù)集成功能:

數(shù)據(jù)的選擇:從多數(shù)據(jù)源中選擇數(shù)據(jù)

數(shù)據(jù)沖突處理:如字段同名異義、異名同義、長(zhǎng)度不同。

數(shù)據(jù)不一致處理:如單位、命名、結(jié)構(gòu)、含義不一致。

數(shù)據(jù)類(lèi)型的選擇數(shù)據(jù)預(yù)處理的基本功能-數(shù)據(jù)變換功能:格式化:將元組集按照格式化條件合并,即對(duì)屬性值量綱的歸一化處理。

歸納:處理元組屬性值之間的“is-a”語(yǔ)義關(guān)系。

多維數(shù)據(jù)組織:采用切片、旋轉(zhuǎn)、投影等操作將原始數(shù)據(jù)按照多維立方體形式組織成為不同層次、不同粒度、不同維度的聚集。數(shù)據(jù)預(yù)處理的基本功能-數(shù)據(jù)簡(jiǎn)化功能:在對(duì)數(shù)據(jù)挖掘任務(wù)和原始數(shù)據(jù)充分理解的基礎(chǔ)上,發(fā)現(xiàn)依賴(lài)于目標(biāo)的表達(dá)數(shù)據(jù)的有用特征,從而盡可能地精簡(jiǎn)數(shù)據(jù)量。

方法:屬性選擇:屬性剪枝、并枝、相關(guān)分析。

數(shù)據(jù)抽樣:隨機(jī)抽樣、等間隔抽樣、分層抽樣。數(shù)據(jù)預(yù)處理的主要方法基于約略集的屬性約簡(jiǎn)方法:按等價(jià)關(guān)系對(duì)屬性集進(jìn)行劃分,求出最小約簡(jiǎn)集。

基于概念樹(shù)的數(shù)據(jù)濃縮方法:將元組逐層歸納為概念樹(shù),并去除噪聲數(shù)據(jù)。

基于信息論的數(shù)據(jù)泛化方法:數(shù)據(jù)立方體法、面向?qū)傩缘臍w納方法、最大熵方法。

基于統(tǒng)計(jì)分析的屬性選取方法:主成分分析、回歸分析、公共因素模型分析,找出特征屬性。

遺傳算法:高效進(jìn)行數(shù)據(jù)聚類(lèi)預(yù)處理。OLAP服務(wù)器類(lèi)型關(guān)系OLAP(ROLAP)

使用關(guān)系和擴(kuò)充關(guān)系DBMS存放并管理數(shù)據(jù)倉(cāng)庫(kù),而OLAP中間件支持其余部分。

包括每個(gè)DBMS后短的優(yōu)化,聚集導(dǎo)航邏輯的實(shí)現(xiàn),和附加的工具和服務(wù)

更大的可伸縮性

多維OLAP(MOLAP)

基于數(shù)組的多維存儲(chǔ)引擎(稀疏矩陣技術(shù))

對(duì)預(yù)計(jì)算的匯總數(shù)據(jù)的快速索引

混合OLAP(HOLAP)

用戶(hù)的靈活性,例如,低層次:相關(guān)的,高層次:數(shù)組

特殊的SQL服務(wù)器

在星型和雪花模式上支持SQL查詢(xún)

數(shù)據(jù)倉(cāng)庫(kù)后端工具和實(shí)用程序數(shù)據(jù)提取:從多個(gè)異種的外部數(shù)據(jù)源收集數(shù)據(jù)

數(shù)據(jù)清理:檢測(cè)數(shù)據(jù)中的錯(cuò)誤,可能時(shí)更正它們。

數(shù)據(jù)變換:將數(shù)據(jù)由遺產(chǎn)或宿主格式轉(zhuǎn)換成數(shù)據(jù)倉(cāng)庫(kù)格式

21.表的存儲(chǔ)空間,除了數(shù)據(jù)存儲(chǔ)空間外,還包含索引存儲(chǔ)空間。22.?dāng)?shù)據(jù)挖掘可以針對(duì)任何類(lèi)型的數(shù)據(jù)庫(kù)進(jìn)行,既包括傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù),也包括非數(shù)據(jù)庫(kù)組織的文本數(shù)據(jù)源、Web數(shù)據(jù)源以及復(fù)雜的多媒體數(shù)據(jù)源等1.關(guān)系數(shù)據(jù)庫(kù)2.?dāng)?shù)據(jù)倉(cāng)庫(kù)3.文本數(shù)據(jù)庫(kù)4.復(fù)雜類(lèi)型數(shù)據(jù)庫(kù)23.元數(shù)據(jù)按其所描述的內(nèi)容,可以分為三類(lèi)。(1)關(guān)于基本數(shù)據(jù)的元數(shù)據(jù)。(2)關(guān)于數(shù)據(jù)處理的元數(shù)據(jù)。(3)關(guān)于企業(yè)組織的元數(shù)據(jù)。24.根據(jù)用戶(hù)對(duì)數(shù)據(jù)倉(cāng)庫(kù)的認(rèn)識(shí)和使用目的,從用戶(hù)的角度分類(lèi)可將數(shù)據(jù)倉(cāng)庫(kù)劃分為兩大類(lèi)(1)技術(shù)元數(shù)據(jù)(TechnicalMetadata)。(2)業(yè)務(wù)元數(shù)據(jù)(BusinessMetadata)。25.元數(shù)據(jù)定義了數(shù)據(jù)從被抽取,到清洗、轉(zhuǎn)換,再到導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)的全部過(guò)程。元數(shù)據(jù)在數(shù)據(jù)抽?。D(zhuǎn)換中的作用如下。(1)確定數(shù)據(jù)的來(lái)源。(2)保證數(shù)據(jù)倉(cāng)庫(kù)內(nèi)容的質(zhì)量。(3)實(shí)現(xiàn)屬性間的映射與轉(zhuǎn)換。26.元數(shù)據(jù)的收集的方法有哪些(1)數(shù)據(jù)源中元數(shù)據(jù)的收集。(2)數(shù)據(jù)模型中元數(shù)據(jù)的收集。(3)映射關(guān)系元數(shù)據(jù)的收集。(4)數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用元數(shù)據(jù)的收集。27.按使用目的的不同,數(shù)據(jù)倉(cāng)庫(kù)的使用者可分為開(kāi)發(fā)人員、維護(hù)人員和最終用戶(hù)三類(lèi)28.時(shí)間維在幾乎所有的MDDB或數(shù)據(jù)倉(cāng)庫(kù)中,都是最要的一個(gè)維,使用最為普遍。時(shí)間維有以下兩個(gè)特點(diǎn)。(1)周期特征。時(shí)間維中包含許多周期(時(shí)間單位),如日、周、月、季、年等。這些周期之間,存在著固定的轉(zhuǎn)換規(guī)則。(2)行業(yè)特征。不同的行業(yè),其工作日各有特點(diǎn)。一般是每周5個(gè)工作日,但也有許例外,如交通運(yùn)輸、零售等行業(yè)全年無(wú)休息日。29.?dāng)?shù)據(jù)挖掘項(xiàng)目是一項(xiàng)系統(tǒng)工程,它作為從數(shù)據(jù)庫(kù)中自動(dòng)發(fā)現(xiàn)知識(shí)的過(guò)程,仍然需要來(lái)自不同領(lǐng)域?qū)<夜餐瑓⑴c知識(shí)發(fā)現(xiàn)的全部過(guò)程。其中,發(fā)揮著主要作用的專(zhuān)家包括主題領(lǐng)域?qū)<?、?shù)據(jù)專(zhuān)家、數(shù)據(jù)分析專(zhuān)家和數(shù)據(jù)挖掘?qū)<?0.?dāng)?shù)值型數(shù)據(jù)概念分層的方法主要有分箱、聚類(lèi)分析、基于熵的離散化。31.?dāng)?shù)據(jù)泛化的方法很多,較為常用和有效的方法有數(shù)據(jù)立方體、面向?qū)傩缘臍w納等方法。32.從不同的角度考察,關(guān)聯(lián)規(guī)則有多種分類(lèi)。(1)根據(jù)項(xiàng)對(duì)應(yīng)屬性的數(shù)據(jù)類(lèi)型,關(guān)聯(lián)規(guī)則可以分為布爾型和數(shù)值型。(2)根據(jù)規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則。(3)根據(jù)規(guī)則中涉及到的數(shù)據(jù)的維數(shù),關(guān)聯(lián)規(guī)則可以分為單維的和多維的。(4)關(guān)聯(lián)并不一定意味著相關(guān)或因果,有時(shí)需要識(shí)別不同的項(xiàng)是否相關(guān),是否存在因果關(guān)系。根據(jù)關(guān)聯(lián)規(guī)則的各種擴(kuò)展,可分為相關(guān)分析、最大模式和頻繁閉項(xiàng)集、添加約束等類(lèi)型。33.多層、多維的數(shù)量型關(guān)聯(lián)規(guī)則是前三種規(guī)則的復(fù)合體,挖掘的難度比較大。最簡(jiǎn)單的關(guān)聯(lián)規(guī)則是單維、單層的布爾關(guān)聯(lián)規(guī)則。在數(shù)據(jù)庫(kù)挖掘中經(jīng)常使用下列幾種約束。(1)知識(shí)類(lèi)型約束。(2)數(shù)據(jù)約束。(3)維或?qū)哟渭s束。(4)興趣度約束。(5)規(guī)則約束。35.規(guī)則約束可以分為反單調(diào)的、單調(diào)的、簡(jiǎn)潔的、可轉(zhuǎn)變的和不可轉(zhuǎn)變的五種類(lèi)型。36.分類(lèi)是數(shù)據(jù)挖掘的基本功能之一,它的目標(biāo)是從數(shù)據(jù)集中提取出能夠描述數(shù)據(jù)類(lèi)基本特征的模型,并利用這些模型把數(shù)據(jù)集中的每個(gè)對(duì)象都?xì)w入到其中某個(gè)已知的數(shù)據(jù)類(lèi)中。37.聚類(lèi)分析的數(shù)據(jù)源可以分為兩種類(lèi)型,即結(jié)構(gòu)化的數(shù)據(jù)和非結(jié)構(gòu)化的數(shù)據(jù)。38數(shù)據(jù)取樣的過(guò)程有哪些A.Web數(shù)據(jù)采樣。A.Web數(shù)據(jù)分析。A.Web數(shù)據(jù)調(diào)整。Web數(shù)據(jù)轉(zhuǎn)換39.?dāng)?shù)據(jù)預(yù)處理就是將來(lái)自不同數(shù)據(jù)源的各類(lèi)數(shù)據(jù),組織成為模式挖掘所必需的數(shù)據(jù)結(jié)構(gòu)。數(shù)據(jù)預(yù)處理的過(guò)程有哪些(1)數(shù)據(jù)清洗。(2)數(shù)據(jù)集成。(3)數(shù)據(jù)轉(zhuǎn)換。(4)數(shù)據(jù)約簡(jiǎn)。40.自動(dòng)摘錄方法的突出優(yōu)點(diǎn)是不受領(lǐng)域的限制。自動(dòng)摘錄方法的不足之處在于(1)文章的書(shū)寫(xiě)是否規(guī)范對(duì)摘錄效果的影響很大。(2)主題析出難以全面。(3)易產(chǎn)生冗余句。(4)缺乏連貫。數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)有何不同?它們有那些相似之處?數(shù)據(jù)倉(cāng)庫(kù)與傳統(tǒng)數(shù)據(jù)庫(kù)的關(guān)系數(shù)據(jù)倉(cāng)庫(kù)在傳統(tǒng)數(shù)據(jù)庫(kù)的基礎(chǔ)之上發(fā)展起來(lái)的,但它并不是對(duì)傳統(tǒng)數(shù)庫(kù)的徹底拋棄,而是旨在彌補(bǔ)統(tǒng)數(shù)據(jù)庫(kù)在數(shù)據(jù)分析能力方面的不足,以提供良好的大規(guī)模數(shù)據(jù)分析能力為己任,圖為決策提供有效的技術(shù)支持。和傳統(tǒng)數(shù)據(jù)庫(kù)相比,數(shù)據(jù)倉(cāng)庫(kù)在體特征、存儲(chǔ)內(nèi)容、向用戶(hù)等方面,都有著重大的差異。正是由于這些差的存在,實(shí)現(xiàn)了數(shù)倉(cāng)庫(kù)技術(shù)在分析能力上的突破。數(shù)據(jù)抽取:在構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程中,外部數(shù)據(jù)源所提供的數(shù)據(jù)并不都是有用的,有些數(shù)據(jù)對(duì)決策并能提供支持,同時(shí),外部數(shù)據(jù)源中數(shù)據(jù)冗余的現(xiàn)象也很普遍。數(shù)據(jù)倉(cāng)庫(kù)既然是面向主題,么在外部數(shù)據(jù)源中,只有那些與主題相關(guān)的內(nèi)容才是必需的、有使用價(jià)值的。因此,必以主題的需求為依據(jù),對(duì)數(shù)據(jù)源的內(nèi)容進(jìn)行有目的地選擇,這一過(guò)程被稱(chēng)為“數(shù)據(jù)抽取”(DataExtraction)。數(shù)據(jù)清洗:數(shù)據(jù)倉(cāng)庫(kù)的外部數(shù)據(jù)源所提供的數(shù)據(jù)內(nèi)容并不完美,存在著“臟數(shù)據(jù)”—即數(shù)據(jù)有空缺、噪聲等缺陷,而且在數(shù)據(jù)倉(cāng)庫(kù)的各據(jù)源之間,其內(nèi)容也存在著不一致的現(xiàn)象。為了控制這些對(duì)其進(jìn)行處理,這一處理過(guò)程稱(chēng)為“數(shù)據(jù)清洗”(DataCleaning)。對(duì)于任何數(shù)據(jù)倉(cāng)庫(kù)而言,數(shù)據(jù)清洗過(guò)程都是必不可少的。元數(shù)據(jù):所謂元數(shù)據(jù),就是有關(guān)數(shù)據(jù)的數(shù)據(jù),它是關(guān)于數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù),操作數(shù)據(jù)的進(jìn)程以及應(yīng)用程序的結(jié)構(gòu)和意義的描述信息,元數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)的建立過(guò)程中,有著十分重要的作用它所描述的對(duì)象,涉及數(shù)據(jù)倉(cāng)庫(kù)的各個(gè)方面??傊?,數(shù)據(jù)是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)中的核心部件。數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的非易失性:數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的非易失性,又稱(chēng)數(shù)據(jù)的穩(wěn)定性,它包括兩方面的含義:其一是指數(shù)據(jù)倉(cāng)庫(kù)內(nèi)容的更新、追加等操作是不頻繁的,一般依據(jù)既定的周期或條件閾值進(jìn)行;其二是指,數(shù)據(jù)在導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)后,雖然也有刪除、更新等操作,但決定這種操作的閾值條件是較難滿(mǎn)足的,這種情況的發(fā)生是非常罕見(jiàn)的,可以近似地認(rèn)為,數(shù)據(jù)一旦導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)后,就不再發(fā)生變化在數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建過(guò)程中,將客觀事物從現(xiàn)實(shí)世界的存在到計(jì)算機(jī)內(nèi)物理實(shí)現(xiàn)的抽象過(guò)程劃分為四個(gè)階段,所謂現(xiàn)實(shí)世界,即客觀存在的世界,它是存在于現(xiàn)實(shí)中的各種客觀事物及其相互關(guān)系的總和。對(duì)于數(shù)據(jù)倉(cāng)庫(kù)而言,它的內(nèi)容只是完整的客觀世界的一個(gè)真子集,包含了對(duì)特定決策進(jìn)行支持所必需的所有客觀對(duì)象。所謂概念世界,是人們對(duì)現(xiàn)實(shí)世界中對(duì)象的屬性進(jìn)行條析、逐步概括和歸納之后,將其以抽象的形式反映出來(lái)的結(jié)果。它包括概念和關(guān)系兩大部分內(nèi)容。所謂邏輯世界,是指人們依據(jù)計(jì)算機(jī)物理存儲(chǔ)的要求,將頭腦中的概念世界進(jìn)行轉(zhuǎn)化,從而形成的邏輯表達(dá)結(jié)果。計(jì)算機(jī)世界,是指現(xiàn)實(shí)世界中的客觀對(duì)象在計(jì)算機(jī)中的最終表達(dá)形式,即計(jì)算機(jī)系統(tǒng)中的實(shí)際存儲(chǔ)模型??陀^對(duì)象的內(nèi)容只有在計(jì)算機(jī)中實(shí)現(xiàn)了物理存儲(chǔ),才能供人們有效地進(jìn)行分析和處理。粒度模型:粒度模型,是指數(shù)據(jù)倉(cāng)庫(kù)在構(gòu)造過(guò)程中各種粒度參數(shù)的總和。在從概念模型構(gòu)造邏輯模型,由邏輯模型轉(zhuǎn)換成計(jì)算機(jī)模型,最終構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程中,它也起著至關(guān)重要的作用。粒度:所謂粒度,是指數(shù)據(jù)倉(cāng)庫(kù)中記錄數(shù)據(jù)或?qū)?shù)據(jù)進(jìn)行綜合時(shí)所使用的時(shí)間段參數(shù),它決定了數(shù)據(jù)倉(cāng)庫(kù)中所存儲(chǔ)的數(shù)據(jù)單元在時(shí)間上的詳細(xì)程度和級(jí)別。時(shí)間段參數(shù)越小,粒度級(jí)別越低,數(shù)據(jù)就越詳細(xì)、越具體;反之,時(shí)間段參數(shù)越大,粒度級(jí)別越高,就意味著數(shù)據(jù)綜合度越高,同時(shí)細(xì)節(jié)的損失也就越多。OLAP:聯(lián)機(jī)分析處理(OnlineAnalyticalProcess,OLAP)就是這樣一門(mén)分析技術(shù),它以數(shù)據(jù)倉(cāng)庫(kù)為應(yīng)用平臺(tái),根據(jù)決策者的需求,迅速而靈活地對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的大量數(shù)據(jù)進(jìn)行復(fù)雜、有效的分析處理,并將結(jié)果以直觀的形式提供給決策分析人員,從而實(shí)現(xiàn)對(duì)決策的支持。數(shù)據(jù)單元:“數(shù)據(jù)單元”又稱(chēng)“數(shù)據(jù)單元格”,是指多維數(shù)組的取值,即維數(shù)組的每個(gè)維都選中一個(gè)維成員后所構(gòu)成的數(shù)據(jù)組合。數(shù)據(jù)單元的表示方法為(維度1維成員,維度2維成員,…,維度n維成員,變量值)。多維數(shù)組:如果一個(gè)數(shù)據(jù)集合可以從多個(gè)角度進(jìn)行觀察,即具有多個(gè)維度,則根據(jù)這些維度將數(shù)據(jù)組織所構(gòu)成的數(shù)組,就是多維數(shù)組。多維數(shù)組是OLAP的核心,按其維度的數(shù)量,也可稱(chēng)為“數(shù)據(jù)立方體”或“數(shù)據(jù)超立方”。多維數(shù)組可以用(維1,維2,維3,…,維n,變量)來(lái)表示。維成員:“維成員”是指某個(gè)維的某個(gè)具體取值。如果該維具有多個(gè)層次,則維成員也是由在該維各層次上的取值組合而成的。維:維是指人們觀察某個(gè)數(shù)據(jù)集合的特定角度,它是以對(duì)數(shù)據(jù)的某個(gè)共性的提取為前提的。維的層次:在同一個(gè)維度上,可以存在多個(gè)程度不同的細(xì)節(jié),這些細(xì)節(jié)就是“維的層次”,它是對(duì)“維”的進(jìn)一步細(xì)化。當(dāng)人們從某個(gè)特定角度觀察問(wèn)題時(shí),按所依據(jù)的細(xì)節(jié)程度(即維層次)的不同,可以得到多種描述方法。維表:維表是用于記錄維度的關(guān)系表。多維數(shù)據(jù)立方體中每個(gè)坐標(biāo)軸上的值,各記錄在一個(gè)維表中,這樣,一個(gè)n維的數(shù)據(jù)立方體,就有n張維表。事實(shí)表:事實(shí)表是用于記錄度量信息的關(guān)系表。多維數(shù)據(jù)立方體中所有的度量信息,均可記錄在同一個(gè)事實(shí)表中。因此,事實(shí)表的提交要比維表大得多??臻g數(shù)據(jù)庫(kù)。主要指存儲(chǔ)空間信息的數(shù)據(jù)庫(kù),其中數(shù)據(jù)可能以光柵格式提供,也可能用矢量圖形數(shù)據(jù)表示。對(duì)空間數(shù)據(jù)庫(kù)的挖掘可以為城市規(guī)劃、生態(tài)規(guī)劃、道路修建提供決策支持。時(shí)序數(shù)據(jù)庫(kù)。主要用于存放與時(shí)間相關(guān)的數(shù)據(jù),它可用來(lái)反映隨時(shí)間變化的即時(shí)數(shù)據(jù)或不同時(shí)間發(fā)生的不同事件。對(duì)時(shí)序數(shù)據(jù)的挖掘可以發(fā)現(xiàn)事件的發(fā)展趨勢(shì)、事物的演變過(guò)程和隱藏特征,這些信息將對(duì)事件的計(jì)劃、決策和預(yù)警是非常有用的。關(guān)聯(lián)分析:關(guān)聯(lián)分析(AssociationAnalysis)就是從大量的數(shù)據(jù)中發(fā)現(xiàn)項(xiàng)集之間有趣的聯(lián)系、相關(guān)關(guān)系或因果結(jié)構(gòu),以及項(xiàng)集的頻繁模式。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫(kù)中存在的一類(lèi)重要的知識(shí)。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,則稱(chēng)之為關(guān)聯(lián)。關(guān)聯(lián)可分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)規(guī)則。分類(lèi):分類(lèi)(Classification)在數(shù)據(jù)挖掘中是一項(xiàng)非常重要的任務(wù),目前在商業(yè)上應(yīng)用最多。分類(lèi)的目的是找出一組能夠描述數(shù)據(jù)集合典型特征的模型或函數(shù),以便能夠識(shí)別未知數(shù)據(jù)的歸屬或類(lèi)別。數(shù)據(jù)挖掘中分類(lèi)和回歸的不同分類(lèi)和回歸都可用于預(yù)測(cè)。預(yù)測(cè)的目的是從利用歷史數(shù)據(jù)記錄中自動(dòng)推導(dǎo)出對(duì)給定數(shù)據(jù)的推廣描述,從而能對(duì)未來(lái)數(shù)據(jù)進(jìn)行預(yù)測(cè)。和回歸方法不同的是,分類(lèi)的輸出是離散的類(lèi)別值,而回歸的輸出則是連續(xù)數(shù)值。聚類(lèi):聚類(lèi)(Clustering)是將物理或抽象對(duì)象的集合分組成為由類(lèi)似的對(duì)象組成的多個(gè)類(lèi)的過(guò)程。數(shù)據(jù)挖掘中聚類(lèi)與分類(lèi)分析方法的不同聚類(lèi)與分類(lèi)分析方法不同,聚類(lèi)分析是在沒(méi)有給定劃分類(lèi)的情況下(如沒(méi)有預(yù)定的分類(lèi)表、沒(méi)有預(yù)定的類(lèi)目),根據(jù)信息相似度進(jìn)行信息聚集的一種方法。所以,聚類(lèi)分析的輸入數(shù)據(jù)集是一組未標(biāo)記的對(duì)象。聚類(lèi)的目的是根據(jù)一定的規(guī)則,合理地進(jìn)行分組或聚類(lèi),并用顯式或隱式的方法描述不同的類(lèi)別。由于分析可以采用不同的算法,所以對(duì)于相同的數(shù)據(jù)集合可能有不同的劃分。在機(jī)器學(xué)習(xí)中,聚類(lèi)是無(wú)指導(dǎo)學(xué)習(xí)的一個(gè)例子,分類(lèi)是有指導(dǎo)學(xué)習(xí)的一個(gè)例子,兩者所采用的方法相差甚遠(yuǎn),并且聚類(lèi)的時(shí)間復(fù)雜度要比分類(lèi)大得多。信息摘要:信息摘要(InformationSummarization)是一種自動(dòng)編制文摘的技術(shù),即利用計(jì)算機(jī)將一篇文章濃縮成一篇短文的過(guò)程。文摘是以簡(jiǎn)潔的篇幅,忠實(shí)地反映原文內(nèi)容的一段簡(jiǎn)短文字。通過(guò)閱讀文摘,人們可以快速地掌握大量文獻(xiàn)的基本內(nèi)容,提高獲取信息的效率。信息抽取:信息抽取(InformationExtraction)就是根據(jù)一個(gè)事先定義好的、描述所需信息規(guī)格的模板,從非結(jié)構(gòu)化的文本中抽取相關(guān)信息的過(guò)程。這個(gè)模板通常說(shuō)明了某些事件、實(shí)體或關(guān)系的類(lèi)型。元數(shù)據(jù)挖掘:元數(shù)據(jù)挖掘(MetadataMining)是指對(duì)元數(shù)據(jù)進(jìn)行的挖掘。例如,對(duì)文本元數(shù)據(jù)的挖掘。文本元數(shù)據(jù)可以分為兩類(lèi):一類(lèi)是描述性元數(shù)據(jù),包括文本的名稱(chēng)、日期、大小、類(lèi)型等信息;一類(lèi)是語(yǔ)義性元數(shù)據(jù),包括文本的作者、標(biāo)題、機(jī)構(gòu)、內(nèi)容等信息。數(shù)據(jù)立方體:數(shù)據(jù)立方體是數(shù)據(jù)倉(cāng)庫(kù)和聯(lián)機(jī)分析處理的核心概念之一。數(shù)據(jù)立方體中存放著預(yù)先對(duì)部分或所有維(屬性)的匯總結(jié)果。利用數(shù)據(jù)立方體對(duì)數(shù)據(jù)泛化的目的是把那些經(jīng)常被查詢(xún)到的、運(yùn)算開(kāi)銷(xiāo)較高的計(jì)算預(yù)先執(zhí)行,并將執(zhí)行結(jié)果存儲(chǔ)到數(shù)據(jù)立方體中,以便于知識(shí)發(fā)現(xiàn)、決策支持以及其他應(yīng)用。數(shù)據(jù)立方體的維數(shù)不限定為3,它可以為n(n>1)。聚類(lèi):聚類(lèi)就是將數(shù)據(jù)對(duì)象組成不同的類(lèi)(或簇),使得不同類(lèi)對(duì)象之間的相似性盡量小,而同類(lèi)對(duì)象之間的相似性盡量大。事實(shí)表是星形模型的核心,其內(nèi)容可以分為那些部分?作用是什么?事實(shí)表是星形模型的核心,其內(nèi)容可以分為鍵和詳細(xì)指標(biāo)兩部分。事實(shí)表通過(guò)鍵將各維表組織起來(lái),共同滿(mǎn)足用戶(hù)的查詢(xún)需求;詳細(xì)指標(biāo)則是指記錄在事實(shí)表中的具體數(shù)據(jù),因其構(gòu)成與內(nèi)容較為簡(jiǎn)單,因此在事實(shí)表中直接記錄,供查詢(xún)使用。元數(shù)據(jù)的收集的作用與業(yè)務(wù)數(shù)據(jù)相比,元數(shù)據(jù)的量是很小的,并且其變化的頻率與幅度也遠(yuǎn)不如業(yè)務(wù)數(shù)據(jù),因此,對(duì)元數(shù)據(jù)采取自動(dòng)收集的機(jī)制,不會(huì)對(duì)數(shù)據(jù)倉(cāng)庫(kù)的運(yùn)行效率產(chǎn)生大的影響,也不會(huì)給開(kāi)發(fā)人員帶來(lái)大量的額外工作。另一方面,有效的元數(shù)據(jù)收集機(jī)制,卻可以大大提高數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā)、維護(hù)與工作的效率。項(xiàng):對(duì)一個(gè)數(shù)據(jù)表而言,表的每個(gè)字段都具有一個(gè)或多個(gè)不同的值。字段的每種取值都是一個(gè)項(xiàng)(Item)。在進(jìn)行挖掘關(guān)聯(lián)規(guī)則時(shí),項(xiàng)一般表示成謂詞的形式,如商品類(lèi)型(計(jì)算機(jī)),其中“商品類(lèi)型”是字段名,“計(jì)算機(jī)”是字段的值。有時(shí)也直接用字段的值來(lái)表示。事務(wù):事務(wù)是項(xiàng)的集合。本質(zhì)上,一個(gè)事務(wù)就是事實(shí)表中的一條記錄。事務(wù)是項(xiàng)集I的子集。事務(wù)的集合稱(chēng)為事務(wù)集,通常就是事務(wù)數(shù)據(jù)庫(kù)。但E-R圖法很難直接用于開(kāi)發(fā)數(shù)據(jù)倉(cāng)庫(kù),目前采用的解決方法是什么?答:為了將用E-R圖描述的企業(yè)模型方便地映射為數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型,可以采取措施對(duì)傳統(tǒng)的E-R圖方法進(jìn)行改進(jìn),即引入以下概念。(1)事實(shí)實(shí)體(FactEntity)用于表示現(xiàn)實(shí)世界中一系列相互關(guān)聯(lián)的事實(shí),一般是查詢(xún)分析的焦點(diǎn),在E-R圖中用矩形表示;(2)維度實(shí)體(DimensionEntity)用于對(duì)事實(shí)實(shí)體的各種屬性作細(xì)化的描述,是開(kāi)展查詢(xún)分析的重要依據(jù),在E-R圖中用菱形表示;(3)引用實(shí)體(QuotationEntity)對(duì)應(yīng)于現(xiàn)實(shí)世界中的某個(gè)具體實(shí)體或?qū)ο?,在事?wù)數(shù)據(jù)查詢(xún)時(shí)能提供詳細(xì)的數(shù)據(jù),在E-R圖中用六角形表示。事實(shí)實(shí)體是數(shù)據(jù)倉(cāng)庫(kù)的中心,對(duì)應(yīng)著數(shù)據(jù)倉(cāng)庫(kù)中的事實(shí)表。在數(shù)據(jù)倉(cāng)庫(kù)的高層模型中,它具有以下的作用:為用戶(hù)提供定量的數(shù)據(jù)基本分析點(diǎn),提供多種訪問(wèn)事實(shí)數(shù)據(jù)的路徑、維度或指標(biāo),提供相關(guān)的標(biāo)準(zhǔn)數(shù)據(jù),構(gòu)成每個(gè)維度中最低一級(jí)的類(lèi)別和一個(gè)信息組中的指標(biāo),作為存儲(chǔ)大量數(shù)據(jù)的基礎(chǔ)表格。在數(shù)據(jù)倉(cāng)庫(kù)中,維度實(shí)體可以作為對(duì)用戶(hù)查詢(xún)結(jié)果進(jìn)行篩選的工具。維度實(shí)體的另一個(gè)重要作用,是支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)的整體構(gòu)建,為不同的事實(shí)實(shí)體之間建立聯(lián)系,從而將維度實(shí)體和引用實(shí)體結(jié)合成一個(gè)完整的整體,以滿(mǎn)足用戶(hù)對(duì)數(shù)據(jù)倉(cāng)庫(kù)的訪問(wèn)需求。引用實(shí)體的內(nèi)容是從業(yè)務(wù)數(shù)據(jù)庫(kù)中轉(zhuǎn)換而來(lái)的。在數(shù)據(jù)倉(cāng)庫(kù)中,它往往體現(xiàn)為物理數(shù)據(jù)庫(kù),向用戶(hù)提供詳細(xì)的數(shù)據(jù),以實(shí)現(xiàn)對(duì)決策的支持。數(shù)據(jù)倉(cāng)庫(kù)的反規(guī)范化處理的意義?規(guī)范化處理的結(jié)果,表現(xiàn)為將一個(gè)復(fù)雜的、依賴(lài)關(guān)系眾多的大表分解成為若干個(gè)內(nèi)容簡(jiǎn)潔、關(guān)系清楚的小表。應(yīng)該指出,即使分解過(guò)程能滿(mǎn)足連接無(wú)損性和依賴(lài)保持性的要求,這種分解結(jié)果也不是最佳的。因?yàn)閿?shù)據(jù)倉(cāng)庫(kù)要實(shí)現(xiàn)對(duì)決策的支持,常常需要進(jìn)行大規(guī)模的查詢(xún)操作,這種操作必然涉及對(duì)眾多的小表進(jìn)行動(dòng)態(tài)的關(guān)聯(lián)。反規(guī)范化的另一種情況,是保持?jǐn)?shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的適度冗余。在數(shù)據(jù)倉(cāng)庫(kù)中,有些數(shù)據(jù)是基本的,涉及到大多數(shù),甚至是全部的業(yè)務(wù)。依據(jù)規(guī)范化理論的要求,這類(lèi)數(shù)據(jù)應(yīng)當(dāng)存放在一個(gè)基本的表中,與記錄其他具體業(yè)務(wù)數(shù)據(jù)的表相互獨(dú)立,以供查詢(xún)使用。這樣的結(jié)果是:每次進(jìn)行查詢(xún)操作時(shí),都必須同時(shí)訪問(wèn)業(yè)務(wù)數(shù)據(jù)表和上述基本表,再對(duì)其進(jìn)行關(guān)聯(lián)操作,這就增加了CPU和系統(tǒng)I/O的負(fù)擔(dān)。因此,有必要將基本表中的內(nèi)容作為冗余數(shù)據(jù),重復(fù)地插入到各個(gè)業(yè)務(wù)數(shù)據(jù)表中,從而以適當(dāng)犧牲存儲(chǔ)空間為代價(jià),求得系統(tǒng)整體效率的提升。邏輯模型中,包括4種基本的結(jié)構(gòu)元素。(1)初始數(shù)據(jù)組。每個(gè)主要實(shí)體均擁有且只擁有一個(gè)初始數(shù)據(jù)組,它體現(xiàn)實(shí)體的本質(zhì)特征。初始數(shù)據(jù)組的內(nèi)容和屬性需要借助邏輯模型中的其他部件(如二次數(shù)據(jù)組等)來(lái)詳細(xì)說(shuō)明。(2)二次數(shù)據(jù)組。每個(gè)主要實(shí)體均可擁有多個(gè)二次數(shù)據(jù)組,它們通過(guò)鏈接部件與初始數(shù)據(jù)組相連,對(duì)初始數(shù)據(jù)組的內(nèi)容和屬性加以詳細(xì)說(shuō)明。(3)連接數(shù)據(jù)組。它是在數(shù)據(jù)組之間建立聯(lián)系的部件。借助于連接數(shù)據(jù)組,初始數(shù)據(jù)組與二次數(shù)據(jù)組之間的聯(lián)系得到了體現(xiàn),二次數(shù)據(jù)組因而可以對(duì)初始數(shù)據(jù)組的內(nèi)容作出詳細(xì)說(shuō)明。(4)類(lèi)型數(shù)據(jù)組。它可以理解為在初始數(shù)據(jù)組主題下,逐級(jí)細(xì)化的分類(lèi)數(shù)據(jù),在圖示中通過(guò)初始數(shù)據(jù)組指向右側(cè)的線(xiàn)段來(lái)表示。相對(duì)靠左側(cè)的是超類(lèi)型數(shù)據(jù)組,相對(duì)靠右側(cè)的稱(chēng)為子類(lèi)型數(shù)據(jù)組。說(shuō)明邏輯模型4種基本結(jié)構(gòu)間的關(guān)系?從數(shù)據(jù)穩(wěn)定性的角度來(lái)觀察,除連接數(shù)據(jù)組之外,從初始數(shù)據(jù)組,到二次數(shù)據(jù)組,再到類(lèi)型數(shù)據(jù)組,其穩(wěn)定性是逐步降低的。通過(guò)邏輯模型,設(shè)計(jì)者可向數(shù)據(jù)倉(cāng)庫(kù)的用戶(hù)提供出與概念模型相比更為詳細(xì)的“系統(tǒng)功能結(jié)構(gòu)圖”。用戶(hù)可以從中了解到系統(tǒng)所能提供的功能,以及他們所能夠獲得的信息。在邏輯模型中,數(shù)據(jù)的屬性已經(jīng)初步體現(xiàn)出來(lái),具備了向物模型過(guò)渡的條件。數(shù)據(jù)倉(cāng)庫(kù)的物理模型設(shè)計(jì),必須依據(jù)以下要點(diǎn)進(jìn)行。物理模型設(shè)計(jì)的主要內(nèi)容,包括以下哪幾個(gè)方面。(1)數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)的確定。。(2)索引策略的確定。(3)數(shù)據(jù)存放位置的確定。(4)存儲(chǔ)分配參數(shù)的確定。MOLAP與ROLAP的比較MOLAP與ROLAP是OLAP實(shí)現(xiàn)的兩種主要方式,本節(jié)將從體系結(jié)構(gòu)、數(shù)據(jù)存取等幾方面,對(duì)這兩種實(shí)現(xiàn)方式進(jìn)行比較①。1.體系結(jié)構(gòu):在ROLAP處理過(guò)程中,ROLAP服務(wù)器通過(guò)用戶(hù)界面接受多維查詢(xún),將其轉(zhuǎn)化為標(biāo)準(zhǔn)的SQL查詢(xún),在RDBMS中執(zhí)行,然后再將查詢(xún)的結(jié)果,以適當(dāng)?shù)男问酵ㄟ^(guò)用戶(hù)端界面顯示出來(lái)。多維數(shù)據(jù)立方體是借助RDBMS平臺(tái)實(shí)現(xiàn)的,因此系統(tǒng)的工作過(guò)程稍顯復(fù)雜2.?dāng)?shù)據(jù)的存取:MOLAP基本上是專(zhuān)為OLAP處理而設(shè)計(jì)的,具備良好的預(yù)綜合能力,可自建索引,可以多維查詢(xún)語(yǔ)言直接對(duì)數(shù)據(jù)立方體進(jìn)行存取操作,具有較快的數(shù)據(jù)存取速度。但在MOLAP中,數(shù)據(jù)的細(xì)節(jié)并不是物理地存儲(chǔ)在MDDB中,不可直接訪問(wèn)。3.數(shù)據(jù)的存儲(chǔ)管理:在存儲(chǔ)實(shí)現(xiàn)上,為了保證訪問(wèn)速度,MDDB一般以平面文件的形式存放,文件的大小受操作系統(tǒng)的限制。4.元數(shù)據(jù)的管理對(duì)OLAP和數(shù)據(jù)倉(cāng)庫(kù)而言,元數(shù)據(jù)的地位是至關(guān)重要的,它是系統(tǒng)的核心數(shù)據(jù)。OLAP的元數(shù)據(jù)包括數(shù)據(jù)層次關(guān)系的定義、數(shù)據(jù)間的轉(zhuǎn)換規(guī)則、時(shí)間序列信息、數(shù)據(jù)的安全控制規(guī)則、數(shù)據(jù)更新?tīng)顟B(tài)與方法的定義、數(shù)據(jù)源的描述等。在元數(shù)據(jù)的管理上,MOLAP和ROLAP都缺乏統(tǒng)一的標(biāo)準(zhǔn),5.適應(yīng)性:OLAP的適應(yīng)性主要包括以下幾方面的內(nèi)容。(1)對(duì)維數(shù)變化的適應(yīng)性。MOLAP具有較高的預(yù)綜合度,隨維數(shù)的增加,數(shù)據(jù)超立方體的體積增長(zhǎng)十分迅速,管理較難;相比之下,RLOAP的預(yù)綜合度較低,管理靈活,維的增加對(duì)數(shù)據(jù)庫(kù)總體的影響較小,適應(yīng)性較強(qiáng)。(2)對(duì)數(shù)據(jù)變化的適應(yīng)性。由于MOLAP的高效率是建立在預(yù)綜合基礎(chǔ)上的,當(dāng)數(shù)據(jù)變化頻繁時(shí),MDDB進(jìn)行預(yù)綜合所需的開(kāi)銷(xiāo)將十分可觀,因此其對(duì)數(shù)據(jù)變化的適應(yīng)性不如ROLAP。(3)對(duì)數(shù)據(jù)量的適應(yīng)性。作為ROLAP基礎(chǔ)的RDBMS,其發(fā)展歷程要遠(yuǎn)遠(yuǎn)超過(guò)MDDB,目前已擁有較強(qiáng)的并行處理能力,能較好地適應(yīng)大數(shù)據(jù)量的運(yùn)算,同時(shí)在對(duì)軟硬件環(huán)境的適應(yīng)能力上,也具有明顯的優(yōu)勢(shì)。應(yīng)該指出,MOLAP與ROLAP二者之間,并沒(méi)有絕對(duì)的優(yōu)劣之分,特別是在對(duì)中小規(guī)模數(shù)據(jù)的分析處理上,MOLAP高效率的優(yōu)勢(shì)十分明顯。隨著MDDB技術(shù)的不斷發(fā)展,研究的不斷深入,MOLAP技術(shù)必將會(huì)有質(zhì)的提高。競(jìng)爭(zhēng)情報(bào)系統(tǒng)概念競(jìng)爭(zhēng)情報(bào)系統(tǒng)是企業(yè)感知競(jìng)爭(zhēng)環(huán)境變化、了解競(jìng)爭(zhēng)對(duì)手動(dòng)向、制定經(jīng)營(yíng)戰(zhàn)略和競(jìng)爭(zhēng)決策的信息系統(tǒng)。通過(guò)它,可以幫助企業(yè)完成競(jìng)爭(zhēng)情報(bào)的收集、整理、加工、儲(chǔ)存、分析、研究和管理等多項(xiàng)工作,提高企業(yè)獲取競(jìng)爭(zhēng)情報(bào)的效率,為企業(yè)在競(jìng)爭(zhēng)上取得優(yōu)勢(shì)提供必要的保障。競(jìng)爭(zhēng)情報(bào)系統(tǒng)的使用有助于企業(yè)提高競(jìng)爭(zhēng)情報(bào)工作的效率,降低獲取情報(bào)的成本,幫助企業(yè)抓住市場(chǎng)機(jī)遇,使企業(yè)在市場(chǎng)變化中能夠主動(dòng)采取應(yīng)變措施,同時(shí)也能夠?qū)⒉煌块T(mén)提供的單功能情報(bào)進(jìn)行綜合分析,得到重要的決策支持信息。數(shù)據(jù)挖掘應(yīng)用在企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)中,數(shù)據(jù)挖掘可以解決文本自動(dòng)分類(lèi)、自動(dòng)聚類(lèi)、信息抽取、自動(dòng)摘要、關(guān)聯(lián)規(guī)則分析等問(wèn)題。1.文本自動(dòng)分類(lèi)和聚類(lèi):利用自動(dòng)分類(lèi)和自動(dòng)聚類(lèi)技術(shù),既可過(guò)濾掉不相關(guān)的文檔,又可將相關(guān)文檔按照相關(guān)程度從高到低排序,方便用戶(hù)查詢(xún),還可以將收集到的電子文檔按類(lèi)別建立相應(yīng)的數(shù)據(jù)庫(kù),提高查全率和查準(zhǔn)率。信息抽取:利用信息抽取工具,競(jìng)爭(zhēng)情報(bào)人員根據(jù)情報(bào)要求可以從不同信息源中抽取多種情報(bào),如競(jìng)爭(zhēng)對(duì)手情報(bào)收集指標(biāo)。競(jìng)爭(zhēng)情報(bào)收集指標(biāo)的值只是文本中的信息片段,在文本中只占很小的比例,這不是文本所談?wù)摰闹黝}之一。3.自動(dòng)摘要:利用自動(dòng)摘要功能可以大大節(jié)省情報(bào)人員每天花費(fèi)在收集和閱讀大量書(shū)面文檔上的時(shí)間,也可以在情報(bào)循環(huán)的報(bào)告階段幫助情報(bào)人員生成報(bào)告的摘要,使主管能夠選擇是否閱讀分析報(bào)告的全文。4.關(guān)聯(lián)規(guī)則分析:利用關(guān)聯(lián)規(guī)則分析方法可以實(shí)現(xiàn)競(jìng)爭(zhēng)對(duì)手分析、客戶(hù)分析,將關(guān)聯(lián)分析與Web挖掘相結(jié)合可以分析網(wǎng)絡(luò)欺騙、訪問(wèn)者的個(gè)人愛(ài)好,利用關(guān)聯(lián)規(guī)則分析方法還可以挖掘例外規(guī)則與意外規(guī)則??梢蕴岣邲Q策的科學(xué)性,降低企業(yè)在經(jīng)營(yíng)活動(dòng)中的風(fēng)險(xiǎn)。常見(jiàn)數(shù)據(jù)挖掘分析方法介紹本文標(biāo)簽:數(shù)據(jù)分析,數(shù)據(jù)挖掘下面介紹十種\o"查看數(shù)據(jù)挖掘中的全部文章"數(shù)據(jù)挖掘(DataMining)的分析方法,以便于大家對(duì)模型的初步了解,這些都是日常挖掘中經(jīng)常遇到的算法,希望對(duì)大家有用!(甚至有\(zhòng)o"查看數(shù)據(jù)挖掘中的全部文章"數(shù)據(jù)挖掘公司,用其中的一種算法就能獨(dú)步天下)1、基于歷史的MBR分析(Memory-BasedReasoning;MBR)基于歷史的MBR分析方法最主要的概念是用已知的案例(case)來(lái)預(yù)測(cè)未來(lái)案例的一些屬性(attribute),通常找尋最相似的案例來(lái)做比較。記憶基礎(chǔ)推理法中有兩個(gè)主要的要素,分別為距離函數(shù)(distancefunction)與結(jié)合函數(shù)(combinationfunction)。距離函數(shù)的用意在找出最相似的案例;結(jié)合函數(shù)則將相似案例的屬性結(jié)合起來(lái),以供預(yù)測(cè)之用。記憶基礎(chǔ)推理法的優(yōu)點(diǎn)是它容許各種型態(tài)的數(shù)據(jù),這些數(shù)據(jù)不需服從某些假設(shè)。另一個(gè)優(yōu)點(diǎn)是其具備學(xué)習(xí)能力,它能藉由舊案例的學(xué)習(xí)來(lái)獲取關(guān)于新案例的知識(shí)。較令人詬病的是它需要大量的歷史數(shù)據(jù),有足夠的歷史數(shù)據(jù)方能做良好的預(yù)測(cè)。此外記憶基礎(chǔ)推理法在處理上亦較為費(fèi)時(shí),不易發(fā)現(xiàn)最佳的距離函數(shù)與結(jié)合函數(shù)。其可應(yīng)用的范圍包括欺騙行為的偵測(cè)、客戶(hù)反應(yīng)預(yù)測(cè)、醫(yī)學(xué)診療、反應(yīng)的歸類(lèi)等方面。2、購(gòu)物籃分析(MarketBasketAnalysis)購(gòu)物籃分析最主要的目的在于找出什么樣的東西應(yīng)該放在一起?商業(yè)上的應(yīng)用在藉由顧客的購(gòu)買(mǎi)行為來(lái)了解是什么樣的顧客以及這些顧客為什么買(mǎi)這些產(chǎn)品,找出相關(guān)的聯(lián)想(association)規(guī)則,企業(yè)藉由這些規(guī)則的挖掘獲得利益與建立競(jìng)爭(zhēng)優(yōu)勢(shì)。舉例來(lái)說(shuō),零售店可藉由此分析改變置物架上的商品排列或是設(shè)計(jì)吸引客戶(hù)的商業(yè)套餐等等。購(gòu)物籃分析基本運(yùn)作過(guò)程包含下列三點(diǎn):(1)選擇正確的品項(xiàng):這里所指的正確乃是針對(duì)企業(yè)體而言,必須要在數(shù)以百計(jì)、千計(jì)品項(xiàng)中選擇出真正有用的品項(xiàng)出來(lái)。(2)經(jīng)由對(duì)共同發(fā)生矩陣(co-occurrencematrix)的探討挖掘出聯(lián)想規(guī)則。(3)克服實(shí)際上的限制:所選擇的品項(xiàng)愈多,計(jì)算所耗費(fèi)的資源與時(shí)間愈久(呈現(xiàn)指數(shù)遞增),此時(shí)必須運(yùn)用一些技術(shù)以降低資源與時(shí)間的損耗。購(gòu)物籃分析技術(shù)可以應(yīng)用在下列問(wèn)題上:(1)針對(duì)信用卡購(gòu)物,能夠預(yù)測(cè)未來(lái)顧客可能購(gòu)買(mǎi)什么。(2)對(duì)于電信與金融服務(wù)業(yè)而言,經(jīng)由購(gòu)物籃分析能夠設(shè)計(jì)不同的服務(wù)組合以擴(kuò)大利潤(rùn)。(3)保險(xiǎn)業(yè)能藉由購(gòu)物籃分析偵測(cè)出可能不尋常的投保組合并作預(yù)防。(4)對(duì)病人而言,在療程的組合上,購(gòu)物籃分析能作為是否這些療程組合會(huì)導(dǎo)致并發(fā)癥的判斷依據(jù)。3、決策樹(shù)(DecisionTrees)決策樹(shù)在解決歸類(lèi)與預(yù)測(cè)上有著極強(qiáng)的能力,它以法則的方式表達(dá),而這些法則則以一連串的問(wèn)題表示出來(lái),經(jīng)由不斷詢(xún)問(wèn)問(wèn)題最終能導(dǎo)出所需的結(jié)果。典型的決策樹(shù)頂端是一個(gè)樹(shù)根,底部有許多的樹(shù)葉,它將紀(jì)錄分解成不同的子集,每個(gè)子集中的字段可能都包含一個(gè)簡(jiǎn)單的法則。此外,決策樹(shù)可能有著不同的外型,例如二元樹(shù)、三元樹(shù)或混和的決策樹(shù)型態(tài)。4、遺傳算法(GeneticAlgorithm)遺傳算法學(xué)習(xí)細(xì)胞演化的過(guò)程,細(xì)胞間可經(jīng)由不斷的選擇、復(fù)制、交配、突變產(chǎn)生更佳的新細(xì)胞?;蛩惴ǖ倪\(yùn)作方式也很類(lèi)似,它必須預(yù)先建立好一個(gè)模式,再經(jīng)由一連串類(lèi)似產(chǎn)生新細(xì)胞過(guò)程的運(yùn)作,利用適合函數(shù)(fitnessfunction)決定所產(chǎn)生的后代是否與這個(gè)模式吻合,最后僅有最吻合的結(jié)果能夠存活,這個(gè)程序一直運(yùn)作直到此函數(shù)收斂到最佳解?;蛩惴ㄔ谌杭╟luster)問(wèn)題上有不錯(cuò)的表現(xiàn),一般可用來(lái)輔助記憶基礎(chǔ)推理法與類(lèi)神經(jīng)網(wǎng)絡(luò)的應(yīng)用。5、聚類(lèi)分析(ClusterDetection)這個(gè)技術(shù)涵蓋范圍相當(dāng)廣泛,包含基因算法、類(lèi)神經(jīng)網(wǎng)絡(luò)、統(tǒng)計(jì)學(xué)中的群集分析都有這個(gè)功能。它的目標(biāo)為找出數(shù)據(jù)中以前未知的相似群體,在許許多多的分析中,剛開(kāi)始都運(yùn)用到群集偵測(cè)技術(shù),以作為研究的開(kāi)端。6、連接分析(LinkAnalysis)連接分析是以數(shù)學(xué)中之圖形理論(graphtheory)為基礎(chǔ),藉由記錄之間的關(guān)系發(fā)展出一個(gè)模式,它是以關(guān)系為主體,由人與人、物與物或是人與物的關(guān)系發(fā)展出相當(dāng)多的應(yīng)用。例如電信服務(wù)業(yè)可藉連結(jié)分析收集到顧客使用電話(huà)的時(shí)間與頻率,進(jìn)而推斷顧客使用偏好為何,提出有利于公司的方案。除了電信業(yè)之外,愈來(lái)愈多的營(yíng)銷(xiāo)業(yè)者亦利用連結(jié)分析做有利于企業(yè)的研究。7、OLAP分析(On-LineAnalyticProcessing;OLAP)嚴(yán)格說(shuō)起來(lái),OLAP分析并不算特別的一個(gè)數(shù)據(jù)挖掘技術(shù),但是透過(guò)在線(xiàn)分析處理工具,使用者能更清楚的了解數(shù)據(jù)所隱藏的潛在意涵。如同一些視覺(jué)處理技術(shù)一般,透過(guò)圖表或圖形等方式顯現(xiàn),對(duì)一般人而言,感覺(jué)會(huì)更友善。這樣的工具亦能輔助將數(shù)據(jù)轉(zhuǎn)變成信息的目標(biāo)。8、神經(jīng)網(wǎng)絡(luò)(NeuralNetworks)神經(jīng)網(wǎng)絡(luò)是以重復(fù)學(xué)習(xí)的方法,將一串例子交與學(xué)習(xí),使其歸納出一足以區(qū)分的樣式。若面對(duì)新的例證,神經(jīng)網(wǎng)絡(luò)即可根據(jù)其過(guò)去學(xué)習(xí)的成果歸納后,推導(dǎo)出新的結(jié)果,乃屬于機(jī)器學(xué)習(xí)的一種。數(shù)據(jù)挖掘的相關(guān)問(wèn)題也可采類(lèi)神經(jīng)學(xué)習(xí)的方式,其學(xué)習(xí)效果十分正確并可做預(yù)測(cè)功能。9、判別分析(DiscriminantAnalysis)當(dāng)所遭遇問(wèn)題它的因變量為定性(categorical),而自變量(預(yù)測(cè)變量)為定量(metric)時(shí),判別分析為一非常適當(dāng)之技術(shù),通常應(yīng)用在解決分類(lèi)的問(wèn)題上面。若因變量由兩個(gè)群體所構(gòu)成,稱(chēng)之為雙群體—判別分析(Two-GroupDiscriminantAnalysis);若由多個(gè)群體構(gòu)成,則稱(chēng)之為多元判別分析(MultipleDiscriminantAnalysis;MDA)。(1)找出預(yù)測(cè)變量的線(xiàn)性組合,使組間變異相對(duì)于組內(nèi)變異的比值為最大,而每一個(gè)線(xiàn)性組合與先前已經(jīng)獲得的線(xiàn)性組合均不相關(guān)。(2)檢定各組的重心是否有差異。(3)找出哪些預(yù)測(cè)變量具有最大的區(qū)別能力。(4)根據(jù)新受試者的預(yù)測(cè)變量數(shù)值,將該受試者指派到某一群體。10、羅吉斯回歸分析(LogisticAnalysis)當(dāng)判別分析中群體不符合正態(tài)分布假設(shè)時(shí),羅吉斯回歸分析是一個(gè)很好的替代方法。羅吉斯回歸分析并非預(yù)測(cè)事件(event)是否發(fā)生,而是預(yù)測(cè)該事件的機(jī)率。它將自變量與因變量的關(guān)系假定是S行的形狀,當(dāng)自變量很小時(shí),機(jī)率值接近為零;當(dāng)自變量值慢慢增加時(shí),機(jī)率值沿著曲線(xiàn)增加,增加到一定程度時(shí),曲線(xiàn)協(xié)率開(kāi)始減小,故機(jī)率值介于0與1之間。數(shù)據(jù)庫(kù)系統(tǒng)重要知識(shí)點(diǎn)緒論本章屬于基礎(chǔ)知識(shí),主要是對(duì)一些概念的理解和記憶。沒(méi)有難點(diǎn),相對(duì)的重點(diǎn)在于ER模型的設(shè)計(jì)和關(guān)系模型的掌握。一、數(shù)據(jù)管理技術(shù)的發(fā)展階段(識(shí)記)數(shù)據(jù)管理技術(shù)共經(jīng)歷了三個(gè)階段:人工管理階段、文件系統(tǒng)階段、數(shù)據(jù)庫(kù)階段:1、人工管理階段的特點(diǎn): (1)數(shù)據(jù)不保存在機(jī)器中 (2)沒(méi)有專(zhuān)用軟件對(duì)數(shù)據(jù)進(jìn)行管理 (3)只有程序的概念,沒(méi)有文件的概念。2、文件系統(tǒng)階段的特點(diǎn)與缺陷: (1)數(shù)據(jù)可長(zhǎng)期保存在磁盤(pán)上。 (2)數(shù)據(jù)的邏輯結(jié)構(gòu)與物理結(jié)構(gòu)有了區(qū)別 (3)文件組織呈現(xiàn)多樣化 (4)數(shù)據(jù)不再屬于某個(gè)特定程序,可以重復(fù)使用。其缺陷是: 數(shù)據(jù)冗余性 數(shù)據(jù)不一致性 數(shù)據(jù)聯(lián)系弱3、數(shù)據(jù)庫(kù)階段的特點(diǎn) 采用復(fù)雜的數(shù)據(jù)模型表示數(shù)據(jù)結(jié)構(gòu) 有較高的數(shù)據(jù)獨(dú)立性(數(shù)據(jù)結(jié)構(gòu)分成用戶(hù)的邏輯結(jié)構(gòu)、整體邏輯結(jié)構(gòu)和物理結(jié)構(gòu)三級(jí)) 數(shù)據(jù)庫(kù)系統(tǒng)為用戶(hù)提供方便的用戶(hù)接口,可以使用查詢(xún)語(yǔ)言、終端命令或程序方式操作數(shù)據(jù)庫(kù)。 系統(tǒng)提供了四個(gè)方面的數(shù)據(jù)控制功能:數(shù)據(jù)庫(kù)的恢復(fù)、并發(fā)控制、數(shù)據(jù)完整性和數(shù)據(jù)安全性。 對(duì)數(shù)據(jù)的操作不一定以記錄為單位,還可以數(shù)據(jù)項(xiàng)為單位。數(shù)據(jù)庫(kù)技術(shù)中的四個(gè)名詞:DB、DBMS、DBS、數(shù)據(jù)庫(kù)技術(shù)。其概念是不同的,要分清。DB:數(shù)據(jù)庫(kù)(Database),DB是統(tǒng)一管理的相關(guān)數(shù)據(jù)的集合。DBMS:數(shù)據(jù)庫(kù)管理系統(tǒng)(DatabaseManagementSystem),DBMS是位于用戶(hù)與操作系統(tǒng)之間的一層數(shù)據(jù)管理軟件,為用戶(hù)或應(yīng)用程序提供訪問(wèn)DB的方法,包括DB的建立、查詢(xún)、更新及各種數(shù)據(jù)控制。DBMS總是基于某種數(shù)據(jù)模型,可以分為層次型、網(wǎng)狀型、關(guān)系型、面向?qū)ο笮虳BMS。DBS:數(shù)據(jù)庫(kù)系統(tǒng)(DatabaseSystem),DBS是實(shí)現(xiàn)有組織地、動(dòng)態(tài)地存儲(chǔ)大量關(guān)聯(lián)數(shù)據(jù),方便多用戶(hù)訪問(wèn)的計(jì)算機(jī)軟件、硬件和數(shù)據(jù)資源組成的系統(tǒng),即采用了數(shù)據(jù)庫(kù)技術(shù)的計(jì)算機(jī)系統(tǒng)。數(shù)據(jù)庫(kù)技術(shù):是一門(mén)研究數(shù)據(jù)庫(kù)結(jié)構(gòu)、存儲(chǔ)、管理和使用的軟件學(xué)科。二、數(shù)據(jù)描述的術(shù)語(yǔ)(領(lǐng)會(huì))1、數(shù)據(jù)描述的三個(gè)領(lǐng)域:現(xiàn)實(shí)世界、信息世界和機(jī)器世界。信息世界中的幾個(gè)概念:實(shí)體(即客觀存在可以相互區(qū)別的事物)、實(shí)體集(同類(lèi)實(shí)體的集合)、屬性(實(shí)體的特性)、實(shí)體標(biāo)識(shí)符(唯一標(biāo)識(shí)實(shí)體的屬性(集))。機(jī)器世界中的四個(gè)概念:字段、記錄、文件、鍵(關(guān)鍵碼)。2、數(shù)據(jù)描述的兩種形式:物理描述和邏輯描述。前者是指數(shù)據(jù)在存儲(chǔ)設(shè)備上的存取方式,后者是指程序員或用戶(hù)以用以操作的數(shù)據(jù)形式。3、數(shù)據(jù)聯(lián)系的描述: 1:1聯(lián)系:如果實(shí)體集E1中的每個(gè)實(shí)體最多只能和實(shí)體集E2中的一個(gè)實(shí)體有聯(lián)系,反之亦然,好么實(shí)體集E1對(duì)E2的聯(lián)系稱(chēng)為"一對(duì)一聯(lián)系",記為"1:1"。 1:N聯(lián)系:如果實(shí)體集E1中每個(gè)實(shí)體與實(shí)體集E2中任意個(gè)(零個(gè)或多個(gè))實(shí)體有聯(lián)系,而E2中每個(gè)實(shí)體至多和E1中的一個(gè)實(shí)體有聯(lián)系,那么E1對(duì)E2的聯(lián)系是"一對(duì)多聯(lián)系",記為"1:N"。 M:N聯(lián)系:如果實(shí)體集E1中每個(gè)實(shí)體與實(shí)體集E2中任意個(gè)(零個(gè)或多個(gè))實(shí)體有聯(lián)系,反之亦然,那么E1對(duì)E2的聯(lián)系是"多對(duì)多聯(lián)系",記為"M:N"。三、數(shù)據(jù)模型1、數(shù)據(jù)模型的概念(領(lǐng)會(huì)):表示實(shí)體類(lèi)型及實(shí)體類(lèi)型間聯(lián)系的模型稱(chēng)為"數(shù)據(jù)模型"。它可分為兩種類(lèi)型:概念數(shù)據(jù)模型和結(jié)構(gòu)數(shù)據(jù)模型。2、概念數(shù)據(jù)模型(領(lǐng)會(huì)):它是獨(dú)立于計(jì)算機(jī)系統(tǒng)的模型,完全不涉及信息在系統(tǒng)中的表示,只是用來(lái)描述某個(gè)特定組織所關(guān)心的信息結(jié)構(gòu)。(掌握ER模型)3、結(jié)構(gòu)數(shù)據(jù)模型:它是直接面向數(shù)據(jù)庫(kù)的邏輯結(jié)構(gòu),是現(xiàn)實(shí)世界的第二層抽象。這類(lèi)模型涉及到計(jì)算機(jī)系統(tǒng)和數(shù)據(jù)庫(kù)管理系統(tǒng),所以稱(chēng)為"結(jié)構(gòu)數(shù)據(jù)模型"。結(jié)構(gòu)數(shù)據(jù)模型應(yīng)包含:數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)操作、數(shù)據(jù)完整性約束三部分。層次模型(識(shí)記):用樹(shù)型結(jié)構(gòu)表示實(shí)體間聯(lián)系的數(shù)據(jù)模型關(guān)系模型(領(lǐng)會(huì)):是由若干個(gè)關(guān)系模式組成的集合,其主要特征是用二維表格結(jié)構(gòu)表達(dá)實(shí)體集,用外鍵表示實(shí)體間聯(lián)系。四、數(shù)據(jù)庫(kù)的體系結(jié)構(gòu)(領(lǐng)會(huì))1、三級(jí)結(jié)構(gòu)模式:數(shù)據(jù)庫(kù)的體系結(jié)構(gòu)分為三級(jí):內(nèi)部級(jí)、概念級(jí)和外部級(jí): 外部級(jí):?jiǎn)蝹€(gè)用戶(hù)所能看到的數(shù)據(jù)特性,稱(chēng)外模式。 概念級(jí):涉及到所有用戶(hù)的數(shù)據(jù)定義,是全局的數(shù)據(jù)視圖,稱(chēng)"概念模式"。 內(nèi)部級(jí):最接近于物理存儲(chǔ),涉及到實(shí)際數(shù)據(jù)存儲(chǔ)的結(jié)構(gòu),稱(chēng)"內(nèi)模式"。2、兩級(jí)映象: 模式/內(nèi)模式映象:用于定義概念模式和內(nèi)模式之間的對(duì)應(yīng)性。一般在內(nèi)模式中描述。 外模式/模式映象:用于定義外模式和概念模式間的對(duì)應(yīng)性。一般在外模式中描述。3.兩級(jí)數(shù)據(jù)獨(dú)立性: 物理數(shù)據(jù)獨(dú)立性:修改內(nèi)模式時(shí)盡量不影響概念模式及外模式,則達(dá)到物理數(shù)據(jù)獨(dú)立性。 邏輯數(shù)據(jù)獨(dú)立性:修改概念模式時(shí)盡量不影響外模式和應(yīng)用程序。五、數(shù)據(jù)庫(kù)管理系統(tǒng)(DBMS領(lǐng)會(huì))1、DBMS的主要功能:(1)數(shù)據(jù)庫(kù)的定義功能(2)數(shù)據(jù)庫(kù)的操縱功能(3)數(shù)據(jù)庫(kù)的保護(hù)功能(4)數(shù)據(jù)庫(kù)的存儲(chǔ)管理(5)數(shù)據(jù)庫(kù)的維護(hù)功能(6)數(shù)據(jù)字典2、DBMS的組成:由兩大部分組成:查詢(xún)處理器和存儲(chǔ)管理器,前者包括DDL編譯器、DML編譯器、嵌入型DML預(yù)編譯器、查詢(xún)運(yùn)行核心程序。后者包括授權(quán)和完整性管理器,事務(wù)管理器、文件管理器,緩沖區(qū)管理器。六、數(shù)據(jù)庫(kù)系統(tǒng)(DBS領(lǐng)會(huì))DBS由四部分組成:數(shù)據(jù)庫(kù)、硬件、軟件、數(shù)據(jù)庫(kù)管理員。DBS的全局結(jié)構(gòu)及DBS的效益,了解一下。第二章關(guān)系數(shù)據(jù)庫(kù)本章為次重點(diǎn)章,我們經(jīng)常使用的數(shù)據(jù)庫(kù)均采用關(guān)系模型,本章主要介紹了關(guān)系模型的關(guān)系運(yùn)算理論,主要在于對(duì)關(guān)系演算運(yùn)算的理解,為后面章節(jié)的SQL作準(zhǔn)備。一、關(guān)系模型的基本概念(識(shí)記)1、關(guān)系模型的基本術(shù)語(yǔ):用二維表格結(jié)構(gòu)表示實(shí)體集、外鍵表示實(shí)體間聯(lián)系的數(shù)據(jù)模型稱(chēng)為關(guān)系模型。基本術(shù)語(yǔ)有:字段(屬性)、字段值(屬性值)、記錄(元組)、二維表格(元組集合、關(guān)系或?qū)嵗?。在這里,括號(hào)中的表述為關(guān)系模型中的術(shù)語(yǔ)。它與表格中術(shù)語(yǔ)可以一一對(duì)應(yīng)。還有,關(guān)系中屬性個(gè)數(shù)稱(chēng)為元數(shù),元組個(gè)數(shù)為基數(shù)。鍵:由一個(gè)或幾個(gè)屬性組成。(注意鍵不一定是唯一的一個(gè)屬性)。 超鍵:在關(guān)系中能唯一標(biāo)識(shí)元組的屬性集稱(chēng)為關(guān)系模式的超鍵。(注意,超鍵也是一個(gè)屬性集,不一定只是一個(gè)屬性) 候選鍵:不含有多余屬性的超鍵稱(chēng)為候選鍵。 主鍵:用戶(hù)選作元組標(biāo)識(shí)的一個(gè)候選鍵為主鍵。 外鍵:某個(gè)關(guān)系的主鍵相應(yīng)的屬性在另一關(guān)系中出現(xiàn),此時(shí)該主鍵在就是另一關(guān)系的外鍵,如有兩個(gè)關(guān)系S和SC,其中S#是關(guān)系S的主鍵,相應(yīng)的屬性S#在關(guān)系SC中也出現(xiàn),此時(shí)S#就是關(guān)系SC的外鍵。2、關(guān)系模式、關(guān)系子模式 關(guān)系模式:關(guān)系模式實(shí)際上就是記錄類(lèi)型。它包括:模式名,屬性名,值域名以及模式的主鍵。關(guān)系模式僅是對(duì)數(shù)據(jù)特性的描述。(這通常在數(shù)據(jù)庫(kù)中表現(xiàn)為一個(gè)數(shù)據(jù)表的結(jié)構(gòu)) 關(guān)系子模式:就是用戶(hù)所用到那部分?jǐn)?shù)據(jù)的描述。 3、關(guān)系模型的三類(lèi)完整性規(guī)則 實(shí)體完整性規(guī)則:要求關(guān)系中組成主鍵的屬性上不能有空值。 參照完整性規(guī)則:要求不引用不存在的實(shí)體。 用戶(hù)定義完整性規(guī)則:由具體應(yīng)用環(huán)境決定,系統(tǒng)提供定義和檢驗(yàn)這類(lèi)完整性的機(jī)制。4、關(guān)系模型的形式定義:數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)操作和完整性規(guī)則。二、關(guān)系代數(shù)運(yùn)算(簡(jiǎn)單應(yīng)用)1、關(guān)系代數(shù)的五個(gè)基本操作:并、差、笛卡爾積、投影和選擇。并(∪):兩個(gè)關(guān)系需有相同的關(guān)系模式,并的對(duì)象是元組,由兩個(gè)關(guān)系所有元組構(gòu)成。差(-):同樣,兩個(gè)關(guān)系有相同的模式,R和S的差是由屬于R但不屬于S的元組構(gòu)成的集合。投影(σ):對(duì)關(guān)系進(jìn)行垂直分割,消去某些列,并重新安排列的順序。選擇(π):根據(jù)某些條件關(guān)系作水平分割,即選擇符合條件的元組。2、關(guān)系代數(shù)的四個(gè)組合操作:交、聯(lián)接、自然聯(lián)接和除法交(∩):R和S的交是由既屬于R又屬于S的元組構(gòu)成的集合。聯(lián)接包括θ聯(lián)接和F聯(lián)接,是選擇R×S中滿(mǎn)足iθ(r+j)或F條件的元組構(gòu)成的集合,特別注意等值聯(lián)接(θ為等號(hào)"=")。自然聯(lián)接(R|X|S):在R×S中,選擇R和S公共屬性值均相等的元組,并去掉R×S中重復(fù)的公共屬性列。如果兩個(gè)關(guān)系沒(méi)有公共屬性,則自然聯(lián)接就轉(zhuǎn)化為笛卡爾積。除法(÷):首先除法的結(jié)果中元數(shù)為兩個(gè)元數(shù)的差,以例2.6為例,我們可以直接用觀察法來(lái)得到結(jié)果,把S看作一個(gè)塊,拿到R中去和相同屬性集中的元組作比較,如果有相同的塊,且除去此塊后留下的相應(yīng)元組均相同,那么可以得到一條元組,所有這些元組的集合就是除法的結(jié)果。對(duì)于上述的五個(gè)基本操作和組合操作,應(yīng)當(dāng)從實(shí)際運(yùn)算方面進(jìn)行理解和運(yùn)用,對(duì)其形式定義可不必深究。注意課本上的例子和給的練習(xí)題。3、關(guān)系代數(shù)表達(dá)式及應(yīng)用在關(guān)系代數(shù)表達(dá)式中,復(fù)合了上述五個(gè)基本操作,在給出相應(yīng)的表格(關(guān)系)中,應(yīng)該能夠根據(jù)給出的關(guān)系代數(shù)表達(dá)式計(jì)算關(guān)系值,也要能根據(jù)相應(yīng)查詢(xún)要求列出關(guān)系表達(dá)式。在列關(guān)系表達(dá)式時(shí),通常有以下形式:π...(σ...(R×S))或者π...(σ...(R|X|S))首先把查詢(xún)涉及到的關(guān)系取來(lái),執(zhí)行笛卡爾積或自然聯(lián)接操作得到一張大的表格,然后對(duì)大表格執(zhí)行水平分割(選擇)和垂直分割(投影)操作。但是注意當(dāng)查詢(xún)涉及到否定或全部值時(shí),就不能用上述形式,而要用到差或除法操作。第三章關(guān)系數(shù)據(jù)庫(kù)SQL語(yǔ)言本章為重點(diǎn)章,應(yīng)熟悉和掌握SQL的數(shù)據(jù)定義、數(shù)據(jù)查詢(xún)、數(shù)據(jù)更新的句法及其應(yīng)用,特別是數(shù)據(jù)查詢(xún)的應(yīng)用。結(jié)合上機(jī)操作進(jìn)行理解和掌握。一、SQL概述。1、SQL發(fā)展歷程(識(shí)記)SQL從1970年美國(guó)IBM研究中心的E.F.Codd發(fā)表論文到1974年Boyce和Chamberlin把SQUARE語(yǔ)言改為SEQUEL語(yǔ)言,到現(xiàn)在還在不斷完善和發(fā)展之中,SQL(結(jié)構(gòu)式查詢(xún)語(yǔ)言)雖然名為查詢(xún),但實(shí)際上具有定義、查詢(xún)、更新和控制等多種功能。2、SQL數(shù)據(jù)庫(kù)的體系結(jié)構(gòu)(領(lǐng)會(huì))SQL數(shù)據(jù)庫(kù)的體系結(jié)構(gòu)也是三級(jí)結(jié)構(gòu),但術(shù)語(yǔ)與傳統(tǒng)關(guān)系模型術(shù)語(yǔ)不同,在SQL中,關(guān)系模式稱(chēng)為"基本表",存儲(chǔ)模式稱(chēng)為"存儲(chǔ)文件",子模式稱(chēng)為"視圖",元組稱(chēng)"行",屬性稱(chēng)"列"。SQL數(shù)據(jù)庫(kù)體系的結(jié)構(gòu)要點(diǎn)如下: (1)一個(gè)SQL數(shù)據(jù)庫(kù)是表的匯集。 (2)一個(gè)SQL表由行集構(gòu)成,行是列的序列,每列對(duì)應(yīng)一個(gè)數(shù)據(jù)項(xiàng)。 (3)表或者是基本表,或者是視圖?;颈硎菍?shí)際存儲(chǔ)在數(shù)據(jù)庫(kù)中的表,視圖由是由若干基本表或其他視圖構(gòu)成的表的定義。 (4)一個(gè)基本表可以跨一個(gè)或多個(gè)存儲(chǔ)文件,一個(gè)存儲(chǔ)文件也可存放一個(gè)或多個(gè)基本表。存儲(chǔ)文件與物理文件對(duì)應(yīng)。 (5)用戶(hù)可以用SQL語(yǔ)句對(duì)表進(jìn)行操作,包括視圖和基本表。 (6)SQL的用戶(hù)可以是應(yīng)用程序,也可以是終端用戶(hù)。3、SQL的組成(識(shí)記)SQL由三部分組成: (1)數(shù)據(jù)定義:SQLDDL。定義SQL模式,基本表、視圖和索引。 (2)數(shù)據(jù)操縱:SQLDML。包括數(shù)據(jù)查詢(xún)和數(shù)據(jù)更新(增、刪、改)。 (3)數(shù)據(jù)控制:包括對(duì)基本表和視圖的授權(quán)、完整性規(guī)則的描述,事務(wù)控制等。二、SQL的數(shù)據(jù)定義(簡(jiǎn)單應(yīng)用)1、SQL模式的創(chuàng)建和撤消:SQL模式的創(chuàng)建可簡(jiǎn)單理解為建立一個(gè)數(shù)據(jù)庫(kù),定義一個(gè)存儲(chǔ)空間,其句法是:CREATSCHEMA<模式名>AUTHORIZATION<用戶(hù)名>撤消SQL模式的句法為:DROPSCHEMA<模式名>[CASCADE|RESTRICT]方括號(hào)中的選項(xiàng)參數(shù)CASCADE表示連鎖方式,執(zhí)行時(shí)將模式下所有基本表、視圖、索引等元素全部撤消。RESTRICT表示約束式,執(zhí)行時(shí)必須在SQL模式中沒(méi)有任何下屬元素時(shí)方可撤消模式。2、SQL提供的基本數(shù)據(jù)類(lèi)型 數(shù)值型:包括integer、smallint、real、doubleprecision、float(n),numeric(p,d) 字符串型:char(n)、varchar(n),前者是定長(zhǎng),后者為變長(zhǎng)串 位串型:bit(n),bitvarying(n),同上。 時(shí)間型:date、time。3、基本表的創(chuàng)建、修改和撤消 基本表的創(chuàng)建:(可理解為建立表結(jié)構(gòu))CREATTABLESQL模式名.基本表名(列名,類(lèi)型,……完整性約束...)完整性約束包括主鍵子句(PRIMARYKEY)、檢查子句(CHECK)和外鍵子句(ForeignKEY). 基本表結(jié)構(gòu)的修改ALTERTABLE基本表名ADD/DROP(增加/刪除)列名類(lèi)型名(增加時(shí)寫(xiě)出)刪除時(shí)有子句[CASCADE|RESTRICT],前者為連鎖刪除,后者為約束刪除,即沒(méi)有對(duì)本列的任何引用時(shí)才能刪除。 基本表的撤消DROPTABLE基本表名[CASCADE|RESTRICT]4、視圖的創(chuàng)建和撤消 創(chuàng)建:CREATVIEW視圖名(列名表)ASSELECT查詢(xún)語(yǔ)句 撤消:DROPVIEW視圖名5、索引的創(chuàng)建和撤消 創(chuàng)建:CREAT[UNIQUE]INDEX索引名ON基本表名(列名表[ASC|DESC]) 撤消:DROPINDEX索引名總結(jié):凡創(chuàng)建都用CREAT,刪除都用DROP,改變用alter,再跟類(lèi)型和名字,附加子句很容易了。三、SQL的數(shù)據(jù)查詢(xún)(綜合應(yīng)用)這一段是本章的重點(diǎn)內(nèi)容,應(yīng)該熟練掌握。首先了解基本句法:1、SELECT-FROM-WHERE句型 SELECT列名表(逗號(hào)隔開(kāi))FROM基本表或視圖序列WHERE條件表達(dá)式在這里,重點(diǎn)要掌握條件表達(dá)式中各種運(yùn)算符的應(yīng)用,如=,>,<,<>等算術(shù)比較運(yùn)算符、邏輯運(yùn)算符AND、OR、NOT、集合成員資格運(yùn)算符:IN,NOTIN,以及嵌套的SELECT語(yǔ)句的用法要特別注意理解。針對(duì)課本的例題和課后習(xí)題進(jìn)行掌握。在查詢(xún)時(shí),SELECT語(yǔ)句可以有多種寫(xiě)法,如聯(lián)接查詢(xún)、嵌套查詢(xún)和使用存在量詞的嵌套查詢(xún)等。最好都掌握,但是起碼應(yīng)能寫(xiě)出一種正確的查詢(xún)語(yǔ)句。2.SELECT語(yǔ)句完整的句法: SELECT列名表(逗號(hào)隔開(kāi))FROM基本表或視圖序列[WHERE條件表達(dá)式](此為和條件子句)[GROUPBY列名序列](分組子句)[HAVING組條件表達(dá)式](組條件子句)[ORDERBY列名[ASC|DESC]..](排序子句)這段關(guān)于完整句法的內(nèi)容能夠理解也就問(wèn)題不大了。3、SELECT語(yǔ)句中的限定這一段內(nèi)容主要是對(duì)SELECT語(yǔ)句進(jìn)一步使用進(jìn)行的深入學(xué)習(xí),領(lǐng)會(huì)下列各種限定的使用目的和方法。 要求輸出表格中不出現(xiàn)重復(fù)元組,則在SELECT后加一DISTINCT SELECT子句中允許出現(xiàn)加減乘除及列名,常數(shù)的算術(shù)表達(dá)式 WHERE子句中可以用BETWEEN...AND...來(lái)限定一個(gè)值的范圍 同一個(gè)基本表在SELECT語(yǔ)句中多次引用時(shí)可用AS來(lái)增加別名 WHERE子句中字符串匹配用LIKE和兩個(gè)通配符,%和下劃線(xiàn)_. 查詢(xún)結(jié)果的結(jié)構(gòu)完全一致時(shí)可將兩個(gè)查詢(xún)進(jìn)行并(UNION)交(INTERSECT)差(EXCPT)操作 查詢(xún)空值操作不是用='null',而是用ISNULL來(lái)測(cè)試。 集合成員資格比較用IN/NOTIN,集合成員算術(shù)比較用元組θSOME/ALL 可以用子查詢(xún)結(jié)果取名(表名(列名序列))來(lái)作為導(dǎo)出表使用 基本表的自然聯(lián)接操作是用NATURALINNERJOIN來(lái)實(shí)現(xiàn)的。四、SQL的數(shù)據(jù)更新(簡(jiǎn)單應(yīng)用)簡(jiǎn)單應(yīng)用就是掌握基本的句型并能套用在一些簡(jiǎn)單的查詢(xún)要求上。1、數(shù)據(jù)插入:INSERTINTO基本表名(列名表)VALUES(元組值)或INSERTINTO基本表名(列名表)SELECT查詢(xún)語(yǔ)句其中元組值可以連續(xù)插入。用查詢(xún)語(yǔ)句可以按要求插入所需數(shù)據(jù)。2、數(shù)據(jù)刪除:DELETEFROM基本表名[WHERE條件表達(dá)式]3、數(shù)據(jù)修改:UPDATE基本表名SET列名=值表達(dá)式,[列名=值表達(dá)式...][WHERE條件表達(dá)式]這一節(jié)的關(guān)于增刪改的操作要和前面關(guān)于數(shù)據(jù)庫(kù)模式、表的增刪改操作進(jìn)行對(duì)比學(xué)習(xí),以加深理解。不要忘記上機(jī)實(shí)踐。第五章關(guān)系數(shù)據(jù)理論本章的理論性較強(qiáng),學(xué)習(xí)時(shí)有無(wú)從下手的感覺(jué),在學(xué)習(xí)時(shí)應(yīng)多加思考,從概念出發(fā)去理解理論,前后的理論有較強(qiáng)的聯(lián)系,因此要逐個(gè)理解,但對(duì)于理論的證明等內(nèi)容則不必深究,本章重點(diǎn)是函數(shù)依賴(lài)和范式的概念。一、關(guān)系模式的設(shè)計(jì)問(wèn)題(識(shí)記)關(guān)系數(shù)據(jù)庫(kù)是以關(guān)系模型為基礎(chǔ)的數(shù)據(jù)庫(kù),它利用關(guān)系來(lái)描述現(xiàn)實(shí)世界。一個(gè)關(guān)系既可以用來(lái)描述一個(gè)實(shí)體及其屬性,也可以用來(lái)描述實(shí)體間的聯(lián)系。關(guān)系實(shí)質(zhì)上就是一張二維表,表的行稱(chēng)為元組,列稱(chēng)為屬性。關(guān)系模式是用來(lái)定義關(guān)系的,這里的關(guān)系模式我們可以簡(jiǎn)單地理解為一個(gè)表的結(jié)構(gòu),一個(gè)關(guān)系數(shù)據(jù)庫(kù)包含一組關(guān)系,也就是包含一組二維表,這些二維表結(jié)構(gòu)體的集合就構(gòu)成數(shù)據(jù)庫(kù)的模式(也可以理解為數(shù)據(jù)庫(kù)的結(jié)構(gòu))。關(guān)系數(shù)據(jù)庫(kù)設(shè)計(jì)理論包括三個(gè)方面內(nèi)容:數(shù)據(jù)依賴(lài)、范式、模式設(shè)計(jì)方法。核心內(nèi)容是數(shù)據(jù)依賴(lài)。關(guān)系模式的存儲(chǔ)異常:數(shù)據(jù)冗余、更新異常、插入異常和刪除異常二、函數(shù)依賴(lài)(FD)1、函數(shù)依賴(lài)的定義(領(lǐng)會(huì)):設(shè)有關(guān)系模式R(A1,A2,...An)或簡(jiǎn)記為R(U),X,Y是U的子集,r是R的任一具體關(guān)系,如果對(duì)r的任意兩個(gè)元組t1,t2,由t1[X]=t2[X]導(dǎo)致t1[Y]=t2[Y],則稱(chēng)X函數(shù)決定Y,或Y函數(shù)依賴(lài)于X,記為X→Y。X→Y為模式R的一個(gè)函數(shù)依賴(lài)。這個(gè)定義可以這樣理解:有一張?jiān)O(shè)計(jì)好的二維表,X,Y是表的某些列(可以是一列,也可以是多列),若在表中的第t1行,和第t2行上的X值相等,那么必有t1行和t2行上的Y值也相等,這就是說(shuō)Y函數(shù)依賴(lài)于X。如下圖所示:教師課程張老師物理?xiàng)罾蠋熁瘜W(xué)李老師物理在表中,凡教師名相同的,對(duì)應(yīng)的課程名也必是相同的,則此時(shí)說(shuō)教師名函數(shù)決定課程名,或"課程名"函數(shù)依賴(lài)于"教師名"。但是反過(guò)來(lái)不一定,課程名相同時(shí)并不一定教師名相同,所以這里的Y→X是不成立的。要特別注意的是,在這張表中,任何一行的關(guān)系均應(yīng)符合上述條件,如果有一行不符合函數(shù)依賴(lài)的條件,則函數(shù)依賴(lài)對(duì)于這個(gè)關(guān)系就不成立。還有應(yīng)該了解的是,函數(shù)依賴(lài)是否成立是不可證明的,只能通過(guò)屬性的含義來(lái)判斷,上述表是一個(gè)關(guān)系實(shí)例,可以一條條進(jìn)行驗(yàn)證,但是對(duì)于模式設(shè)計(jì)來(lái)說(shuō),開(kāi)始時(shí)并沒(méi)有數(shù)據(jù)插入,我們只能從屬性的含義出發(fā),如這個(gè)關(guān)系模式保存了全校所有教師和課程對(duì)應(yīng)關(guān)系,則有可能出現(xiàn)相同的教師名而課程名不是一樣的情況(有同名教師),那么"課程名→教師名"這個(gè)函數(shù)依賴(lài)就不成立了。上述例子可對(duì)照課本理論進(jìn)行領(lǐng)會(huì)。2、鍵和FD的關(guān)系(領(lǐng)會(huì))鍵是唯一標(biāo)識(shí)實(shí)體的屬性集。對(duì)于鍵和函數(shù)依賴(lài)的關(guān)系:有兩個(gè)條件:設(shè)關(guān)系模式R(A1,A2...An),F(xiàn)是R上的函數(shù)依賴(lài)集,X是R的一個(gè)子集, (1)X→A1A2...An∈F+(它的意思是X能夠決定唯一的一個(gè)元組) (2)不存在X的真子集Y,使得Y也能決定唯一的一個(gè)元組,則X就是R的一個(gè)候選鍵。(它的意思是X能決定唯一的一個(gè)元組但又沒(méi)有多余的屬性集)包含在任何一個(gè)候選鍵中的屬性稱(chēng)為主屬性,不包含在任何鍵中的屬性為非主屬性(非鍵屬性),注意主屬性應(yīng)當(dāng)包含在候選鍵中。3、函數(shù)依賴(lài)(FD)的推理規(guī)則(了解)前面我們舉的例子中是以實(shí)際經(jīng)驗(yàn)來(lái)確定一個(gè)函數(shù)依賴(lài)的邏輯蘊(yùn)涵,但是我們需要一個(gè)推理規(guī)則才能完全確定F或F+的所有函數(shù)依賴(lài)。設(shè)有關(guān)系模式R(U),X,Y,Z,W均是U的子集,F(xiàn)是R上只涉及到U中屬性的函數(shù)依賴(lài)集,推理規(guī)則如下: 自反律:如果YXU,則X→Y在R上成立。 增廣律:如果X→Y為F所蘊(yùn)涵,ZU,則XZ→YZ在R上成立。(XZ表示X∪Z,下同) 傳遞律:如果X→Y和Y→Z在R上成立,則X→Z在R上成立。 合并律:如果X→Y和X→Z成立,那么X→YZ成立。 偽傳遞律:如果X→Y和WY→Z成立,那么WX→Z成立。 分解律:如果X→Y和ZY成立,那么X→Z成立。三、關(guān)系模式的范式(領(lǐng)會(huì))1、1NF、2NF、3NF、BCNF的定義: 1NF:第一范式。即關(guān)系模式中的屬性的值域中每一個(gè)值都是不可再分解的值。如果某個(gè)數(shù)據(jù)庫(kù)模式都是第一范式的,則稱(chēng)該數(shù)據(jù)庫(kù)模式是屬于第一范式的數(shù)據(jù)庫(kù)模式。比如有一個(gè)關(guān)系顧客={顧客,送貨地址},若有這樣幾行記錄:顧客 送貨地址張三北京、上海李四 北京 這時(shí)的第一條記錄就表示本關(guān)系模式不是1NF的,因?yàn)檎n程中的值域還是可以分解的,它包括了兩個(gè)地址,如分為:顧客 送貨地址張三北京張三 上海李四 北京 就成為第一范式的關(guān)系模式。 2NF:第二范式。如果關(guān)系模式R為第一范式,并且R中每一個(gè)非主屬性完全函數(shù)依賴(lài)于R的某個(gè)候選鍵,則稱(chēng)為第二范式模式。在這里要先了解"非主屬性"、"完全函數(shù)依賴(lài)"、"候選鍵"這三個(gè)名詞的含義。候選鍵就是指可以唯一決定關(guān)系模式R中某元組值且不含有多余屬性的屬性集。非主屬性也就是非鍵屬性,指關(guān)系模式R中不包含在任何建中的屬性。設(shè)有函數(shù)依賴(lài)W→A,若存在XW,有X→A成立,那么稱(chēng)W→A是局部依賴(lài),否則就稱(chēng)W→A是完全函數(shù)依賴(lài)。在分析是否為第2范式時(shí),應(yīng)首先確定候選鍵,然后把關(guān)系模式中的非主屬性與鍵的依賴(lài)關(guān)系進(jìn)行考察,是否都為完全函數(shù)依賴(lài),如是,則此關(guān)系模式為2NF。如果數(shù)據(jù)庫(kù)模式中每個(gè)關(guān)系模式都是2NF的,則此數(shù)據(jù)庫(kù)模式屬于2NF的數(shù)據(jù)庫(kù)模式。 3NF:第三范式。如果關(guān)系模式R是第二范式,且每個(gè)非主屬性都不傳遞依賴(lài)于R的候選鍵,則稱(chēng)R為第三范式的模式。這里首先要了解傳遞依賴(lài)的含義:在關(guān)系模式中,如果Y→X,X→A,且X不決定Y和A不屬于X,那么Y→A是傳遞依賴(lài)。注意的是,這里要求非主屬性都不傳遞依賴(lài)于候選鍵。 BCNF:這個(gè)范式和第三范式有聯(lián)系,它是3NF的改進(jìn)形式。若關(guān)系模式R是第一范式,且每個(gè)屬性都不傳遞依賴(lài)于R的候選鍵。這種關(guān)系模式就是BCNF模式??v觀四種范式,可以發(fā)現(xiàn)它們之間存在如下關(guān)系:BCNF3NF2NF1NF1NF ↓ 消去非主屬性對(duì)鍵的部分函數(shù)依賴(lài)2NF ↓ 消去非主屬性對(duì)鍵的傳遞函數(shù)依賴(lài)3NF ↓ 消去主屬性對(duì)鍵的傳遞函數(shù)依賴(lài)BCNF2、多值依賴(lài)。簡(jiǎn)單了解一下。第六章數(shù)據(jù)庫(kù)設(shè)計(jì)與上一章不同,本章的實(shí)用性較強(qiáng),詳細(xì)講述了數(shù)據(jù)庫(kù)應(yīng)用系統(tǒng)設(shè)計(jì)的全過(guò)程。重點(diǎn)是概念設(shè)計(jì)中ER模型的設(shè)計(jì)方法,邏輯設(shè)計(jì)中ER模型向關(guān)系模型的轉(zhuǎn)換方法。一、數(shù)據(jù)庫(kù)設(shè)計(jì)概述(識(shí)記)1、軟件生存期:是指從軟件的規(guī)劃、研制、實(shí)現(xiàn)、投入運(yùn)行后的維護(hù)、直到它被新的軟件所取代而停止使用的整個(gè)期間。它包括六個(gè)階段:(規(guī)需設(shè)編試運(yùn)維) (1)規(guī)劃階段 (2)需求分析階段 (3)設(shè)計(jì)階段 (4)程序編制階段 (5)調(diào)試階段 (6)運(yùn)行維護(hù)階段2、數(shù)據(jù)庫(kù)系統(tǒng)生存期數(shù)據(jù)庫(kù)應(yīng)用系統(tǒng)的開(kāi)發(fā)也是一項(xiàng)軟件工程,稱(chēng)為數(shù)據(jù)庫(kù)工程,數(shù)據(jù)庫(kù)應(yīng)用系統(tǒng)也有生存期的概念,通常包括七個(gè)階段: (1)規(guī)劃階段 (2)需求分析階段 (3)概念設(shè)計(jì)階段 (4)邏輯設(shè)計(jì)階段 (5)物理設(shè)計(jì)階段 (6)實(shí)現(xiàn)階段 (7)運(yùn)行維護(hù)階段3、數(shù)據(jù)庫(kù)設(shè)計(jì)方法學(xué)一個(gè)好的數(shù)據(jù)庫(kù)設(shè)計(jì)方法應(yīng)該能在合理的期限內(nèi),以合理的工作量產(chǎn)生一個(gè)有實(shí)用價(jià)值的數(shù)據(jù)庫(kù)結(jié)構(gòu)。數(shù)據(jù)庫(kù)及其應(yīng)用系統(tǒng)的設(shè)計(jì)分為以下幾個(gè)階段:規(guī)劃、需求分析、概念設(shè)計(jì)、邏輯設(shè)計(jì)、物理設(shè)計(jì)。二、需求分析(識(shí)記)需求分析階段應(yīng)對(duì)系統(tǒng)的整個(gè)應(yīng)用情況作全面的、詳細(xì)的調(diào)查、確定用戶(hù)的目標(biāo),收集支持系統(tǒng)總的設(shè)計(jì)目標(biāo)的基礎(chǔ)數(shù)據(jù)和對(duì)這些數(shù)據(jù)的要求,確定用戶(hù)需求,并把這些要求寫(xiě)成用戶(hù)和數(shù)據(jù)庫(kù)設(shè)計(jì)者都

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論