數(shù)據(jù)分析與可視化實(shí)踐第三版全套教學(xué)課件_第1頁(yè)
數(shù)據(jù)分析與可視化實(shí)踐第三版全套教學(xué)課件_第2頁(yè)
數(shù)據(jù)分析與可視化實(shí)踐第三版全套教學(xué)課件_第3頁(yè)
數(shù)據(jù)分析與可視化實(shí)踐第三版全套教學(xué)課件_第4頁(yè)
數(shù)據(jù)分析與可視化實(shí)踐第三版全套教學(xué)課件_第5頁(yè)
已閱讀5頁(yè),還剩438頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)分析與可視化實(shí)踐(第三版)全套可編輯PPT課件第1章數(shù)據(jù)思維

學(xué)習(xí)目標(biāo)1.理解數(shù)據(jù)、信息、知識(shí)、智慧之間的區(qū)別及聯(lián)系2.了解數(shù)據(jù)思維的本質(zhì)3.了解大數(shù)據(jù)思維的本質(zhì)4.了解大數(shù)據(jù)技術(shù)

1.1數(shù)據(jù)思維概述1.1.1認(rèn)識(shí)數(shù)據(jù)1.?dāng)?shù)據(jù)數(shù)據(jù)是對(duì)現(xiàn)實(shí)世界客觀事物的特征的抽象化的、符號(hào)化的表示,是用于表示客觀事物的未經(jīng)加工的原始素材。數(shù)據(jù)(連續(xù)):模擬的聲音、圖像數(shù)據(jù)(離散):符號(hào)、文字,聲音、圖像數(shù)據(jù)(固定):圓周率??數(shù)據(jù)(變化):每天水電消耗數(shù)據(jù)(隨機(jī)):拋硬幣的結(jié)果1.1.1認(rèn)識(shí)數(shù)據(jù)2.信息信息是人們對(duì)現(xiàn)實(shí)世界客觀事物等認(rèn)識(shí)的描述,它比數(shù)據(jù)更加抽象。信息是一種已經(jīng)被加工為特定形式的數(shù)據(jù)。數(shù)據(jù)是信息的表示,信息是數(shù)據(jù)的內(nèi)涵。例1-1:

數(shù)據(jù):3信息:最高氣溫是3℃,天氣寒冷,注意保暖1.1.1認(rèn)識(shí)數(shù)據(jù)3.知識(shí)知識(shí)是信息經(jīng)過(guò)加工提煉后形成的相應(yīng)的抽象產(chǎn)物,它表述的是事物運(yùn)動(dòng)的狀態(tài)和狀態(tài)變化的規(guī)律??梢哉f(shuō),知識(shí)是一類高級(jí)的、抽象的而且具有普遍適應(yīng)性的信息。知識(shí)具有系統(tǒng)性、規(guī)律性和可預(yù)測(cè)性。

例1-2:上海、冬季、雨三個(gè)常規(guī)數(shù)據(jù),通過(guò)對(duì)這三個(gè)數(shù)據(jù)關(guān)聯(lián)性分析以及與往年上海這個(gè)季節(jié)的雨量進(jìn)行對(duì)比,發(fā)現(xiàn)2018年冬季上海雨水偏多。1.1.1認(rèn)識(shí)數(shù)據(jù)4.智慧智慧是知識(shí)層次中的最高一級(jí)。也是人類區(qū)別于其他生物的重要特征。智慧是人類基于已有的知識(shí),針對(duì)現(xiàn)實(shí)世界客觀事物運(yùn)動(dòng)過(guò)程中產(chǎn)生的問(wèn)題根據(jù)獲得的信息進(jìn)行分析,對(duì)比,演繹找出解決方案的能力。

例1-3:身高1.75米。

數(shù)據(jù):1.75米;信息:身高1.75米

知識(shí):東北男性平均身高是1.75米智慧:來(lái)自東北的男性身高大約是1.75米1.1.1認(rèn)識(shí)數(shù)據(jù)5.?dāng)?shù)據(jù)、信息、知識(shí)和智慧的相互關(guān)系1.1.2數(shù)據(jù)思維的本質(zhì)1.什么是數(shù)據(jù)思維數(shù)據(jù)思維是關(guān)于數(shù)據(jù)認(rèn)知的一套思維模型。例1-4:在這個(gè)例子中列舉了兩家公司的市場(chǎng)份額及2017年?duì)I業(yè)收入數(shù)據(jù),但對(duì)于數(shù)據(jù)并沒(méi)有給出最終的行業(yè)銷量排名結(jié)論。包括和競(jìng)爭(zhēng)對(duì)手相比。只有數(shù)據(jù)沒(méi)有結(jié)論,這不是數(shù)據(jù)思維。公司領(lǐng)域市場(chǎng)份額營(yíng)業(yè)收入A空調(diào)27%1482.86億元B冰箱35%1593億元1.1.2數(shù)據(jù)思維的本質(zhì)1.什么是數(shù)據(jù)思維例1-5:

這就是數(shù)據(jù)思維的成果,它告訴A公司和B公司優(yōu)化銷售策略不能僅限于幾種家電,需要對(duì)多種家電銷售予以重視。公司領(lǐng)域市場(chǎng)份額營(yíng)業(yè)收入A空調(diào)27%1482.86億元B冰箱35%1593億元C12種第一名2400億元1.1.2數(shù)據(jù)思維的本質(zhì)2.?dāng)?shù)據(jù)思維的價(jià)值

在大學(xué)里,考試基本上一個(gè)學(xué)期只有一到二次??荚囎鳛閷?duì)學(xué)生學(xué)業(yè)發(fā)展的一種評(píng)估手段,是靜態(tài)和滯后的,并不能實(shí)時(shí)發(fā)現(xiàn)學(xué)生學(xué)習(xí)行為的異常。網(wǎng)絡(luò)游戲不學(xué)習(xí)成績(jī)差1.1.2數(shù)據(jù)思維的本質(zhì)2.?dāng)?shù)據(jù)思維的價(jià)值通過(guò)收集學(xué)生在學(xué)校日常被動(dòng)積累的數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行分析,早期發(fā)現(xiàn)學(xué)生學(xué)業(yè)發(fā)展中的異常情況,并進(jìn)行預(yù)警和干預(yù)。建設(shè)數(shù)據(jù)的一體化平臺(tái):選課記錄教材閱讀成績(jī)有關(guān)數(shù)據(jù)水房打水洗澡規(guī)律其他數(shù)據(jù)1.1.2數(shù)據(jù)思維的本質(zhì)2.?dāng)?shù)據(jù)思維的價(jià)值數(shù)據(jù)思維是一種必備的素養(yǎng)。如何提高數(shù)據(jù)思維:首先,扎實(shí)掌握數(shù)據(jù)領(lǐng)域涉及到的基本知識(shí),它是思維能力的基礎(chǔ)。其次,日常生活和工作中,要時(shí)常關(guān)注所看到的數(shù)據(jù),對(duì)數(shù)據(jù)保持足夠的敏感性。最后,多思考數(shù)據(jù)背后的隱藏的東西,把數(shù)據(jù)轉(zhuǎn)化成知識(shí),讓數(shù)據(jù)產(chǎn)生真正的價(jià)值。1.1.2數(shù)據(jù)思維的本質(zhì)3.?dāng)?shù)據(jù)分析思維模式數(shù)據(jù)分析是從數(shù)據(jù)中提取有價(jià)值信息的過(guò)程,從而達(dá)到分析現(xiàn)狀、分析原因和預(yù)測(cè)未來(lái)的目的。數(shù)據(jù)分析過(guò)程中需要對(duì)數(shù)據(jù)進(jìn)行各種處理和歸類,所以需要掌握正確的數(shù)據(jù)分類方法和數(shù)據(jù)處理模式。主要的數(shù)據(jù)分類方法和數(shù)據(jù)處理模式包括分類、回歸、聚類、相似匹配、頻繁項(xiàng)集、統(tǒng)計(jì)描述、鏈接預(yù)測(cè)、數(shù)據(jù)壓縮和因果分析。1.1.2數(shù)據(jù)思維的本質(zhì)4.?dāng)?shù)據(jù)分析的一般步驟數(shù)據(jù)分析通??煞譃椋好鞔_分析目的:明確數(shù)據(jù)分析目的,即梳理分析思路、搭建數(shù)據(jù)分析框架。數(shù)據(jù)收集:數(shù)據(jù)收集是按照確定的數(shù)據(jù)分析框架,收集相關(guān)數(shù)據(jù),它為數(shù)據(jù)處理和數(shù)據(jù)分析提供素材和依據(jù)。數(shù)據(jù)處理:數(shù)據(jù)處理是指對(duì)收集到的數(shù)據(jù)進(jìn)行加工整理,形成適合數(shù)據(jù)分析的樣式,保證數(shù)據(jù)的一致性和有效性。1.1.2數(shù)據(jù)思維的本質(zhì)4.?dāng)?shù)據(jù)分析的一般步驟數(shù)據(jù)分析通??煞譃椋簲?shù)據(jù)分析:數(shù)據(jù)分析是指用適當(dāng)?shù)姆治龇椒肮ぞ?,?duì)收集、處理后的數(shù)據(jù)進(jìn)行分析,提取有價(jià)值的信息,形成有效結(jié)論的過(guò)程。數(shù)據(jù)展示:通過(guò)數(shù)據(jù)分析,隱藏在數(shù)據(jù)內(nèi)部的關(guān)系和規(guī)律就會(huì)逐漸浮現(xiàn)出來(lái),運(yùn)用數(shù)據(jù)可視化技術(shù)可以展現(xiàn)出這些關(guān)系和規(guī)律,讓人一目了然。撰寫報(bào)告:數(shù)據(jù)分析報(bào)告其實(shí)是對(duì)整個(gè)數(shù)據(jù)分析過(guò)程的一個(gè)總結(jié)與呈現(xiàn)。1.1.3習(xí)題與實(shí)踐1.簡(jiǎn)答題(1)統(tǒng)計(jì)自己本季度的收入與支出情況,從而分析出本季度資金流向,是否能做出進(jìn)一步優(yōu)化的方案。(2)試分析數(shù)據(jù)、信息、知識(shí)與智慧的關(guān)系。(3)24點(diǎn)游戲是4個(gè)數(shù)字使用四則運(yùn)算的方法得到24,如6,7,8,9可以是8*(6/(9-7)=24。請(qǐng)問(wèn)數(shù)字3,5,6,8可以有至少幾種四則運(yùn)算方法的結(jié)果是24?(4)A公司目前有11個(gè)業(yè)務(wù)人員,5月前三名業(yè)務(wù)人員對(duì)A公司生意貢獻(xiàn)度分別為:15%,13%,10%,后三名業(yè)務(wù)人員對(duì)A公司的生意貢獻(xiàn)度分別為:6%,3%,2%。這個(gè)數(shù)據(jù)是否正確。(5)2016年年末,全國(guó)村鎮(zhèn)人均住宅建筑面積33.75平方米,2016年年末,全國(guó)村鎮(zhèn)實(shí)有房屋建筑面積383.0億平方米。這個(gè)數(shù)據(jù)是否正確。2.實(shí)踐題請(qǐng)選擇一個(gè)與本專業(yè)相關(guān)的數(shù)據(jù)分析需求,梳理分析思路、搭建數(shù)據(jù)分析框架,收集數(shù)據(jù),完成核心數(shù)據(jù)的提煉。

第1章數(shù)據(jù)思維

學(xué)習(xí)目標(biāo)1.理解數(shù)據(jù)、信息、知識(shí)、智慧之間的區(qū)別及聯(lián)系2.了解數(shù)據(jù)思維的本質(zhì)3.了解大數(shù)據(jù)思維的本質(zhì)4.了解大數(shù)據(jù)技術(shù)

1.2大數(shù)據(jù)思維與技術(shù)1.2.1認(rèn)識(shí)大數(shù)據(jù)數(shù)據(jù)量增加數(shù)據(jù)結(jié)構(gòu)日趨復(fù)雜數(shù)據(jù)來(lái)源不斷豐富,形成了多源異構(gòu)的數(shù)據(jù)形態(tài),其中非結(jié)構(gòu)化數(shù)據(jù)包括全文文本、圖像、聲音、影視、超媒體等信息所占比例逐年增大。大數(shù)據(jù)是指無(wú)法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行提取、管理和加工處理的數(shù)據(jù)集合。大數(shù)據(jù)技術(shù),是指從各種各樣類型的數(shù)據(jù)中,快速獲得有價(jià)值信息的能力。TBPBEBZB1.2.1認(rèn)識(shí)大數(shù)據(jù)2.大數(shù)據(jù)的特點(diǎn)體量Volume多樣性Variety價(jià)值密度Value速度Velocity非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長(zhǎng)總數(shù)據(jù)量的80~90%比結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)快10倍到50倍是傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的10倍到50倍大數(shù)據(jù)的異構(gòu)和多樣性很多不同形式(文本、圖像、視頻、機(jī)器數(shù)據(jù))無(wú)模式或者模式不明顯不連貫的語(yǔ)法或句義大量的不相關(guān)信息對(duì)未來(lái)趨勢(shì)與模式的可預(yù)測(cè)分析深度復(fù)雜分析(機(jī)器學(xué)習(xí)、人工智能Vs傳統(tǒng)商務(wù)智能(咨詢、報(bào)告等)實(shí)時(shí)分析而非批量式分析數(shù)據(jù)輸入、處理與丟棄立竿見(jiàn)影而非事后見(jiàn)效1.2.1認(rèn)識(shí)大數(shù)據(jù)3.大數(shù)據(jù)時(shí)代的商業(yè)變革商業(yè)模式是指一個(gè)完整的產(chǎn)品、服務(wù)和信息流體系,包括每一個(gè)參與者和其在其中起到的作用,以及每一個(gè)參與者的潛在利益和相應(yīng)的收益來(lái)源和方式。

傳統(tǒng)的商業(yè)智能已經(jīng)應(yīng)用了數(shù)據(jù)倉(cāng)庫(kù)、線上分析處理、數(shù)據(jù)挖掘和數(shù)據(jù)展現(xiàn)技術(shù),對(duì)企業(yè)自身的數(shù)據(jù)進(jìn)行存儲(chǔ)、清理、索引和分析,并能夠提供包括客戶價(jià)值評(píng)價(jià)、客戶滿意度評(píng)價(jià)、服務(wù)質(zhì)量評(píng)價(jià)、營(yíng)銷效果評(píng)價(jià)、市場(chǎng)需求評(píng)估等各種基于簡(jiǎn)單統(tǒng)計(jì)和關(guān)聯(lián)挖掘的報(bào)表以實(shí)現(xiàn)商業(yè)價(jià)值。1.2.1認(rèn)識(shí)大數(shù)據(jù)3.大數(shù)據(jù)時(shí)代的商業(yè)變革數(shù)據(jù)倉(cāng)庫(kù)線上分析處理數(shù)據(jù)挖掘數(shù)據(jù)展現(xiàn)技術(shù)企業(yè)自身的數(shù)據(jù)存儲(chǔ)清理索引分析客戶價(jià)值評(píng)價(jià)客戶滿意度評(píng)價(jià)服務(wù)質(zhì)量評(píng)價(jià)營(yíng)銷效果評(píng)價(jià)市場(chǎng)需求評(píng)估基于簡(jiǎn)單統(tǒng)計(jì)和關(guān)聯(lián)挖掘的報(bào)表傳統(tǒng)的商業(yè)智能1.2.1認(rèn)識(shí)大數(shù)據(jù)3.大數(shù)據(jù)時(shí)代的商業(yè)變革大數(shù)據(jù)的商業(yè)智能應(yīng)用體系1.2.1認(rèn)識(shí)大數(shù)據(jù)大數(shù)據(jù)的三個(gè)時(shí)代大數(shù)據(jù)1.0時(shí)代追求從數(shù)據(jù)到分析,從分析到更多更好的數(shù)據(jù),再到更深入分析這樣的正向循環(huán)。大數(shù)據(jù)2.0時(shí)代強(qiáng)調(diào)的是數(shù)據(jù)的外部性。它是指企業(yè)用自身業(yè)務(wù)產(chǎn)生的數(shù)據(jù),這些數(shù)據(jù)不只是對(duì)企業(yè)內(nèi)部有價(jià)值,還可以去解決主營(yíng)業(yè)務(wù)以外的其他問(wèn)題,獲得重大的價(jià)值;或者引入非企業(yè)自身業(yè)務(wù)的外部數(shù)據(jù),來(lái)解決企業(yè)自己遇到的問(wèn)題。大數(shù)據(jù)3.0時(shí)代將帶領(lǐng)人們進(jìn)入真正的大數(shù)據(jù)時(shí)代。個(gè)人、團(tuán)隊(duì)和企業(yè)可以通過(guò)數(shù)據(jù)API接口或付費(fèi)使用數(shù)據(jù)產(chǎn)品,數(shù)據(jù)中心、運(yùn)營(yíng)商,大家共同分享數(shù)據(jù)產(chǎn)品的利益。1.2.1認(rèn)識(shí)大數(shù)據(jù)4.大數(shù)據(jù)時(shí)代的科學(xué)變革大數(shù)據(jù)的價(jià)值網(wǎng)頁(yè)數(shù)據(jù)檢索世界上最新最全的信息方位數(shù)據(jù)借助GPS快速到達(dá)目的地生物特征數(shù)據(jù)進(jìn)行身份識(shí)別認(rèn)證情緒數(shù)據(jù)根據(jù)快樂(lè)與否判斷股市的漲跌1.2.1認(rèn)識(shí)大數(shù)據(jù)4.大數(shù)據(jù)時(shí)代的科學(xué)變革大數(shù)據(jù)帶來(lái)了很多新的重要的科學(xué)問(wèn)題,如預(yù)測(cè)任務(wù)、描述任務(wù),其中最重要的是預(yù)測(cè)。預(yù)測(cè)問(wèn)題主要可以分為兩類,一是趨勢(shì)預(yù)測(cè),二是缺失信息預(yù)測(cè)。趨勢(shì)預(yù)測(cè)是指通過(guò)事物的一些基本屬性信息和早期的態(tài)勢(shì)分析,預(yù)測(cè)事物發(fā)展的潛在趨勢(shì)和最終影響力假設(shè)觀察到的信息只是全部真實(shí)信息的一部分,缺失信息預(yù)測(cè)就是探討如何利用當(dāng)前信息去預(yù)測(cè)未觀察到的信息數(shù)據(jù)科學(xué)是利用計(jì)算機(jī)的運(yùn)算能力對(duì)數(shù)據(jù)進(jìn)行處理,從數(shù)據(jù)中提取信息,進(jìn)而形成“知識(shí)”數(shù)據(jù)科學(xué)1.2.1認(rèn)識(shí)大數(shù)據(jù)5.大數(shù)據(jù)的戰(zhàn)略地位大數(shù)據(jù)被認(rèn)為是繼信息化和互聯(lián)網(wǎng)后整個(gè)信息革命的又一次高峰。云計(jì)算和大數(shù)據(jù)共同引領(lǐng)以數(shù)據(jù)為材料,計(jì)算為能源的又一次生產(chǎn)力的大解放,甚至可以與以蒸汽機(jī)作為動(dòng)力機(jī)的第一次工業(yè)革命和以電力的廣泛應(yīng)用為主要標(biāo)志的第二次工業(yè)革命相媲美。數(shù)據(jù)儲(chǔ)備和數(shù)據(jù)分析能力將成為未來(lái)新型國(guó)家最重要的核心戰(zhàn)略能力;對(duì)數(shù)據(jù)的擁有、占有、運(yùn)用和控制將成為綜合國(guó)力的重要組成部分,大數(shù)據(jù)領(lǐng)域的競(jìng)爭(zhēng),事關(guān)國(guó)家、企業(yè)的安全和未來(lái),將成為國(guó)家間和企業(yè)間新的爭(zhēng)奪焦點(diǎn)。大數(shù)據(jù)的作用1.2.1認(rèn)識(shí)大數(shù)據(jù)5.大數(shù)據(jù)的戰(zhàn)略地位大數(shù)據(jù)的國(guó)家戰(zhàn)略2012年3月29日,美國(guó)政府宣布“大數(shù)據(jù)研究和發(fā)展計(jì)劃”2012年5月,我國(guó)召開(kāi)第一個(gè)以大數(shù)據(jù)為主題的重大科學(xué)工作會(huì)議。2012年12月13日,“中關(guān)村大數(shù)據(jù)日”活動(dòng)會(huì)2013年3月5日~7日,舉辦主題為“大數(shù)據(jù)技術(shù)與應(yīng)用中的挑戰(zhàn)性科學(xué)問(wèn)題”的論壇2013年5月16日,國(guó)家發(fā)改委高技術(shù)服務(wù)業(yè)研發(fā)與產(chǎn)業(yè)化專項(xiàng)“基礎(chǔ)研究大數(shù)據(jù)服務(wù)平臺(tái)應(yīng)用示范”項(xiàng)目啟動(dòng)2013年是大數(shù)據(jù)應(yīng)用之年2014年3月,大數(shù)據(jù)首次寫入中國(guó)中央政府工作報(bào)告2015年10月,黨的十八屆五中全會(huì)正式提出“實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略,推進(jìn)數(shù)據(jù)資源開(kāi)放共享”2018年5月,中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)1.2.2大數(shù)據(jù)思維的特點(diǎn)更好由因果思維到關(guān)聯(lián)思維更多由樣本思維到全量思維更雜由精準(zhǔn)思維到模糊思維更智由自然思維到智能思維1.2.3大數(shù)據(jù)技術(shù)技術(shù)描述具體技術(shù)例舉數(shù)據(jù)收集數(shù)據(jù)收集是從不同的數(shù)據(jù)源實(shí)時(shí)的或及時(shí)的收集不同類型的數(shù)據(jù)設(shè)備數(shù)據(jù)收集Splunk、Sqoop、Flume、Logstash、KettleWeb數(shù)據(jù)爬取Heritrix、Nutch數(shù)據(jù)預(yù)處理對(duì)數(shù)據(jù)的組織、表達(dá)形式、位置等進(jìn)行前置處理數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)歸約與數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)存儲(chǔ)分布式存儲(chǔ)與訪問(wèn)是大數(shù)據(jù)存儲(chǔ)的關(guān)鍵技術(shù),它具有經(jīng)濟(jì)、高效、容錯(cuò)好等特點(diǎn)分布式文件系統(tǒng)HDFS、GFS、KFS文檔存儲(chǔ)MongoDB、CouchDB、Terrastore、RavenDB列式存儲(chǔ)SybaseIQ、Infobright鍵值存儲(chǔ)Redis、ApacheCassandra圖形數(shù)據(jù)庫(kù)GooglePregel、Neo4j關(guān)系數(shù)據(jù)庫(kù)分布式集群、列式存儲(chǔ)內(nèi)存存儲(chǔ)OracleTimesTen1.2.3大數(shù)據(jù)技術(shù)技術(shù)描述具體技術(shù)例舉數(shù)據(jù)處理分布式數(shù)據(jù)處理技術(shù)一方面與分布式存儲(chǔ)形式直接相關(guān),另一方面也與業(yè)務(wù)數(shù)據(jù)的溫度類型(冷數(shù)據(jù)、熱數(shù)據(jù))相關(guān)MapReduce分布式計(jì)算框架MapReduce分布式內(nèi)存計(jì)算系統(tǒng)Spark分布式流計(jì)算系統(tǒng)IBMStreamBase數(shù)據(jù)分析大數(shù)據(jù)分析技術(shù)包括對(duì)已有數(shù)據(jù)信息的分布式統(tǒng)計(jì)分析技術(shù),以及對(duì)未知數(shù)據(jù)信息的分布式挖掘和深度學(xué)習(xí)技術(shù)聚類高維聚類分析、分類屬性數(shù)據(jù)聚類分類決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、SVM關(guān)聯(lián)分析Apriori、FP-growth深度學(xué)習(xí)CNNs、DBNs1.2.3大數(shù)據(jù)技術(shù)技術(shù)描述具體技術(shù)描述數(shù)據(jù)可視化數(shù)據(jù)可視化運(yùn)用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)換為圖形或圖像在屏幕上顯示出來(lái),并進(jìn)行交互處理。數(shù)據(jù)信息的符號(hào)表達(dá)技術(shù)各數(shù)據(jù)類型具體的符號(hào)表達(dá)技術(shù)形式包括各類報(bào)表、儀表盤、坐標(biāo)曲線、地圖、譜圖、圖像幀等數(shù)據(jù)渲染技術(shù)各類符號(hào)到屏幕圖形陣列的2D平面渲染技術(shù)、3D立體渲染技術(shù)等。渲染關(guān)鍵技術(shù)還和具體媒介相關(guān)數(shù)據(jù)交互技術(shù)除了各類PC設(shè)備和移動(dòng)終端上的鼠標(biāo)、鍵盤與屏幕的交互技術(shù)形式,可能還包括語(yǔ)音、指紋等交互技術(shù)。數(shù)據(jù)表達(dá)模型技術(shù)數(shù)據(jù)可視化表達(dá)模型描述了數(shù)據(jù)展示給用戶所需要的語(yǔ)言文字和圖形圖像等符號(hào)信息,以及符號(hào)表達(dá)的邏輯信息和數(shù)據(jù)交互方式信息等1.2.4習(xí)題與實(shí)踐1.簡(jiǎn)答題(1)大數(shù)據(jù)現(xiàn)象是怎樣形成的?(2)大數(shù)據(jù)給人類帶來(lái)哪些變革?(3)列舉大數(shù)據(jù)的作用。(4)簡(jiǎn)述大數(shù)據(jù)的戰(zhàn)略意義。2.實(shí)踐題請(qǐng)選擇一個(gè)與本專業(yè)相關(guān)的大數(shù)據(jù)資源,運(yùn)用全量思維、模糊思維、關(guān)聯(lián)思維和智能思維獲取該大數(shù)據(jù)資源價(jià)值。

第1章數(shù)據(jù)思維

學(xué)習(xí)目標(biāo)1.理解數(shù)據(jù)、信息、知識(shí)、智慧之間的區(qū)別及聯(lián)系2.了解數(shù)據(jù)思維的本質(zhì)3.了解大數(shù)據(jù)思維的本質(zhì)4.了解大數(shù)據(jù)技術(shù)

1.3大數(shù)據(jù)發(fā)展1.3.1大數(shù)據(jù)應(yīng)用零售行業(yè)的業(yè)務(wù)特征是:需要及時(shí)響應(yīng)客戶需求,實(shí)現(xiàn)精準(zhǔn)營(yíng)銷;需要增強(qiáng)產(chǎn)品流轉(zhuǎn)率,實(shí)現(xiàn)快速營(yíng)銷。零售行業(yè)互聯(lián)網(wǎng)行業(yè)的業(yè)務(wù)特征是:數(shù)據(jù)爆炸增長(zhǎng),結(jié)構(gòu)類型復(fù)雜;用戶行為豐富,Web社群關(guān)系復(fù)雜?;ヂ?lián)網(wǎng)行業(yè)金融行業(yè)的業(yè)務(wù)特征是:設(shè)備先進(jìn),功能齊全;自動(dòng)化程度高,安全保密性強(qiáng)。金融行業(yè)在醫(yī)學(xué)領(lǐng)域中,利用大數(shù)據(jù)可預(yù)測(cè)流行病、治療疾病、降低醫(yī)療成本和讓患者享受到更加便利的服務(wù),利用大數(shù)據(jù)也可提高醫(yī)療機(jī)構(gòu)利潤(rùn)和減少開(kāi)銷。醫(yī)療行業(yè)一是面向?qū)W生管理的教育大數(shù)據(jù)應(yīng)用;二是面向校園服務(wù)的教育大數(shù)據(jù)應(yīng)用;三是面向教學(xué)科研的教育大數(shù)據(jù)應(yīng)用教育行業(yè)電信行業(yè)的業(yè)務(wù)特征是:數(shù)據(jù)量激增,保存時(shí)間長(zhǎng);受眾群體大,市場(chǎng)飽和度高。電信行業(yè)交通行業(yè)的業(yè)務(wù)特征是:系統(tǒng)性,數(shù)據(jù)量大;復(fù)雜性,涉及多方面數(shù)據(jù);動(dòng)態(tài)性,信息實(shí)時(shí)處理要求高。交通行業(yè)國(guó)內(nèi)不少保險(xiǎn)公司開(kāi)始嘗試通過(guò)大數(shù)據(jù)來(lái)驅(qū)動(dòng)業(yè)務(wù)運(yùn)營(yíng),包括精準(zhǔn)營(yíng)銷、產(chǎn)品設(shè)計(jì)、風(fēng)險(xiǎn)控制等。保險(xiǎn)行業(yè)1.3.2大數(shù)據(jù)前景大數(shù)據(jù)前景數(shù)據(jù)資源化大數(shù)據(jù)與云計(jì)算等深度融合基于海量數(shù)據(jù)(知識(shí))的智能大數(shù)據(jù)分析技術(shù)的突破數(shù)據(jù)科學(xué)興起數(shù)據(jù)共享聯(lián)盟大數(shù)據(jù)新職業(yè)更大的數(shù)據(jù)1.3.3大數(shù)據(jù)面臨的挑戰(zhàn)大數(shù)據(jù)面臨的挑戰(zhàn)對(duì)數(shù)據(jù)資源及其價(jià)值的認(rèn)識(shí)不足技術(shù)創(chuàng)新與支撐能力不夠數(shù)據(jù)資源建設(shè)和應(yīng)用水平不高信息安全和數(shù)據(jù)管理體系尚未建立人才隊(duì)伍建設(shè)還需加強(qiáng)1.1.3習(xí)題與實(shí)踐1.簡(jiǎn)答題(1)列舉2個(gè)大數(shù)據(jù)的應(yīng)用場(chǎng)景。(2)列舉大數(shù)據(jù)與云計(jì)算深度融合產(chǎn)生的商業(yè)價(jià)值。(3)大數(shù)據(jù)面臨哪些挑戰(zhàn)?2.實(shí)踐題收集面向?qū)W生管理的教育大數(shù)據(jù)應(yīng)用數(shù)據(jù),包括學(xué)生的生活、學(xué)業(yè)、思想等數(shù)據(jù),請(qǐng)應(yīng)用大數(shù)據(jù)思維分析學(xué)生學(xué)業(yè)質(zhì)量與學(xué)生日常行為的關(guān)系。第2章數(shù)據(jù)分析基礎(chǔ)

學(xué)習(xí)目標(biāo)掌握數(shù)據(jù)分析工具加載方法。掌握單變量數(shù)據(jù)表和雙變量數(shù)據(jù)表兩種模擬運(yùn)算表。掌握通過(guò)結(jié)果來(lái)確定相應(yīng)的輸入值的單變量求解運(yùn)算。學(xué)會(huì)運(yùn)用方案管理器對(duì)于含有多組不同的參數(shù)值給出多種不同解決方案,從中提供最佳解決方案。利用規(guī)劃求解解決產(chǎn)品比例、人員調(diào)度、優(yōu)化路線、調(diào)配材料等方面問(wèn)題。掌握利用分析工具庫(kù)中數(shù)據(jù)分析工具針對(duì)工程分析、數(shù)理統(tǒng)計(jì)、經(jīng)濟(jì)計(jì)量等數(shù)據(jù)進(jìn)行分析和預(yù)測(cè)。2.1模擬分析2.1.1模擬運(yùn)算表

主要用于研究當(dāng)其中一個(gè)或兩個(gè)參數(shù)變化時(shí),由此連帶的中間變量和最終結(jié)果變化情況。單變量數(shù)據(jù)表雙變量數(shù)據(jù)表例2-1:某人計(jì)劃在今后5年中每月存入1000元,存款年利率為1.55%,請(qǐng)使用單變量模擬運(yùn)算表方法計(jì)算1-5年各年末的存款額,其計(jì)算結(jié)果如圖所示。2.1模擬分析2.1.1模擬運(yùn)算表例2-1解題步驟:打開(kāi)素材文件,建立表格,在A4單元格中輸入“=FV(D2/12,E2*12,B2)”,其中FV是Excel自帶的投資函數(shù),可以基于固定利率及等額分期付款方式,計(jì)算某項(xiàng)投資的未來(lái)收益。第1個(gè)參數(shù)“D2/12”表示每月的存款利率;第2個(gè)參數(shù)“E2*12”是存款的總期數(shù),其中E2單元格內(nèi)容為空,其值暫時(shí)未定,相當(dāng)于變量,后面將使用模擬運(yùn)算法方法將B3:F3區(qū)域的年份數(shù)據(jù)替換;第3個(gè)參數(shù)“B2”為每月的存款金額,以負(fù)值表示。

提示:每月存入1000元,1年后的存款額為:

1000+1000*(1+1.55/100/12)+1000*(1+1.55/100/12)2+……+1000*(1+1.55/100/12)12-1=12085.622.1模擬分析2.1.1模擬運(yùn)算表例2-1解題步驟:選擇包括公式和用于替換輸入單元格的區(qū)域A3:F5,即模擬運(yùn)算表。單擊“數(shù)據(jù)”選項(xiàng)卡中“預(yù)測(cè)”組中“模擬分析”下拉列表中的“模擬運(yùn)算表”命令,彈出如圖所示的“模擬運(yùn)算表”對(duì)話框,將光標(biāo)放至“輸入引用行的單元格”文本框中,選擇E2單元格,此時(shí)在此文本框中顯示“$E$2”,如圖2-1-2所示。單擊“確定”按鈕,計(jì)算出1-5年年末的存款額。2.1模擬分析2.1.1模擬運(yùn)算表

例2-2:某人現(xiàn)需要商業(yè)貸款200萬(wàn)買房,已知貸款的基礎(chǔ)利率4.9%,請(qǐng)用模擬運(yùn)算表計(jì)算貸款利率分別為基礎(chǔ)利率0.85、0.9、0.95、1、1.1、1.2折,貸款年限分別為10、15、20、25、30年時(shí)每月的還款額,其結(jié)果如圖所示。2.1模擬分析2.1.1模擬運(yùn)算表

例2-2解題步驟:打開(kāi)素材文件,建立表格,在B4單元格中輸入“=PMT(F2/12,G2*12,B2)”,其中PMT是Excel自帶的投資函數(shù),可以基于固定利率和等額分期付款方式,計(jì)算投資或貸款的每期付款額。第1個(gè)參數(shù)“F2/12”表示每月的貸款利率第2個(gè)參數(shù)“G2*12”是貸款的總期數(shù)第3個(gè)參數(shù)“B2”為每月的還款金額,以負(fù)值表示。設(shè)置F2為貸款利率輸入單元格,G2為年限變量輸入單元格,單元格內(nèi)容為空,其值暫時(shí)未定,相當(dāng)于變量,計(jì)算時(shí)將B5:B10列區(qū)域的數(shù)據(jù)替換利率變量,C4:G4行區(qū)域的數(shù)據(jù)替換年限變量。2.1模擬分析2.1.1模擬運(yùn)算表

例2-2解題步驟:選擇包括公式和用于替換的“輸入單元格”的區(qū)域B4:G10,即模擬運(yùn)算表。單擊“數(shù)據(jù)”選項(xiàng)卡中“預(yù)測(cè)”組中“模擬分析”下拉列表中的“模擬運(yùn)算表”命令,彈出如圖所示的“模擬運(yùn)算表”對(duì)話框,輸入定義的“輸入單元格”。單擊“確定”按鈕,計(jì)算出每月應(yīng)還的貸款額。2.1模擬分析2.1.2單變量求解單變量求解就是求解具有一個(gè)變量的方程,通過(guò)調(diào)整可變單元格中的數(shù)值,使其按照給定的公式滿足設(shè)定的目標(biāo)值。

例2-3:某人每月還款能力為20000元,現(xiàn)計(jì)劃向銀行申請(qǐng)按基準(zhǔn)利率4.9%貸款15年,請(qǐng)運(yùn)用單變量求解方法計(jì)算最多可貸款的金額,其結(jié)果如圖所示。2.1模擬分析2.1.2單變量求解例2-3解題步驟:打開(kāi)素材文件,在B3單元格中輸入“=PMT(B2/12,B4*12,B5)”,可貸款金額B5即為所求的解。單擊“數(shù)據(jù)”選項(xiàng)卡中“預(yù)測(cè)”組中“模擬分析”下拉列表中的“單變量求解”命令,彈出的“單變量求解”對(duì)話框,在“目標(biāo)值”單元格中輸入“20000”,單擊“確定”按鈕,即可計(jì)算出可貸款的額度。2.1模擬分析2.1.2單變量求解Excel單變量求解是通過(guò)迭代計(jì)算來(lái)實(shí)現(xiàn)的,即不斷修改可變單元格中的值,直到求得的解是目標(biāo)單元格中的目標(biāo)值。當(dāng)無(wú)法完全匹配時(shí),可通過(guò)指定精度或者迭代次數(shù)求得近似解。默認(rèn)情況,Excel執(zhí)行100次迭代求解,當(dāng)與目標(biāo)值的相差在0.001時(shí)停止計(jì)算,也可通過(guò)“文件/選項(xiàng)/公式”中“計(jì)算選項(xiàng)”設(shè)置“最多迭代次數(shù)”和“最大誤差”。2.1模擬分析2.1.3方案管理器“方案管理器”用于一些復(fù)雜的、涉及的影響因素較多的決策問(wèn)題。

對(duì)于同一解題方案的模型,可以創(chuàng)建多組不同的參數(shù)值,得出多種不同解決方案,從中提供最佳解決方案。

例2-4:如圖所示為一個(gè)投資收益與風(fēng)險(xiǎn)統(tǒng)計(jì)表,其中利潤(rùn)為投資金額*投資利潤(rùn)率,并且對(duì)應(yīng)了不同的風(fēng)險(xiǎn)等級(jí),請(qǐng)?zhí)峁┤N風(fēng)險(xiǎn)等級(jí)方案報(bào)告,供投資者參考。2.1模擬分析2.1.3方案管理器例2-4解題步驟:打開(kāi)素材文件,建立如圖2-1-3所示表格。單擊“數(shù)據(jù)”選項(xiàng)卡中“預(yù)測(cè)”組中“模擬分析”下拉列表中的“方案管理器”命令,彈出的“方案管理器”對(duì)話框,分別添加不同的方案,在可變單元格中指定變量選取的范圍如B2:B4,然后單擊“確定”按鈕。2.1模擬分析2.1.3方案管理器例2-4解題步驟:在彈出的“方案變量值”對(duì)話框中,填入相應(yīng)的變量參數(shù)。在本例中為了生成的方案摘要簡(jiǎn)潔,每次添加的方案都選取同樣的可變單元格范圍,但根據(jù)不同方案修改其中的參數(shù),如1000000;15%;3,然后單擊“確定”按鈕,生成方案,如圖所示。2.1模擬分析2.1.3方案管理器例2-4解題步驟:再次打開(kāi)“方案管理器”對(duì)話框,單擊“摘要”按鈕,彈出的“方案摘要”對(duì)話框中有“方案摘要”和“方案透視表”兩個(gè)選項(xiàng),選擇“方案摘要”,生成的方案摘要如圖所示。2.2規(guī)劃求解2.2.1數(shù)據(jù)分析工具加載加載方法是單擊“文件”選項(xiàng)卡中的“選項(xiàng)”命令,在彈出的“Excel選項(xiàng)”對(duì)話框中選擇“加載項(xiàng)”,在“管理”框中單擊“Excel加載項(xiàng)”右側(cè)的“轉(zhuǎn)到”按鈕,在彈出的“加載宏”對(duì)話框中勾選“分析工具庫(kù)”、“規(guī)劃求解加載項(xiàng)”,單擊“確定”按鈕后,在“數(shù)據(jù)”選項(xiàng)卡右側(cè)出現(xiàn)“分析”命令組,包含“數(shù)據(jù)分析”和“規(guī)劃求解”兩個(gè)工具。2.2規(guī)劃求解2.2.2規(guī)劃求解問(wèn)題Excel規(guī)劃求解問(wèn)題主要由可變單元格、目標(biāo)函數(shù)、約束條件3部分組成,其中可變單元格中存放的變量,通過(guò)規(guī)劃求解來(lái)滿足約束條件的限制,達(dá)到求解目標(biāo)函數(shù)的目的。2.2規(guī)劃求解2.2.2規(guī)劃求解問(wèn)題例2-5:某企業(yè)生產(chǎn)兩種飲料甲和乙,需要兩種配料A和B,每生產(chǎn)飲料甲一瓶需要配料A0.2千克、B0.3千克,每生產(chǎn)飲料乙一瓶需要配料A0.3千克、B0.5千克,企業(yè)現(xiàn)存儲(chǔ)的A和B配料均為150千克,且配料A的價(jià)格為2元/千克,B的價(jià)格為3元/千克,現(xiàn)市場(chǎng)需求飲料B是飲料A的兩倍,運(yùn)用規(guī)劃求解方法計(jì)算企業(yè)為實(shí)現(xiàn)最大利潤(rùn)應(yīng)安排飲料A和B的產(chǎn)量。2.2規(guī)劃求解2.2.2規(guī)劃求解問(wèn)題

例2-5解題步驟:①依題意設(shè)計(jì)一個(gè)表格,兩個(gè)變量單元格,有三個(gè)約束條件,一個(gè)最優(yōu)目標(biāo)。在約束條件單元格中分別輸入公式“=E3*B3+E4*C3”、“=F3*B3+F4*C3”、“=2*B3-C3”,在最優(yōu)目標(biāo)單元格中輸入公式“=G3*B3+G4*C3-B3*(E3*H3+F3*I3)-C3*(E4*H3+F4*I3)”。2.2規(guī)劃求解2.2.2規(guī)劃求解問(wèn)題

例2-5解題步驟:②單擊“數(shù)據(jù)”選項(xiàng)卡右側(cè)的“規(guī)劃求解”工具,在彈出的“規(guī)劃求解參數(shù)”對(duì)話框中,在“設(shè)置目標(biāo)”文本框中選擇“B7”單元格,“通過(guò)更改可變單元格”文本框中拖選“B3:C3”單元格區(qū)域。單擊“添加”按鈕,分別設(shè)置單元格B3、C3為“int”,單元格B4<=E5,B5<=F5,單元格B6<=0,添加完成后單擊“確定”按扭,返回“規(guī)劃求解參數(shù)”對(duì)話框中,“選擇求解方法”下拉列表中選擇“單純線性規(guī)劃”。2.2規(guī)劃求解2.2.2規(guī)劃求解問(wèn)題

例2-5解題步驟:③單擊“求解”按鈕,在彈出的“規(guī)劃求解結(jié)果”對(duì)話框中單擊“確定”按鈕,計(jì)算出最優(yōu)方案為應(yīng)生產(chǎn)飲料A115瓶,飲料B231瓶。④在彈出的“規(guī)劃求解結(jié)果”對(duì)話框中選擇“運(yùn)算結(jié)果報(bào)告”,再單擊“確定”按鈕,即可生成運(yùn)算結(jié)果報(bào)告。2.3數(shù)據(jù)分析工具庫(kù)2.3.1預(yù)測(cè)分析預(yù)測(cè)分析是通過(guò)對(duì)過(guò)去和現(xiàn)在的數(shù)據(jù)去分析未來(lái)的趨勢(shì),其中較常用的方法之一就是移動(dòng)平均法?!耙苿?dòng)平均”分析工具可以基于過(guò)去幾個(gè)時(shí)期中變量的平均值,設(shè)計(jì)預(yù)測(cè)期間的值,使用此工具多用來(lái)預(yù)測(cè)銷售量、庫(kù)存或其他趨勢(shì)變化。2.3數(shù)據(jù)分析工具庫(kù)2.3.1預(yù)測(cè)分析例2-6:2017年居民消費(fèi)價(jià)格月度漲跌幅度如表所示,利用移動(dòng)平均法預(yù)測(cè)漲跌幅度并以圖表形式輸出。2.3數(shù)據(jù)分析工具庫(kù)2.3.1預(yù)測(cè)分析例2-6解題步驟:①在工作表的一列上輸入各時(shí)間點(diǎn)上的觀察值,如圖中的A列所示月份。②選擇“數(shù)據(jù)”選項(xiàng)卡中“分析/數(shù)據(jù)分析”命令,在彈出的對(duì)話框中選擇“移動(dòng)平均”,單擊“確定”按扭。2.3數(shù)據(jù)分析工具庫(kù)2.3.1預(yù)測(cè)分析例2-6解題步驟:③在彈出的“移動(dòng)平均”對(duì)話框輸入?yún)^(qū)域中確定數(shù)據(jù)來(lái)源;移動(dòng)平均數(shù)值的間隔可以設(shè)定或者采用默認(rèn);然后選定輸出區(qū)域;勾選圖表輸出和標(biāo)準(zhǔn)誤差,如圖所示,單擊“確定”按扭。2.3數(shù)據(jù)分析工具庫(kù)2.3.2相關(guān)性分析Excel的分析工具庫(kù)提供了“相關(guān)系數(shù)”和“協(xié)方差”兩個(gè)分析工具,運(yùn)用它們進(jìn)行相關(guān)分析非常簡(jiǎn)單。例2-7:2012~2017年居民消費(fèi)價(jià)格月度漲跌幅度如圖所示,利用相關(guān)系數(shù)工具計(jì)算漲跌幅度同比和環(huán)比之間的相關(guān)性。2.3數(shù)據(jù)分析工具庫(kù)2.3.2相關(guān)性分析例2-7解題步驟:①選擇“數(shù)據(jù)”選項(xiàng)卡中“分析/數(shù)據(jù)分析”命令,在彈出的對(duì)話框中選擇“相關(guān)系數(shù)”,單擊“確定”按扭。②在彈出的“相關(guān)系數(shù)”對(duì)話框中分組方式分別選擇逐行和逐列,設(shè)置輸入和輸出區(qū)域,單擊“確定”按扭。2.3數(shù)據(jù)分析工具庫(kù)2.3.3回歸分析回歸分析就是運(yùn)用統(tǒng)計(jì)學(xué)的理論和方法研究?jī)蓚€(gè)或多個(gè)變量之間存在的關(guān)系,最終根據(jù)變量的觀測(cè)值建立表達(dá)變量之間關(guān)系的曲線方程,也就是所謂的曲線擬合問(wèn)題。其中所關(guān)注的變量稱因變量,而影響因變量變化的那些變量稱為自變量。根據(jù)自變量的個(gè)數(shù),可以把回歸分析分為簡(jiǎn)單回歸(一元回歸)和多元回歸,兩者分析的原理相似。按變量之間關(guān)系的形式,回歸分析可分為線性回歸和非線性回歸。Excel中線性回歸分析是通過(guò)對(duì)一組觀察值使用“最小二乘法”進(jìn)行直線擬合,該回歸分析可同時(shí)解決一元回歸與多元回歸問(wèn)題。2.3數(shù)據(jù)分析工具庫(kù)2.3.3回歸分析例2-8:觀測(cè)自變量x和因變量y的變化數(shù)值,利用線性回歸工具擬合x和y的方程。2.3數(shù)據(jù)分析工具庫(kù)2.3.3回歸分析例2-8解題步驟:①選擇“數(shù)據(jù)”選項(xiàng)卡中“分析/數(shù)據(jù)分析”命令,在彈出的對(duì)話框中選擇“回歸”,單擊“確定”按扭。②在彈出的“回歸”對(duì)話框中設(shè)置x值和y值輸入?yún)^(qū)域,勾選“殘差”、“殘差圖”、“標(biāo)準(zhǔn)誤差”、“線性擬合圖”和“正態(tài)概率圖”,如圖所示,單擊“確定”按扭。2.3數(shù)據(jù)分析工具庫(kù)

小結(jié)第3章數(shù)據(jù)庫(kù)應(yīng)用基礎(chǔ)

學(xué)習(xí)目標(biāo)1.了解數(shù)據(jù)庫(kù)管理技術(shù)、數(shù)據(jù)模型的基本概念;2.掌握關(guān)系模型以及創(chuàng)建關(guān)系型數(shù)據(jù)庫(kù)的方法;3.掌握用結(jié)構(gòu)化查詢語(yǔ)言SQL實(shí)現(xiàn)查詢需求的方法;4.了解數(shù)據(jù)庫(kù)設(shè)計(jì)的基本過(guò)程和方法。

3.1數(shù)據(jù)庫(kù)技術(shù)基礎(chǔ)3.1.1數(shù)據(jù)與數(shù)據(jù)管理3.1.1數(shù)據(jù)與數(shù)據(jù)管理1.信息與數(shù)據(jù)2.?dāng)?shù)據(jù)處理有效地把數(shù)據(jù)組織到計(jì)算機(jī)中,由計(jì)算機(jī)對(duì)數(shù)據(jù)進(jìn)行一系列儲(chǔ)存、加工、計(jì)算、分類、檢索、傳輸、輸出等操作的過(guò)程3.?dāng)?shù)據(jù)管理數(shù)據(jù)收集、分類、組織、編碼、存儲(chǔ)、檢索和維護(hù)等操作,是數(shù)據(jù)處理的中心環(huán)節(jié)數(shù)據(jù)管理的目的是實(shí)現(xiàn)數(shù)據(jù)共享、降低數(shù)據(jù)冗余、提高數(shù)據(jù)的獨(dú)立性、完整性和安全性,使數(shù)據(jù)的處理和使用更加高效3.1.1數(shù)據(jù)與數(shù)據(jù)管理4.?dāng)?shù)據(jù)管理技術(shù)的歷史人工管理階段文件系統(tǒng)階段①數(shù)據(jù)共享性差、冗余度大②數(shù)據(jù)的不一致性③數(shù)據(jù)與程序獨(dú)立性仍不高用戶1用戶2學(xué)生選課程序?qū)W籍管理程序勤工儉學(xué)管理程序用戶3學(xué)生課程文件學(xué)生學(xué)籍文件學(xué)生助學(xué)文件數(shù)據(jù)庫(kù)系統(tǒng)階段以下三件大事標(biāo)志著數(shù)據(jù)庫(kù)技術(shù)的誕生:

1968年IBM公司推出的層次模型的IMS數(shù)據(jù)庫(kù)管理系統(tǒng)。

1969年美國(guó)數(shù)據(jù)系統(tǒng)語(yǔ)言研究會(huì)下屬數(shù)據(jù)庫(kù)任務(wù)組公布了關(guān)于網(wǎng)狀模型的DBTG報(bào)告。

1970年IBM公司研究員E.F.Codd發(fā)表了題為“大型共享數(shù)據(jù)庫(kù)數(shù)據(jù)的關(guān)系模型”論文,提出了數(shù)據(jù)庫(kù)的關(guān)系模型,開(kāi)創(chuàng)了關(guān)系方法和關(guān)系數(shù)據(jù)研究,為關(guān)系數(shù)據(jù)庫(kù)的發(fā)展奠定了理論基礎(chǔ)。3.1.2數(shù)據(jù)庫(kù)與數(shù)據(jù)庫(kù)系統(tǒng)1.?dāng)?shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)(Database,簡(jiǎn)稱DB),存放數(shù)據(jù)的倉(cāng)庫(kù),這個(gè)倉(cāng)庫(kù)建立在計(jì)算機(jī)存儲(chǔ)設(shè)備之上,里面的數(shù)據(jù)按一定的格式進(jìn)行存儲(chǔ)具有永久存儲(chǔ)、有組織和可共享三個(gè)基本特點(diǎn)2.數(shù)據(jù)庫(kù)管理系統(tǒng)(DatabaseManagementSystem,簡(jiǎn)稱DBMS)為管理數(shù)據(jù)庫(kù)而設(shè)計(jì)的軟件系統(tǒng),負(fù)責(zé)數(shù)據(jù)庫(kù)的建立、使用和維護(hù)主要功能:(1)數(shù)據(jù)庫(kù)定義(2)數(shù)據(jù)組織、存儲(chǔ)和管理(3)數(shù)據(jù)存?。?)數(shù)據(jù)庫(kù)事務(wù)管理和運(yùn)行管理(數(shù)據(jù)的完整性、安全性控制、并發(fā)控制、數(shù)據(jù)庫(kù)恢復(fù)機(jī)制)(5)數(shù)據(jù)庫(kù)的建立與維護(hù)3.數(shù)據(jù)庫(kù)系統(tǒng)(DataBaseSystem,簡(jiǎn)稱DBS)數(shù)據(jù)庫(kù)硬件軟件操作系統(tǒng)DBMS以DBMS為核心的應(yīng)用開(kāi)發(fā)工具為特定應(yīng)用環(huán)境開(kāi)發(fā)的數(shù)據(jù)庫(kù)應(yīng)用系統(tǒng)用戶DBA等

4.數(shù)據(jù)庫(kù)系統(tǒng)的特點(diǎn)(1)數(shù)據(jù)結(jié)構(gòu)化(2)實(shí)現(xiàn)數(shù)據(jù)共享(3)數(shù)據(jù)冗余度小,易于擴(kuò)充(4)數(shù)據(jù)與程序獨(dú)立(5)統(tǒng)一的數(shù)據(jù)控制功能5.常用數(shù)據(jù)庫(kù)管理系統(tǒng)(1)Access(2)SQLServer(3)MySQL(4)PostgreSQL(5)Oracle(6)DB23.1.3數(shù)據(jù)模型數(shù)據(jù)模型概述概念模型

層次模型網(wǎng)狀模型關(guān)系模型1.數(shù)據(jù)模型概述(1)

數(shù)據(jù)模型的定義

模型:現(xiàn)實(shí)世界特征的模擬和抽象數(shù)據(jù)模型:現(xiàn)實(shí)世界數(shù)據(jù)特征的模擬和抽象(2)

現(xiàn)實(shí)世界、信息世界和數(shù)據(jù)世界現(xiàn)實(shí)世界指人們頭腦之外的客觀世界信息世界是現(xiàn)實(shí)世界在人們頭腦中的反映數(shù)據(jù)世界又稱為計(jì)算機(jī)世界,是將信息世界中的信息進(jìn)一步轉(zhuǎn)換為便于在計(jì)算機(jī)上實(shí)現(xiàn)的數(shù)據(jù)一、數(shù)據(jù)模型的概念(3)

數(shù)據(jù)模型的二個(gè)層次

概念模型數(shù)據(jù)模型2、概念模型(1)實(shí)體(Entity)客觀存在并可相互區(qū)別的事物稱為實(shí)體??梢允蔷唧w的人、事、物或抽象的概念。(2)屬性(Attribute)實(shí)體所具有的某一特性稱為屬性。一個(gè)實(shí)體可以由若干個(gè)屬性來(lái)刻畫。

(3)碼(Key)也叫候選碼或鍵唯一標(biāo)識(shí)實(shí)體的屬性組稱為碼。

(4)域(Domain)屬性的取值范圍稱為該屬性的域。(5)實(shí)體集(EntitySet)同型實(shí)體的集合稱為實(shí)體集實(shí)體間的聯(lián)系(1)一對(duì)一聯(lián)系(1:1)如果對(duì)于實(shí)體集A中的每一個(gè)實(shí)體,實(shí)體集B中至多有一個(gè)實(shí)體與之聯(lián)系,反之亦然,則稱實(shí)體集A與實(shí)體集B具有一對(duì)一聯(lián)系(2)一對(duì)多聯(lián)系(1:n)(3)多對(duì)多聯(lián)系(m:n)

系與系主任專業(yè)與學(xué)生學(xué)生與課程概念模型的表示方法-E-R圖

實(shí)體-聯(lián)系方法(Entity-RelationshipApproach,E-R方法)

:1976年由P.P.S.ChenE-R圖的基本圖素矩形框:實(shí)體 –

菱形框:聯(lián)系橢圓形框:屬性

直線:連接

畫E-R圖的步驟①確定實(shí)體 ②確定各實(shí)體的屬性③確定實(shí)體間聯(lián)系 ④確定各聯(lián)系的屬性

E-R圖聯(lián)系(續(xù))聯(lián)系本身:用菱形表示,菱形框內(nèi)寫明聯(lián)系名,并用無(wú)向邊分別與有關(guān)實(shí)體連接起來(lái),同時(shí)在無(wú)向邊旁標(biāo)上聯(lián)系的類型(1:1、1:n或m:n)聯(lián)系的屬性:聯(lián)系本身也是一種實(shí)體,也可以有屬性。如果一個(gè)聯(lián)系具有屬性,則這些屬性也要用無(wú)向邊與該聯(lián)系連接起來(lái)

聯(lián)系的表示方法實(shí)體1聯(lián)系名實(shí)體2111:1聯(lián)系實(shí)體1聯(lián)系名實(shí)體2mnm:n聯(lián)系實(shí)體1聯(lián)系名實(shí)體21n1:n聯(lián)系概念模型實(shí)例教師工號(hào)姓名系名稱職稱性別教室安排1n課程班級(jí)教師教授選課mn時(shí)間mn時(shí)間數(shù)據(jù)模型概述

常見(jiàn)的三種數(shù)據(jù)模型層次模型網(wǎng)狀模型關(guān)系模型層次模型與網(wǎng)狀模型統(tǒng)稱為非關(guān)系模型流行于20世紀(jì)70~80年代3、層次模型概念層次模型結(jié)構(gòu)是有向樹(shù)結(jié)構(gòu)、樹(shù)中結(jié)點(diǎn)表示實(shí)體父子結(jié)點(diǎn)之間的聯(lián)系都為一對(duì)多的聯(lián)系3、層次模型優(yōu)點(diǎn)聯(lián)系通過(guò)指針來(lái)實(shí)現(xiàn),因而查詢效率較高簡(jiǎn)單、直觀、容易理解缺點(diǎn)表示多對(duì)多的聯(lián)系不方便查找必須通過(guò)雙親結(jié)點(diǎn),使操作趨于過(guò)程化4、網(wǎng)狀模型概念層次模型結(jié)構(gòu)是有向圖結(jié)構(gòu)、圖中結(jié)點(diǎn)表示實(shí)體DBTG提出的有向結(jié)點(diǎn)之間的聯(lián)系都為一對(duì)多的聯(lián)系多對(duì)多聯(lián)系必須轉(zhuǎn)換成兩個(gè)一對(duì)多的聯(lián)系來(lái)表示4、網(wǎng)狀模型優(yōu)點(diǎn)聯(lián)系通過(guò)指針來(lái)實(shí)現(xiàn)多對(duì)多的聯(lián)系較容易實(shí)現(xiàn)查詢效率較高缺點(diǎn)數(shù)據(jù)結(jié)構(gòu)復(fù)雜、編程也復(fù)雜5、關(guān)系模型概念數(shù)據(jù)結(jié)構(gòu)是一張二維表,實(shí)體間的聯(lián)系都用二維表表示二維表在關(guān)系模型中稱為關(guān)系對(duì)關(guān)系的描述稱為關(guān)系模式,表示為:關(guān)系名(屬性1,屬性2,…

,屬性n)舉例:班級(jí)(班號(hào),班級(jí)名稱,系名稱,入學(xué)時(shí)間,班級(jí)人數(shù),班主任工號(hào))教師(工號(hào),姓名,性別,系名稱,職稱)

關(guān)系模型優(yōu)點(diǎn)有嚴(yán)格的理論基礎(chǔ)數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)單、清晰、用戶易理解存取路徑對(duì)用戶透明,程序與數(shù)據(jù)的獨(dú)立性高缺點(diǎn)查詢效率不如非關(guān)系模型3.1.4數(shù)據(jù)庫(kù)技術(shù)的發(fā)展數(shù)據(jù)模型表達(dá)更復(fù)雜數(shù)據(jù)結(jié)構(gòu)更強(qiáng)的語(yǔ)義表達(dá)能力數(shù)據(jù)庫(kù)技術(shù)與多學(xué)科技術(shù)相互滲透、相互結(jié)合面向?qū)ο髷?shù)據(jù)庫(kù)分布式數(shù)據(jù)庫(kù)專家數(shù)據(jù)庫(kù)多媒體數(shù)據(jù)庫(kù)嵌入式數(shù)據(jù)庫(kù)巨型與超巨型數(shù)據(jù)庫(kù)技術(shù)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘技術(shù)大數(shù)據(jù)技術(shù)3.1.5習(xí)題與實(shí)踐1.簡(jiǎn)答題(1)數(shù)據(jù)庫(kù)系統(tǒng)階段的數(shù)據(jù)管理技術(shù)相對(duì)于文件系統(tǒng)階段有哪些改進(jìn)?(2)在數(shù)據(jù)庫(kù)概念模型中實(shí)體的聯(lián)系有哪幾種?(3)什么是數(shù)據(jù)管理系統(tǒng)中數(shù)據(jù)與程序的相互獨(dú)立性?(4)數(shù)據(jù)挖掘技術(shù)用于研究和解決哪些問(wèn)題?(5)數(shù)據(jù)管理技術(shù)的發(fā)展方向有哪些?2.實(shí)踐題(1)調(diào)研數(shù)據(jù)庫(kù)技術(shù)和自己所學(xué)專業(yè)發(fā)展的聯(lián)系、數(shù)據(jù)庫(kù)技術(shù)對(duì)自己所學(xué)專業(yè)的影響和輔助作用,寫一篇800字以上的綜述。(2)參考例3-1,設(shè)計(jì)一個(gè)小型校園紀(jì)念品店的E-R模型。

3.2數(shù)據(jù)表關(guān)系型數(shù)據(jù)庫(kù)是基于關(guān)系數(shù)據(jù)模型而創(chuàng)建的數(shù)據(jù)庫(kù)。關(guān)系模型中的實(shí)體和實(shí)體間的聯(lián)系都用關(guān)系(二維表)表示。關(guān)系模型包括關(guān)系數(shù)據(jù)結(jié)構(gòu)、關(guān)系操作集合和關(guān)系完整性約束三個(gè)部分。3.2.1關(guān)系模型定義1、關(guān)系模型的數(shù)據(jù)結(jié)構(gòu)關(guān)系模型的基本數(shù)據(jù)結(jié)構(gòu)是關(guān)系(relation),一個(gè)關(guān)系形式上就是一張行列結(jié)構(gòu)的二維表屬性的取值范圍稱為域(domain)元組的總數(shù)稱為關(guān)系的基數(shù)實(shí)體一個(gè)具體的關(guān)系可以簡(jiǎn)單地以關(guān)系名及其屬性列表來(lái)表示

下表中的教師實(shí)體的關(guān)系數(shù)據(jù)模式可以表示為:教師(工號(hào),姓名,性別,系別,職稱)

關(guān)系數(shù)據(jù)模型和數(shù)學(xué)中的關(guān)系概念區(qū)別:(1)元組個(gè)數(shù)為無(wú)限的關(guān)系沒(méi)有現(xiàn)實(shí)意義,所以關(guān)系數(shù)據(jù)模型中的關(guān)系應(yīng)該是有限集合。(2)數(shù)學(xué)中元組的值是有序的,而關(guān)系模型不強(qiáng)調(diào)這種有序性,并通過(guò)對(duì)關(guān)系的各列添加屬性名來(lái)取消這種有序性。2.關(guān)系的性質(zhì)

根據(jù)關(guān)系的定義,關(guān)系應(yīng)具有如下性質(zhì):(1)列應(yīng)為同質(zhì)。即每一列中的屬性值的數(shù)據(jù)類型必須相同,來(lái)自同一個(gè)值域。(2)不同的列可以來(lái)自同一個(gè)值域,但屬性有各自不同的屬性名。(3)列的次序無(wú)關(guān)實(shí)際意義,可以任意交換。(4)不可以有完全相同的元組,即集合中不應(yīng)有重復(fù)的元組。(5)行的次序無(wú)關(guān)實(shí)際意義,可以任意交換。(6)屬性值必須為原子分量,不可再分。3.主鍵和外鍵(1)候選鍵(candidatekey)如果關(guān)系中的某個(gè)屬性或?qū)傩缘慕M合的值可以唯一地標(biāo)識(shí)一個(gè)元組,而它的任何真子集均無(wú)此特性,則稱這個(gè)屬性或?qū)傩缘慕M合為該關(guān)系的候選鍵。極端情況下,候選鍵包含全部屬性,則稱為全鍵。(2)主鍵(primarykey)一個(gè)關(guān)系至少應(yīng)具有一個(gè)候選鍵,也可能有多個(gè)候選鍵,選擇候選鍵中的一個(gè)為主鍵。包含在主鍵中的屬性稱為主屬性,不包含在主鍵中的屬性稱為非主屬性。(3)外鍵(foreignkey)如果關(guān)系R1中一個(gè)屬性或?qū)傩缘慕M合Xn與關(guān)系R2中的主鍵的數(shù)據(jù)對(duì)應(yīng),則稱Xn為關(guān)系R1關(guān)于R2(R2可以為R1自身)的外鍵。【例3-2】:對(duì)于如下的“教學(xué)記錄”數(shù)據(jù)庫(kù)(有下劃線的屬性為主屬性),假定同一個(gè)教師可以講授多門課程,同一個(gè)教師可以給不同班級(jí)講授同名課程(例如李老師可以開(kāi)設(shè)《C語(yǔ)言》和《操作系統(tǒng)》課程,而《C語(yǔ)言》針對(duì)計(jì)算機(jī)系和電子系分別開(kāi)設(shè)):teacher(工號(hào),姓名,出生年月,單位,性別,職稱)class(班級(jí)編號(hào),班級(jí)名稱,人數(shù))course(課程編號(hào),課程名稱,學(xué)分,先修課程編號(hào))timetable(課程編號(hào),工號(hào),班級(jí)編號(hào))4.關(guān)系的完整性約束(1)實(shí)體完整性(entityintegrity):在一個(gè)關(guān)系中,主鍵的所有主屬性都不得為空值(2)參照完整性(referentialintegrity):關(guān)系中元組的外鍵取值只能等于所參照的關(guān)系的某一元組的主鍵值,或者為空值。(3)用戶自定義完整性:根據(jù)實(shí)際情況對(duì)關(guān)系設(shè)定約束條件3.2.2關(guān)系運(yùn)算

1.傳統(tǒng)的集合運(yùn)算

并關(guān)系R1和關(guān)系R2的“并”是將兩個(gè)關(guān)系中的所有元組合并,刪去重復(fù)元組,組成一個(gè)新的關(guān)系,記做R1∪R2。在關(guān)系數(shù)據(jù)庫(kù)中,通過(guò)并運(yùn)算可以實(shí)現(xiàn)元組的插入(insert)。差關(guān)系R1和關(guān)系R2的“差”是從R1中刪去與R2相同的元組,組成一個(gè)新的關(guān)系,記做R1-R2。在關(guān)系數(shù)據(jù)庫(kù)中,通過(guò)差運(yùn)算可以實(shí)現(xiàn)元組的刪除(delete)。交關(guān)系R1和關(guān)系R2的“交”是從R1和R2中取相同的元組,組成一個(gè)新的關(guān)系,記做R1∩R2。

廣義笛卡爾積設(shè)關(guān)系R1和關(guān)系R2分別為n目和m目的關(guān)系,關(guān)系R1有x個(gè)元組,關(guān)系R2有y個(gè)元組,關(guān)系R1和關(guān)系R2的廣義笛卡爾積是一個(gè)(n+m)列、x×y個(gè)元組的關(guān)系,記做R1×R2。通過(guò)先差運(yùn)算再并運(yùn)算可以實(shí)現(xiàn)元組的更新(update),通過(guò)廣義笛卡爾積可以實(shí)現(xiàn)兩個(gè)實(shí)體集的連接。例3-3:兩個(gè)參加關(guān)系運(yùn)算的關(guān)系R1和R2如圖3-2-2所示,它們對(duì)應(yīng)的屬性值取自同一個(gè)域。求R1和R2的并、交和差和廣義笛卡爾積。2.專門的關(guān)系運(yùn)算(1)選擇從一個(gè)關(guān)系中找出滿足指定條件的元組的操作(2)投影從一個(gè)關(guān)系中選出指定若干屬性的操作稱為投影(3)連接

把兩個(gè)關(guān)系中的元組按照一定條件橫向聯(lián)合,形成一個(gè)新的關(guān)系“紐帶”是兩個(gè)關(guān)系的公共字段或語(yǔ)義相同的字段。連接例3.2.3Access簡(jiǎn)介Access發(fā)展簡(jiǎn)史Access1.0版于1992年11月由微軟公司發(fā)行,最初是作為一個(gè)獨(dú)立的軟件產(chǎn)品發(fā)布的,從1995年和MicrosoftOffice95一起捆綁發(fā)行后,到目前為止,一直以O(shè)ffice系列軟件包的一部分存在。Access經(jīng)歷了多次更新?lián)Q代,從1.0版到2.0、Access95、97、2000、2002、2003、2007一直到Access2010,2012年又推出了Access2013,不斷升級(jí),功能不斷加強(qiáng)。1、Access特點(diǎn)(1)界面友好,上手快(2)存儲(chǔ)方式單一(3)提供完整的集成開(kāi)發(fā)環(huán)境(4)支持ODBC(OpenDatabaseConnectivity)2、Access的安裝與啟動(dòng)(1)Access的安裝與啟動(dòng)(2)Access數(shù)據(jù)庫(kù)的創(chuàng)建【例3-4】在D盤上創(chuàng)建一個(gè)名為“考試管理系統(tǒng)”的空數(shù)據(jù)庫(kù)。3.Access主界面和對(duì)象簡(jiǎn)介

控制菜單按鈕快速訪問(wèn)工具欄標(biāo)題欄功能區(qū)最小化按鈕導(dǎo)航窗格狀態(tài)欄編輯區(qū)圖3-2-2Access主界面

3.Access主界面和對(duì)象簡(jiǎn)介導(dǎo)航窗格數(shù)據(jù)庫(kù)對(duì)象簡(jiǎn)介選項(xiàng)卡式文檔使用幫助3.2.4表的創(chuàng)建表的結(jié)構(gòu)設(shè)計(jì)(1)字段名稱(2)字段類型(3)字段說(shuō)明2.字段的常規(guī)屬性設(shè)置(1)字段大小

可以使用字段大小屬性設(shè)置數(shù)據(jù)類型為“文本”、“數(shù)字”或“自動(dòng)編號(hào)”的字段中存儲(chǔ)的最大數(shù)據(jù)。(2)格式Access數(shù)據(jù)的格式分為存儲(chǔ)格式、輸入格式和顯示格式三種,常規(guī)屬性中的“格式”指數(shù)據(jù)的顯示格式,決定在表的數(shù)據(jù)表視圖中數(shù)據(jù)以何種格式顯示。Access中各種類型數(shù)據(jù)的顯示格式如圖3-2-5所示:(3)輸入掩碼輸入掩碼(InputMask)用于限定數(shù)據(jù)的輸入格式,一般用于文本型和日期/時(shí)間類型數(shù)據(jù)的輸入格式限制,也可用于限定數(shù)字型和貨幣型字段的格式。當(dāng)輸入格式相對(duì)固定的數(shù)據(jù)時(shí),例如電話號(hào)碼、身份證號(hào)碼、密碼等,可以通過(guò)強(qiáng)制實(shí)現(xiàn)輸入格式,達(dá)到方便輸入的目的。2.字段的常規(guī)屬性設(shè)置(4)默認(rèn)值(5)有效性規(guī)則和有效性文本(6)索引(7)必需2.字段的常規(guī)屬性設(shè)置3.創(chuàng)建表的方法

(1)用設(shè)計(jì)視圖創(chuàng)建表(2)用數(shù)據(jù)表視圖創(chuàng)建表(3)用SharePoint創(chuàng)建表(4)用導(dǎo)入外部數(shù)據(jù)創(chuàng)建表(5)利用SQL語(yǔ)句創(chuàng)建表4、創(chuàng)建關(guān)系

1.創(chuàng)建關(guān)系2.設(shè)置參照完整性(1)實(shí)施參照完整性(2)級(jí)聯(lián)更新相關(guān)字段(3)級(jí)聯(lián)刪除相關(guān)記錄3.2.5記錄的輸入和編輯

1.記錄的輸入(1)視圖間切換(2)輸入記錄2.特殊數(shù)據(jù)類型數(shù)據(jù)的輸入(1)OLE對(duì)象(2)附件類型(3)備注型3.記錄的編輯(1)定位記錄(2)添加記錄(3)刪除記錄(4)修改記錄3.2.6表結(jié)構(gòu)的修改1.添加字段(1)在設(shè)計(jì)視圖進(jìn)行(2)在數(shù)據(jù)表視圖進(jìn)行2.刪除字段(1)在設(shè)計(jì)視圖進(jìn)行(2)在數(shù)據(jù)表視圖進(jìn)行3.移動(dòng)字段4.修改字段5.修改主鍵3.2.7規(guī)范化設(shè)計(jì)方法問(wèn)題的提出:在進(jìn)行實(shí)用數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì)時(shí),面臨的一個(gè)首要的問(wèn)題是,在建立一個(gè)比較復(fù)雜的數(shù)據(jù)模型時(shí),表的數(shù)量是多好,還是少好?還是不多不少好?①直觀上看,(a)的數(shù)據(jù)數(shù)量明顯大于(b),說(shuō)明可能存在數(shù)據(jù)冗余?②如果修改了某門課程的名字,例如將“C語(yǔ)言”改成“C++”,,會(huì)發(fā)生什么情況?③如果新增了一門課程“大學(xué)語(yǔ)文”?④如果“張敏”改選“高等數(shù)學(xué)”?規(guī)范化設(shè)計(jì)方法所謂數(shù)據(jù)庫(kù)的規(guī)范化設(shè)計(jì),就是在進(jìn)行關(guān)系模式設(shè)計(jì)時(shí),通過(guò)投影或分解操作剔除屬性間的不良依賴,將低一級(jí)的范式(NormalForm)向若干高一級(jí)范式轉(zhuǎn)化的過(guò)程。常見(jiàn)的方法通過(guò)E-R圖進(jìn)行概要設(shè)計(jì)基于關(guān)系規(guī)范化理論進(jìn)行設(shè)計(jì)于1971年由關(guān)系數(shù)據(jù)模型的創(chuàng)始人E.F.Codd首先提出E.F.Codd提出了第一范式(1NF)、第二范式(2NF)和第三范式(3NF)1974年Codd和Boyce共同提出了BCNF規(guī)范化程度更高的還有4NF、5NF第一范式(1NF)(1)“不可以有完全相同的元組,即集合中不應(yīng)有重復(fù)的元組”。這一點(diǎn)可以通過(guò)主鍵的主屬性非空及主鍵的唯一性保證;(2)“屬性值必須為原子分量,不可再分”。第二范式(2NF)

如果一個(gè)關(guān)系屬于1NF,且所有非主屬性完全依賴于主關(guān)鍵字,則稱該關(guān)系屬于2NF。

不符合2NF要求的關(guān)系符合2NF的關(guān)系第三范式(3NF)如果一個(gè)關(guān)系屬于2NF,且每個(gè)非主屬性不傳遞依賴于主鍵,即非主屬性之間無(wú)依賴關(guān)系,則稱該關(guān)系屬于3NF。不符合3NF的關(guān)系

規(guī)范化的優(yōu)點(diǎn)避免數(shù)據(jù)的插入、刪除和更新異常,確保數(shù)據(jù)的一致性避免數(shù)據(jù)的冗余,使數(shù)據(jù)庫(kù)的結(jié)構(gòu)簡(jiǎn)潔、明晰當(dāng)關(guān)系模式完全屬于3NF,用戶對(duì)記錄值進(jìn)行更新時(shí)就無(wú)須在超過(guò)兩個(gè)以上的地方更改同一數(shù)值規(guī)范化的缺點(diǎn)關(guān)系模式中表的數(shù)目一般會(huì)有所增多DBMS進(jìn)行連接查詢時(shí)系統(tǒng)的復(fù)雜度和運(yùn)行時(shí)間都有所增加3.2.8習(xí)題與實(shí)踐1.簡(jiǎn)答題1)比較作為關(guān)系的“表”和Excel中的普通表格有什么差異?和Excel中的“列表”呢?(2)根據(jù)常用掩碼定義字符,如果要添加一個(gè)“手機(jī)”字段,并設(shè)置輸入掩碼格式使輸入時(shí)的顯示格式為,應(yīng)該輸入怎樣的掩碼字符?(3)以平面結(jié)構(gòu)組織數(shù)據(jù)的Excel和以關(guān)系結(jié)構(gòu)組織數(shù)據(jù)的Access,分別適用于什么樣的應(yīng)用需求?(4)如果需要添加一個(gè)取值范圍在一個(gè)區(qū)間之外的有效性規(guī)則,例如限制輸入“成績(jī)”的范圍是小于60或大于90,應(yīng)該怎么填寫有效性規(guī)則?(5)實(shí)施參照完整性意味著在向?qū)χ鞅砗蛷谋碇休斎霐?shù)據(jù)時(shí),輸入順序上有什么隱含的要求?2.實(shí)踐題(1)參考例題,創(chuàng)建“考試管理系統(tǒng)”空數(shù)據(jù)庫(kù),熟悉Access窗口主界面。(2)參考例題,創(chuàng)建STU、CLASS和SGRADE表。(3)參考例題,為“考試管理系統(tǒng)”數(shù)據(jù)庫(kù)中的三個(gè)表STU、CLASS、SGRADE建立關(guān)系。(4)設(shè)置Access選項(xiàng)嘗試用“選項(xiàng)卡式”和“重疊窗口”方式顯示文檔的不同效果,改變文檔顯示方式的Access選項(xiàng)后要關(guān)閉當(dāng)前數(shù)據(jù)庫(kù)并重新打開(kāi)后才能看到效果。3.2.8習(xí)題與實(shí)踐3.3數(shù)據(jù)庫(kù)設(shè)計(jì)3.3.1數(shù)據(jù)庫(kù)設(shè)計(jì)過(guò)程1.需求分析2.概念結(jié)構(gòu)設(shè)計(jì)(1)概念模型的要求(2)概念結(jié)構(gòu)設(shè)計(jì)方法3.邏輯結(jié)構(gòu)設(shè)計(jì)4.物理結(jié)構(gòu)設(shè)計(jì)5.數(shù)據(jù)庫(kù)實(shí)施6.數(shù)據(jù)運(yùn)行和維護(hù)3.3.2E-R模型向關(guān)系模式的轉(zhuǎn)換1.獨(dú)立實(shí)體型到關(guān)系模式的轉(zhuǎn)化獨(dú)立實(shí)體型轉(zhuǎn)化為一個(gè)關(guān)系(表),只要將實(shí)體名稱作為表的名稱,實(shí)體的碼作為表的主鍵,其他屬性轉(zhuǎn)化為表的屬性,同時(shí)根據(jù)實(shí)體屬性的值域確定表的自定義完整性約束即可。學(xué)生(學(xué)號(hào),姓名,性別,系別,生日)2.1:1聯(lián)系到關(guān)系模式的轉(zhuǎn)化1:1聯(lián)系轉(zhuǎn)化為關(guān)系模式時(shí),在兩個(gè)實(shí)體型轉(zhuǎn)化成的關(guān)系模式中的任何一個(gè)中增加另一個(gè)的主屬性和聯(lián)系的屬性即可。院長(zhǎng)(工號(hào),姓名,性別,學(xué)院名稱,任職時(shí)間,聯(lián)系方式)學(xué)院(學(xué)院名稱,辦公電話,教學(xué)樓,辦公樓)3.1:n聯(lián)系到關(guān)系模式的轉(zhuǎn)化1:n聯(lián)系轉(zhuǎn)化為關(guān)系模式時(shí),需要在聯(lián)系中的從方,也即n方,的關(guān)系模式中增加聯(lián)系中的主方,也即1方,的關(guān)鍵字段,作為兩者的公共字段,在n方中是外鍵。院系(系別,辦公電話,所在教學(xué)樓,辦公地點(diǎn))學(xué)生(學(xué)號(hào),姓名,性別,系別,生日,在校時(shí)間)4.m:n聯(lián)系到關(guān)系模式的轉(zhuǎn)化m:n聯(lián)系轉(zhuǎn)化為關(guān)系模式時(shí),除了要對(duì)兩個(gè)實(shí)體分別進(jìn)行轉(zhuǎn)化外,還要為兩個(gè)實(shí)體之間的聯(lián)系也建立一個(gè)關(guān)系模式,其屬性包括兩個(gè)實(shí)體的主鍵加上聯(lián)系的屬性,兩個(gè)實(shí)體的主鍵組合作為此聯(lián)系的主鍵。課程(課程編號(hào),課程名稱,先修課程編號(hào),學(xué)分,學(xué)時(shí))學(xué)生(學(xué)號(hào),姓名,性別,系別,生日)成績(jī)(學(xué)號(hào),課程編號(hào),成績(jī))5.多元聯(lián)系到關(guān)系模式的轉(zhuǎn)化6.自聯(lián)系到關(guān)系模式的轉(zhuǎn)化*

如果自聯(lián)系是1:n的情況,只要在關(guān)系模式中標(biāo)明聯(lián)系中的地位即可:學(xué)生(學(xué)號(hào),姓名,性別,系別,生日,班長(zhǎng)學(xué)號(hào))擴(kuò)展如果自聯(lián)系是m:n的情況,例如在一個(gè)班級(jí)中可以有多名班干部,這意味著一個(gè)同學(xué)可以有多個(gè)班干部,而一個(gè)同學(xué)又可以是其他同學(xué)的班干部,這種情況下的自聯(lián)系該如何表示呢?3.3.3習(xí)題與實(shí)踐1.簡(jiǎn)答題2.實(shí)踐題3.4數(shù)據(jù)查詢3.4.1SQL語(yǔ)言概述1.SQL語(yǔ)言的產(chǎn)生及發(fā)展由Boyce等人在1974年提出結(jié)構(gòu)化查詢語(yǔ)言(structuredquerylanguage,SQL)經(jīng)國(guó)際標(biāo)準(zhǔn)化組織(InternationalOrganizationforStandardization,ISO)指定為國(guó)際標(biāo)準(zhǔn)2.SQL語(yǔ)言的組成及特點(diǎn)(1)SQL語(yǔ)言的組成數(shù)據(jù)定義語(yǔ)言(datadefinitionlanguage,DDL),用于定義數(shù)據(jù)庫(kù)的邏輯結(jié)構(gòu),包括基本表、索引和視圖數(shù)據(jù)操縱語(yǔ)言(datamanipulationlanguage,DML),用于數(shù)據(jù)查詢和數(shù)據(jù)更新(插入、刪除和修改)數(shù)據(jù)控制語(yǔ)言(datacontrollanguage,DCL),用于對(duì)基本表和視圖的授權(quán)、事務(wù)控制語(yǔ)句等(2)SQL語(yǔ)言的特點(diǎn)集數(shù)據(jù)的定義、操縱和控制功能于一體;面向集合的操作方式;高度非過(guò)程化,路徑選擇及處理過(guò)程由系統(tǒng)自動(dòng)完成;既可獨(dú)立使用,又可嵌入到高級(jí)語(yǔ)言中使用;只含九條核心語(yǔ)句,結(jié)構(gòu)化很強(qiáng);類似自然語(yǔ)言,易學(xué)易用。2.SQL語(yǔ)言的組成及特點(diǎn)3.SQL對(duì)關(guān)系模型的支持SQL視圖1視圖2基表1基表2基表3基表4存儲(chǔ)文件1存儲(chǔ)文件2外模式內(nèi)模式模式注意:不同的RDBMS對(duì)于SQL的支持在具體方式上有所不同3.4.2SQL數(shù)據(jù)定義SQL的數(shù)據(jù)定義功能主要包括定義基表和定義索引。1.定義基表定義基表就是定義一個(gè)表(關(guān)系)的數(shù)據(jù)結(jié)構(gòu)和完整性約束,包括指定表的名稱、表的屬性名稱、屬性的數(shù)據(jù)類型以及完整性約束條件。定義基表使用SQL中的CREATETABLE語(yǔ)句,其一般形式如下:CREATETABLE<表名>(

<列名1><數(shù)據(jù)類型>[<列級(jí)完整性約束條件>][,<列名2><數(shù)據(jù)類型>[<列級(jí)完整性約束條件>]]……[,<列名n><數(shù)據(jù)類型>[<列級(jí)完整性約束條件>]][,<表級(jí)完整性約束條件>]);常用SQL數(shù)據(jù)類型完整性約束條件例3-13:創(chuàng)建“學(xué)生管理”數(shù)據(jù)庫(kù),包含STU、CLASS和SGRADE表,其中:STU表由學(xué)號(hào)、姓名、性別、系別、生日5個(gè)屬性組成,主鍵為學(xué)號(hào),姓名不能為空;CLASS表由課程編號(hào)、課程名稱、先修課程編號(hào)、學(xué)時(shí)、學(xué)分5個(gè)屬性組成,主鍵為課程編號(hào),課程名稱唯一;SGRADE表由學(xué)號(hào)、課程編號(hào)和成績(jī)3個(gè)屬性組成,主鍵為(學(xué)號(hào),課程編號(hào))。①創(chuàng)建STU表的SQL語(yǔ)句

CREATETABLESTU(

學(xué)號(hào)TEXT(7)PRIMARYKEY,

姓名TEXT(16)NOTNULL,

性別TEXT(2),

系別TEXT(10),

生日DATE);②創(chuàng)建CLASS表的SQL語(yǔ)句CREATETABLECLASS(

課程編號(hào)TEXT(3)PRIMARYKEY,

課程名稱TEXT(20)UNIQUE,

先修課程編號(hào)TEXT(3),

學(xué)時(shí)SMALLINT,

學(xué)分SMALLINT);③創(chuàng)建SGRADE表的SQL語(yǔ)句CREATETABLESGRADE(

學(xué)號(hào)TEXT(7)REFERENCESSTU(學(xué)號(hào)),

課程編號(hào)TEXT(3)REFERENCESCLASS(課程編號(hào)),

成績(jī)SMALLINT,PRIMARYKEY(學(xué)號(hào),課程編號(hào)));添加自定義完整性約束條件的方法2.修改基表修改基表使用SQL中的ALTERTABLE語(yǔ)句。例3-14:對(duì)例3-13所創(chuàng)建的數(shù)據(jù)庫(kù)做如下修改:(1)向STU表中添加聯(lián)系電話字段;ALTERTABLESTUADD聯(lián)系電話INT;(2)將聯(lián)系電話字段的數(shù)據(jù)類型修改為字符串類型;ALTERTABLESTUALTER聯(lián)系電話CHAR(11);(3)刪除剛才添加的聯(lián)系電話字段;ALTERTABLESTUDROP聯(lián)系電話;注意:在對(duì)基表結(jié)構(gòu)進(jìn)行修改時(shí)需要先將基表關(guān)閉

3.刪除基表

使用SQL中的DROPTABLE語(yǔ)句可以刪除不需要的基表如果所要?jiǎng)h除的基表中含有被其他基表引用的字段,需要先將其他基表中的REFERENCES約束刪除,才能進(jìn)行基表的刪除DROPTABLE語(yǔ)句的一般形式為:

DROPTABLE<表名>;

例3-15:刪除SGRADE表。

DROPTABLESGRADE;4.定義索引為了加快查詢速度和有序輸出,可以在一個(gè)基表上建立一個(gè)或多個(gè)索引(index)索引屬于物理存儲(chǔ)路徑的概念,RDBMS在存取數(shù)據(jù)時(shí)會(huì)自動(dòng)選擇合適的索引作為存取路徑。定義索引使用SQL中的CREATEINDEX語(yǔ)句,其一般形式如下:

CREATE[UNIQUE]INDEX<索引名>ON<基表名>(<列名1>[<次序>][,<列名2>[<次序>]]…);說(shuō)明:(1)UNIQUE表示每一個(gè)索引值只對(duì)應(yīng)唯一的數(shù)據(jù)記錄;(2)<次序>用于指定索引的排列次序?yàn)樯蜻€是降序,其中ASC為升序,DESC為降序,缺省值為ASC;(3)索引可以建立在表的一列或多列之上,各個(gè)列之間用逗號(hào)分隔開(kāi);(4)不必對(duì)主鍵建立索引。例3-16:在例3-13所創(chuàng)建的表上創(chuàng)建索引,使STU表中的記錄按生日從小到大排序,使SGRADE表中的成績(jī)按從大到小排序。CREATEINDEXS_生日ONSTU(生日);CREATEUNIQUEINDEXS_成績(jī)ONSGRADE(成績(jī)DESC);5.刪除索引刪除索引使用SQL中的DROPINDEX語(yǔ)句,其一般形式如下:

DROPINDEX<索引名>;例3-17:刪除STU表上的索引S_生日。

DROPINDEXS_生日;3.4.3SQL數(shù)據(jù)查詢數(shù)據(jù)查詢是指從數(shù)據(jù)庫(kù)中檢索滿足需要的數(shù)據(jù)。查詢是數(shù)據(jù)庫(kù)的核心操作。數(shù)據(jù)查詢使用SQL中的SELECT語(yǔ)句,其一般形式如下:SELECT[ALL|DISTINCT]<目標(biāo)列表達(dá)式1>[,<目標(biāo)列表達(dá)式2>]…FROM<基表名或視圖名1>[,<基表名或視圖名2>]…[WHERE<記錄過(guò)濾條件>][GROUPBY<列名1>[,<列名2>]…[HAVING<小組過(guò)濾條件>]][ORDERBY<列名1>[ASC|DESC][,<列名2>[ASC|DESC]]…];1.單表查詢(1)選擇表中的若干列(投影)例3-18:查詢STU表中全體學(xué)生的全部信息。SELECT*FROMSTU;等價(jià)于:SELECT學(xué)號(hào),姓名,性別,系別,生日FROMSTU;例3-19:查詢學(xué)生的學(xué)號(hào)和性別。SELECT學(xué)號(hào),性別FROMSTU;例3-20:查詢學(xué)生的姓名、性別和年齡。SELECT姓名,性別,Year(Now())-Year(生日)AS

年齡FROMSTU;(2)選擇表中的若干行(選擇)選擇表中的指定元組通過(guò)在SQL中的WHERE子句中設(shè)定記錄過(guò)濾條件實(shí)現(xiàn)記錄過(guò)濾條件是由邏輯運(yùn)算符AND、OR、NOT連接的關(guān)系表達(dá)式例3-21:查詢所有女生信息。SELECT*FROMSTUWHERE性別=“女”;例3-22:查詢年齡在18歲以上的女生信息。SELECT*FROMSTUWHERE性別=“女”AND(Year(Now())-Year(生日))>18;例3-23:查詢學(xué)時(shí)數(shù)介于40~60之間的課程編號(hào)和課程名稱。SELECT課程編號(hào),課程名稱FROMCLASSWHERE學(xué)時(shí)BETWEEN40AND60;等價(jià)于:SELECT課程編號(hào),課程名稱FROMCLASSWHERE學(xué)時(shí)>=40AND學(xué)時(shí)<=60;【例3-24】查詢學(xué)時(shí)數(shù)大于60或小于40的課程編號(hào)和課程名稱。SELECT課程編號(hào),課程名稱FROMCLASSWHERE學(xué)時(shí)NOTBETWEEN40AND60;等價(jià)于:SELECT課程編號(hào),課程名稱FROMCLASSWHERE學(xué)時(shí)<40OR學(xué)時(shí)>60;【例3-25】查詢至少選修了1號(hào)、3號(hào)或5號(hào)課程中任意一門課程的學(xué)生的學(xué)號(hào)。SELECT學(xué)號(hào)FROMSGRADEWHERE課程編號(hào)IN(“1”,”3”,”5”);等價(jià)于:SELECT學(xué)號(hào)FROMSGRADEWHERE課程編號(hào)=“1”O(jiān)R課程編號(hào)=“3”O(jiān)R課程編號(hào)=“5”;【例3-26】查詢既不是計(jì)算機(jī)系也不是物理系和電子系的學(xué)生的學(xué)號(hào)和姓名。SELECT學(xué)號(hào),姓名FROMSTUWHERE系別<>’物理’AND系別<>’電子’AND系別<>’計(jì)算機(jī)’;等價(jià)于:SELECT學(xué)號(hào),姓名FROMSTUWHERE系別NOTIN(’物理’,’電子’,’計(jì)算機(jī)’);思考:查詢沒(méi)有選修1號(hào)、3號(hào)或5號(hào)課程中任何一門的學(xué)生的學(xué)號(hào),能用下面的語(yǔ)句選擇么?SELECT學(xué)號(hào)FROMSGRADEWHERE課程編號(hào)NOTIN(‘1’,’3’,’5’);【例3-27】查詢系別中含有“理”字的學(xué)生的學(xué)號(hào)、姓名和系別。SELECT學(xué)號(hào),姓名,系別FROMSTUWHERE系別LIKE'*理*';說(shuō)明:在SQL語(yǔ)句中用LIKE運(yùn)算符進(jìn)行模糊查找,一般結(jié)合通配符使用。在Access中的通配符有兩種:?(問(wèn)號(hào))匹配任意單個(gè)字符。*(星號(hào))匹配任意長(zhǎng)度字符?!纠?-28】查詢無(wú)需先修課程的課程的編號(hào)和名稱。SELECT課程編號(hào),課程名稱FROMCLASSWHERE先修課

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論