大數(shù)據(jù)導(dǎo)論教案_第1頁(yè)
大數(shù)據(jù)導(dǎo)論教案_第2頁(yè)
大數(shù)據(jù)導(dǎo)論教案_第3頁(yè)
大數(shù)據(jù)導(dǎo)論教案_第4頁(yè)
大數(shù)據(jù)導(dǎo)論教案_第5頁(yè)
已閱讀5頁(yè),還剩24頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)導(dǎo)論教學(xué)教案第1章 什么是大數(shù)據(jù)課時(shí)內(nèi)容大數(shù)據(jù)的概念、發(fā)展歷程授課時(shí)間45分鐘課時(shí)1和主要特征一教學(xué)目標(biāo)0 讓學(xué)生了解什么是大數(shù)據(jù),以及大數(shù)據(jù)的社會(huì)價(jià)值體現(xiàn)在人類生活的哪些方面教學(xué)重點(diǎn)0 了解人類信息文明的發(fā)展歷程0熟悉大數(shù)據(jù)時(shí)代的來(lái)臨和具體發(fā)展表現(xiàn)0掌握大數(shù)據(jù)的主要特征0掌握大數(shù)據(jù)的社會(huì)價(jià)值教學(xué)難點(diǎn)0熟悉大數(shù)據(jù)的4V特征教學(xué)設(shè)計(jì)1、教學(xué)思路:(1)闡釋人類信息文明的發(fā)展歷程及其對(duì)人類生活產(chǎn)生的影響;(2) 講解信息技術(shù)主要解決的4個(gè)核心問(wèn)題的具體發(fā)展表現(xiàn);(3)理論闡述了數(shù)據(jù)生 產(chǎn)方式的變革歷程,以及各個(gè)階段的具體發(fā)展情況;(4)從數(shù)據(jù)、技術(shù)特征兩個(gè) 方面分析大數(shù)據(jù)的主要特征;(5)大

2、數(shù)據(jù)的社會(huì)價(jià)值體現(xiàn)在哪些方面。2、教學(xué)手段:(1)通過(guò)課堂討論提出問(wèn)題,活躍課堂氣氛并激發(fā)學(xué)生的學(xué)習(xí)興趣; (2)從系統(tǒng)的角度出發(fā),全面介紹了大數(shù)據(jù)技術(shù)的基礎(chǔ)知識(shí),作為大數(shù)據(jù)技術(shù)的 基礎(chǔ)教材,以提升讀者對(duì)大數(shù)據(jù)的認(rèn)知,每章結(jié)束都配有習(xí)題,幫助老師進(jìn)行考查。教學(xué)內(nèi)容一、導(dǎo)入新課:“大數(shù)據(jù)”的橫空出世半個(gè)世紀(jì)以來(lái),隨著計(jì)算機(jī)技術(shù)全面融入社會(huì)生活,信息爆炸己經(jīng)積累到一個(gè)開始引發(fā)變革的 程度。它不僅使世界充斥著以往更多的信息,而且其增長(zhǎng)速度也在加快。信息爆炸的學(xué)科如天文學(xué) 和基因?qū)W,創(chuàng)造出了“大數(shù)據(jù)”這個(gè)概念。這個(gè)概念幾乎應(yīng)用到所有人類智力與發(fā)展的領(lǐng)域中?!按髷?shù)據(jù)”帶來(lái)的影響當(dāng)人們還在津津樂道云計(jì)算、

3、物聯(lián)網(wǎng)等主題時(shí),一個(gè)嶄新的概念“大數(shù)據(jù)”橫空出世。大數(shù)據(jù) 是名繼云計(jì)算、物聯(lián)網(wǎng)之后IT產(chǎn)業(yè)又一次顛覆性的技術(shù)革命,對(duì)國(guó)家治理模式、企業(yè)決策、組織和業(yè) 務(wù)流程,以及個(gè)人生活方式等都將產(chǎn)生巨大的影響。大數(shù)據(jù)的挖掘和應(yīng)用可創(chuàng)造出超萬(wàn)億美兀的價(jià) 值,將是未來(lái)IT領(lǐng)域最大的市場(chǎng)機(jī)遇之一,其作用堪稱是又一次工業(yè)革命。“大數(shù)據(jù)”產(chǎn)生的背景隨著網(wǎng)絡(luò)和信息技術(shù)的不斷普及,人類產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)級(jí)增長(zhǎng)。大約每?jī)赡攴环?根據(jù)監(jiān)測(cè),這個(gè)速度在2020年之前會(huì)繼續(xù)保持下去。這意味著人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于 之前產(chǎn)生的全部數(shù)據(jù)量。大量新數(shù)據(jù)源的出現(xiàn)則導(dǎo)致了非結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)爆發(fā)式的增長(zhǎng)。信 息數(shù)據(jù)的單

4、位由TB、PB、EB,再到ZB的級(jí)別,這些由我們創(chuàng)造的信息背后產(chǎn)生的這些數(shù)據(jù)早己遠(yuǎn)遠(yuǎn)超越了目前人力所能處理的范疇。如何管理和使用這些數(shù)據(jù),逐漸成為一個(gè)新的領(lǐng)域,于是大 數(shù)據(jù)的概念應(yīng)運(yùn)而生。從三個(gè)層面認(rèn)知“大數(shù)據(jù)”大數(shù)據(jù)(Big Data)又稱為巨量資料,指需要新處理模式才能具有更強(qiáng)的決策力、洞察力和流程 優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。今第一層面:理論理論是認(rèn)知的必經(jīng)途徑,也是被廣泛認(rèn)同和傳播的基線。從大數(shù)據(jù)的特征定義理解行業(yè)對(duì)大數(shù) 據(jù)的整體描繪和定性,從對(duì)大數(shù)據(jù)價(jià)值的探討來(lái)深入解析大數(shù)據(jù)的珍貴所在,洞悉大數(shù)據(jù)的發(fā)展趨 勢(shì)。從大數(shù)據(jù)隱私這個(gè)特別而重要的視角審視人和數(shù)據(jù)之間的長(zhǎng)久博弈

5、。個(gè)第二層面:技術(shù)技術(shù)是大數(shù)據(jù)價(jià)值體現(xiàn)的手段和前進(jìn)的基石??梢詮脑朴?jì)算、分布式處理技術(shù)、存儲(chǔ)技術(shù)和感 知技術(shù)的發(fā)展來(lái)說(shuō)明大數(shù)據(jù)從采集、處理、存儲(chǔ)到形成結(jié)果的整個(gè)過(guò)程。個(gè)第三層面:實(shí)踐實(shí)踐是大數(shù)據(jù)的最終價(jià)值體現(xiàn),我們從互聯(lián)網(wǎng)的大數(shù)據(jù),政府的大數(shù)據(jù),企業(yè)的大數(shù)據(jù) 個(gè)人的大數(shù)據(jù)四個(gè)方面來(lái)描繪大數(shù)據(jù)己經(jīng)展現(xiàn)的美好景象及即將實(shí)現(xiàn)的藍(lán)圖。二、內(nèi)容大綱:具體可結(jié)合本章的PPT課件進(jìn)行配合講解。人類信息文明的發(fā)展大數(shù)據(jù)時(shí)代的來(lái)臨信息技術(shù)的發(fā)展數(shù)據(jù)產(chǎn)生方式的變革大數(shù)據(jù)的主要特征大數(shù)據(jù)的數(shù)據(jù)特征大數(shù)據(jù)的技術(shù)特征大數(shù)據(jù)的社會(huì)價(jià)值三、討論問(wèn)題1-1簡(jiǎn)述人類信息文明的發(fā)展過(guò)程并展望未來(lái)的發(fā)展方向。1-2大數(shù)據(jù)的技術(shù)特點(diǎn)

6、和技術(shù)優(yōu)勢(shì)在哪里?1-3簡(jiǎn)單描述大數(shù)據(jù)的主要特征。1-4結(jié)合實(shí)際談?wù)劥髷?shù)據(jù)的社會(huì)價(jià)值。一、 歸納小結(jié)隨著社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、云計(jì)算的飛速發(fā)展,大量非結(jié)構(gòu)化數(shù)據(jù)呈指數(shù)級(jí)快速增 長(zhǎng),數(shù)據(jù)樣式高度復(fù)雜,為人類認(rèn)識(shí)世界,改造世界提供了重要的資源,企業(yè)和個(gè)人 通過(guò)網(wǎng)絡(luò)可以大規(guī)模的收集和分析數(shù)據(jù),也可以產(chǎn)生和發(fā)布數(shù)據(jù),個(gè)體在互聯(lián)的網(wǎng)絡(luò) 中既是數(shù)據(jù)的消費(fèi)者又是數(shù)據(jù)的生產(chǎn)者。大規(guī)模生產(chǎn)、分享、應(yīng)用數(shù)據(jù)的大數(shù)據(jù)時(shí)代 己經(jīng)來(lái)臨。與此同時(shí),數(shù)量巨大,種類繁多的數(shù)據(jù)給傳統(tǒng)的數(shù)據(jù)獲取、分析、處理、 存儲(chǔ)、檢索技術(shù)帶來(lái)了挑戰(zhàn),大數(shù)據(jù)成為廣泛關(guān)注且急需解決的熱點(diǎn)問(wèn)題,并已經(jīng)開 始影響社會(huì)的發(fā)展與人們的日常生活。思考及作 業(yè)大

7、數(shù)據(jù)時(shí)代已經(jīng)來(lái)臨,各國(guó)將在這一新的領(lǐng)域展開新一輪的競(jìng)爭(zhēng),我國(guó)應(yīng)當(dāng)與 時(shí)俱進(jìn),及時(shí)轉(zhuǎn)型,適應(yīng)大數(shù)據(jù)時(shí)代的到來(lái),可以借鑒各國(guó)的做法,抓住大數(shù)據(jù)時(shí)代 關(guān)鍵點(diǎn),從國(guó)家戰(zhàn)略制定、人才培養(yǎng)、基礎(chǔ)技術(shù)研究、信息安全保障體系建設(shè)等方面 展開相應(yīng)的工作。二、拓展延伸:(1)大數(shù)據(jù)時(shí)代是在什么背景環(huán)境下產(chǎn)生的,它對(duì)我們的現(xiàn)實(shí)生活產(chǎn)生了哪些方面的 影響?(2)大數(shù)據(jù)時(shí)代的個(gè)人隱私如何保護(hù)?(3)結(jié)合實(shí)際生活,談一談大數(shù)據(jù)的社會(huì)價(jià)值主要體現(xiàn)在哪些方面。(4)大數(shù)據(jù)要解決的核心問(wèn)題是什么?第2章 大數(shù)據(jù)技術(shù)基礎(chǔ)課時(shí)內(nèi)容大數(shù)據(jù)技術(shù)基礎(chǔ)授課時(shí)間90分鐘課時(shí)2教學(xué)目標(biāo)本章課程在注重大數(shù)據(jù)時(shí)代應(yīng)用環(huán)境前提下,從初學(xué)者角度出發(fā),

8、以輕量級(jí)理論、 豐富的實(shí)例對(duì)應(yīng)性地介紹了大數(shù)據(jù)常用計(jì)算模式的各種系統(tǒng)和工具。將經(jīng)典和核心的 行業(yè)技術(shù)作為本章的主要內(nèi)容,講解計(jì)算機(jī)操作系統(tǒng)的基本知識(shí),幫助讀者建立對(duì)大 數(shù)據(jù)技術(shù)基礎(chǔ)的整體印象。教學(xué)重點(diǎn)0掌握計(jì)算機(jī)操作系統(tǒng)的基礎(chǔ)知識(shí)0理解和掌握編程語(yǔ)言0掌握數(shù)據(jù)庫(kù)的主要數(shù)據(jù)類型0理解算法的涵義0掌握大數(shù)據(jù)系統(tǒng)0熟悉大數(shù)據(jù)應(yīng)用開發(fā)流程教學(xué)難點(diǎn)0理解什么是大數(shù)據(jù)技術(shù)基礎(chǔ)0 熟悉Linux操作系統(tǒng)經(jīng)歷的3個(gè)發(fā)展階段0熟悉編程語(yǔ)言的發(fā)展和種類0 掌握Python語(yǔ)言自身的優(yōu)點(diǎn)和在實(shí)際應(yīng)用方面的便捷性0 了解數(shù)據(jù)庫(kù)技術(shù)是信息技術(shù)的核心技術(shù)0重點(diǎn)關(guān)注傳統(tǒng)算法和大數(shù)據(jù)時(shí)代算法的區(qū)別0 Hadoop平臺(tái)和Spa

9、rk平臺(tái)的基本構(gòu)成和特征0 掌握大數(shù)據(jù)的3種主要數(shù)據(jù)類型0熟悉典型的大數(shù)據(jù)應(yīng)用開發(fā)流程0 了解典型的數(shù)據(jù)科學(xué)算法應(yīng)用流程教學(xué)設(shè)計(jì)1、教學(xué)思路:(1)通過(guò)本章的學(xué)習(xí),使讀者掌握計(jì)算機(jī)操作系統(tǒng)的基本知識(shí),建立 對(duì)大數(shù)據(jù)技術(shù)基礎(chǔ)的整體印象;(2)介紹Linux操作系統(tǒng)經(jīng)歷的3個(gè)主要發(fā)展階段和 目前Linux的主要應(yīng)用場(chǎng)景;(3)回顧編程語(yǔ)言的發(fā)展,詳細(xì)介紹編程語(yǔ)言的種類, 并講解了當(dāng)前流行的一門編程語(yǔ)言Python語(yǔ)言的特點(diǎn)和優(yōu)勢(shì);(4)簡(jiǎn)述傳統(tǒng)SQL數(shù) 據(jù)庫(kù)的發(fā)展歷程,講解其技術(shù)特點(diǎn);(5)比較NoSQL和NewSQL數(shù)據(jù)庫(kù)的技術(shù)特色 和特點(diǎn);(6)分別講述Hadoop和Spark大數(shù)據(jù)平臺(tái)的基本

10、構(gòu)架和工作原理;(7)簡(jiǎn) 述大數(shù)據(jù)應(yīng)用開發(fā)的一般流程及典型數(shù)據(jù)科學(xué)算法的應(yīng)用流程。2、教學(xué)手段:(1)通過(guò)課堂討論提出問(wèn)題,活躍課堂氣氛并激發(fā)學(xué)員的學(xué)習(xí)興趣; (2)深入講解知識(shí)點(diǎn)內(nèi)容,理論與案例相結(jié)合,在教學(xué)過(guò)程中掌握大數(shù)據(jù)分析的實(shí)踐 操作,通過(guò)豐富簡(jiǎn)單易上手的實(shí)例,讓學(xué)生能夠切實(shí)體會(huì)和掌握各種類型工具的特點(diǎn) 和應(yīng)用。教學(xué)內(nèi)容一、導(dǎo)入新課:大數(shù)據(jù)行業(yè)經(jīng)過(guò)最近幾年跨越式的發(fā)展,產(chǎn)生了一批與之相關(guān)的核心行業(yè)技術(shù),我們將其 統(tǒng)稱為“大數(shù)據(jù)技術(shù)”。這些經(jīng)典的、核心的行業(yè)技術(shù)就是本書的主要內(nèi)容。計(jì)算機(jī)作為促進(jìn)當(dāng) 代信息技術(shù)發(fā)展的重要工具,對(duì)社會(huì)、經(jīng)濟(jì)發(fā)展的影響越來(lái)越顯著,越發(fā)受到人們的重視,其操作 系

11、統(tǒng)也越來(lái)越龐大和復(fù)雜。因此,理解計(jì)算機(jī)操作系統(tǒng)的基礎(chǔ)知識(shí)是學(xué)習(xí)并掌握大數(shù)據(jù)技術(shù)知識(shí)的 前提,熟悉各種操作系統(tǒng)經(jīng)歷的發(fā)展階段對(duì)于更好的理解其理論和知識(shí)架構(gòu)奠定了基礎(chǔ)。大數(shù)據(jù)有幾個(gè)特性,最著名的是數(shù)據(jù)量(volume),速度(velocity),多樣性(variety)。除此以外,還有就是準(zhǔn)確 性(veracity),連通性(valence),和價(jià)值(value)。從操作系統(tǒng)的概念入手,簡(jiǎn)要分析了操作系統(tǒng)程 序和一般的應(yīng)用程序有什么區(qū)別和聯(lián)系,然后講解了誕生于網(wǎng)絡(luò)、成長(zhǎng)于網(wǎng)絡(luò)且成熟于網(wǎng)絡(luò)的 Linux操作系統(tǒng),并分別講述其經(jīng)歷的3個(gè)發(fā)展階段所具有的特點(diǎn)和目前Linux的主要應(yīng)用場(chǎng)景。隨 著計(jì)算機(jī)技

12、術(shù)的不斷發(fā)展和完善,編程語(yǔ)言已經(jīng)得到了長(zhǎng)足的發(fā)展,并被廣泛地應(yīng)用于實(shí)際,已 經(jīng)成為人們與計(jì)算機(jī)進(jìn)行深入“交流”的必需工具??偨Y(jié)介紹了目前市場(chǎng)上所用的主要編程語(yǔ)言 種類及其特點(diǎn),重點(diǎn)講解編寫簡(jiǎn)單,應(yīng)用廣泛,功能強(qiáng)大和更新速度最快的Python語(yǔ)言。SQL涵蓋數(shù)據(jù)的查詢、操作、定義和控制,是一個(gè)綜合的、通用的且簡(jiǎn)單易懂的數(shù)據(jù)庫(kù)綜合管 理語(yǔ)言,同時(shí)又是一種高度非過(guò)程化的語(yǔ)言,數(shù)據(jù)庫(kù)管理者只需要指出做什么而不需要指出怎么做, 即可完成對(duì)數(shù)據(jù)庫(kù)的管理。SQL可以實(shí)現(xiàn)對(duì)數(shù)據(jù)庫(kù)的全生命周期的全部操作,所以自產(chǎn)生之日起就 成了檢驗(yàn)關(guān)系型數(shù)據(jù)庫(kù)管理能力的試金石,并且SQL標(biāo)準(zhǔn)的每一次變更和完善都指導(dǎo)著關(guān)系型數(shù)

13、據(jù)庫(kù)產(chǎn)品的發(fā)展方向,并分述NoSQL數(shù)據(jù)庫(kù)、NewSQL數(shù)據(jù)庫(kù)的技術(shù)特色和特點(diǎn)。算法(Algorithm)是數(shù)學(xué)處理的靈魂和核心,也是實(shí)現(xiàn)現(xiàn)實(shí)事務(wù)數(shù)學(xué)化、公式化和邏輯化處理 的橋梁,可以說(shuō)算法是信息時(shí)代連通現(xiàn)實(shí)社會(huì)和虛擬世界的立交橋。本章內(nèi)容重點(diǎn)關(guān)注傳統(tǒng)算法和 大數(shù)據(jù)時(shí)代算法的區(qū)別,系統(tǒng)闡述兩種算法的本質(zhì)區(qū)別在于數(shù)據(jù)分析和數(shù)據(jù)科學(xué)。簡(jiǎn)要介紹大數(shù)據(jù)系統(tǒng)目前最為著名和流行的adoop平臺(tái)和Spark平臺(tái),分別介紹其主要模塊,平 臺(tái)基本特征和典型技術(shù)特點(diǎn)等。隨著大數(shù)據(jù)時(shí)代的到來(lái),我們不得不承認(rèn)如今數(shù)據(jù)量的激增越來(lái)越明顯,各種各樣的數(shù)據(jù)鋪天 蓋地的砸下來(lái),企業(yè)選擇相應(yīng)工具來(lái)存儲(chǔ)、分析與處理它們。那么在

14、大數(shù)據(jù)時(shí)代中,都有哪些數(shù)據(jù) 類型?結(jié)構(gòu)化數(shù)據(jù):能夠用數(shù)據(jù)或統(tǒng)一的結(jié)構(gòu)加以表示,人們稱之為結(jié)構(gòu)化數(shù)據(jù),如數(shù)字、符號(hào)。傳 統(tǒng)的關(guān)系數(shù)據(jù)模型,行數(shù)據(jù),存儲(chǔ)于數(shù)據(jù)庫(kù),可用二維表結(jié)構(gòu)表示。半結(jié)構(gòu)化數(shù)據(jù):所謂半結(jié)構(gòu)化數(shù)據(jù),就是介于完全結(jié)構(gòu)化數(shù)據(jù)(如關(guān)系型數(shù)據(jù)庫(kù),面向?qū)ο髷?shù) 據(jù)庫(kù)中的數(shù)據(jù))和完全無(wú)結(jié)構(gòu)的數(shù)據(jù)(如聲音、圖像文件等)之間的數(shù)據(jù),XML、HTML文檔就屬 于半結(jié)構(gòu)化數(shù)據(jù)。它一般是自描述的,數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容混在一起,沒有明顯的區(qū)分。非結(jié)構(gòu)化數(shù)據(jù)庫(kù)是指其字段長(zhǎng)度可變,并且每隔字段的記錄又可以由可重復(fù)或不可重復(fù)的子字 段構(gòu)成的數(shù)據(jù)庫(kù),用它不僅可以處理結(jié)構(gòu)化數(shù)據(jù)(如數(shù)字、符號(hào)等信息)而且更適合處理非結(jié)構(gòu)化

15、 數(shù)據(jù)(全文文本,圖像,聲音,影視,超媒體等信息)。現(xiàn)實(shí)中,大數(shù)據(jù)的數(shù)據(jù)類型滲透在日常生活中的各個(gè)方面?,F(xiàn)如今大數(shù)據(jù)更接近于某個(gè)群體行 為數(shù)據(jù),它是全面的數(shù)據(jù)、準(zhǔn)確的數(shù)據(jù)、有價(jià)值的數(shù)據(jù)。這些新類型數(shù)據(jù)相信大家都很熟悉,它們 已經(jīng)比傳統(tǒng)數(shù)據(jù)類型更深入地走進(jìn)了我們生活。1、一些記錄是以模擬形式方式存在的,或者以數(shù)據(jù)形式存在但是存貯在本地,不是公開數(shù)據(jù)資 源,沒有開放給互聯(lián)網(wǎng)用戶,例如音樂、照片、視頻、監(jiān)控錄像等影音資料。現(xiàn)在這些數(shù)據(jù)不但數(shù) 據(jù)量巨大,并且共享到了互聯(lián)網(wǎng)上,面對(duì)所有互聯(lián)網(wǎng)用戶,其數(shù)量之大是前所未有。2、移動(dòng)互聯(lián)網(wǎng)出現(xiàn)后,移動(dòng)設(shè)備的很多傳感器收集了大量的用戶點(diǎn)擊行為數(shù)據(jù),它們每天產(chǎn)生

16、了大量的點(diǎn)擊數(shù)據(jù),這些數(shù)據(jù)被某些公司所有擁有,形成用戶大量行為數(shù)據(jù)。3、電子地圖生了大量的數(shù)據(jù)流數(shù)據(jù),這些數(shù)據(jù)不同于傳統(tǒng)數(shù)據(jù),傳統(tǒng)數(shù)據(jù)代表一個(gè)屬性或一個(gè) 度量值,但是這些地圖產(chǎn)生的流數(shù)據(jù)代表著一種行為、一種習(xí)慣,這些流數(shù)據(jù)經(jīng)頻率分析后會(huì)產(chǎn)生。4、進(jìn)入了社交網(wǎng)絡(luò)的年代后,互聯(lián)網(wǎng)行為主要由用戶參與創(chuàng)造,大量的互聯(lián)網(wǎng)用戶創(chuàng)造出海量 的社交行為數(shù)據(jù),這些數(shù)據(jù)是過(guò)去未曾出現(xiàn)的。其揭示了人們行為特點(diǎn)和生活習(xí)慣。5、電商戶崛起產(chǎn)來(lái)了大量網(wǎng)上交易數(shù)據(jù),包含支付數(shù)據(jù),查詢行為,物流運(yùn)輸、購(gòu)買喜好,點(diǎn) 擊順序,評(píng)價(jià)行為等,其是信息流和資金流數(shù)據(jù)。6、傳統(tǒng)的互聯(lián)網(wǎng)入口轉(zhuǎn)向搜索引擎之后,用戶的搜索行為和提問(wèn)行為聚集了

17、海量數(shù)據(jù)。單位存 儲(chǔ)價(jià)格的下降也為存儲(chǔ)這些數(shù)據(jù)提供了經(jīng)濟(jì)上的可能。二、內(nèi)容大綱:具體可結(jié)合本章的PPT課件進(jìn)行配合講解。計(jì)算機(jī)操作系統(tǒng)什么是操作系統(tǒng)Linux操作系統(tǒng)編程語(yǔ)言編程語(yǔ)言的發(fā)展與種類Python 語(yǔ)言數(shù)據(jù)庫(kù)SQL數(shù)據(jù)庫(kù)的發(fā)展與成熟NoSQL數(shù)據(jù)庫(kù)及其特點(diǎn)NoSQL數(shù)據(jù)庫(kù)的分類NewSQL 數(shù)據(jù)庫(kù)算法什么是算法大數(shù)據(jù)時(shí)代的算法大數(shù)據(jù)系統(tǒng)Hadoop 平臺(tái)Spark 平臺(tái)大數(shù)據(jù)的數(shù)據(jù)類型結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)大數(shù)據(jù)應(yīng)用的開發(fā)流程數(shù)據(jù)科學(xué)算法的應(yīng)用流程三、討論問(wèn)題:2-1什么是操作系統(tǒng)的核心。操作系統(tǒng)核心的主要作用有哪些?2-2 Linux操作系統(tǒng)的優(yōu)勢(shì)和主要的特點(diǎn)有哪些?2

18、-3何為靜態(tài)編程語(yǔ)言,何為動(dòng)態(tài)編程語(yǔ)言??jī)烧叩穆?lián)系和不同有哪些?2-4簡(jiǎn)述傳統(tǒng)SQL數(shù)據(jù)庫(kù)的發(fā)展歷程。2-5 SQL數(shù)據(jù)庫(kù)的技術(shù)特點(diǎn)有哪些?2-6 NoSQL和NewSQL數(shù)據(jù)庫(kù)的技術(shù)特色和技術(shù)特點(diǎn)有哪些?2-7簡(jiǎn)述Hadoop和Spark大數(shù)據(jù)平臺(tái)的基本構(gòu)架和工作原理。2-8簡(jiǎn)述大數(shù)據(jù)開發(fā)的一般流程。思考及作 業(yè)一、歸納小結(jié):課堂上注意講、學(xué)、練相結(jié)合,注重以學(xué)生為主體,積極與學(xué)生互動(dòng),調(diào)動(dòng)學(xué)生 的學(xué)習(xí)主動(dòng)性和學(xué)習(xí)興趣,培養(yǎng)學(xué)生發(fā)現(xiàn)問(wèn)題、解決問(wèn)題的實(shí)際能力。采用任務(wù)驅(qū)動(dòng),問(wèn)題牽引的方式,提出問(wèn)題,之后帶動(dòng)學(xué)生在教師的講解下一步 步尋找解決方法,再歸納總結(jié)出知識(shí)點(diǎn),結(jié)合教學(xué)課件和實(shí)際案例,尋找

19、合適的切入 點(diǎn),以講授和實(shí)例分析為主的形式完成教學(xué),讓讀者對(duì)理論知識(shí)的掌握更直接、更快 速。二、拓展延伸:(1)為什么說(shuō)操作系統(tǒng)是整個(gè)計(jì)算機(jī)硬件系統(tǒng)的“CEO”?這個(gè)神通廣大的操作 系統(tǒng)都有哪些“神通”之處?(2)NoSQL數(shù)據(jù)庫(kù)的特點(diǎn)都有哪些? NoSQL數(shù)據(jù)庫(kù)有哪些類型?(3)什么是算法?傳統(tǒng)的數(shù)據(jù)算法與大數(shù)據(jù)時(shí)代的數(shù)據(jù)算法有什么本質(zhì)區(qū)別?(4)舉例說(shuō)明機(jī)器學(xué)習(xí)具有顯著的技術(shù)特征和計(jì)算特色,以及主要包括的技術(shù)優(yōu) 勢(shì)有哪些。(5)Hadoop平臺(tái)的三大組成是什么?在當(dāng)前經(jīng)濟(jì)、商業(yè)、技術(shù)領(lǐng)域里有什么適 應(yīng)性優(yōu)勢(shì)?(6)大數(shù)據(jù)的主要數(shù)據(jù)類型主要有哪些?請(qǐng)分別說(shuō)明其特點(diǎn)和主要應(yīng)用范圍。第3章 數(shù)據(jù)

20、采集與預(yù)處理課時(shí)內(nèi)容數(shù)據(jù)采集與預(yù)處理授課時(shí)間90分鐘課時(shí)2教學(xué)目標(biāo)本章詳細(xì)闡述數(shù)據(jù)采集與預(yù)處理技術(shù),包括大數(shù)據(jù)的數(shù)據(jù)采集方法、數(shù)據(jù)來(lái)源、數(shù)據(jù) 預(yù)處理技術(shù)。教學(xué)重點(diǎn)0 了解大數(shù)據(jù)的來(lái)源0掌握數(shù)據(jù)的采集方法0掌握數(shù)據(jù)預(yù)處理流程教學(xué)難點(diǎn)0 了解大數(shù)據(jù)的來(lái)源0掌握數(shù)據(jù)的采集方法與數(shù)據(jù)預(yù)處理的主要流程教學(xué)設(shè)計(jì)1、教學(xué)思路:(1)從傳統(tǒng)商業(yè)數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)和物聯(lián)網(wǎng)數(shù)據(jù)3個(gè)主要方面剖析大 數(shù)據(jù)的來(lái)源,闡述各種大數(shù)據(jù)來(lái)源的特點(diǎn);(2)介紹多款數(shù)據(jù)采集工具,讓讀者全面 理解和掌握數(shù)據(jù)的采集方法,講解數(shù)據(jù)預(yù)處理的基本流程,介紹數(shù)據(jù)預(yù)處理所包含的 內(nèi)容和采用的方法,論述數(shù)據(jù)預(yù)處理在數(shù)據(jù)挖掘中的重要地位和作用。2、教

21、學(xué)手段:(1)通過(guò)課堂討論提出問(wèn)題,活躍課堂氣氛并激發(fā)學(xué)員的學(xué)習(xí)興趣; (2)深入講解知識(shí)點(diǎn)內(nèi)容,理論與案例相結(jié)合,在教學(xué)過(guò)程中掌握數(shù)據(jù)的采集方法和 數(shù)據(jù)預(yù)處理技術(shù)的目的和流程,通過(guò)豐富簡(jiǎn)單易上手的實(shí)例,讓學(xué)生能夠切實(shí)理解和 掌握數(shù)據(jù)采集與預(yù)處理的相關(guān)知識(shí)內(nèi)容。教學(xué)內(nèi)容一、導(dǎo)入新課:隨著信息時(shí)代的來(lái)臨,大數(shù)據(jù)對(duì)各行各業(yè)都帶來(lái)了較大的影響。企業(yè)、個(gè)人利用大數(shù)據(jù),給業(yè) 務(wù)和生活帶來(lái)了便利,在信息社會(huì)中,大多數(shù)行業(yè)的發(fā)展都離不開大數(shù)據(jù)的支持。在數(shù)據(jù)量非常大 的今天,如何以更高的效率獲取到分析所需要的數(shù)據(jù),如何利用這些數(shù)據(jù)反應(yīng)最真實(shí)的情況,是業(yè) 內(nèi)不斷探討的議題。大數(shù)據(jù)的來(lái)源非常廣泛,如信息管理系統(tǒng)、

22、網(wǎng)絡(luò)信息系統(tǒng)、物聯(lián)網(wǎng)系統(tǒng)、科學(xué) 實(shí)驗(yàn)系統(tǒng)等。本章從以下3個(gè)層面闡述了大數(shù)據(jù)的來(lái)源和主要特點(diǎn)。個(gè) 傳統(tǒng)商業(yè)數(shù)據(jù)是來(lái)自于企業(yè)ERP系統(tǒng)、各種POS終端及網(wǎng)上支付系統(tǒng)等業(yè)務(wù)系統(tǒng)的數(shù)據(jù),傳統(tǒng) 商業(yè)是主要的數(shù)據(jù)來(lái)源。個(gè) 互聯(lián)網(wǎng)數(shù)據(jù)是指網(wǎng)絡(luò)空間交互過(guò)程中產(chǎn)生的大量數(shù)據(jù),包括通信記錄及QQ、微信、微博等社交 媒體產(chǎn)生的數(shù)據(jù),其數(shù)據(jù)復(fù)雜且難以被利用。個(gè) 物聯(lián)網(wǎng)數(shù)據(jù)是除了人和服務(wù)器之外,在射頻識(shí)別、物品、設(shè)備、傳感器等節(jié)點(diǎn)產(chǎn)生的大量數(shù)據(jù), 包括射頻識(shí)別裝置、音頻采集器、視頻采集器、傳感器、全球定位設(shè)備、辦公設(shè)備、家用設(shè)備 和生產(chǎn)設(shè)備等產(chǎn)生的數(shù)據(jù)。數(shù)據(jù)采集技術(shù)是數(shù)據(jù)科學(xué)的重要組成部分,已廣泛應(yīng)用于國(guó)民經(jīng)濟(jì)和國(guó)防建

23、設(shè)的各個(gè)領(lǐng)域,并 且隨著科學(xué)技術(shù)的發(fā)展,尤其是計(jì)算機(jī)技術(shù)的發(fā)展和普及,數(shù)據(jù)采集技術(shù)具有更廣泛的發(fā)展前景。 大數(shù)據(jù)的采集技術(shù)為大數(shù)據(jù)處理的關(guān)鍵技術(shù)之一。安排在此章系統(tǒng)講解數(shù)據(jù)的采集方法十分必要, 能夠幫助讀者熟悉并掌握系統(tǒng)日志的采集方法、網(wǎng)頁(yè)數(shù)據(jù)的采集方法和其他數(shù)據(jù)的采集方法,使讀 者快速跨入大數(shù)據(jù)技術(shù)的大門,幫助大數(shù)據(jù)技術(shù)的初學(xué)者盡快了解大數(shù)據(jù)技術(shù)。簡(jiǎn)要介紹幾款采用分布式架構(gòu)的海量數(shù)據(jù)采集工具,對(duì)Scribe、Chukwa、Flume的基本架構(gòu)、 主要功能和對(duì)日志類數(shù)據(jù)的采集、存儲(chǔ)、分析和展示的全套解決方案展開描述,讓讀者系統(tǒng)理解系 統(tǒng)日志的采集方法。網(wǎng)絡(luò)數(shù)據(jù)采集稱為“研抓屏”、“數(shù)據(jù)挖掘”或

24、“網(wǎng)絡(luò)收割”,通過(guò)“網(wǎng)絡(luò)爬蟲”程序?qū)崿F(xiàn)。 網(wǎng)絡(luò)爬蟲一般是先“爬”到對(duì)應(yīng)的研上,再把需要的信息“鏟”下來(lái)。網(wǎng)絡(luò)爬蟲采集和處理數(shù)據(jù)包括采集模塊、數(shù)據(jù)處理模塊、數(shù)據(jù)模塊這3個(gè)重要模塊。了解爬蟲的基本工作流程,并掌握URL 抓取策略,我們?cè)趯?shí)際使用網(wǎng)絡(luò)爬蟲時(shí)可根據(jù)具體需要選擇適合的策略即可。另外,對(duì)企業(yè)生產(chǎn)經(jīng)營(yíng)數(shù)據(jù)或?qū)W科研究數(shù)據(jù)等保密性要求較高的數(shù)據(jù),可以通過(guò)與企業(yè)或研究 機(jī)構(gòu)合作,使用特定系統(tǒng)接口等相關(guān)方式采集。解決大數(shù)據(jù)的隱私問(wèn)題是數(shù)據(jù)采集技術(shù)的重要目標(biāo) 之一?,F(xiàn)階段的醫(yī)療機(jī)構(gòu)數(shù)據(jù)更多來(lái)源于內(nèi)部,外部的數(shù)據(jù)沒有得到很好的應(yīng)用。對(duì)外部數(shù)據(jù),醫(yī) 療機(jī)構(gòu)可以考慮借助如百度、阿里、騰訊等公司第三方數(shù)據(jù)平臺(tái)

25、解決數(shù)據(jù)采集難題。大數(shù)據(jù)并不在“大”,而在于“有用”,數(shù)據(jù)質(zhì)量比數(shù)量更為重要,然而數(shù)據(jù)通常并非完美。 準(zhǔn)確、高質(zhì)量的數(shù)據(jù)是大數(shù)據(jù)產(chǎn)生價(jià)值的有力保證。在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)質(zhì)量的優(yōu)劣直接影響數(shù) 據(jù)價(jià)值的高低,進(jìn)而影響人們的分析和決策。因此,數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘前必不可少的準(zhǔn)備工作, 是數(shù)據(jù)挖掘中非常關(guān)鍵的一步。數(shù)據(jù)預(yù)處理通過(guò)對(duì)數(shù)據(jù)格式和內(nèi)容的調(diào)整,使數(shù)據(jù)更符合挖掘的需 要,從而保證數(shù)據(jù)挖掘的正解性和有效性。我們首先要弄清什么是影響數(shù)據(jù)質(zhì)量的因素,數(shù)據(jù)質(zhì)量 問(wèn)題可能發(fā)生在大數(shù)據(jù)處理流程的每一個(gè)階段,尤其是在數(shù)據(jù)采集和集成階段最容易出現(xiàn)低質(zhì)量的 數(shù)據(jù),從而影響后續(xù)的建模分析和挖掘,最終出現(xiàn)錯(cuò)誤的分析結(jié)

26、果,引起決策失誤。評(píng)估數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)是衡量數(shù)據(jù)在某一方面的性質(zhì),如準(zhǔn)確性、完整性、一致性、及時(shí)性、可 信性、可解釋性、重復(fù)性、關(guān)聯(lián)性等。它們反映了數(shù)據(jù)質(zhì)量的特性和用戶的需求。列舉其中幾個(gè)比 較重要的特性,分別描述它們的含義和用途。數(shù)據(jù)預(yù)處理的主要流程包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約等。經(jīng)過(guò)這些處理步 驟,我們可以從大量的數(shù)據(jù)屬性中提取出一部分對(duì)目標(biāo)輸出有重要影響的屬性,降低源數(shù)據(jù)的維 數(shù),去除噪聲等,為數(shù)據(jù)挖掘算法提供干凈、準(zhǔn)確且更有針對(duì)性的數(shù)據(jù),減少挖掘算法的數(shù)據(jù)處 理量,改進(jìn)數(shù)據(jù)的質(zhì)量,提高挖掘效率。二、內(nèi)容大綱:具體可結(jié)合本章的PPT課件進(jìn)行配合講解。大數(shù)據(jù)的來(lái)源傳統(tǒng)商業(yè)數(shù)據(jù)互

27、聯(lián)網(wǎng)數(shù)據(jù)物聯(lián)網(wǎng)數(shù)據(jù)數(shù)據(jù)的采集方法系統(tǒng)日志的采集方法網(wǎng)頁(yè)數(shù)據(jù)的采集方法其他數(shù)據(jù)的采集方法數(shù)據(jù)預(yù)處理影響數(shù)據(jù)質(zhì)量的因素?cái)?shù)據(jù)預(yù)處理的目的數(shù)據(jù)預(yù)處理的流程三、討論問(wèn)題:3-1大數(shù)據(jù)的來(lái)源有哪些?3-2針對(duì)不同類型的數(shù)據(jù),采用什么樣的采集方法?3-3數(shù)據(jù)預(yù)處理的目的是什么?3-4數(shù)據(jù)清洗需要清洗哪些數(shù)據(jù),應(yīng)使用哪些方法?3-5數(shù)據(jù)集成過(guò)程中需要處理的問(wèn)題有哪些?歸納小結(jié):大數(shù)據(jù)技術(shù)的體系龐大且復(fù)雜,基礎(chǔ)的技術(shù)包含數(shù)據(jù)的采集、數(shù)據(jù)預(yù)處理、分布 式存儲(chǔ)、NoSQL數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、機(jī)器學(xué)習(xí)、并行計(jì)算、可視化等各種技術(shù)范疇和 不同的技術(shù)層面。首先給出一個(gè)通用化的大數(shù)據(jù)處理框架,主要分為下面幾個(gè)方面: 數(shù)據(jù)采集

28、與預(yù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)清洗、數(shù)據(jù)查詢分析和數(shù)據(jù)可視化。對(duì)于各種來(lái)源的數(shù)據(jù),包括移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)、社交網(wǎng)絡(luò)的數(shù)據(jù)等,這些結(jié)構(gòu)化和 非結(jié)構(gòu)化的海量數(shù)據(jù)是零散的,也就是所謂的數(shù)據(jù)孤島,此時(shí)的這些數(shù)據(jù)并沒有什么 意義,數(shù)據(jù)采集就是將這些數(shù)據(jù)寫入數(shù)據(jù)倉(cāng)庫(kù)中,把零散的數(shù)據(jù)整合在一起,對(duì)這些 數(shù)據(jù)綜合起來(lái)進(jìn)行分析。數(shù)據(jù)采集包括文件日志的采集、數(shù)據(jù)庫(kù)日志的采集、關(guān)系型 數(shù)據(jù)庫(kù)的接入和應(yīng)用程序的接入等。在數(shù)據(jù)量比較小的時(shí)候,可以寫個(gè)定時(shí)的腳本將 日志寫入存儲(chǔ)系統(tǒng),但隨著數(shù)據(jù)量的增長(zhǎng),這些方法無(wú)法提供數(shù)據(jù)安全保障,并且運(yùn) 維困難,需要更強(qiáng)壯的解決方案。思考及作 業(yè)讀者通過(guò)本章的系統(tǒng)學(xué)習(xí),課堂上注意講、學(xué)、練相結(jié)合

29、,注重以學(xué)生為主體, 積極與學(xué)生互動(dòng),調(diào)動(dòng)學(xué)生的學(xué)習(xí)主動(dòng)性和學(xué)習(xí)興趣,培養(yǎng)學(xué)生發(fā)現(xiàn)問(wèn)題、解決問(wèn)題 的實(shí)際能力。采用任務(wù)驅(qū)動(dòng),問(wèn)題牽引的方式,提出問(wèn)題,之后帶動(dòng)學(xué)生在教師的講解下一步 步尋找解決方法,再歸納總結(jié)出知識(shí)點(diǎn),結(jié)合教學(xué)課件和實(shí)際案例,尋找合適的切入 點(diǎn),以講授和實(shí)例分析為主的形式完成教學(xué),讓讀者對(duì)理論知識(shí)的掌握更直接、更快 速。在掌握了數(shù)據(jù)采集的方法和數(shù)據(jù)預(yù)處理的技術(shù)方法后,才能在龐大而復(fù)雜的數(shù)據(jù) 中剔除有殘缺的、虛假的、過(guò)時(shí)的數(shù)據(jù),為決策帶來(lái)高回報(bào),最終獲得高質(zhì)量的分析 挖掘結(jié)果。二、拓展延伸:(1)網(wǎng)頁(yè)數(shù)據(jù)的采集工具有哪些?(2)簡(jiǎn)述數(shù)據(jù)預(yù)處理的技術(shù)的必要性和任務(wù)。第4章 大數(shù)據(jù)存

30、儲(chǔ)與管理課時(shí)內(nèi)容大數(shù)據(jù)存儲(chǔ)模式與管理應(yīng)用授課時(shí)間90分鐘課時(shí)教學(xué)目標(biāo)本章首先討論數(shù)據(jù)的存儲(chǔ)介質(zhì),然后介紹常見的存儲(chǔ)模式,以及大數(shù)據(jù)時(shí)代的存儲(chǔ)管 理系統(tǒng)。教學(xué)重點(diǎn)0掌握數(shù)據(jù)的存儲(chǔ)模式0理解并掌握大數(shù)據(jù)時(shí)代的存儲(chǔ)管理系統(tǒng)教學(xué)難點(diǎn)0理解數(shù)據(jù)存儲(chǔ)的概念和種類0 熟練掌握常用的3種數(shù)據(jù)存儲(chǔ)模式0理解分布式平臺(tái)存儲(chǔ)大數(shù)據(jù)的意義和優(yōu)勢(shì),掌握分布式文件系統(tǒng)基礎(chǔ)架構(gòu)教學(xué)設(shè)計(jì)1、教學(xué)思路:(1)介紹早期的存儲(chǔ)介質(zhì)和目前常見的數(shù)據(jù)存儲(chǔ)介質(zhì)種類及其特點(diǎn); (2)簡(jiǎn)述數(shù)據(jù)常見的3種存儲(chǔ)模式,列舉各種存儲(chǔ)模式的優(yōu)缺點(diǎn)和適用場(chǎng)景;(3) 在大數(shù)據(jù)時(shí)代,需要進(jìn)行存儲(chǔ)技術(shù)的變革,采用分布式平臺(tái)存儲(chǔ)大數(shù)據(jù),講解分布式 文件系統(tǒng)的

31、基礎(chǔ)架構(gòu);(4)描繪數(shù)據(jù)庫(kù)家族圖譜,講解數(shù)據(jù)庫(kù)的種類和特點(diǎn),通過(guò)數(shù) 據(jù)庫(kù)提供的多種方式來(lái)管理數(shù)據(jù)庫(kù)里的數(shù)據(jù)。2、教學(xué)手段:(1)通過(guò)課堂討論提出問(wèn)題,活躍課堂氣氛并激發(fā)學(xué)員的學(xué)習(xí)興趣; (2)深入講解知識(shí)點(diǎn)內(nèi)容,理論與案例相結(jié)合,引入常見的數(shù)據(jù)存儲(chǔ)模式,通過(guò)豐富 簡(jiǎn)單易上手的實(shí)例,讓學(xué)生能夠切實(shí)理解和掌握大數(shù)據(jù)的存儲(chǔ)管理知識(shí)。教學(xué)內(nèi)容一、導(dǎo)入新課:在大數(shù)據(jù)時(shí)代的背景下,海量的數(shù)據(jù)整理成為了各個(gè)企業(yè)急需解決的問(wèn)題。對(duì)于企業(yè)來(lái)說(shuō),數(shù) 據(jù)對(duì)于戰(zhàn)略和業(yè)務(wù)連續(xù)性都十分重要,它是業(yè)務(wù)文檔、計(jì)劃、用戶數(shù)據(jù)和財(cái)務(wù)信息的積累,是任何 業(yè)務(wù)基礎(chǔ)設(shè)施的核心組件。云計(jì)算技術(shù)、物聯(lián)網(wǎng)等技術(shù)快速發(fā)展,多樣化已經(jīng)成為數(shù)據(jù)信

32、息的一項(xiàng) 顯著特點(diǎn),為充分發(fā)揮信息應(yīng)用價(jià)值,有效存儲(chǔ)已經(jīng)成為人們關(guān)注的熱點(diǎn)。為了有效應(yīng)對(duì)現(xiàn)實(shí)世界 中復(fù)雜多樣性的大數(shù)據(jù)處理需求,需要針對(duì)不同的大數(shù)據(jù)應(yīng)用特征,從多個(gè)角度、多個(gè)層次對(duì)大數(shù) 據(jù)進(jìn)行存儲(chǔ)和管理。管理大數(shù)據(jù)的關(guān)鍵是制定戰(zhàn)略,以高自動(dòng)化、高可靠、高成本效益的方式歸檔 數(shù)據(jù)。大數(shù)據(jù)現(xiàn)象意味著企業(yè)機(jī)構(gòu)應(yīng)對(duì)大量數(shù)據(jù),以及各種數(shù)據(jù)格式的挑戰(zhàn)。多樣化作為有效方式 而在各行各業(yè)興起,是一種涉及各種產(chǎn)品來(lái)支持?jǐn)?shù)據(jù)管理戰(zhàn)略的數(shù)據(jù)存儲(chǔ)模式。這些產(chǎn)品包括自動(dòng) 化、磁盤和重復(fù)數(shù)據(jù)刪除、軟件,以及備份和歸檔。支撐這一方式的原則就是:特定類型的數(shù)據(jù)堅(jiān) 持使用合適的存儲(chǔ)介質(zhì),在現(xiàn)實(shí)中需要一套與各種功能相匹配的解決方

33、案。本章綜述了基于新型存儲(chǔ)的大數(shù)據(jù)存儲(chǔ)管理技術(shù),分析了現(xiàn)有大數(shù)據(jù)存儲(chǔ)技術(shù)的局限性,介紹 了新型存儲(chǔ)的特點(diǎn)和發(fā)展概況,總結(jié)了基于新型存儲(chǔ)的大數(shù)據(jù)存儲(chǔ)架構(gòu)、基于新型存儲(chǔ)的大數(shù)據(jù)存 儲(chǔ)管理等方向的研究現(xiàn)狀,在此基礎(chǔ)上給出了基于新型存儲(chǔ)的大數(shù)據(jù)存儲(chǔ)與管理的若干未來(lái)研究方 向。目前,大數(shù)據(jù)面臨的存儲(chǔ)管理問(wèn)題主要體現(xiàn)在:種類和來(lái)源多樣化、存儲(chǔ)管理復(fù)雜、對(duì)數(shù)據(jù)服 務(wù)的種類和水平要求越來(lái)越高等。目前,大數(shù)據(jù)主要來(lái)源于搜索引擎服務(wù)、電子商務(wù)、社交網(wǎng)絡(luò)、 音視頻、在線服務(wù)、個(gè)人數(shù)據(jù)業(yè)務(wù)、地理信息數(shù)據(jù)、傳統(tǒng)企業(yè)、公共機(jī)構(gòu)等領(lǐng)域。因此數(shù)據(jù)呈現(xiàn)方 法眾多,可以是結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)形態(tài),不僅使原有的存儲(chǔ)模式

34、無(wú)法滿足數(shù)據(jù)時(shí) 代的需求,還導(dǎo)致存儲(chǔ)管理更加復(fù)雜。針對(duì)大數(shù)據(jù)高效存儲(chǔ)與管理問(wèn)題,目前除了 Hadoop技術(shù)之外,學(xué)術(shù)界和工業(yè)界也提出了一些其 他的設(shè)計(jì),包括以NoSQL數(shù)據(jù)庫(kù)為代表的大規(guī)模分布式數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì)、基于動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器 (dynamic random access memory, DRAM)的內(nèi)存數(shù)據(jù)庫(kù)技術(shù)等。但現(xiàn)有的NoSQL分布式數(shù)據(jù)庫(kù)技術(shù)仍以磁盤存儲(chǔ)或者“磁盤+閃存flash memory)”混合存儲(chǔ)的方式存儲(chǔ)數(shù)據(jù),本質(zhì)上還是傳統(tǒng) 的“CPUDRAM二級(jí)存儲(chǔ)”的存儲(chǔ)架構(gòu),依然存在著內(nèi)存和磁盤之間的“存儲(chǔ)墻”問(wèn)題,難以 從本質(zhì)上解決大數(shù)據(jù)實(shí)時(shí)存取的問(wèn)題。此外,由于DRAM能耗

35、和成本較高,也限制了其在大規(guī)模數(shù) 據(jù)處理中的應(yīng)用。由此可見,如何高效地存儲(chǔ)大數(shù)據(jù)并支持實(shí)時(shí)大數(shù)據(jù)處理與分析是大數(shù)據(jù)技術(shù)發(fā) 展面臨的首要問(wèn)題。二、內(nèi)容大綱:具體可結(jié)合本章的PPT課件進(jìn)行配合講解。數(shù)據(jù)存儲(chǔ)概述數(shù)據(jù)的存儲(chǔ)介質(zhì)數(shù)據(jù)的存儲(chǔ)模式大數(shù)據(jù)時(shí)代的存儲(chǔ)管理系統(tǒng)文件系統(tǒng)分布式文件系統(tǒng)數(shù)據(jù)庫(kù)鍵-值數(shù)據(jù)庫(kù)分布式數(shù)據(jù)庫(kù)關(guān)系型數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)文檔數(shù)據(jù)庫(kù)圖形數(shù)據(jù)庫(kù)云存儲(chǔ)三、討論問(wèn)題:4-1關(guān)系型存儲(chǔ)系統(tǒng)有哪些?4-2非關(guān)系型存儲(chǔ)系統(tǒng)有哪些,它們的特點(diǎn)是什么?4-3描述你對(duì)云存儲(chǔ)的認(rèn)識(shí)。一、歸納小結(jié):思考及作 業(yè)本章深入講解大數(shù)據(jù)存儲(chǔ)與管理,重點(diǎn)介紹大數(shù)據(jù)時(shí)代數(shù)據(jù)庫(kù)存儲(chǔ)技術(shù)的發(fā)展 和變化,讓初學(xué)者了解大數(shù)據(jù)時(shí)代

36、的數(shù)據(jù)存儲(chǔ)和管理技術(shù)。目前原有的存儲(chǔ)模式逐 漸跟不上時(shí)代發(fā)展的步伐,無(wú)法滿足大數(shù)據(jù)時(shí)代的需求,導(dǎo)致信息處理技術(shù)無(wú)法承載 信息的負(fù)荷量。這就需要對(duì)數(shù)據(jù)的存儲(chǔ)技術(shù)和存儲(chǔ)模式進(jìn)行創(chuàng)新與研究,跟上數(shù)字 化存儲(chǔ)的技術(shù)的發(fā)展步伐,給用戶提供一個(gè)具有高質(zhì)量的數(shù)據(jù)存儲(chǔ)體驗(yàn)。二、拓展延伸:(1)常用的數(shù)據(jù)存儲(chǔ)和管理手段有哪些?(2)學(xué)習(xí)并討論華為數(shù)據(jù)存儲(chǔ)與智能管理的優(yōu)點(diǎn)。(3)管理大數(shù)據(jù)存儲(chǔ)有哪些技巧?課時(shí)內(nèi)容大數(shù)據(jù)計(jì)算框架授課時(shí)間90分鐘課時(shí)2教學(xué)目標(biāo)本章討論批處理、流計(jì)算、交互式分析3種類別的框架,然后簡(jiǎn)要介紹大數(shù)據(jù)計(jì)算 框架的一些發(fā)展趨勢(shì),并詳細(xì)介紹MapReduce的批處理框架和Spark基于內(nèi)存的混

37、合計(jì)算框架。教學(xué)重點(diǎn)0理解并掌握MapReduce的計(jì)算模型、資源管理框架和編程特點(diǎn)0 掌握Spark的基本知識(shí)、基本特點(diǎn)和架框原理教學(xué)難點(diǎn)0理解處理框架按照所處理的數(shù)據(jù)狀態(tài)分為批處理框架、流式處理框架及交互式處 理框架3種計(jì)算框架0掌握MapReduce的計(jì)算模型、資源管理框架和編程特點(diǎn)0 理解并掌握Spark的基本知識(shí)、生態(tài)系統(tǒng)、基本特點(diǎn)和架框原理教學(xué)設(shè)計(jì)1、教學(xué)思路:(1)對(duì)大數(shù)據(jù)的分布式計(jì)算框架進(jìn)行詳細(xì)介紹(在實(shí)際應(yīng)用中,大數(shù) 據(jù)主要涉及3種計(jì)算框架,包括批處理、實(shí)時(shí)流式計(jì)算、交互式分析框架);(2)詳 細(xì)介紹MapReduce的批處理框架和Spark基于內(nèi)存的混合計(jì)算框架。2、教學(xué)手

38、段:(1)通過(guò)課堂討論提出問(wèn)題,活躍課堂氣氛并激發(fā)學(xué)員的學(xué)習(xí)興趣; (2)深入講解知識(shí)點(diǎn)內(nèi)容,理論與案例相結(jié)合,引入MapReduce的批處理框架和Spark 基于內(nèi)存的混合計(jì)算框架的相關(guān)理論知識(shí),讓學(xué)生能夠切實(shí)理解并掌握大數(shù)據(jù)計(jì)算框 架的基本知識(shí)。教學(xué)內(nèi)容一、導(dǎo)入新課:隨著大數(shù)據(jù)、云計(jì)算的到來(lái),各種業(yè)務(wù)都開始依賴大數(shù)據(jù),包括各互聯(lián)網(wǎng)公司也對(duì)大數(shù)據(jù)有了 前所未有的重視,目前的數(shù)據(jù)處理系統(tǒng)主要包括批處理系統(tǒng)和實(shí)時(shí)處理系統(tǒng),而且這些業(yè)務(wù)越來(lái)越 要求實(shí)時(shí)性,客戶使用云服務(wù)可以避免復(fù)雜的系統(tǒng)設(shè)計(jì)和設(shè)備的多次購(gòu)買費(fèi)用。計(jì)算機(jī)的基本工作 就是處理數(shù)據(jù),包括磁盤文件中的數(shù)據(jù),通過(guò)網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)流或數(shù)據(jù)包,數(shù)

39、據(jù)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù) 等。隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等技術(shù)得到越來(lái)越廣泛的應(yīng)用,數(shù)據(jù)規(guī)模不斷增加,TB、PB量級(jí)成為常態(tài), 對(duì)數(shù)據(jù)的處理已無(wú)法由單臺(tái)計(jì)算機(jī)完成,而只能由多臺(tái)機(jī)器共同承擔(dān)計(jì)算任務(wù)。而在分布式環(huán)境中 進(jìn)行大數(shù)據(jù)處理,除了與存儲(chǔ)系統(tǒng)打交道外,還涉及計(jì)算任務(wù)的分工,計(jì)算負(fù)荷的分配,計(jì)算機(jī)之 間的數(shù)據(jù)遷移等工作,并且要考慮計(jì)算機(jī)或網(wǎng)絡(luò)發(fā)生故障時(shí)的數(shù)據(jù)安全,情況要復(fù)雜得多。在大數(shù) 據(jù)時(shí)代,數(shù)據(jù)通常都是持續(xù)不斷動(dòng)態(tài)產(chǎn)生的。在很多場(chǎng)合,數(shù)據(jù)需要在非常短的時(shí)間內(nèi)得到處理, 并且還要考慮容錯(cuò)、擁塞控制等問(wèn)題,避免數(shù)據(jù)遺漏或重復(fù)計(jì)算。流計(jì)算框架則是針對(duì)這一類問(wèn)題 的解決方案。理解大數(shù)據(jù)的處理框架負(fù)責(zé)對(duì)系統(tǒng)中的

40、數(shù)據(jù)進(jìn)行計(jì)算,例如處理文件系統(tǒng)中存儲(chǔ)的數(shù) 據(jù),或處理剛剛從系統(tǒng)中獲取的流式數(shù)據(jù)。本章主要分析了當(dāng)前的計(jì)算框架,以此構(gòu)建基于云服務(wù)的大數(shù)據(jù)分析系統(tǒng),使其具有良好的 擴(kuò)展性、兼容性及大數(shù)據(jù)處理引擎的自適應(yīng)性選擇。處理框架按照所處理的數(shù)據(jù)狀態(tài)分為批處理 框架、流式處理框架及交互式處理框架。詳細(xì)介紹YMapReduce的批處理框架和Spark基于內(nèi)存 的混合計(jì)算框架,分別講解MapReduce的計(jì)算模型、資源管理框架和編程特點(diǎn),以及Spark的基本知識(shí)、生態(tài)系統(tǒng)、基本特點(diǎn)和架框原理。Hadoop最初主要包含分布式文件系統(tǒng)HDFS和計(jì)算框 架MapReduce兩部分,是從Nutch中獨(dú)立出來(lái)的項(xiàng)目。在2

41、.0版本中,又把資源管理和任務(wù)調(diào)度 功能從MapReduce中剝離形成YARN,使其他框架也可以像MapReduce那樣運(yùn)行在Hadoop之上。 與之前的分布式計(jì)算框架相比,Hadoop隱藏了很多繁瑣的細(xì)節(jié),如容錯(cuò)、負(fù)載均衡等,更便于使 用。Hadoop也具有很強(qiáng)的橫向擴(kuò)展能力,可以很容易地把新計(jì)算機(jī)接入到集群中參與計(jì)算。二、內(nèi)容大綱:具體可結(jié)合本章的PPT課件進(jìn)行配合講解。計(jì)算框架批處理框架流式處理框架交互式處理框架MapReduceMapReduce編程的特點(diǎn)MapReduce的計(jì)算模型MapReduce的資源管理框架SparkSpark的基本知識(shí)Spark的生態(tài)系統(tǒng)Spark的架構(gòu)與原理

42、Spark RDD的基本知識(shí)三、討論問(wèn)題:5-1大數(shù)據(jù)的計(jì)算框架有哪幾類?5-2 MapReduce的核心思想是什么?5-3請(qǐng)簡(jiǎn)單圖示MapReduce的基本工作原理。5-4 MRv1與YARN的不同之處有哪些?5-5 Spark相比Hadoop的優(yōu)勢(shì)在哪里?5-6 Spark大數(shù)據(jù)平臺(tái)涵蓋了哪些有用的大數(shù)據(jù)分析工具?一、歸納小結(jié):本章闡述了在實(shí)際應(yīng)用中,大數(shù)據(jù)主要涉及的3種計(jì)算框架,包括批處理、實(shí)時(shí) 流式計(jì)算、交互式分析框架,然后圖示MapReduce的基本工作原理,重點(diǎn)介紹了 MapReduce的核心思想、計(jì)算模型、資源管理框架和編程特點(diǎn),以及Spark的基本知思考及作 業(yè)識(shí)、生態(tài)系統(tǒng)、基

43、本特點(diǎn)和架框原理。簡(jiǎn)單分析Spark相比Hadoop的優(yōu)勢(shì),介紹了 Spark 大數(shù)據(jù)平臺(tái)所涵蓋的大數(shù)據(jù)分析工具。二、拓展延伸:請(qǐng)思考并討論Hadoop技術(shù)在移動(dòng)支付行業(yè)的應(yīng)用都有哪些。課時(shí)內(nèi)容數(shù)據(jù)挖掘授課時(shí)間135分鐘課時(shí)3教學(xué)目標(biāo)本章介紹大數(shù)據(jù)的關(guān)鍵核心技術(shù)一數(shù)據(jù)挖掘,重點(diǎn)對(duì)常用的數(shù)據(jù)挖掘算法進(jìn)行介紹, 為讀者未來(lái)的深入學(xué)習(xí)打下基礎(chǔ)。數(shù)據(jù)挖掘03沉2 Mining,DM)是一門多學(xué)科交叉應(yīng) 用技術(shù),對(duì)各行各業(yè)的決策支持活動(dòng)起著至關(guān)重要的作用。本章首先介紹數(shù)據(jù)挖掘的 基本概念、數(shù)據(jù)挖掘系統(tǒng)的組成,以及數(shù)據(jù)挖掘的對(duì)象與價(jià)值,然后介紹數(shù)據(jù)挖掘的 常用技術(shù)與工具,最后簡(jiǎn)單介紹數(shù)據(jù)挖掘的典型應(yīng)用。教

44、學(xué)重點(diǎn)0理解并掌握數(shù)據(jù)挖掘的概念和典型的數(shù)據(jù)挖掘系統(tǒng)組成0掌握數(shù)據(jù)挖掘常用的技術(shù)與工具教學(xué)難點(diǎn)0理解并掌握數(shù)據(jù)挖掘的概念和系統(tǒng)組成并體會(huì)其作用0掌握數(shù)據(jù)準(zhǔn)備及挖掘的一般過(guò)程0掌握數(shù)據(jù)挖掘的3種技術(shù)0熟悉數(shù)據(jù)挖掘常用的5種工具及特點(diǎn)0 了解數(shù)據(jù)挖掘的典型應(yīng)用教學(xué)設(shè)計(jì)1、教學(xué)思路:(1)引導(dǎo)學(xué)生培養(yǎng)從數(shù)據(jù)挖掘角度分析數(shù)據(jù)的意識(shí),運(yùn)用統(tǒng)計(jì)學(xué) 方法尋找蘊(yùn)藏在數(shù)據(jù)之中的規(guī)律,借助它解決學(xué)習(xí)和生活中的實(shí)際問(wèn)題;(2)通過(guò)圖 示知識(shí)挖掘的過(guò)程,引入數(shù)據(jù)挖掘的系統(tǒng)組成;(3)介紹數(shù)據(jù)挖掘的數(shù)據(jù)類型,分別 從技術(shù)價(jià)值、商業(yè)價(jià)值、行業(yè)價(jià)值、社會(huì)價(jià)值4個(gè)方面,對(duì)應(yīng)著“三重門”即“交 易門”“交互門”“公開市場(chǎng)門”來(lái)

45、具體探討數(shù)據(jù)挖掘的價(jià)值;(4)分析講解數(shù) 據(jù)挖掘常用的3種技術(shù):關(guān)聯(lián)分析、分類分析、聚類分析,以及各種技術(shù)的優(yōu)缺 點(diǎn);(5)介紹數(shù)據(jù)挖掘常用的5種工具:RapidMiner、WEKA、Orange、R語(yǔ)言、 Mining,以及各種數(shù)據(jù)挖掘的特點(diǎn);(6)論述數(shù)據(jù)挖掘在社交媒體、市場(chǎng)營(yíng)銷、科學(xué) 研究、電信、教育、醫(yī)學(xué)等領(lǐng)域的典型應(yīng)用,闡明數(shù)據(jù)挖掘技術(shù)對(duì)當(dāng)今社會(huì)的發(fā)展有 著不可替代的作用,而如何改善當(dāng)下數(shù)據(jù)挖掘技術(shù)中存在的問(wèn)題,進(jìn)一步提高數(shù)據(jù)挖 掘技術(shù)的質(zhì)量和效率,就成為數(shù)據(jù)挖掘技術(shù)進(jìn)步的方向。2、教學(xué)手段:(1)通過(guò)課堂討論提出問(wèn)題,活躍課堂氣氛并激發(fā)學(xué)員的學(xué)習(xí)興趣; (2)深入講解知識(shí)點(diǎn)內(nèi)容,理

46、論與案例相結(jié)合,在教學(xué)中,為了讓學(xué)生深刻體會(huì)數(shù)據(jù) 挖掘的意義和價(jià)值,鼓勵(lì)學(xué)生對(duì)數(shù)據(jù)進(jìn)行多角度加工與分析,找到規(guī)律或有用的信息, 用恰當(dāng)?shù)姆绞街庇^地表達(dá)出來(lái),學(xué)會(huì)搜集、分析身邊的數(shù)據(jù),用數(shù)據(jù)說(shuō)話,讓數(shù)據(jù)挖 掘更好地服務(wù)于生活與學(xué)習(xí)。教學(xué)內(nèi)容一、導(dǎo)入新課:隨著計(jì)算機(jī)與信息技術(shù)的飛速發(fā)展和深入普及,來(lái)自商業(yè)、醫(yī)療、科學(xué)、社會(huì)及日常生活中無(wú) 處不在的數(shù)據(jù),正以指數(shù)的方式無(wú)限增長(zhǎng),各行各業(yè)的數(shù)據(jù)規(guī)模已從68級(jí)別上升到TB、PB級(jí)別。 面臨如此快速擴(kuò)張的數(shù)據(jù)海洋,如何有效利用這一豐富數(shù)據(jù)中蘊(yùn)含的寶藏,已成為人們?cè)絹?lái)越關(guān)注 的焦點(diǎn)。面對(duì)全世界如此巨大的數(shù)據(jù)資源,傳統(tǒng)的數(shù)據(jù)分析工具和方法,已經(jīng)無(wú)法有效地為決策

47、者提 供其決策支持所需要的相關(guān)知識(shí),但各個(gè)行業(yè)又面臨著將這些數(shù)據(jù)資源轉(zhuǎn)換為有用的信息和知識(shí)的迫切需求。人們期望有這樣一種技術(shù),能從這些大量數(shù)據(jù)中去粗求精、去偽求真。這種期望和 需求使從數(shù)據(jù)庫(kù)中挖掘信息的核心技術(shù)一一數(shù)據(jù)挖掘應(yīng)運(yùn)而生??梢赃@樣說(shuō),數(shù)據(jù)挖掘其實(shí)就是 從大量數(shù)據(jù)中找出對(duì)人們有用的信息的過(guò)程。數(shù)據(jù)挖掘是數(shù)據(jù)庫(kù)研究、開發(fā)和應(yīng)用最活躍的分支。二、內(nèi)容大綱:具體可結(jié)合本章的PPT課件進(jìn)行配合講解。什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘的對(duì)象與價(jià)值數(shù)據(jù)挖掘的對(duì)象數(shù)據(jù)挖掘的價(jià)值數(shù)據(jù)挖掘常用的技術(shù)關(guān)聯(lián)分析分類分析聚類分析數(shù)據(jù)挖掘常用的工具RapidMinerWEKAOrangeR語(yǔ)言Mining數(shù)據(jù)挖掘的典型應(yīng)用

48、社交媒體領(lǐng)域的應(yīng)用市場(chǎng)營(yíng)銷領(lǐng)域的應(yīng)用科學(xué)研究領(lǐng)域的應(yīng)用電信領(lǐng)域的應(yīng)用教育領(lǐng)域的應(yīng)用醫(yī)學(xué)領(lǐng)域的應(yīng)用三、討論問(wèn)題:6-1數(shù)據(jù)挖掘的概念。6-2數(shù)據(jù)挖掘常用的技術(shù)有哪3種?其定義分別是什么?6-3關(guān)聯(lián)分析的步驟有哪幾個(gè)?6-4分類分析與聚類分析的區(qū)別有哪些?6-5數(shù)據(jù)挖掘有哪些常用的工具?各有什么優(yōu)缺點(diǎn)?一、歸納小結(jié):數(shù)據(jù)挖掘的應(yīng)用非常廣泛,只要該產(chǎn)業(yè)有分析價(jià)值與需求的數(shù)據(jù)庫(kù),皆可利用數(shù) 據(jù)挖掘工具進(jìn)行有目的的發(fā)掘分析。常見的應(yīng)用案例多發(fā)生在零售業(yè)、制造業(yè)、財(cái)務(wù) 金融保險(xiǎn)、通訊及醫(yī)療服務(wù)等領(lǐng)域。一些公司運(yùn)用數(shù)據(jù)挖掘的成功案例,顯示了數(shù)據(jù) 挖掘的強(qiáng)大生命力。思考及作 業(yè)數(shù)據(jù)挖掘技術(shù)對(duì)當(dāng)今社會(huì)的發(fā)展有著

49、不可替代的作用,而如何改善當(dāng)下數(shù)據(jù)挖掘 技術(shù)中存在的問(wèn)題,進(jìn)一步提高數(shù)據(jù)挖掘技術(shù)的質(zhì)量和效率,就成為數(shù)據(jù)挖掘技術(shù)進(jìn) 步的方向。二、拓展延伸:(1) 大數(shù)據(jù)挖掘分析在電力設(shè)備狀態(tài)評(píng)估中的應(yīng)用都有哪些?(2)數(shù)據(jù)挖掘未來(lái)的研究焦點(diǎn)集中在哪些方面?課時(shí)內(nèi)容數(shù)據(jù)可視化授課時(shí)間90分鐘課時(shí)2教學(xué)目標(biāo)本章介紹數(shù)據(jù)可視化技術(shù),講解數(shù)據(jù)可視化的相關(guān)概念和工具教學(xué)重點(diǎn)0理解可視化的含義0 了解可視化的發(fā)展歷程0 理解并掌握可視化的作用0 掌握數(shù)據(jù)可視化分類0 掌握數(shù)據(jù)可視化工具教學(xué)難點(diǎn)0理解可視化的含義和發(fā)展歷程0 理解并掌握數(shù)據(jù)可視化的作用0 掌握數(shù)據(jù)可視化的3種分類0 了解數(shù)據(jù)可視化的特性,掌握可視化工具的

50、基本應(yīng)用教學(xué)設(shè)計(jì)1、教學(xué)思路:(1)理解可視化的含義,可視化是一種使復(fù)雜信息能夠容易和快速被 人理解的手段,是一種聚焦在信息重要特征的信息壓縮,是可以放大人類感知的圖形 化表示方法;(2)縱觀數(shù)據(jù)可視化的發(fā)展歷程,人類對(duì)數(shù)據(jù)的需求由粗糙變精確、展 現(xiàn)形式由一維到多維、數(shù)據(jù)類型由簡(jiǎn)單到復(fù)雜、應(yīng)用領(lǐng)域由有限變豐富。我們很容易 發(fā)現(xiàn)不同時(shí)期數(shù)據(jù)的規(guī)模、精度、類型、來(lái)源是影響數(shù)據(jù)可視化形式的主要因素;政 治經(jīng)濟(jì)需求、商業(yè)化應(yīng)用和科學(xué)研究是數(shù)據(jù)可視化發(fā)展的重要推動(dòng)力;(3)理解并掌 握可視化的作用是可視化后的信息易于認(rèn)知和理解,能用一些簡(jiǎn)短的圖形體現(xiàn)那些復(fù) 雜信息,并以建設(shè)性方式討論結(jié)果,理解運(yùn)營(yíng)和結(jié)果

51、之間的連接,允許用戶去跟蹤運(yùn) 營(yíng)和整體業(yè)務(wù)結(jié)果之間的對(duì)接,并且管理者可以更容易地發(fā)現(xiàn)各種大數(shù)據(jù)集的市場(chǎng)變 化和趨勢(shì),與數(shù)據(jù)交互,可以及時(shí)帶來(lái)風(fēng)險(xiǎn)預(yù)警;(4)熟練掌握數(shù)據(jù)可視化的3種分 類:科學(xué)可視化、信息可視化、可視化分析學(xué);(5)簡(jiǎn)述數(shù)據(jù)可視化所必備的特性, 分別介紹4種數(shù)據(jù)可視化工具,入門級(jí)工具Excel;信息圖表工具Visem、Canva、Google Charts、Piktochart、Infogram、Venngage、Easel.ly;地圖工具 MapShaper、CartoDB、 mapbox、Map Stack;高級(jí)分析工具R語(yǔ)言、Data-Driven Documents (

52、數(shù)據(jù)驅(qū)動(dòng)文檔)、 Python;(6)以數(shù)字美食、空中的間諜為例,深入講解知識(shí)點(diǎn)內(nèi)容,理論 與案例相結(jié)合,幫助讀者更好掌握相關(guān)知識(shí)。2、教學(xué)手段:(1)通過(guò)課堂討論提出問(wèn)題,活躍課堂氣氛并激發(fā)學(xué)員的學(xué)習(xí)興趣; (2)不斷在實(shí)踐中創(chuàng)新與學(xué)習(xí),注重理論聯(lián)系實(shí)際,注重各學(xué)科交叉,利用商業(yè)、科 研、政治等領(lǐng)域的需求和發(fā)展來(lái)推動(dòng)大數(shù)據(jù)可視化學(xué)科的進(jìn)步。教學(xué)內(nèi)容一、導(dǎo)入新課:數(shù)據(jù)可視化是當(dāng)今時(shí)代的技術(shù)熱點(diǎn),并在一定程序上推進(jìn)了其他相關(guān)數(shù)據(jù)技術(shù)的發(fā)展和創(chuàng)新, 尤其是人們通過(guò)不同的可視化方法可以更好地發(fā)現(xiàn)整體數(shù)據(jù)的內(nèi)在意義和內(nèi)在聯(lián)系,為可能的數(shù)據(jù) 創(chuàng)新和數(shù)據(jù)服務(wù)提供強(qiáng)有力的支撐和幫助。數(shù)據(jù)可視化主要旨在借助于

53、圖形化手段,清晰有效地傳 達(dá)與溝通信息,它是一個(gè)處于不斷演變之中的概念,其邊界在不斷地?cái)U(kuò)大,主要指的是技術(shù)上較為 高級(jí)的技術(shù)方法,而這些技術(shù)方法允許利用圖形、圖像處理、計(jì)算機(jī)視覺以及用戶界面,通過(guò)表達(dá)、 建模以及對(duì)立體、表面、屬性以及動(dòng)畫的顯示,對(duì)數(shù)據(jù)加以可視化解釋,它是關(guān)于數(shù)據(jù)視覺表現(xiàn)形式的科學(xué)技術(shù)研究。內(nèi)容大綱:具體可結(jié)合本章的PPT課件進(jìn)行配合講解。什么是可視化可視化的含義可視化的發(fā)展歷程可視化的作用數(shù)據(jù)可視化及其分類科學(xué)可視化信息可視化可視化分析學(xué)數(shù)據(jù)可視化工具入門級(jí)工具信息圖表工具地圖工具高級(jí)分析工具數(shù)據(jù)可視化案例數(shù)字美食空中的間諜三、討論問(wèn)題:7-1數(shù)據(jù)可視化的意義是什么?7-2數(shù)

54、據(jù)可視化的發(fā)展現(xiàn)狀如何?7-3數(shù)據(jù)可視化的技術(shù)類型有哪些?7-4數(shù)據(jù)可視化的典型工具有哪些?思考及作 業(yè)一、歸納小結(jié):大數(shù)據(jù)可視化的實(shí)施是一系列數(shù)據(jù)的轉(zhuǎn)換過(guò)程。我們有原始數(shù)據(jù),通過(guò)對(duì)原始數(shù) 據(jù)進(jìn)行標(biāo)準(zhǔn)化、結(jié)構(gòu)化的處理,把它們整理成數(shù)據(jù)表。將這些數(shù)值轉(zhuǎn)換成視覺結(jié)構(gòu), 通過(guò)視覺的方式把它表現(xiàn)出來(lái)。例如將高中低的風(fēng)險(xiǎn)轉(zhuǎn)換成紅黃藍(lán)等色彩,數(shù)值轉(zhuǎn)換 成大小。將視覺結(jié)構(gòu)進(jìn)行組合,把它轉(zhuǎn)換成圖形傳遞給用戶,用戶通過(guò)人機(jī)交互的方 式進(jìn)行反向轉(zhuǎn)換,去更好地了解數(shù)據(jù)背后有什么問(wèn)題和規(guī)律。從技術(shù)上來(lái)說(shuō),大數(shù)據(jù) 可視化的實(shí)施步驟主要有四項(xiàng):明確需求,建設(shè)數(shù)據(jù)倉(cāng)庫(kù)模型,數(shù)據(jù)抽取、清洗、轉(zhuǎn) 換、加載(ETL),建立可視化

55、分析場(chǎng)景。在未來(lái)數(shù)據(jù)可視化的發(fā)展歷程中,數(shù)據(jù)的處理能力為核心,交互式可視化是新趨 勢(shì)。數(shù)據(jù)可視化使受眾與媒體的關(guān)系發(fā)生根本變化,得以感受到傳統(tǒng)報(bào)道難以揭示的 現(xiàn)象和規(guī)律。步入數(shù)據(jù)時(shí)代,“數(shù)據(jù)可視化”作為一種表達(dá)類型、生產(chǎn)類型、內(nèi)容類 型,愈發(fā)高頻地走進(jìn)受眾視野大數(shù)據(jù)時(shí)代,傳統(tǒng)的顯示技術(shù)已很難達(dá)到可以完美展示 出大規(guī)模、高緯度、非結(jié)構(gòu)化數(shù)據(jù)層出不窮數(shù)據(jù)的需求。二、拓展延伸:數(shù)據(jù)可視化未來(lái)的發(fā)展趨勢(shì)如何?以及它在現(xiàn)實(shí)生活中的主要應(yīng)用是什么?第8章 大數(shù)據(jù)與云計(jì)算課時(shí)內(nèi)容大數(shù)據(jù)與云計(jì)算授課時(shí)間90分鐘課時(shí)2教學(xué)目標(biāo)本章主要學(xué)習(xí)大數(shù)據(jù)處理與云計(jì)算相關(guān)原理和技術(shù)結(jié)合時(shí)代熱點(diǎn)介紹大數(shù)據(jù)與云計(jì)算 的關(guān)系教學(xué)

56、重點(diǎn)0理解云計(jì)算的概念與特點(diǎn)0掌握云計(jì)算的分類0掌握云計(jì)算的體系架構(gòu)0 了解大數(shù)據(jù)與云計(jì)算未來(lái)的發(fā)展方向和趨勢(shì)0熟悉大數(shù)據(jù)與云計(jì)算在生產(chǎn)生活中的應(yīng)用教學(xué)難點(diǎn)0理解云計(jì)算的涵義和特點(diǎn)0理解并掌握云計(jì)算的分類0掌握云計(jì)算的體系架構(gòu)0在掌握大數(shù)據(jù)處理與云計(jì)算相關(guān)基本原理和技術(shù)的基礎(chǔ)上,結(jié)合實(shí)際理解大數(shù)據(jù) 與云計(jì)算的區(qū)別和聯(lián)系教學(xué)設(shè)計(jì)1、教學(xué)思路:(1)理解云計(jì)算的概念,云計(jì)算(cloud computing,分布式計(jì)算技術(shù)的 一種,其最基本的概念,是透過(guò)網(wǎng)絡(luò)將龐大的計(jì)算處理程序自動(dòng)分拆成無(wú)數(shù)個(gè)較小的 子程序,再交由多部服務(wù)器所組成的龐大系統(tǒng)經(jīng)搜尋、計(jì)算分析之后將處理結(jié)果回傳 給用戶。透過(guò)這項(xiàng)技術(shù),網(wǎng)

57、絡(luò)服務(wù)提供者可以在數(shù)秒之內(nèi),達(dá)成處理數(shù)以千萬(wàn)計(jì)甚至 億計(jì)的信息,達(dá)到和“超級(jí)計(jì)算機(jī)”同樣強(qiáng)大效能的網(wǎng)絡(luò)服務(wù);(2)了解云計(jì)算具有 超大規(guī)模、虛擬化、高可靠性、通用性、高可擴(kuò)展性、按需服務(wù)、極其廉價(jià)的特點(diǎn);(3)簡(jiǎn)要介紹公有云、私有云、混合云這3種不同分類的云計(jì)算的特點(diǎn);(4)通過(guò) 云計(jì)算平臺(tái)架框圖了解軟件即服務(wù)(Software as a Service,SaaS)、平臺(tái)即服務(wù)(Platform as a Service,PaaS)和基礎(chǔ)即服務(wù)(Infrastructure as a Service,IaaS)3 種云計(jì)算的典型 服務(wù)模式;(5)理解大數(shù)據(jù)與云計(jì)算的區(qū)別與聯(lián)系;(6)了解大數(shù)據(jù)

58、與云計(jì)算未來(lái) 的發(fā)展方向和趨勢(shì),熟悉大數(shù)據(jù)與云計(jì)算在生產(chǎn)生活中的應(yīng)用。2、教學(xué)手段:(1)通過(guò)課堂討論提出問(wèn)題,活躍課堂氣氛并激發(fā)學(xué)員的學(xué)習(xí)興趣; (2)教學(xué)應(yīng)當(dāng)結(jié)合實(shí)際的實(shí)驗(yàn)條件,培養(yǎng)學(xué)生實(shí)踐動(dòng)手能力,了解大數(shù)據(jù)技術(shù)發(fā)展現(xiàn)狀,更好地掌握所學(xué)知識(shí)點(diǎn),促進(jìn)大數(shù)據(jù)相關(guān)教學(xué)改革。教學(xué)內(nèi)容一、導(dǎo)入新課:隨著信息化時(shí)代的不斷深入,信息數(shù)據(jù)的量級(jí)已經(jīng)遠(yuǎn)遠(yuǎn)超越了個(gè)人計(jì)算機(jī)和中小型服務(wù)器的存儲(chǔ) 容量和處理能力,而同時(shí)因?yàn)槿蚧W(wǎng)絡(luò)的互連互通和計(jì)算機(jī)設(shè)備的不斷普及,又有很多大型網(wǎng)絡(luò)服 務(wù)器或者網(wǎng)絡(luò)中心的機(jī)器處于無(wú)用的或者小負(fù)載浪費(fèi)存儲(chǔ)和計(jì)算能力的處境中,這個(gè)時(shí)候云計(jì)算就可 以為數(shù)據(jù)的應(yīng)用和閑置的網(wǎng)絡(luò)資源建立橋梁

59、,也為整個(gè)信息時(shí)代的發(fā)展提供新的發(fā)展思路,并且隨著 網(wǎng)絡(luò)傳輸速度的不斷提升,人們?cè)絹?lái)越發(fā)現(xiàn)云計(jì)算具有可觀的發(fā)展前途和光明的前景。二、內(nèi)容大綱:具體可結(jié)合本章的PPT課件進(jìn)行配合講解。什么是云計(jì)算云計(jì)算的概念與特點(diǎn)云計(jì)算的分類云計(jì)算與分布式計(jì)算的區(qū)別云計(jì)算的體系架構(gòu)云計(jì)算需要解決的問(wèn)題具有代表性的云計(jì)算廠商8.2大數(shù)據(jù)與云計(jì)算的關(guān)系云計(jì)算將改變大數(shù)據(jù)分析大數(shù)據(jù)與云計(jì)算的區(qū)別和聯(lián)系大數(shù)據(jù)與云計(jì)算未來(lái)的發(fā)展方向和趨勢(shì)大數(shù)據(jù)與云計(jì)算在生產(chǎn)生活中的應(yīng)用三、討論問(wèn)題:8-1什么是云計(jì)算?8-2云計(jì)算的計(jì)算框架是什么?8-3云計(jì)算與大數(shù)據(jù)的關(guān)系是什么?8-4云計(jì)算未來(lái)可能的發(fā)展方向是什么?思考及作 業(yè)一、歸

60、納小結(jié):云計(jì)算是并行計(jì)算(Parallel Computing)、分布式計(jì)算(Distributed Computing)和網(wǎng)格 計(jì)算(Grid Computing)的發(fā)展,或者說(shuō)是這些計(jì)算機(jī)科學(xué)概念的商業(yè)實(shí)現(xiàn)。云計(jì)算是虛 擬化(Virtualization)、效用計(jì)算(Utility Computing)、IaaS(基礎(chǔ)設(shè)施即服務(wù))、PaaS(平臺(tái) 即服務(wù))、SaaS(軟件即服務(wù))等概念混合演進(jìn)并躍升的結(jié)果。云計(jì)(cloud computing 商業(yè)化的超大規(guī)模分布式計(jì)算技術(shù)。即:用戶可以通過(guò)已有的網(wǎng)絡(luò)將所需要的龐大的 計(jì)算處理程序自動(dòng)分拆成無(wú)數(shù)個(gè)較小的子程序,再交由多部服務(wù)器所組成的更龐大

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論