




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
項(xiàng)目二
大數(shù)據(jù)技術(shù)
新一代信息技術(shù)講堂目錄
/CONTENTS01項(xiàng)目背景02思維導(dǎo)圖03項(xiàng)目相關(guān)知識(shí)0405項(xiàng)目小結(jié)與展望項(xiàng)目任務(wù)01項(xiàng)目背景新一代信息技術(shù)講堂項(xiàng)目背景圖2-1百度“北京冬奧會(huì)”搜索結(jié)果應(yīng)用案例:百度搜索界面推送項(xiàng)目背景
圖2-2健康碼和行程碼應(yīng)用案例:新冠疫情精準(zhǔn)防控項(xiàng)目背景
近年來,伴隨著云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、5G通信技術(shù)等信息技術(shù)的快速發(fā)展和傳統(tǒng)產(chǎn)業(yè)數(shù)字化的轉(zhuǎn)型,數(shù)據(jù)量呈現(xiàn)幾何級(jí)增長(zhǎng)。
根據(jù)IDC發(fā)布的《數(shù)據(jù)時(shí)代2025》預(yù)測(cè),全球數(shù)據(jù)量將從2018年的33ZB增至2025年的175ZB,增長(zhǎng)超過5倍;中國(guó)平均增速快于全球3%,預(yù)計(jì)到2025年將增至48.6ZB。這些海量的數(shù)據(jù)中蘊(yùn)含著巨大價(jià)值,大數(shù)據(jù)已成為繼土地、勞動(dòng)力、資本、技術(shù)之后的第五大生產(chǎn)要素,成為國(guó)家不可或缺的戰(zhàn)略資源,正在加速成為全球經(jīng)濟(jì)增長(zhǎng)的新動(dòng)力、新引擎,深刻地改變?nèi)祟惿鐣?huì)的生產(chǎn)和生活方式。02思維導(dǎo)圖思維導(dǎo)圖03項(xiàng)目相關(guān)知識(shí)新一代信息技術(shù)講堂2.1大數(shù)據(jù)概述什么是數(shù)據(jù)?數(shù)據(jù)(Data)是指對(duì)客觀事物進(jìn)行記錄并可以鑒別的符號(hào),是對(duì)客觀事物的性質(zhì)、狀態(tài)以及相互關(guān)系等進(jìn)行記載的物理符號(hào)或這些物理符號(hào)的組合。2.1大數(shù)據(jù)概述圖2-3氣溫?cái)?shù)據(jù)的記錄人們通過觀察現(xiàn)實(shí)世界中的自然現(xiàn)象、人類活動(dòng),都可以形成數(shù)據(jù),例如氣溫?cái)?shù)據(jù)的記錄如圖2-3所示。2.1大數(shù)據(jù)概述數(shù)據(jù)的類型根據(jù)數(shù)據(jù)表現(xiàn)形式的不同,可以分為文本、圖片、音頻、視頻等。根據(jù)數(shù)據(jù)結(jié)構(gòu)模式的不同,可以分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)2.1大數(shù)據(jù)概述數(shù)據(jù)的類型非結(jié)構(gòu)化數(shù)據(jù)2.1大數(shù)據(jù)概述數(shù)據(jù)的價(jià)值圖2-6數(shù)據(jù)、信息、知識(shí)和智慧的關(guān)系模型數(shù)據(jù)的價(jià)值在于通過原始數(shù)據(jù)的處理和分析,揭示數(shù)據(jù)背后隱藏的事物運(yùn)行規(guī)律,從而指導(dǎo)人類的生產(chǎn)生活實(shí)踐。數(shù)據(jù)(Data)、信息(Information)、知識(shí)(Knowledge)、智慧(Wisdom)的關(guān)系模型如圖2-6所示。2.1大數(shù)據(jù)概述大數(shù)據(jù)的概念研究機(jī)構(gòu)Gartner從數(shù)據(jù)處理新模式的角度給出了這樣的定義:“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。IBM提出了大數(shù)據(jù)的5V特點(diǎn):數(shù)據(jù)規(guī)模大(Volume)、類型多樣(Variety)、處理速度快(Velocity)、價(jià)值高(value)和真實(shí)性(Veracity)。麥肯錫全球研究所給出的定義是:一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合;具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低四大特征。2.1大數(shù)據(jù)概述數(shù)據(jù)規(guī)模大:包括采集、存儲(chǔ)和計(jì)算的量都非常大。大數(shù)據(jù)的起始計(jì)量單位至少是PB、EB或ZB。0102類型多樣:包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),具體表現(xiàn)為網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等。處理速度快:數(shù)據(jù)增長(zhǎng)速度快,處理速度也要快,時(shí)效性要求高。0403價(jià)值高:價(jià)值高是指單個(gè)數(shù)據(jù)價(jià)值較低,但海量的數(shù)據(jù)總體價(jià)值高,類似大浪淘沙。綜合以上定義,筆者認(rèn)為大數(shù)據(jù)是指具有4V特征的數(shù)據(jù),即數(shù)據(jù)規(guī)模大(Volume)、類型多樣(Variety)、處理速度快(Velocity)和價(jià)值高(value)。2.1大數(shù)據(jù)概述大數(shù)據(jù)的發(fā)展歷程(20世紀(jì)80年代到21世紀(jì)初)萌芽期(2009年-2022年)興盛期(2003-2009年)發(fā)展期在這一階段,大數(shù)據(jù)只是作為一個(gè)概念或假設(shè),少數(shù)學(xué)者對(duì)其進(jìn)行了研究和討論,其含義主要是數(shù)量量巨大,對(duì)數(shù)據(jù)的收集、處理和存儲(chǔ)沒有進(jìn)一步探究。大數(shù)據(jù)存儲(chǔ)和計(jì)算技術(shù)快速發(fā)展,開啟了大數(shù)據(jù)產(chǎn)業(yè)化的探索。大數(shù)據(jù)應(yīng)用滲透到各行各業(yè),不斷變革原有行業(yè)的技術(shù)和創(chuàng)造出新的技術(shù),大數(shù)據(jù)的發(fā)展呈現(xiàn)出一片蓬勃之勢(shì)。在這一階段,大數(shù)據(jù)只是作為一個(gè)概念或假設(shè),少數(shù)學(xué)者對(duì)其進(jìn)行了研究和討論,其含義主要是數(shù)量量巨大,對(duì)數(shù)據(jù)的收集、處理和存儲(chǔ)沒有進(jìn)一步探究。2.1大數(shù)據(jù)概述大數(shù)據(jù)思維總體思維—收集總體數(shù)據(jù)而非隨機(jī)采樣容錯(cuò)思維—容納原始數(shù)據(jù)的混雜性而非精確性相關(guān)思維—大數(shù)據(jù)反映的是相關(guān)關(guān)系而非因果關(guān)系2.1大數(shù)據(jù)概述物聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)、人工智能04030201人工智能人工智能(ArtificialIntelligence,AI),是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。云計(jì)算通過互聯(lián)網(wǎng)將很多的計(jì)算機(jī)資源協(xié)調(diào)在一起,提供快速且安全的云計(jì)算服務(wù)與數(shù)據(jù)存儲(chǔ),讓每一個(gè)使用互聯(lián)網(wǎng)的人都可以使用網(wǎng)絡(luò)上的龐大計(jì)算資源與數(shù)據(jù)中心。大數(shù)據(jù)大數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)類型多樣、數(shù)據(jù)處理速度快和總體價(jià)值高等特征,大數(shù)據(jù)的存儲(chǔ)和處理以云計(jì)算技術(shù)為依托。物聯(lián)網(wǎng)將各種信息傳感設(shè)備與互聯(lián)網(wǎng)結(jié)合起來形成一個(gè)巨大的網(wǎng)絡(luò),實(shí)現(xiàn)物與物、人與物之間信息的互聯(lián)互通。2.1大數(shù)據(jù)概述大數(shù)據(jù)與物聯(lián)網(wǎng)、云計(jì)算、人工智能的關(guān)系區(qū)別:大數(shù)據(jù)側(cè)重于對(duì)海量數(shù)據(jù)的存儲(chǔ)、處理和分析;物聯(lián)網(wǎng)的發(fā)展目標(biāo)是實(shí)現(xiàn)萬物互聯(lián);云計(jì)算本質(zhì)上是整合和優(yōu)化各種存儲(chǔ)、計(jì)算資源并通過網(wǎng)絡(luò)以服務(wù)的方式,廉價(jià)地提供給用戶;而人工智能的開發(fā),則是為了輔助和代替人類更快、更好地完成某些任務(wù)。聯(lián)系:從整體上看是相輔相成、有機(jī)結(jié)合的。四者的關(guān)系是:通過物聯(lián)網(wǎng)產(chǎn)生、收集海量的數(shù)據(jù)存儲(chǔ)于云計(jì)算平臺(tái),再通過大數(shù)據(jù)分析、甚至更高形式的人工智能提取云平臺(tái)存儲(chǔ)的數(shù)據(jù)為人類的生產(chǎn)、生活提供更好的服務(wù)。2.2大數(shù)據(jù)處理流程數(shù)據(jù)采集與預(yù)處理數(shù)據(jù)存儲(chǔ)與管理數(shù)據(jù)分析數(shù)據(jù)可視化1.數(shù)據(jù)采集2.數(shù)據(jù)清洗1.人工管理階段2.文件系統(tǒng)階段3.數(shù)據(jù)庫(kù)系統(tǒng)階段4.大數(shù)據(jù)管理階段1.數(shù)據(jù)統(tǒng)計(jì)分析2.數(shù)據(jù)挖掘3.數(shù)據(jù)挖掘常用算法1.數(shù)據(jù)可視化的概念和作用2.數(shù)據(jù)可視化工具數(shù)據(jù)采集與預(yù)處理大數(shù)據(jù)采集數(shù)據(jù)源類型常用采集方式圖像、音頻、速度、熱度等物理數(shù)據(jù)傳感器采集系統(tǒng)日志文件前端埋點(diǎn)、后端腳本采集互聯(lián)網(wǎng)開放數(shù)據(jù)網(wǎng)絡(luò)爬蟲采集企業(yè)信息系統(tǒng)數(shù)據(jù)通過ETL工具加載到數(shù)據(jù)倉(cāng)庫(kù)圖2-8數(shù)據(jù)源類型及常用采集方式數(shù)據(jù)采集(Dataacquisition),又稱數(shù)據(jù)獲取,是指從傳感器和其它待測(cè)設(shè)備等模擬和數(shù)字被測(cè)單元中自動(dòng)采集信息的過程。數(shù)據(jù)的采集源主要包括傳感器采集的物理數(shù)據(jù)、系統(tǒng)日志文件、互聯(lián)網(wǎng)開放數(shù)據(jù)和企業(yè)信息系統(tǒng)數(shù)據(jù)等,數(shù)據(jù)源類型及常用采集方式如圖2-8所示。數(shù)據(jù)采集與預(yù)處理數(shù)據(jù)清洗數(shù)據(jù)清理一般針對(duì)具體應(yīng)用,因而難以歸納統(tǒng)一的方法和步驟,常見的數(shù)據(jù)清洗的內(nèi)容和方法主要包括以下幾種。不一致性的檢測(cè)及處理:發(fā)現(xiàn)邏輯上不合理或者相互矛盾的數(shù)據(jù)無效值和缺失值的處理重復(fù)記錄的檢測(cè)及去重方法異常值的檢測(cè)及處理數(shù)據(jù)存儲(chǔ)與管理20世紀(jì)50年代前20世紀(jì)50年代后期到60年代中期20世紀(jì)70年代2009年-2022年指在計(jì)算機(jī)出現(xiàn)之前,人們運(yùn)用原始的手段來從事數(shù)據(jù)的記錄、存儲(chǔ)和計(jì)算加工人工管理階段通過計(jì)算機(jī)文件系統(tǒng)來組織和訪問文件,并對(duì)文件中的記錄進(jìn)行存取的的數(shù)據(jù)管理技術(shù)文件系統(tǒng)階段1.關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)2.數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)系統(tǒng)階段1.分布式文件系統(tǒng)2.非關(guān)系型數(shù)據(jù)庫(kù)系統(tǒng)(NoSQL)3.基于分布式框架的數(shù)據(jù)庫(kù)系(NewSQL)大數(shù)據(jù)管理階段數(shù)據(jù)存儲(chǔ)與管理數(shù)據(jù)庫(kù)系統(tǒng)階段—關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)20世紀(jì)70年代,計(jì)算機(jī)性能不斷提高,為了克服文件系統(tǒng)在數(shù)據(jù)管理上的不足,出現(xiàn)了數(shù)據(jù)庫(kù)管理技術(shù)。
數(shù)據(jù)庫(kù)技術(shù)的特點(diǎn)是數(shù)據(jù)不再針對(duì)某一個(gè)應(yīng)用,而是面向全組織,具有整體化結(jié)構(gòu);數(shù)據(jù)的共享性高,冗余度低;數(shù)據(jù)獨(dú)立性高,并由數(shù)據(jù)庫(kù)管理系統(tǒng)(DBMS)進(jìn)行統(tǒng)一的控制。
數(shù)據(jù)庫(kù)發(fā)展以來,先后出現(xiàn)過層次數(shù)據(jù)庫(kù)、網(wǎng)狀數(shù)據(jù)庫(kù)和關(guān)系數(shù)據(jù)庫(kù)等不同類型的數(shù)據(jù)庫(kù),這些數(shù)據(jù)庫(kù)分別采用了不同的數(shù)據(jù)模型(數(shù)據(jù)組織方式),其中比較主流的是關(guān)系數(shù)據(jù)庫(kù)。數(shù)據(jù)存儲(chǔ)與管理數(shù)據(jù)庫(kù)系統(tǒng)階段—關(guān)系模型學(xué)號(hào)姓名性別年齡成績(jī)C2001李明男2088C2002張三男2193C3001王麗女2195C3002李平女2089一個(gè)關(guān)系數(shù)據(jù)庫(kù)由許多關(guān)系表組成,每個(gè)關(guān)系表可以看成一張二維表,如表2-2所示的學(xué)生成績(jī)表。表2-2學(xué)生成績(jī)表數(shù)據(jù)存儲(chǔ)與管理數(shù)據(jù)庫(kù)系統(tǒng)階段—數(shù)據(jù)庫(kù)管理系統(tǒng)常見的關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)有MySQL、Oracle、MicrosoftSQLServer等數(shù)據(jù)存儲(chǔ)與管理圖2-10數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)圖數(shù)據(jù)庫(kù)系統(tǒng)階段—數(shù)據(jù)倉(cāng)庫(kù)W.H.Inmon在《建立數(shù)據(jù)倉(cāng)庫(kù)》一書中,對(duì)數(shù)據(jù)倉(cāng)庫(kù)定義為:數(shù)據(jù)倉(cāng)庫(kù)(datawarehouse)是面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持經(jīng)營(yíng)管理中決策制定過程。數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)圖如圖2-10所示。數(shù)據(jù)存儲(chǔ)與管理數(shù)據(jù)庫(kù)系統(tǒng)階段—大數(shù)據(jù)管理階段(1)分布式文件系統(tǒng)分布式文件系統(tǒng)的每個(gè)節(jié)點(diǎn)可以分布在不同的地點(diǎn),通過網(wǎng)絡(luò)進(jìn)行節(jié)點(diǎn)間的通信和數(shù)據(jù)傳輸,可以對(duì)分布在各個(gè)節(jié)點(diǎn)的數(shù)據(jù)進(jìn)行統(tǒng)一管理,具有冗余性、安全性和可擴(kuò)展性強(qiáng)等特征。(2)非關(guān)系型數(shù)據(jù)庫(kù)系統(tǒng)(NoSQL)NoSQL是非關(guān)系型數(shù)據(jù)庫(kù)的統(tǒng)稱,是一種不同于關(guān)系數(shù)據(jù)庫(kù)的數(shù)據(jù)庫(kù)管理系統(tǒng)設(shè)計(jì)方式。常見的NoSQL數(shù)據(jù)庫(kù)有鍵值(Key-Value)存儲(chǔ)數(shù)據(jù)庫(kù)、列存儲(chǔ)數(shù)據(jù)庫(kù)文檔型數(shù)據(jù)庫(kù)和圖形(Graph)數(shù)據(jù)庫(kù)。
(3)基于分布式框架的數(shù)據(jù)庫(kù)系統(tǒng)(NewSQL)NewSQL是對(duì)各種新的可擴(kuò)展、高性能數(shù)據(jù)庫(kù)的簡(jiǎn)稱,這類數(shù)據(jù)庫(kù)不僅具有NoSQL對(duì)海量數(shù)據(jù)的存儲(chǔ)管理能力,還保持了傳統(tǒng)數(shù)據(jù)庫(kù)支持ACID和SQL等特性。大數(shù)據(jù)分析數(shù)據(jù)統(tǒng)計(jì)分析數(shù)據(jù)的統(tǒng)計(jì)分析用于描述樣本數(shù)據(jù)的整體特征情況。數(shù)據(jù)統(tǒng)計(jì)分析的常見指標(biāo)如表2-3所示。表2-3數(shù)據(jù)統(tǒng)計(jì)分析的常見指標(biāo)術(shù)語指標(biāo)說明最大值數(shù)據(jù)的最大值最小值數(shù)據(jù)的最小值平均值數(shù)據(jù)的平均得分值,反映數(shù)據(jù)的集中趨勢(shì)中位數(shù)樣本數(shù)據(jù)升序排列后的最中間的數(shù)值,如果數(shù)據(jù)偏離較大,一般用中位數(shù)描述整體水平情況,而不是平均值25分位數(shù)分析項(xiàng)中所有數(shù)值由大到小排列后第25%的數(shù)字,用于了解部分樣本占整體樣本集的比例75分位數(shù)分析項(xiàng)中所有數(shù)值由大到小排列后的第75%的數(shù)字四分位距IQR四分位距IQR=75分位數(shù)-25分位數(shù)方差用于計(jì)算每個(gè)變量(觀察值)與總體均數(shù)之間的差異標(biāo)準(zhǔn)差樣本均值的標(biāo)準(zhǔn)差,反映樣本數(shù)據(jù)的分散程度峰度反映數(shù)據(jù)分布的平坦度,通常用于判斷數(shù)據(jù)正態(tài)性情況偏度反映數(shù)據(jù)分布偏斜方向和程度,通常用于判斷數(shù)據(jù)正態(tài)性情況大數(shù)據(jù)分析數(shù)據(jù)挖掘數(shù)據(jù)挖掘分為有監(jiān)督和無監(jiān)督兩種。有監(jiān)督的數(shù)據(jù)挖掘是利用可用的數(shù)據(jù)建立一個(gè)模型,這個(gè)模型是對(duì)一個(gè)特定屬性的描述。無監(jiān)督的數(shù)據(jù)挖掘是在所有的屬性中尋找某種關(guān)系。數(shù)據(jù)挖掘主要任務(wù)有四種:分類、回歸、聚類和關(guān)聯(lián),其中分類和回歸屬于有監(jiān)督的數(shù)據(jù)挖掘;關(guān)聯(lián)和聚類屬于無監(jiān)督的數(shù)據(jù)挖掘。數(shù)據(jù)挖掘是從海量、不完全的、有噪聲的、模糊的、隨機(jī)的大型數(shù)據(jù)庫(kù)中通過算法發(fā)現(xiàn)隱含在其中有價(jià)值的、潛在有用的信息和知識(shí)的過程,也是一種決策支持過程。大數(shù)據(jù)分析數(shù)據(jù)挖掘數(shù)據(jù)挖掘的一般流程可以參考CRISP-DM模型,全稱是Cross-IndustryStandardProcessforDataMining,即跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程(如圖2-11)。它從商業(yè)的角度給出對(duì)數(shù)據(jù)挖掘方法的理解,其流程主要包括:業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建立模型、評(píng)價(jià)、實(shí)施。每個(gè)步驟的具體內(nèi)容如下所述:
圖2-11
跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程(CRISP-DM模型)大數(shù)據(jù)分析數(shù)據(jù)挖掘常用算法決策樹算法:決策樹是一棵多叉樹,一顆決策樹包含一個(gè)根節(jié)點(diǎn)、若干個(gè)內(nèi)部結(jié)點(diǎn)和若干個(gè)葉子結(jié)點(diǎn)。葉子結(jié)點(diǎn)對(duì)應(yīng)于決策結(jié)果,其他每個(gè)結(jié)點(diǎn)則對(duì)應(yīng)于一個(gè)樣本屬性;每個(gè)結(jié)點(diǎn)包含的樣本集合根據(jù)屬性測(cè)試的結(jié)果被劃分到子結(jié)點(diǎn)中;根結(jié)點(diǎn)則包含樣本全集,從根結(jié)點(diǎn)到每個(gè)葉子結(jié)點(diǎn)的路徑對(duì)應(yīng)了一個(gè)判定測(cè)試序列。圖2-12
決策樹算法的示例大數(shù)據(jù)分析數(shù)據(jù)挖掘常用算法圖2-13聚類算法流程示意圖K-means聚類算法流程:先隨機(jī)選取K個(gè)對(duì)象作為初始的聚類中心。然后計(jì)算每個(gè)對(duì)象與各個(gè)種子聚類中心之間的距離,把每個(gè)對(duì)象分配給距離它最近的聚類中心。聚類中心以及分配給它們的對(duì)象就代表一個(gè)聚類。一旦全部對(duì)象都被分配了,每個(gè)聚類的聚類中心會(huì)根據(jù)聚類中現(xiàn)有的對(duì)象被重新計(jì)算。這個(gè)過程將不斷重復(fù)直到滿足某個(gè)終止條件。大數(shù)據(jù)分析數(shù)據(jù)挖掘常用算法神經(jīng)網(wǎng)絡(luò):人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork,ANN)簡(jiǎn)稱為神經(jīng)網(wǎng)絡(luò)(NN),起源于20世紀(jì)40年代,它從信息處理角度對(duì)人腦神經(jīng)元網(wǎng)絡(luò)進(jìn)行抽象,建立某種簡(jiǎn)單模型,按不同的連接方式組成不同的網(wǎng)絡(luò)。圖2-13神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)大數(shù)據(jù)可視化數(shù)據(jù)可視化定義和作用數(shù)據(jù)可視化技術(shù)主要指通過將數(shù)據(jù)分析結(jié)果轉(zhuǎn)化為圖形或動(dòng)畫等,并通過有效交互手段,來清晰有效地表達(dá)與溝通信息。數(shù)據(jù)可視化的作用是直觀、高效地傳達(dá)數(shù)據(jù)中的規(guī)律和知識(shí)。數(shù)據(jù)可視化的常用圖表有柱狀圖、折線圖、餅圖、直方圖、散點(diǎn)圖、地圖等。大數(shù)據(jù)可視化數(shù)據(jù)可視化工具圖2-14Echarts折線圖示例圖2-15Matplotlib示例圖大數(shù)據(jù)可視化數(shù)據(jù)可視化工具圖2-16阿里雙11數(shù)據(jù)可視化大數(shù)據(jù)處理架構(gòu)圖2-17大數(shù)據(jù)處理的技術(shù)架構(gòu)大數(shù)據(jù)處理的技術(shù)架構(gòu)主要分為四層:數(shù)據(jù)采集層、數(shù)據(jù)存儲(chǔ)層、數(shù)據(jù)處理層和數(shù)據(jù)應(yīng)用層。大數(shù)據(jù)處理架構(gòu)開源大數(shù)據(jù)平臺(tái)(Hadoop架構(gòu))大數(shù)據(jù)技術(shù)的行業(yè)應(yīng)用在電子商務(wù)領(lǐng)域的應(yīng)用個(gè)性化推薦系統(tǒng)是建立在海量數(shù)據(jù)挖掘基礎(chǔ)上的一種高級(jí)商務(wù)智能平臺(tái),是大數(shù)據(jù)在電子商務(wù)領(lǐng)域的典型應(yīng)用,它可以通過分析用戶的歷史記錄來了解用戶的興趣特點(diǎn)和購(gòu)買行為,從而主動(dòng)為用戶推薦其感興趣的信息和商品,滿足用戶的個(gè)性化推薦需求。2-17
推薦系統(tǒng)架構(gòu)圖大數(shù)據(jù)技術(shù)的行業(yè)應(yīng)用在城市管理領(lǐng)域的應(yīng)用圖2-18某市“智慧警務(wù)”大數(shù)據(jù)平臺(tái)的總體架構(gòu)大數(shù)據(jù)技術(shù)的行業(yè)應(yīng)用在教育領(lǐng)域的應(yīng)用圖2-19某校智慧校園系統(tǒng)技術(shù)實(shí)現(xiàn)路徑大數(shù)據(jù)安全挑戰(zhàn)傳統(tǒng)的信息安全重點(diǎn)關(guān)注數(shù)據(jù)的保密性、完整性和可用性等靜態(tài)安全特性,而大數(shù)據(jù)環(huán)境下,數(shù)據(jù)生命周期增加了共享、交易等環(huán)節(jié),數(shù)據(jù)的流動(dòng)是“常態(tài)”,數(shù)據(jù)的靜止存儲(chǔ)才是“非常態(tài)”,這使得大數(shù)據(jù)安全面臨新挑戰(zhàn)。數(shù)據(jù)流轉(zhuǎn)復(fù)雜多元使得泄露風(fēng)險(xiǎn)增大>攻擊手段更為多樣,傳統(tǒng)安全手段難以防護(hù)>大數(shù)據(jù)整合能力使得個(gè)人信息和隱私安全問題突出>大數(shù)據(jù)安全數(shù)據(jù)安全治理框架數(shù)據(jù)安全治理框架以數(shù)據(jù)安全動(dòng)態(tài)管控為核心,以數(shù)據(jù)安全管理體系為指導(dǎo),以數(shù)據(jù)安全運(yùn)營(yíng)體系為紐帶,以數(shù)據(jù)安全技術(shù)體系為支撐的治理框架(如圖2-20)。大數(shù)據(jù)安全數(shù)據(jù)安全運(yùn)營(yíng)體系框架數(shù)據(jù)安全運(yùn)營(yíng)體系建設(shè)參考框架在運(yùn)營(yíng)方面,以業(yè)務(wù)安全需求和滿足法律法規(guī)及行業(yè)標(biāo)準(zhǔn)為驅(qū)動(dòng),建立一套日?;⒓谢?、規(guī)范化、流程化的數(shù)據(jù)安全運(yùn)營(yíng)工作方法。大數(shù)據(jù)安全數(shù)據(jù)安全管理體系框架在管理方面,通過深入研究國(guó)家及行業(yè)的合規(guī)要求,建立數(shù)據(jù)安全管理制度四級(jí)文件,即一級(jí)方針文件,二級(jí)制度規(guī)范文件,三級(jí)細(xì)則指引文件,四級(jí)表單、模板、記錄文件。大數(shù)據(jù)安全數(shù)據(jù)安全技術(shù)體系框架在技術(shù)方面,依照企業(yè)或組織數(shù)據(jù)安全建設(shè)的總方針,結(jié)合企業(yè)或組織機(jī)構(gòu)自身人員架構(gòu)和制度規(guī)范,選擇實(shí)施適宜的數(shù)據(jù)安全產(chǎn)品、服務(wù)等技術(shù)手段。大數(shù)據(jù)安全數(shù)據(jù)安全法律法規(guī)(國(guó)內(nèi)法規(guī)政策)表2-4我國(guó)數(shù)據(jù)安全重要法律法規(guī)及規(guī)范脈絡(luò)關(guān)系法律基本法律:《網(wǎng)絡(luò)安全法》基礎(chǔ)性法律:《數(shù)據(jù)安全法》、《個(gè)人信息保護(hù)法》行政法規(guī)《關(guān)鍵信息基礎(chǔ)設(shè)施安全保護(hù)條例》《網(wǎng)絡(luò)數(shù)據(jù)安全管理?xiàng)l例(征求意見稿)》《關(guān)于審理使用人臉識(shí)別技術(shù)處理個(gè)人信息相關(guān)民事案件適應(yīng)法律若干問題的規(guī)定》部門規(guī)章/規(guī)范性文件《網(wǎng)絡(luò)安全審查辦法》《數(shù)據(jù)出境安全評(píng)估辦法(征求意見稿)》《汽車數(shù)據(jù)安全管理若干規(guī)定(試行)》《工業(yè)和信息化領(lǐng)域數(shù)據(jù)安全管理辦法(試行)(征求意見稿)》《中國(guó)銀保監(jiān)會(huì)監(jiān)管數(shù)據(jù)安全管理辦法(試行)》《銀行業(yè)金融機(jī)構(gòu)數(shù)據(jù)治理指引》《國(guó)家健康醫(yī)療大數(shù)據(jù)標(biāo)準(zhǔn)、安全和服務(wù)管理辦法(試行)》《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定(征求意見稿)》《APP違法違規(guī)收集使用個(gè)人信息行為認(rèn)定方法》《常見類型移動(dòng)互聯(lián)網(wǎng)應(yīng)用程序必要個(gè)人信息范圍規(guī)定》地方性法規(guī)《深圳經(jīng)濟(jì)特區(qū)數(shù)據(jù)條例》《上海市數(shù)據(jù)條例》《廣東省公共數(shù)據(jù)條例》《廣東省公共數(shù)據(jù)管理辦法》《貴州省大數(shù)據(jù)安全保障條例》標(biāo)準(zhǔn)、指南等《信息安全技術(shù)個(gè)人信息安全規(guī)范》《網(wǎng)絡(luò)安全標(biāo)準(zhǔn)實(shí)踐指南-網(wǎng)絡(luò)數(shù)據(jù)分類分級(jí)指引》大數(shù)據(jù)安全數(shù)據(jù)安全法律法規(guī)(國(guó)際法規(guī)政策)表2-5全球幾個(gè)代表性國(guó)家的相關(guān)法律法規(guī)美國(guó)《澄清域外合法使用數(shù)據(jù)法案》《聯(lián)邦數(shù)據(jù)戰(zhàn)略與2020年行動(dòng)計(jì)劃》《國(guó)防部數(shù)據(jù)戰(zhàn)略》《外國(guó)公司問責(zé)法案》歐盟《通用數(shù)據(jù)保護(hù)條例》《網(wǎng)絡(luò)信息系統(tǒng)安全指令》德國(guó)《聯(lián)邦數(shù)據(jù)安全法》日本《個(gè)人數(shù)據(jù)保護(hù)法》阿根廷《個(gè)人數(shù)據(jù)保護(hù)法》04項(xiàng)目任務(wù)新一代信息技術(shù)講堂項(xiàng)目任務(wù)任務(wù)一
今昔對(duì)比看發(fā)展任務(wù)描述2013年以來,我國(guó)大數(shù)據(jù)技術(shù)應(yīng)用出現(xiàn)了爆發(fā)式增長(zhǎng),大數(shù)據(jù)應(yīng)用滲透到各行各業(yè),數(shù)據(jù)驅(qū)動(dòng)決策,信息社會(huì)智能化程度大幅度提高。作為新
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 合同履行擔(dān)保管理辦法
- 基礎(chǔ)設(shè)施建設(shè)臨時(shí)用地合同范本
- 跨境融資合同(樣式一)
- 6 有多少浪費(fèi)本可避免 第2課時(shí) (教學(xué)設(shè)計(jì))2023-2024學(xué)年統(tǒng)編版道德與法治四年級(jí)下冊(cè)
- 14《我要的是葫蘆》教學(xué)設(shè)計(jì)-2024-2025學(xué)年統(tǒng)編版(五四制)語文二年級(jí)上冊(cè)
- 4田家四季歌教學(xué)設(shè)計(jì)-2024-2025學(xué)年二年級(jí)上冊(cè)語文統(tǒng)編版
- 建筑安裝工程承包合同
- 雇工植樹合同范本
- 6《9的乘法口訣》(教學(xué)設(shè)計(jì))-2024-2025學(xué)年二年級(jí)上冊(cè)數(shù)學(xué)人教版
- Module 3 Unit 9 Great cities of the world(教學(xué)設(shè)計(jì))-2024-2025學(xué)年滬教牛津版(深圳用)英語六年級(jí)上冊(cè)
- 電網(wǎng)數(shù)字化項(xiàng)目工作量度量規(guī)范應(yīng)用指南(2020版)
- 小學(xué)開學(xué)第一課禁毒安全
- 2025年砌筑工職業(yè)技能(中級(jí))知識(shí)考試題庫(kù)及答案
- 開題報(bào)告:適應(yīng)人口發(fā)展趨勢(shì)的區(qū)域教育結(jié)構(gòu)優(yōu)化與政策調(diào)整研究
- 《婚戀觀教育》課件
- 醫(yī)療器械質(zhì)量負(fù)責(zé)人崗位職責(zé)
- 中醫(yī)小兒常見皮膚病
- 第十七屆山東省職業(yè)院校技能大賽機(jī)器人系統(tǒng)集成應(yīng)用技術(shù)樣題1學(xué)生賽
- 無人售貨機(jī)的食品安全管理制度
- 校園直飲水機(jī)供貨安裝及售后服務(wù)方案
- 個(gè)人保證無糾紛承諾保證書
評(píng)論
0/150
提交評(píng)論