《大數(shù)據(jù)導論》電子教學課件_第1頁
《大數(shù)據(jù)導論》電子教學課件_第2頁
《大數(shù)據(jù)導論》電子教學課件_第3頁
《大數(shù)據(jù)導論》電子教學課件_第4頁
《大數(shù)據(jù)導論》電子教學課件_第5頁
已閱讀5頁,還剩261頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

大數(shù)據(jù)應用人才培養(yǎng)系列教材大數(shù)據(jù)導論第一章大數(shù)據(jù)概念與應用1.1大數(shù)據(jù)的概念1.2大數(shù)據(jù)的來源1.3大數(shù)據(jù)的特征及意義1.4大數(shù)據(jù)的表現(xiàn)形態(tài)1.5大數(shù)據(jù)的應用場景習題大數(shù)據(jù)應用人才培養(yǎng)系列教材1.1大數(shù)據(jù)的概念12008年9月,美國《自然》(Nature)雜志專刊——Thenextgoogle,第一次正式提出“大數(shù)據(jù)”概念。22011年2月1日,《科學》(Science)雜志??狣ealingwithdata,通過社會調(diào)查的方式,第一次綜合分析了大數(shù)據(jù)對人們生活造成的影響,詳細描述了人類面臨的“數(shù)據(jù)困境”。32011年5月,麥肯錫研究院發(fā)布報告——Bigdata:Thenextfrontierforinnovation,competition,andproductivity,第一次給大數(shù)據(jù)做出相對清晰的定義:“大數(shù)據(jù)是指其大小超出了常規(guī)數(shù)據(jù)庫工具獲取、儲存、管理和分析能力的數(shù)據(jù)集?!睍r至今日,“數(shù)據(jù)”變身“大數(shù)據(jù)”,“開啟了一次重大的時代轉型”。

“大數(shù)據(jù)”這一概念的形成,有三個標志性事件:從“數(shù)據(jù)”到“大數(shù)據(jù)”第一章大數(shù)據(jù)概念及其應用1.1大數(shù)據(jù)的概念大數(shù)據(jù)是指以多元形式,自許多來源搜集而來的龐大數(shù)據(jù)組,往往具有實時性。在企業(yè)對企業(yè)銷售的情況下,這些數(shù)據(jù)可能得自社交網(wǎng)絡、電子商務網(wǎng)站、顧客來訪紀錄,還有許多其他來源。這些數(shù)據(jù),并非公司顧客關系管理數(shù)據(jù)庫的常態(tài)數(shù)據(jù)組。什么是“大數(shù)據(jù)”第一章大數(shù)據(jù)概念及其應用大數(shù)據(jù)數(shù)據(jù)源整合進行存儲、清洗、挖掘、分析后得出結果直到優(yōu)化企業(yè)管理提高效率云計算、硬件性價比的提高以及軟件技術的進步智能設備、傳感器的普及,推動物聯(lián)網(wǎng)、人工智能的發(fā)展計算運行、計算速度越來越快存儲存儲成本下降智能實現(xiàn)信息對等解放腦力,機器擁有人的智慧1.1大數(shù)據(jù)的概念大數(shù)據(jù)的技術支撐第一章大數(shù)據(jù)概念及其應用1.1大數(shù)據(jù)的概念存儲:存儲成本的下降云計算出現(xiàn)之前云計算出現(xiàn)之后在云計算出現(xiàn)之前,數(shù)據(jù)存儲的成本是非常高的。例如,公司要建設網(wǎng)站,需要購置和部署服務器,安排技術人員維護服務器,保證數(shù)據(jù)存儲的安全性和數(shù)據(jù)傳輸?shù)臅惩ㄐ?,還會定期清理數(shù)據(jù),騰出空間以便存儲新的數(shù)據(jù),機房整體的人力和管理成本都很高。云計算出現(xiàn)后,數(shù)據(jù)存儲服務衍生出了新的商業(yè)模式,數(shù)據(jù)中心的出現(xiàn)降低了公司的計算和存儲成本。例如,公司現(xiàn)在要建設網(wǎng)站,不需要去購買服務器,不需要去雇用技術人員維護服務器,可以通過租用硬件設備的方式解決問題。存儲成本的下降,也改變了大家對數(shù)據(jù)的看法,更加愿意把1年、2年甚至更久遠的歷史數(shù)據(jù)保存下來,有了歷史數(shù)據(jù)的沉淀,才可以通過對比,發(fā)現(xiàn)數(shù)據(jù)之間的關聯(lián)和價值。正是由于存儲成本的下降,才能為大數(shù)據(jù)搭建最好的基礎設施。第一章大數(shù)據(jù)概念及其應用1.1大數(shù)據(jù)的概念計算:運算速度越來越快分布式系統(tǒng)基礎架構Hadoop的出現(xiàn),為大數(shù)據(jù)帶來了新的曙光;HDFS為海量的數(shù)據(jù)提供了存儲;MapReduce則為海量的數(shù)據(jù)提供了并行計算,從而大大提高了計算效率;Spark、Storm、Impala等各種各樣的技術進入人們的視野。海量數(shù)據(jù)從原始數(shù)據(jù)源到產(chǎn)生價值,期間會經(jīng)過存儲、清洗、挖掘、分析等多個環(huán)節(jié),如果計算速度不夠快,很多事情是無法實現(xiàn)的。所以,在大數(shù)據(jù)的發(fā)展過程中,計算速度是非常關鍵的因素。第一章大數(shù)據(jù)概念及其應用1.1大數(shù)據(jù)的概念智能:機器擁有理解數(shù)據(jù)的能力大數(shù)據(jù)帶來的最大價值就是“智慧”,大數(shù)據(jù)讓機器變得有智慧,同時人工智能進一步提升了處理和理解數(shù)據(jù)的能力。例如:谷歌AlphaGo大勝世界圍棋冠軍李世石阿里云小Ai成功預測出《我是歌手》的總決賽歌王12iPhone上智能化語音機器人Siri微信上與大家聊天的微軟小冰34第一章大數(shù)據(jù)概念及其應用第一章大數(shù)據(jù)概念及其應用美國著名管理學家愛德華·戴明所言:“我們信靠上帝。除了上帝,任何人都必須用數(shù)據(jù)來說話?!保?)有數(shù)據(jù)可說

在大數(shù)據(jù)時代,“萬物皆數(shù)”,“量化一切”,“一切都將被數(shù)據(jù)化”。人類生活在一個海量、動態(tài)、多樣的數(shù)據(jù)世界中,數(shù)據(jù)無處不在、無時不有、無人不用,數(shù)據(jù)就像陽光、空氣、水分一樣常見,好比放大鏡、望遠鏡、顯微鏡那般重要。

(2)說數(shù)據(jù)可靠

大數(shù)據(jù)中的“數(shù)據(jù)”真實可靠,它實質上是表征事物現(xiàn)象的一種符號語言和邏輯關系,其可靠性的數(shù)理哲學基礎是世界同構原理。世界具有物質統(tǒng)一性,統(tǒng)一的世界中的一切事物都存在著時空一致性的同構關系。這意味著任何事物的屬性和規(guī)律,只要通過適當編碼,均可以通過統(tǒng)一的數(shù)字信號表達出來。1.1大數(shù)據(jù)的概念大數(shù)據(jù)的意義

因此,“用數(shù)據(jù)說話”、“讓數(shù)據(jù)發(fā)聲”,已成為人類認知世界的一種全新方法。1.1

大數(shù)據(jù)的概念風馬??上嗉?/p>

在大數(shù)據(jù)背景下,因海量無限、包羅萬象的數(shù)據(jù)存在,讓許多看似毫不相干的現(xiàn)象之間發(fā)生一定的關聯(lián),使人們能夠更簡捷、更清晰地認知事物和把握局勢。大數(shù)據(jù)的巨大潛能與作用現(xiàn)在難以進行估量,但揭示事物的相關關系無疑是其真正的價值所在。經(jīng)典案例:(1)啤酒與尿布(2)谷歌與流感第一章大數(shù)據(jù)概念及其應用第一章大數(shù)據(jù)概念與應用1.1大數(shù)據(jù)的概念1.2大數(shù)據(jù)的來源1.3大數(shù)據(jù)的特征及意義1.4大數(shù)據(jù)的表現(xiàn)形態(tài)1.5大數(shù)據(jù)的應用場景習題大數(shù)據(jù)應用人才培養(yǎng)系列教材1.2大數(shù)據(jù)的來源全球數(shù)據(jù)總量圖杰姆·格雷(JimGray)提出著名的“新摩爾定律”,即人類有史以來的數(shù)據(jù)總量,每過18個月就會翻一番。(EB)(年份)第一章大數(shù)據(jù)概念及其應用為什么全球數(shù)據(jù)量增長如此之快?1.2大數(shù)據(jù)的來源

手機智能家電智能手表電腦iPad大數(shù)據(jù)的主要來源第一章大數(shù)據(jù)概念及其應用1.2大數(shù)據(jù)的來源互聯(lián)網(wǎng)每天產(chǎn)生的全部內(nèi)容可以刻滿6.4億張DVDGoogle每天需要處理24PB的數(shù)據(jù)網(wǎng)民每天在Facebook上要花費234億分鐘,被移動互聯(lián)網(wǎng)使用者發(fā)送和接收的數(shù)據(jù)高達44PB全球每秒發(fā)送290萬封電子郵件,一分鐘讀一篇的話,足夠一個人晝夜不停地讀5.5年每天會有2.88萬個小時的視頻上傳到YouTube,足夠一個人晝夜不停地觀看3.3年Twitter上每天發(fā)布5000萬條消息,假設10秒就瀏覽一條消息,足夠一個人晝夜不停地瀏覽16年大數(shù)據(jù)到底有多大?

以上一組互聯(lián)網(wǎng)數(shù)據(jù)第一章大數(shù)據(jù)概念及其應用1.2大數(shù)據(jù)的來源來自大量傳感器的機器數(shù)據(jù)科學研究及行業(yè)多結構專業(yè)數(shù)據(jù)來自“大人群”泛互聯(lián)網(wǎng)數(shù)據(jù)智能終端拍照、拍視頻發(fā)微博、發(fā)微信其他互聯(lián)網(wǎng)數(shù)據(jù)海量的數(shù)據(jù)的產(chǎn)生隨著人類活動的進一步擴展,數(shù)據(jù)規(guī)模會急劇膨脹,包括金融、汽車、零售、餐飲、電信、能源、政務、醫(yī)療、體育、娛樂等在內(nèi)的各行業(yè)累積的數(shù)據(jù)量越來越大,數(shù)據(jù)類型也越來越多、越來越復雜,已經(jīng)超越了傳統(tǒng)數(shù)據(jù)管理系統(tǒng)、處理模式的能力范圍,于是“大數(shù)據(jù)”這樣一個概念才會應運而生。第一章大數(shù)據(jù)概念及其應用1.2大數(shù)據(jù)的來源按產(chǎn)生數(shù)據(jù)的主體劃分1)少量企業(yè)應用產(chǎn)生的數(shù)據(jù)如關系型數(shù)據(jù)庫中的數(shù)據(jù)和數(shù)據(jù)倉庫中的數(shù)據(jù)等。2)大量人產(chǎn)生的數(shù)據(jù)如推特、微博、通信軟件、移動通信數(shù)據(jù)、電子商務在線交易日志數(shù)據(jù)、企業(yè)應用的相關評論數(shù)據(jù)等。3)巨量機器產(chǎn)生的數(shù)據(jù)如應用服務器日志、各類傳感器數(shù)據(jù)、圖像和視頻監(jiān)控數(shù)據(jù)、二維碼和條形碼(條碼)掃描數(shù)據(jù)等。01第一章大數(shù)據(jù)概念及其應用1.2大數(shù)據(jù)的來源按數(shù)據(jù)來源的行業(yè)劃分1)以BAT為代表的互聯(lián)網(wǎng)公司百度公司數(shù)據(jù)總量超過了千PB級別,阿里巴巴公司保存的數(shù)據(jù)量超過了百PB級別,擁有90%以上的電商數(shù)據(jù),騰訊公司總存儲數(shù)據(jù)量經(jīng)壓縮處理以后仍然超過了百PB級別,數(shù)據(jù)量月增加達到10%。2)電信、金融、保險、電力、石化系統(tǒng)電信行業(yè)數(shù)據(jù)年度用戶數(shù)據(jù)增長超過10%,金融每年產(chǎn)生的數(shù)據(jù)超過數(shù)十PB,保險系統(tǒng)的數(shù)據(jù)量也超過了PB級別,電力與石化方面,僅國家電網(wǎng)采集獲得的數(shù)據(jù)總量就達到了數(shù)十PB,石油化工領域每年產(chǎn)生和保存下來的數(shù)據(jù)量也將近百PB級別。3)公共安全、醫(yī)療、交通領域一個中、大型城市,一個月的交通卡口記錄數(shù)可以達到3億條;整個醫(yī)療衛(wèi)生行業(yè)一年能夠保存下來的數(shù)據(jù)就可達到數(shù)百PB級別;航班往返一次產(chǎn)生的數(shù)據(jù)就達到TB級別;列車、水陸路運輸產(chǎn)生的各種視頻、文本類數(shù)據(jù),每年保存下來的也達到數(shù)十PB。

024)氣象、地理、政務等領域中國氣象局保存的數(shù)據(jù)將近10PB,每年約增數(shù)百TB;各種地圖和地理位置信息每年約數(shù)十PB;政務數(shù)據(jù)則涵蓋了旅游、教育、交通、醫(yī)療等多個門類,且多為結構化數(shù)據(jù)。5)制造業(yè)和其他傳統(tǒng)行業(yè)制造業(yè)的大數(shù)據(jù)類型以產(chǎn)品設計數(shù)據(jù)、企業(yè)生產(chǎn)環(huán)節(jié)的業(yè)務數(shù)據(jù)和生產(chǎn)監(jiān)控數(shù)據(jù)為主。其中產(chǎn)品設計數(shù)據(jù)以文件為主,非結構化,共享要求較高,保存時間較長;企業(yè)生產(chǎn)環(huán)節(jié)的業(yè)務數(shù)據(jù)主要是數(shù)據(jù)庫結構化數(shù)據(jù),而生產(chǎn)監(jiān)控數(shù)據(jù)則數(shù)據(jù)量非常大。在其他傳統(tǒng)行業(yè),雖然線下商業(yè)銷售、農(nóng)林牧漁業(yè)、線下餐飲、食品、科研、物流運輸?shù)刃袠I(yè)數(shù)據(jù)量劇增,但是數(shù)據(jù)量還處于積累期,整體體量都不算大,多則達到PB級別,少則數(shù)十TB或數(shù)百TB級別。第一章大數(shù)據(jù)概念及其應用1.2大數(shù)據(jù)的來源按數(shù)據(jù)存儲的形式劃分大數(shù)據(jù)不僅僅體現(xiàn)在數(shù)據(jù)量大,還體現(xiàn)在數(shù)據(jù)類型多。如此海量的數(shù)據(jù)中,僅有20%左右屬于結構化的數(shù)據(jù),80%的數(shù)據(jù)屬于廣泛存在于社交網(wǎng)絡、物聯(lián)網(wǎng)、電子商務等領域的非結構化數(shù)據(jù)。結構化數(shù)據(jù)簡單來說就是數(shù)據(jù)庫,如企業(yè)ERP、財務系統(tǒng)、醫(yī)療HIS數(shù)據(jù)庫、教育一卡通、政府行政審批、其他核心數(shù)據(jù)庫等數(shù)據(jù)。非結構化數(shù)據(jù)包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻、視頻信息等數(shù)據(jù)。03第一章大數(shù)據(jù)概念及其應用1.2大數(shù)據(jù)的來源常用的大數(shù)據(jù)獲取途徑1)系統(tǒng)日志采集可以使用海量數(shù)據(jù)采集工具,用于系統(tǒng)日志采集,如Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe等,這些工具均采用分布式架構,能滿足大數(shù)據(jù)的日志數(shù)據(jù)采集和傳輸需求。043)APP移動端數(shù)據(jù)采集APP是獲取用戶移動端數(shù)據(jù)的一種有效方法,APP中的SDK插件可以將用戶使用APP的信息匯總給指定服務器,即便用戶在沒有訪問時,也能獲知用戶終端的相關信息,包括安裝應用的數(shù)量和類型等。單個APP用戶規(guī)模有限,數(shù)據(jù)量有限;但數(shù)十萬APP用戶,獲取的用戶終端數(shù)據(jù)和部分行為數(shù)據(jù)也會達到數(shù)億的量級。4)與數(shù)據(jù)服務機構進行合作數(shù)據(jù)服務機構通常具備規(guī)范的數(shù)據(jù)共享和交易渠道,人們可以在平臺上快速、明確地獲取自己所需要的數(shù)據(jù)。而對于企業(yè)生產(chǎn)經(jīng)營數(shù)據(jù)或學科研究數(shù)據(jù)等保密性要求較高的數(shù)據(jù),也可以通過與企業(yè)或研究機構合作,使用特定系統(tǒng)接口等相關方式采集數(shù)據(jù)。2)互聯(lián)網(wǎng)數(shù)據(jù)采集通過網(wǎng)絡爬蟲或網(wǎng)站公開API等方式從網(wǎng)站上獲取數(shù)據(jù)信息,該方法可以數(shù)據(jù)從網(wǎng)頁中抽取出來,將其存儲為統(tǒng)一的本地數(shù)據(jù)文件,它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動關聯(lián)。除了網(wǎng)站中包含的內(nèi)容之外,還可以使用DPI或DFI等帶寬管理技術實現(xiàn)對網(wǎng)絡流量的采集。第一章大數(shù)據(jù)概念及其應用第一章大數(shù)據(jù)概念與應用1.1大數(shù)據(jù)的概念1.2大數(shù)據(jù)的來源1.3大數(shù)據(jù)的特征及意義1.4大數(shù)據(jù)的表現(xiàn)形態(tài)1.5大數(shù)據(jù)的應用場景習題大數(shù)據(jù)應用人才培養(yǎng)系列教材1.3大數(shù)據(jù)的特征及意義大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術。從各種各樣類型的數(shù)據(jù)中,快速高效獲得有價值信息的能力,就是大數(shù)據(jù)技術。在IT業(yè)界有的學者使用3S來描述大數(shù)據(jù),還有的學者使用3I來描述大數(shù)據(jù)。大數(shù)據(jù)的3S第一章大數(shù)據(jù)概念及其應用數(shù)據(jù)的大小數(shù)據(jù)的處理速度SizeSpeed數(shù)據(jù)的結構化Structur1.3大數(shù)據(jù)的特征及意義從技術上看,大數(shù)據(jù)與云計算的關系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無法用單臺的計算機進行處理,必須采用分布式計算架構。它的特色在于對海量數(shù)據(jù)的挖掘,但它必須依托云計算的分布式處理、分布式數(shù)據(jù)庫、云存儲和/或虛擬化技術。(在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數(shù)據(jù)時代》中大數(shù)據(jù)指不用隨機分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)的方法)大數(shù)據(jù)的4V特征:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。從技術上看“大數(shù)據(jù)”第一章大數(shù)據(jù)概念及其應用4V特征種類多(Variety)速度快(Velocity)價值高(Value)體量大(Volume)大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)相比,數(shù)據(jù)來源廣、維度多、類型雜,各種機器儀表在自動產(chǎn)生數(shù)據(jù)的同時,人自身的生活行為也在不斷創(chuàng)造數(shù)據(jù);不僅有企業(yè)組織內(nèi)部的業(yè)務數(shù)據(jù),還有海量相關的外部數(shù)據(jù)。隨著現(xiàn)代感測、互聯(lián)網(wǎng)、計算機技術的發(fā)展,數(shù)據(jù)生成、儲存、分析、處理的速度遠遠超出人們的想象力,這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)或小數(shù)據(jù)的顯著特征。大數(shù)據(jù)有巨大的潛在價值,但同其呈幾何指數(shù)爆發(fā)式增長相比,某一對象或模塊數(shù)據(jù)的價值密度較低,這無疑給我們開發(fā)海量數(shù)據(jù)增加了難度和成本。從2013年至2020年,人類的數(shù)據(jù)規(guī)模將擴大50倍,每年產(chǎn)生的數(shù)據(jù)量將增長到44萬億GB,相當于美國國家圖書館數(shù)據(jù)量的數(shù)百萬倍,且每18個月翻一番。1.3大數(shù)據(jù)的特征及意義“大數(shù)據(jù)”的四V特征:第一章大數(shù)據(jù)概念及其應用1.3大數(shù)據(jù)的特征及意義大數(shù)據(jù)的3I第一章大數(shù)據(jù)概念及其應用Ill-defined

IntimidatingImmediate定義不明確的,多個大數(shù)據(jù)的定義都強調(diào)了大數(shù)據(jù)規(guī)模超過傳統(tǒng)數(shù)據(jù)的規(guī)模,隨著技術的進步,數(shù)據(jù)分析的效率不斷提高,符合大數(shù)據(jù)定義的數(shù)據(jù)規(guī)模也不斷變大,因而沒有一個明確的標準。從管理大數(shù)據(jù)到使用正確的工具獲取它的價值,利用大數(shù)據(jù)的過程中充滿了各種挑戰(zhàn)。數(shù)據(jù)的價值會隨著時間快速衰減,為了保證大數(shù)據(jù)的可控性,需要縮短數(shù)據(jù)搜集到獲得之間的時間,使大數(shù)據(jù)成為真正的即時大數(shù)據(jù),這意味著能盡快地分析數(shù)據(jù)對獲得競爭優(yōu)勢至關重要。第一章大數(shù)據(jù)概念與應用1.1大數(shù)據(jù)的概念1.2大數(shù)據(jù)的來源1.3大數(shù)據(jù)的特征及意義1.4大數(shù)據(jù)的表現(xiàn)形態(tài)1.5大數(shù)據(jù)的應用場景習題大數(shù)據(jù)應用人才培養(yǎng)系列教材1.4大數(shù)據(jù)的表現(xiàn)形態(tài)大數(shù)據(jù)在當今社會非常時髦,大數(shù)據(jù)的信息量是海量的,這個海量并不是某個時間端點的量級總結,而是持續(xù)更新,持續(xù)增量。由于大數(shù)據(jù)產(chǎn)生的過程中諸多的不確定性,使得大數(shù)據(jù)的表現(xiàn)形態(tài)多種多樣。大數(shù)據(jù)的表現(xiàn)形態(tài)第一章大數(shù)據(jù)概念及其應用多源性實時性不確定性大數(shù)據(jù)來源的復雜性。網(wǎng)絡技術的迅猛發(fā)展使得數(shù)據(jù)產(chǎn)生的途徑多樣化。大數(shù)據(jù)結構的復雜性。非結構化數(shù)據(jù)的格式多樣化,而這些非結構化數(shù)據(jù)中可能蘊藏著非常有價值的信息。大數(shù)據(jù)的實時性,體現(xiàn)在數(shù)據(jù)更新的實時性。如何及時、有效、全面的捕獲到互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算上產(chǎn)生的大量的不同來源的數(shù)據(jù)是會直接影響數(shù)據(jù)價值體現(xiàn)的關鍵因素。體現(xiàn)的是數(shù)據(jù)的不確定性。原始數(shù)據(jù)的不準確以及數(shù)據(jù)采集處理粒度、應用需求與數(shù)據(jù)集成和展示等因素使得數(shù)據(jù)在不同尺度、不同維度上都有不同程度的不確定性。第一章大數(shù)據(jù)概念與應用1.1大數(shù)據(jù)的概念1.2大數(shù)據(jù)的來源1.3大數(shù)據(jù)的特征及意義1.4大數(shù)據(jù)的表現(xiàn)形態(tài)1.5大數(shù)據(jù)的應用場景習題大數(shù)據(jù)應用人才培養(yǎng)系列教材1.5大數(shù)據(jù)的應用場景大數(shù)據(jù)7個應用場景環(huán)境教育行業(yè)醫(yī)療行業(yè)農(nóng)業(yè)智慧城市零售行業(yè)金融行業(yè)第一章大數(shù)據(jù)概念及其應用零售行業(yè)零售行業(yè)大數(shù)據(jù)應用有兩個層面,一個層面是零售行業(yè)可以了解客戶的消費喜好和趨勢,進行商品的精準營銷,降低營銷成本。另一個層面是依據(jù)客戶購買的產(chǎn)品,為客戶提供可能購買的其他產(chǎn)品,擴大銷售額,也屬于精準營銷范疇。未來考驗零售企業(yè)的是如何挖掘消費者需求,以及高效整合供應鏈滿足其需求的能力,因此,信息技術水平的高低成為獲得競爭優(yōu)勢的關鍵要素。金融行業(yè)1)銀行數(shù)據(jù)應用場景利用數(shù)據(jù)挖掘來分析出一些交易數(shù)據(jù)背后的商業(yè)價值。2)保險數(shù)據(jù)應用場景用數(shù)據(jù)來提升保險產(chǎn)品的精算水平,提高利潤水平和投資收益。3)證券數(shù)據(jù)應用場景對客戶交易習慣和行為分析可以幫助證券公司獲得更多的收益。第一章大數(shù)據(jù)概念及其應用1.5大數(shù)據(jù)的應用場景醫(yī)療行業(yè)醫(yī)療行業(yè)擁有大量的病例、病理報告、治愈方案、藥物報告等,通過對這些數(shù)據(jù)進行整理和分析將會極大地輔助醫(yī)生提出治療方案,幫助病人早日康復??梢詷嫿ù髷?shù)據(jù)平臺來收集不同病例和治療方案,以及病人的基本特征,建立針對疾病特點的數(shù)據(jù)庫,幫助醫(yī)生進行疾病診斷。醫(yī)療行業(yè)的大數(shù)據(jù)應用一直在進行,但是數(shù)據(jù)并沒有完全打通,基本都是孤島數(shù)據(jù),沒辦法進行大規(guī)模的應用。未來可以將這些數(shù)據(jù)統(tǒng)一采集起來,納入統(tǒng)一的大數(shù)據(jù)平臺,為人類健康造福。教育行業(yè)信息技術已在教育領域有了越來越廣泛的應用,教學、考試、師生互動、校園安全、家校關系等,只要技術達到的地方,各個環(huán)節(jié)都被數(shù)據(jù)包裹。通過大數(shù)據(jù)的分析來優(yōu)化教育機制,也可以作出更科學的決策,這將帶來潛在的教育革命,在不久的將來,個性化學習終端將會更多地融入學習資源云平臺,根據(jù)每個學生的不同興趣愛好和特長,推送相關領域的前沿技術、資訊、資源乃至未來職業(yè)發(fā)展方向。第一章大數(shù)據(jù)概念及其應用1.5大數(shù)據(jù)的應用場景農(nóng)業(yè)行業(yè)環(huán)境行業(yè)借助于大數(shù)據(jù)提供的消費能力和趨勢報告,政府可為農(nóng)業(yè)生產(chǎn)進行合理引導,依據(jù)需求進行生產(chǎn),避免產(chǎn)能過剩造成不必要的資源和社會財富浪費。通過大數(shù)據(jù)的分析將會更精確地預測未來的天氣,幫助農(nóng)民做好自然災害的預防工作,幫助政府實現(xiàn)農(nóng)業(yè)的精細化管理和科學決策。借助于大數(shù)據(jù)技術,天氣預報的準確性和實效性將會大大提高,預報的及時性將會大大提升,同時對于重大自然災害如龍卷風,通過大數(shù)據(jù)計算平臺,人們將會更加精確地了解其運動軌跡和危害的等級,有利于幫助人們提高應對自然災害的能力。大數(shù)據(jù)技術可以了解經(jīng)濟發(fā)展情況、各產(chǎn)業(yè)發(fā)展情況、消費支出和產(chǎn)品銷售情況等,依據(jù)分析結果,科學地制定宏觀政策,平衡各產(chǎn)業(yè)發(fā)展,避免產(chǎn)能過剩,有效利用自然資源和社會資源,提高社會生產(chǎn)效率。大數(shù)據(jù)技術也能幫助政府進行支出管理,透明合理的財政支出將有利于提高公信力和監(jiān)督財政支出。智慧城市第一章大數(shù)據(jù)概念及其應用1.5大數(shù)據(jù)的應用場景第一章大數(shù)據(jù)概念與應用1.1大數(shù)據(jù)的概念1.2大數(shù)據(jù)的來源1.3大數(shù)據(jù)的特征及意義1.4大數(shù)據(jù)的表現(xiàn)形態(tài)1.5大數(shù)據(jù)的應用場景習題大數(shù)據(jù)應用人才培養(yǎng)系列教材1.什么是大數(shù)據(jù)?2.大數(shù)據(jù)有哪些來源?3.大數(shù)據(jù)的主要特征是什么?4.大數(shù)據(jù)有哪些表現(xiàn)形態(tài)?5.大數(shù)據(jù)有哪些應用?6.請列舉我們身邊對大數(shù)據(jù)技術的應用。習題:第二章大數(shù)據(jù)的架構2.1云計算2.2大數(shù)據(jù)架構介紹2.3Hadoop體系架構2.4上機與項目實訓大數(shù)據(jù)應用人才培養(yǎng)系列教材習題2.1云計算第二章大數(shù)據(jù)的架構大數(shù)據(jù)和云計算密不可分,由于大數(shù)據(jù)處理和應用需求急劇增長,學術界和工業(yè)界不斷推出新的或改進的計算模式和系統(tǒng)工具平臺。大數(shù)據(jù)與云計算2.1云計算第二章大數(shù)據(jù)的架構云計算的概念

云是網(wǎng)絡、互聯(lián)網(wǎng)的一種比喻說法,通常在圖中往往用云來表示電信網(wǎng),后來也用云來表示互聯(lián)網(wǎng)和底層基礎設施的抽象。云計算并不是對某一項獨立技術的稱呼,而是對實現(xiàn)云計算模式所需要的所有技術的總稱。云計算是什么?2.1云計算第二章大數(shù)據(jù)的架構維基百科NIST云計算是一種基于互聯(lián)網(wǎng)的服務方式,提供動態(tài)可伸縮的虛擬化的資源的計算模式。通過這種方式,共享的軟硬件資源和信息可以按需求提供給計算機和其他設備,他就像我們?nèi)粘I钪杏盟陀秒娨粯樱葱韪顿M,無需關心水電是從哪里來的。云計算是一種按使用量付費的模式,這種模式提供可用的、便捷的、按需的網(wǎng)絡訪問,進入可配置的計算資源共享池,這些資源能夠被快速提供,只需投入很少的管理工作,或與服務供應商進行很少的交互?;诨ヂ?lián)網(wǎng)的相關服務的增加、使用和交付模式,通常涉及通過互聯(lián)網(wǎng)來提供、動態(tài)易擴展且經(jīng)常是虛擬化的資源。云計算是傳統(tǒng)計算機和網(wǎng)絡技術發(fā)展融合的產(chǎn)物,他意味著計算能力也可作為一種商品通過互聯(lián)網(wǎng)進行流通。國務院政府第二章大數(shù)據(jù)的架構2.1云計算資源池彈性可擴張需求服務自助化12虛擬化以網(wǎng)絡為中心354云計算的特點高可靠性和安全性2.1云計算第二章大數(shù)據(jù)的架構云計算的服務方式IaaSPaaSSaaS基礎設施級服務,消費者通過Internet可以從完善的計算機基礎設施獲得服務。IaaS是把數(shù)據(jù)中心、基礎設施等硬件資源通過Web分配給用戶的商業(yè)模式。平臺級服務。PaaS實際上是指將軟件研發(fā)的平臺作為一種服務,以SaaS的模式提交給用戶。因此,PaaS也是SaaS模式的一種應用。軟件級服務。它是一種通過Internet提供軟件的模式,用戶無需購買軟件,而是向提供商租用基于Web的軟件,來管理企業(yè)經(jīng)營活動。2.1云計算第二章大數(shù)據(jù)的架構云平臺架構圖2.1云計算第二章大數(shù)據(jù)的架構云計算的8個應用微軟IBM

亞馬遜紅帽智慧城市

教育

金融阿里云第二章大數(shù)據(jù)的架構2.1云計算2.2大數(shù)據(jù)架構介紹2.3Hadoop體系架構

2.4上機與項目實訓習題大數(shù)據(jù)應用人才培養(yǎng)系列教材大數(shù)據(jù)架構是什么?2.2大數(shù)據(jù)架構介紹第二章大數(shù)據(jù)的架構大數(shù)據(jù)架構是一種結構化和基于模式的方法來簡化定義完整的大數(shù)據(jù)架構的任務。大數(shù)據(jù)架構Hadoop是由Apache軟件基金會研發(fā)的一種開源、高可靠、伸縮性強的分布式計算系統(tǒng),主要用于處理大于1TB的海量數(shù)據(jù)。其核心包括系統(tǒng)HDFS和MapReduce,這一結構的實現(xiàn)十分有利于面向數(shù)據(jù)的系統(tǒng)架構,因此已經(jīng)成為大數(shù)據(jù)技術領域的事實標準。2.2大數(shù)據(jù)架構介紹第二章大數(shù)據(jù)的架構1.大數(shù)據(jù)的分類數(shù)據(jù)類型劃分1、傳統(tǒng)企業(yè)數(shù)據(jù)(Traditionalenterprisedata):包括MIS系統(tǒng)的數(shù)據(jù),傳統(tǒng)的ERP數(shù)據(jù)庫存數(shù)據(jù)以及財務賬目數(shù)據(jù)等。2、機器和傳感器數(shù)據(jù)(Machine-generated/sensordata):包括呼叫記錄(CallDetailRecords),智能儀表,工業(yè)設備傳感器,設備日志,交易數(shù)據(jù)等。3、社交數(shù)據(jù)(Socialdata):包括用戶行為記錄,反饋數(shù)據(jù)等。如Twitter,F(xiàn)acebook這樣的社交媒體平臺。處理過程劃分海量型數(shù)據(jù)。大數(shù)據(jù)計算中的數(shù)據(jù)挖掘是通過挖掘海量的數(shù)據(jù)推動科學知識的界限,數(shù)據(jù)集越大,結論越精確。響應型數(shù)據(jù)。響應型的數(shù)據(jù)集很大,但它的價值圍繞著很具價值的分析結果影隨型數(shù)據(jù)。影隨型數(shù)據(jù)是一種你擁有,但并不容易拿到的數(shù)據(jù)。過程型數(shù)據(jù)。又稱為操作數(shù)據(jù)。這是從生產(chǎn)設備、工業(yè)機械和其他在商業(yè)建筑和工業(yè)廠房里找到的信息。未知型數(shù)據(jù)。未知型數(shù)據(jù)包括現(xiàn)在可以能夠拿到的、希望拿到的、然而還不充足的信息。2.2大數(shù)據(jù)架構介紹第二章大數(shù)據(jù)的架構1.大數(shù)據(jù)的分類產(chǎn)生數(shù)據(jù)的主題劃分1、少量企業(yè)應用產(chǎn)生的數(shù)據(jù),比如關系型數(shù)據(jù)庫中的數(shù)據(jù)和數(shù)據(jù)倉庫中的數(shù)據(jù)等。2、大量人產(chǎn)生的數(shù)據(jù),比如微信、移動通信數(shù)據(jù)、電子商務在線交易日志數(shù)據(jù)、企業(yè)應用的相關評論數(shù)據(jù)等。3、巨量機器產(chǎn)生的數(shù)據(jù),比如應用服務器日志、圖像和視頻監(jiān)控數(shù)據(jù)、二維碼和條形碼掃描數(shù)據(jù)等。2.2大數(shù)據(jù)架構介紹第二章大數(shù)據(jù)的架構1.大數(shù)據(jù)的分類大數(shù)據(jù)架構劃分1)按需分析,與社交媒體數(shù)據(jù)一樣;2)實時、持續(xù)提供3)時序(基于時間的數(shù)據(jù))。4)數(shù)據(jù)類型。要處理數(shù)據(jù)的類型1、分析類型。判斷進行數(shù)據(jù)分析時,對數(shù)據(jù)執(zhí)行實時分析還是批量分析。2、處理方法。用來處理數(shù)據(jù)的技術類型(如預測、分析、臨時查詢和報告)。3、數(shù)據(jù)頻率和大小。預計有多少數(shù)據(jù)和數(shù)據(jù)到達的頻率有多高。4、數(shù)據(jù)類型。要處理數(shù)據(jù)的類型,如交易、歷史、主數(shù)據(jù)等。5、內(nèi)容格式(傳入數(shù)據(jù)的格式)結構化(例如RDMBS)、非結構化(例如音頻、視頻和圖像)或半結構化。6、數(shù)據(jù)源即數(shù)據(jù)的來源(生成數(shù)據(jù)的地方),如Web和社交媒體、機器生成、人類生成等。7、數(shù)據(jù)使用者。處理數(shù)據(jù)的所有可能使用者的情況列表。8、硬件。用來實現(xiàn)大數(shù)據(jù)解決方案的硬件類型,包括商用硬件或最先進的硬件。2.2大數(shù)據(jù)架構介紹第二章大數(shù)據(jù)的架構1.大數(shù)據(jù)分類圖2.2大數(shù)據(jù)架構介紹第二章大數(shù)據(jù)的架構2.數(shù)據(jù)類型數(shù)據(jù)類型包括原始類型、多元組、記錄單元、代數(shù)數(shù)據(jù)類型、抽象數(shù)據(jù)類型、參考類型以及函數(shù)類型。在大數(shù)據(jù)時代中,又有哪些數(shù)據(jù)類型出現(xiàn)呢?第二章大數(shù)據(jù)的架構2.2大數(shù)據(jù)架構介紹移動互聯(lián)網(wǎng),每天產(chǎn)生了大量的點擊數(shù)據(jù),這些數(shù)據(jù)被某些公司所有擁有,形成用戶大量行為數(shù)據(jù)電子地圖,它代表著一種行為、一種習慣,這些流數(shù)據(jù)經(jīng)頻率分析后會產(chǎn)生巨大的商業(yè)價值12社交網(wǎng)絡,它的出現(xiàn),大量的互聯(lián)網(wǎng)用戶創(chuàng)造出海量的社交行為數(shù)據(jù)電子商務,它的崛起帶來了大量的網(wǎng)上交易數(shù)據(jù),這些數(shù)據(jù)的產(chǎn)生為大數(shù)據(jù)的研究帶來了很大的契機,其中隱藏了更大的商業(yè)價值。354傳統(tǒng)的互聯(lián)網(wǎng)入口轉向搜索引擎之后,用戶的搜索行為和提問行為聚集了海量數(shù)據(jù)。單位存儲價格的下降也為存儲這些數(shù)據(jù)提供了經(jīng)濟上的可能性。2.2大數(shù)據(jù)架構介紹第二章大數(shù)據(jù)的架構分析大數(shù)據(jù)時,四種參考數(shù)據(jù)類型人為數(shù)據(jù)非結構化數(shù)據(jù)廣泛應用并存在于電子郵件、文檔、圖片、音頻、視頻中,同時通過博客、維基,尤其是社交媒體所產(chǎn)生的數(shù)據(jù)流。這些數(shù)據(jù)為使用文本分析功能進行分析提供了豐富的數(shù)據(jù)資源。移動數(shù)據(jù)智能手機和平板這些移動設備上的App都能夠追蹤和溝通大量事件,從App內(nèi)的交易數(shù)據(jù)(如搜索產(chǎn)品的記錄事件)到個人信息資料或狀態(tài)報告事件(如地點變更即報告一個新的地理編碼)。交易數(shù)據(jù)使用大數(shù)據(jù)平臺能夠幫助我們獲取時間跨度更大、更海量的結構化交易數(shù)據(jù),這樣就能夠對更廣泛的交易數(shù)據(jù)類型進行數(shù)據(jù)分析,其中不僅僅包括POS或電子商務購物數(shù)據(jù),還包括行為交易數(shù)據(jù)。機器和傳感器數(shù)據(jù)機器和傳感器數(shù)據(jù)是來自新興的物聯(lián)網(wǎng)(IoT)所產(chǎn)生的主要例子。物聯(lián)網(wǎng)的數(shù)據(jù)可以用于構建分析模型,連續(xù)監(jiān)測預測性行為,提供規(guī)定的指令,做出及時正確的判斷。2.2大數(shù)據(jù)架構介紹第二章大數(shù)據(jù)的架構2.數(shù)據(jù)類型采用大數(shù)據(jù)方案解決問題時,應熟悉項目的實際狀況,熟悉項目的建設流程,弄清大數(shù)據(jù)分析技術的原理,架構,設計理念,以及掌握大數(shù)據(jù)的關鍵技術,才可以從容不迫的對待建設項目進行調(diào)研實施。2.2大數(shù)據(jù)架構介紹第二章大數(shù)據(jù)的架構2.架構概述架構,又稱軟件架構,是有關軟件整體結構與組件的抽象描述,用于指導大型軟件系統(tǒng)各個方面的設計。軟件系統(tǒng)的架構有兩個要素:首先他是一個軟件系統(tǒng)從整體到部分的最高層的的劃分,再則一個系統(tǒng)通常是由元件組成,而這些元件如何形成、相互之間怎樣發(fā)生作用,就是這個系統(tǒng)本身結構的問題了。所以說軟件架構是平衡的藝術。2.2大數(shù)據(jù)架構介紹第二章大數(shù)據(jù)的架構2.架構四大注意要素2.2大數(shù)據(jù)架構介紹第二章大數(shù)據(jù)的架構與Oracle性能關系最大的SGASGA包含三個部分:數(shù)據(jù)緩沖區(qū),是SGA的一個高速緩存區(qū)域,可避免重復讀取常用的數(shù)據(jù)01日志緩沖區(qū),提升了數(shù)據(jù)增刪改的速度,減少磁盤的讀寫而加快速度02共享池,使相同的SQL語句不再編譯,提升了SQL的執(zhí)行速度,共享池的大小(以字節(jié)為單位)由init.ora文件參數(shù)SHARED_POOL_SIZE決定。032.2大數(shù)據(jù)架構介紹第二章大數(shù)據(jù)的架構數(shù)據(jù)庫體系架構圖2.2大數(shù)據(jù)架構介紹第二章大數(shù)據(jù)的架構整體系統(tǒng)架構圖2.2大數(shù)據(jù)架構介紹第二章大數(shù)據(jù)的架構整體邏輯功能架構圖第二章大數(shù)據(jù)的架構2.2大數(shù)據(jù)架構介紹大數(shù)據(jù)存儲技術并行計算能力12數(shù)據(jù)分析技術數(shù)據(jù)顯示技術354數(shù)據(jù)挖掘算法大數(shù)據(jù)架構關鍵技術第二章大數(shù)據(jù)的架構2.1云計算2.2大數(shù)據(jù)架構介紹2.3Hadoop體系架構

2.4上機與項目實訓習題大數(shù)據(jù)應用人才培養(yǎng)系列教材2.3Hadoop體系架構第二章大數(shù)據(jù)的架構Hadoop概述Hadoop最初是一個由Apache軟件基金會研發(fā)的一種分布式計算機系統(tǒng)。主要用來處理大于1TB的海量數(shù)據(jù)。Hadoop采用Java語言開發(fā),其核心模塊包括分布式文件系統(tǒng)(HadoopDistributedFileSystem,HadoopHDFS)和分布式計算框架MapReduce,HDFS為海量數(shù)據(jù)提供存儲,MapReduce為海量數(shù)據(jù)提供計算,這樣的結構實現(xiàn)了計算與存儲的高度耦合,成為大數(shù)據(jù)技術的事實標準。012.3Hadoop體系架構第二章大數(shù)據(jù)的架構Hadoop發(fā)展史12004年—最初的版本(現(xiàn)在稱為HDFS和MapReduce)由DougCutting和MikeCafarella開始實施。2005年12月—Nutch移植到新的框架,Hadoop在20個節(jié)點上穩(wěn)定運行。2006年2月—ApacheHadoop項目正式啟動以支持MapReduce和HDFS的獨立發(fā)展。2008年9月—Hive成為Hadoop的子項目2009年3月—Cloudera推出CDH(Cloudera’sDsitributionIncludingApacheHadoop)2009年7月—MapReduce和HadoopDistributedFileSystem(HDFS)成為Hadoop項目的獨立子項目。2009年7月—Avro和Chukwa成為Hadoop新的子項目。2010年5月—Avro脫離Hadoop項目,成為Apache頂級項目。2010年5月—HBase脫離Hadoop項目,成為Apache頂級項目。2010年9月—Hive(Facebook)脫離Hadoop,成為Apache頂級項目。2010年9月—Pig脫離Hadoop,成為Apache頂級項目。2011年1月—ZooKeeper脫離Hadoop,成為Apache頂級項目。2011年3月—ApacheHadoop獲得MediaGuardianInnovationAwards。2011年8月—Dell與Cloudera聯(lián)合推出Hadoop解決方案——ClouderaEnterprise。ClouderaEnterprise基于DellPowerEdgeC2100機架服務器以及DellPowerConnect6248以太網(wǎng)交換機2012年3月—在Hadoop1.0版的基礎上發(fā)布Hadoop1.2.1穩(wěn)定版2013年10月—Hadoop2.2.0版本成功發(fā)布2014年11月—Hadoop已經(jīng)發(fā)展到了2.6.0版本022.3Hadoop體系架構第二章大數(shù)據(jù)的架構Hadoop的五大優(yōu)點1)高可靠性。Hadoop具有按位存儲和處理數(shù)據(jù)的能力。2)高擴展性。Hadoop是在可用的計算機集簇間分配數(shù)據(jù)并完成計算任務的,可以方便地擴展到其他節(jié)點中。3)高效性。Hadoop能夠在節(jié)點之間動態(tài)地移動數(shù)據(jù),并保證各個節(jié)點的動態(tài)平衡,具有較快的處理速度。034)高容錯性。Hadoop能夠自動保存數(shù)據(jù)的多個副本,并自動將失敗的任務重新分配。5)低成本。Hadoop是開源的,項目的軟件成本因此會大大降低。2.3Hadoop體系架構第二章大數(shù)據(jù)的架構Hadoop的版本選擇當前Hadoop版本比較混亂,讓用戶不知道怎樣選擇,實際上,目前Hadoop只有兩個版本:Hadoop1.0和Hadoop2.0。其中,Hadoop1.0由一個分布式文件系統(tǒng)HDFS和一個離線計算框架MapReduce組成,而Hadoop2.0則由一個支持NameNode橫向擴展的HDFS,一個資源管理系統(tǒng)YARN和一個運行在YARN上的離線計算框架MapReduce。相比于Hadoop1.0,Hadoop2.0功能更加強大,且具有更好的擴展性,并支持多種計算框架。我們在選擇使用某個開源環(huán)境時,通常會考慮幾個因素:a.是否是免費的開源軟件b.版本是否穩(wěn)定c.是否有強大的實踐驗證及出現(xiàn)故障后是否有一個強大的社區(qū)支持,快速獲取問題的解決方法。03第二章大數(shù)據(jù)的架構2.3Hadoop體系架構Hadoop分布式文件系統(tǒng)(HDFS)被設計成適合運行在通用硬件(commodityhardware)上的分布式文件系統(tǒng)。他是一個高度容錯性的系統(tǒng),適合部署在廉價的機器上,能提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應用。MapReduce是一種編程模型,MapReduce是面向大數(shù)據(jù)并行處理的計算模型、框架和平臺,它隱含了以下三層含義:1)是一個基于集群的高性能并行計算平臺(ClusterInfrastructure);2)是一個并行計算與運行軟件框架(SoftwareFramework);3)是一個并行程序設計模型與方法(ProgrammingModel&Methodology)。HDFSMapReduceHBase:類似GoogleBigTable的分布式NoSQL列數(shù)據(jù)庫;Hive:是基于Hadoop的一個數(shù)據(jù)倉庫工具,可以將結構化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供完整的sql查詢功能,可以sql語句轉換為MapReduce任務進行運行;Zookeeper:分布式鎖,提供類似GoogleChubby的功能;Avro:新的數(shù)據(jù)序列化格式與傳輸工具,將逐步取代Hadoop原有的IPC機制;Pig:大數(shù)據(jù)數(shù)據(jù)流分析平臺,為用戶提供多種接口;Sqoop:在HADOOP與傳統(tǒng)的數(shù)據(jù)庫間進行數(shù)據(jù)的傳遞。其他Hadoophe核心組件第二章大數(shù)據(jù)的架構2.1云計算2.2大數(shù)據(jù)架構介紹2.3Hadoop體系架構2.4上機與項目實訓習題大數(shù)據(jù)應用人才培養(yǎng)系列教材2.4上機與項目實訓第二章大數(shù)據(jù)的架構上機與項目實訓1)安裝虛擬機和linux,虛擬機推薦使用vbox或vmware,PC可以使用workstation,服務器可以使用ESXi,在管理上比較方便??梢允褂脧椭铺摂M機功能簡化準備流程。如果只是實驗用途,內(nèi)存分配可以在1G左右,硬盤大約預留20-30G空間即可。43)到Oracle官網(wǎng)下載javajdk安裝包2)以Centos為例,分區(qū)可以選擇默認,安裝選項選擇DesktopGnome,以及Server、ServerGUI即可。其它Linux,注意選項里應包括ssh,vi(用于編輯配置文件),perl等(有些腳本里包含perl代碼需要解析)4)安裝Linux后一定要確認iptables,selinux等防火墻或訪問控制機制已經(jīng)關閉,否則實驗很可能受影響第二章大數(shù)據(jù)的架構2.1云計算2.2大數(shù)據(jù)架構介紹2.3Hadoop體系架構2.4上機與項目實訓

習題大數(shù)據(jù)應用人才培養(yǎng)系列教材1.云計算的特點?2.云計算的集中服務方式?3.大數(shù)據(jù)分類有哪些,請分別指出?4.列舉3種大數(shù)據(jù)的解決方案?5.Hadoop核心技術是什么?習題:第三章大數(shù)據(jù)采集及預處理3.1大數(shù)據(jù)采集3.2數(shù)據(jù)預處理3.3常用ETL工具 大數(shù)據(jù)應用人才培養(yǎng)系列教材

習題3.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預處理

大數(shù)據(jù)采集概念

數(shù)據(jù)采集(DAQ)又稱數(shù)據(jù)獲取,通過RFID射頻數(shù)據(jù)、傳感器數(shù)據(jù)、社交網(wǎng)絡數(shù)據(jù)、移動互聯(lián)網(wǎng)數(shù)據(jù)等方式獲得各種類型的結構化、半結構化及非結構化的海量數(shù)據(jù)。常用的數(shù)據(jù)采集的方式大數(shù)據(jù)的采集通常采用多個數(shù)據(jù)庫來接收終端數(shù)據(jù),包括智能硬件端、多種傳感器端、網(wǎng)頁端、移動APP應用端等,并且可以使用數(shù)據(jù)庫進行簡單的處理工作。3.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預處理數(shù)據(jù)抓取01數(shù)據(jù)導入02物聯(lián)網(wǎng)傳感設備自動信息采集033.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預處理大數(shù)據(jù)采集的研究分類智能感知層包括數(shù)據(jù)傳感體系、網(wǎng)絡通信體系、傳感適配體系、智能識別體系及軟硬件資源接入系統(tǒng),實現(xiàn)對結構化、半結構化、非結構化的海量數(shù)據(jù)的智能化識別、定位、跟蹤、接入、傳輸、信號轉換、監(jiān)控、初步處理和管理等。涉及有針對大數(shù)據(jù)源的智能識別、感知、適配、傳輸、接入等技術。隨著物聯(lián)網(wǎng)技術、智能設備的發(fā)展,這種基于傳感器的數(shù)據(jù)采集會越來越多,相應對于這類的研究和應用也會越來越重要?;A支撐層提供大數(shù)據(jù)服務平臺所需的虛擬服務器,結構化、半結構化及非結構化數(shù)據(jù)的數(shù)據(jù)庫及物聯(lián)網(wǎng)絡資源等基礎支撐環(huán)境。重點要解決分布式虛擬存儲技術,大數(shù)據(jù)獲取、存儲、組織、分析和決策操作的可視化接口技術,大數(shù)據(jù)的網(wǎng)絡傳輸與壓縮技術,大數(shù)據(jù)隱私保護技術等。3.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預處理常用日志系統(tǒng)的采集工具考數(shù)據(jù)類型Flum是Cloudera提供的一個可靠性和可用性都非常高的日志系統(tǒng),采用分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng),支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時,F(xiàn)lume具有通過對數(shù)據(jù)進行簡單的處理,并寫到各種數(shù)據(jù)接受方的能力。ScribeScribe是facebook開源的日志收集系統(tǒng),它能夠從各種日志源上收集日志,存儲到一個中央存儲系統(tǒng)(可以是NFS,分布式文件系統(tǒng)等)上,便于進行集中統(tǒng)計分析處理。它最重要的特點是容錯性好。ChukwaApache的開源項目hadoop,被業(yè)界廣泛認可,很多大型企業(yè)都有了各自基于hadoop的應用和擴展。當1000+以上個節(jié)點的hadoop集群變得常見時,Apache提出了用chukwa的方法來解決。KafkaKafka是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),它可以處理大規(guī)模的網(wǎng)站中的所有動作流數(shù)據(jù)。具有高穩(wěn)定性、高吞吐量、支持通過Kafka服務器和消費機集群來分區(qū)消息和支持Hadoop并行數(shù)據(jù)加載的特性。Chukwa主要的部件為:1.Agents:負責采集最原始的數(shù)據(jù),并發(fā)送給collectors2.Adaptor:直接采集數(shù)據(jù)的接口和工具,一個agent可以管理多個adaptor的數(shù)據(jù)采集3.Collectors:負責收集agents收送來的數(shù)據(jù),并定時寫入集群中4.Map/reducejobs:定時啟動,負責把集群中的數(shù)據(jù)分類、排序、去重和合并5.HICC:負責數(shù)據(jù)的展示013.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預處理Flum1)在數(shù)據(jù)處理方面:Flume提供對數(shù)據(jù)進行簡單處理,并寫到各種數(shù)據(jù)接受方處。他提供了從console(控制臺)、RPC(Thrift-RPC)、text(文件)、tail(UNIXtail)、syslog(syslog日志系統(tǒng)),支持TCP和UDP等2種模式),exec(命令執(zhí)行)等數(shù)據(jù)源上收集數(shù)據(jù)的能力2)在工作方式上:Flume-og采用了多Master的形式。為了保證配置數(shù)據(jù)的一致性,F(xiàn)lume引入了ZooKeeper,用于保存系統(tǒng)配置的數(shù)據(jù),ZooKeeper本身具有可保證配置數(shù)據(jù)的一致性和高可用,同時,在配置數(shù)據(jù)發(fā)生變化時,ZooKeeper可以通知FlumeMaster節(jié)點。FlumeMaster間使用gossip協(xié)議同步數(shù)據(jù)。023)Flume-ng取消了集中管理配置的Master和Zookeeper,變?yōu)橐粋€純粹的傳輸工具。Flume-ng還有一個不同點是讀入數(shù)據(jù)和寫出數(shù)據(jù)現(xiàn)在由不同的工作線程處理(稱為Runner)。在Flume-og中,讀入線程同樣做寫出工作(除了故障重試)。如果寫出慢的話(不是完全失?。?,它將阻塞Flume接收數(shù)據(jù)的能力。這種異步的設計使讀入線程可以順暢的工作而無需關注下游的任何問題。3.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預處理ScribeScribe為日志收集提供了一種容錯且可擴展的方案。Scribe可以從不同數(shù)據(jù)源,不同機器上收集日志,然后將它們存入一個中央存儲系統(tǒng),便于進一步處理。當采用HDFS作為中央系統(tǒng)時,可以進一步使用Hadoop進行處理數(shù)據(jù),于是就有了Scribe+HDFS+MapReduce方案。033.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預處理Kafka的producer,broker和consumer三種主要角色(1)ProducerProducer的任務是向broker發(fā)送數(shù)據(jù)。為其提供了兩種producer接口,一種是low_level接口,使用這種接口會向特定的broker的某個topic下的某個partition發(fā)送數(shù)據(jù);另一種那個是highlevel接口,這種接口支持同步/異步發(fā)送數(shù)據(jù),基于zookeeper的broker自動識別和負載均衡。04(3)Consumerconsumer的作用是將日志信息加載到中央存儲系統(tǒng)上。(2)BrokerBroker采取了多種不同的策略來提高對數(shù)據(jù)處理的效率。3.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預處理第三章大數(shù)據(jù)采集及預處理

系統(tǒng)日志采集方法

3.1大數(shù)據(jù)采集高可用性、高可靠性、可擴展性是日志收集系統(tǒng)所具有的基本特征。常用的日志系統(tǒng)有Hadoop的Chukwa、Cloudera的Flume、Facebook的Scrible和LinkedIn的Kafka這些工具大部分采用分布式架構,來滿足大規(guī)模日志采集的需求Chukwa的日志采集流程模擬增量日志環(huán)境/home/matrix/Program/project/log/testlog-0[17/Oct/2011:23:20:40+0800]GET/img/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"-1[17/Oct/2011:23:20:40+0800]GET/izmg/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"-2[17/Oct/2011:23:20:40+0800]GET/img/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"-3[17/Oct/2011:23:20:40+0800]GET/img/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"-4[17/Oct/2011:23:20:40+0800]GET/img/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"-5[17/Oct/2011:23:20:40+0800]GET/img/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"-6[17/Oct/2011:23:20:40+0800]GET/img/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"-7[17/Oct/2011:23:20:40+0800]GET/img/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"-8[17/Oct/2011:23:20:40+0800]GET/img/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"-9[17/Oct/2011:23:20:40+0800]GET/img/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"013.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預處理Chukwa的日志采集流程模擬增量日志環(huán)境/home/matrix/Program/project/log/logtest-0[17/Oct/2011:23:20:40+0800]GET/img/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"-1[17/Oct/2011:23:20:40+0800]GET/img/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"-2[17/Oct/2011:23:20:40+0800]GET/img/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"-3[17/Oct/2011:23:20:40+0800]GET/img/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"-4[17/Oct/2011:23:20:40+0800]GET/img/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"-5[17/Oct/2011:23:20:40+0800]GET/img/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"-6[17/Oct/2011:23:20:40+0800]GET/img/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"-7[17/Oct/2011:23:20:40+0800]GET/img/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"-8[17/Oct/2011:23:20:40+0800]GET/img/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"-9[17/Oct/2011:23:20:40+0800]GET/img/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"013.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預處理Chukwa的日志采集流程模擬增量日志環(huán)境/home/matrix/Program/project/log/write_log.sh#!/bin/bash-cat/home/matrix/Program/project/log/testlog>>/home/matrix/Program/project/log/testlog1cat/home/matrix/Program/project/log/logtest>>/home/matrix/Program/project/log/testlog2/etc/crontab*/1****matrix/home/matrix/Program/project/log/write_log.sh$CHUKWA_HOME/conf/initial_adaptorsaddfiletailer.CharFileTailingAdaptorUTF8TestLog10/home/matrix/Program/project/log/testlog10addfiletailer.CharFileTailingAdaptorUTF8TestLog20/home/matrix/Program/project/log/testlog20013.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預處理

chukwa的目錄結構/chukwa/archivesProcessing/dataSinkArchives/demuxProcessing/finalArchives/logs/postProcess/repos/rolling/temp/023.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預處理

(1)Adaptors使用tail方式監(jiān)測日志增量;(2)Agent發(fā)送數(shù)據(jù)到collectors;(3)Collectors將各agent收集的數(shù)據(jù)在/chukwa/logs/目錄下寫成*.chukwa文件;(4)當*.chukwa文件大小達到閥值或達到一定時間間隔時將其改名為*.done文件;(5)Demux進程將/chukwa/logs/*.done文件轉移到/chukwa/demuxProcessing/mrInput/目錄下進行處理;(6)PostProcess進程將demux進程處理完成的*.evt文件轉儲到/chukwa/repos/目錄下;(7)可以根據(jù)PostProcess進程按照日志類型在/chukwa/rolling/目錄下生成的文件進行按天或按小時的數(shù)據(jù)合并。3.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預處理

Chukwa的處理過程

03Flume日志采集流程(1)從整體上描述代理agent中sources、sinks、channels所涉及到的組件;#Namethecomponentsonthisagenta1.sources=r1a1.sinks=k1a1.channels=c1013.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預處理

Flume日志采集流程詳細描述agent中每一個source、sink與channel的具體實現(xiàn):在描述source的時候,需要指定source的類型,這個source是接受文件的、還是接受http的、還是接受thrift的;對于sink也是同理,要指定結果輸出到HDFS還是Hbase中。

013.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預處理#Describe/configurethesourcea1.sources.r1.type=netcata1.sources.r1.bind=localhosta1.sources.r1.port=44444Describethesinka1.sinks.k1.type=logger#Useachannelwhichbufferseventsinmemorya1.channels.c1.type=memorya1.channels.c1.capacity=1000a1.channels.c1.transactionCapacity=100Flume日志采集流程

通過channel將source與sink連接起來#Bindthesourceandsinktothechannela1.sources.r1.channels=c1a1.sinks.k1.channel=c1啟動agent的shell操作:flume-ngagent-na1-c../conf-f../conf/example.file-Dflume.root.logger=DEBUG,console013.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預處理-n指定agent名稱(與配置文件中代理的名字相同)-c指定flume中配置文件的目錄-f指定配置文件-Dflume.root.logger=DEBUG,console設置日志等級Scribe日志采集流程a.Server,適用于壓力較小的網(wǎng)站或服務。日志流程如下:用戶-->WebServer-->Scribe-->存儲-->分析-->展示用戶-->WebServer-------|記錄日志的程序框架由thrift自動生成,只需include或者import即可b.C/S結構,適合訪問量大的網(wǎng)站和服務,并可根據(jù)需要進行平行擴展,采用散列的方式分配服務器壓力。用戶-->WebServer1-->ScribeClient-->ScribeServer-->存儲-->分析-->展示用戶-->WebServer2--------|用戶-->WebServer3--------|Client及Server均可進行水平擴展,在程序中設置hash訪問。013.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預處理Kafka日志采集流程

生產(chǎn)者定期向主題發(fā)送消息;消費者訂閱特定主題;消費者將定期請求Kafka需要新消息;消費者將收到消息并進行處理;消費者可以隨時回退/跳到所需的主題偏移量,并閱讀所有后續(xù)消息。013.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預處理第三章大數(shù)據(jù)采集及預處理

“網(wǎng)絡數(shù)據(jù)采集”是利用互聯(lián)網(wǎng)搜索引擎技術對數(shù)據(jù)進行針對性、行業(yè)性、精準性的抓取,并按照一定規(guī)則和篩選標準進行將數(shù)據(jù)進行歸類,形成數(shù)據(jù)庫文件的一個過程?;ヂ?lián)網(wǎng)網(wǎng)絡數(shù)據(jù)是大數(shù)據(jù)的重要來源之一通過網(wǎng)絡爬蟲或網(wǎng)站公開API等方式可以將非結構化數(shù)據(jù)從網(wǎng)頁中抽取出來,將其存儲為統(tǒng)一的本地數(shù)據(jù)文件,并以結構化的方式存儲。網(wǎng)絡數(shù)據(jù)采集方法

3.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預處理

一些企業(yè)會使用傳統(tǒng)的關系型數(shù)據(jù)庫MySQL和Oracle等來存儲數(shù)據(jù)。這些數(shù)據(jù)庫中存儲的海量數(shù)據(jù),相對來說結構化更強,也是大數(shù)據(jù)的主要來源之一。其采集方法支持異構數(shù)據(jù)庫之間的實時數(shù)據(jù)同步和復制,基于的理論是對各種數(shù)據(jù)庫的Log日志文件進行分析,然后進行復制。數(shù)據(jù)庫采集

3.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預處理

在一些特定領域,比如對于企業(yè)生產(chǎn)經(jīng)營數(shù)據(jù)或學科研究數(shù)據(jù)等保密性要求較高的數(shù)據(jù),可以通過與企業(yè)或研究機構合作,使用特定系統(tǒng)接口等相關方式采集數(shù)據(jù)。其他數(shù)據(jù)采集方法

3.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預處理3.1大數(shù)據(jù)采集3.2數(shù)據(jù)預處理3.3常用ETL工具 大數(shù)據(jù)應用人才培養(yǎng)系列教材習題3.2數(shù)據(jù)預處理第三章大數(shù)據(jù)采集及預處理大數(shù)據(jù)預處理

大數(shù)據(jù)正帶來一場信息社會的變革。大量的結構化數(shù)據(jù)和非結構化數(shù)據(jù)的廣泛應用,致使人們需要重新思考已有的IT模式;與此同時,大數(shù)據(jù)將推動進行又一次基于信息革命的業(yè)務轉型,使社會能夠借助大數(shù)據(jù)獲取更多的社會效益和發(fā)展機會;龐大的數(shù)據(jù)需要我們進行剝離、整理、歸類、建模、分析等操作,通過這些動作后,我們開始建立數(shù)據(jù)分析的維度,通過對不同的維度數(shù)據(jù)進行分析,最終才能得到想到的數(shù)據(jù)和信息。因此,如何進行大數(shù)據(jù)的采集、導入/預處理、統(tǒng)計/分析和大數(shù)據(jù)挖掘,是“做”好大數(shù)據(jù)的關鍵基礎。導入/預處理雖然采集端本身有很多數(shù)據(jù)庫,但是如果要對這些海量數(shù)據(jù)進行有效的分析,還是應該將這些數(shù)據(jù)導入到一個集中的大型分布式數(shù)據(jù)庫或者分布式存儲集群當中,同時,在導入的基礎上完成數(shù)據(jù)清洗和預處理工作。也有一些用戶會在導入時使用來自Twitter的Storm來對數(shù)據(jù)進行流式計算,來滿足部分業(yè)務的實時計算需求?,F(xiàn)實世界中數(shù)據(jù)大體上都是不完整、不一致的“臟”數(shù)據(jù),無法直接進行數(shù)據(jù)挖掘,或挖掘結果差強人意,為了提高數(shù)據(jù)挖掘的質量,產(chǎn)生了數(shù)據(jù)預處理技術。數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)變換數(shù)據(jù)歸約主要是達到數(shù)據(jù)格式標準化、異常數(shù)據(jù)清除、數(shù)據(jù)錯誤糾正、重復數(shù)據(jù)的清除等目標。是將多個數(shù)據(jù)源中的數(shù)據(jù)結合起來并統(tǒng)一存儲,建立數(shù)據(jù)倉庫。通過平滑聚集、數(shù)據(jù)概化、規(guī)范化等方式將數(shù)據(jù)轉換成適用于數(shù)據(jù)挖掘的形式。尋找依賴于發(fā)現(xiàn)目標的數(shù)據(jù)的有用特征,縮減數(shù)據(jù)規(guī)模,最大限度地精簡數(shù)據(jù)量。3.2數(shù)據(jù)預處理第三章大數(shù)據(jù)采集及預處理第三章大數(shù)據(jù)采集及預處理

數(shù)據(jù)清洗時發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識別的錯誤的最后一道程序,包括對數(shù)據(jù)一致性的檢查,無效值和缺失值得處理。數(shù)據(jù)清洗的原理是利用有關技術如數(shù)據(jù)挖掘或預定義的清理規(guī)則將臟數(shù)據(jù)轉化為滿足數(shù)據(jù)質量要求的數(shù)據(jù)。數(shù)據(jù)清洗

3.2數(shù)據(jù)預處理殘缺數(shù)據(jù)錯誤數(shù)據(jù)這一類數(shù)據(jù)主要是因為部分信息缺失,如公司的名稱、客戶的區(qū)域信息、業(yè)務系統(tǒng)中主表與明細表不能匹配等數(shù)據(jù)。將這一類數(shù)據(jù)過濾出來,按照缺失的內(nèi)容分別填入對應的文檔信息,并提交給客戶,在規(guī)定時間內(nèi)補全,才可寫入數(shù)據(jù)倉庫。這一類錯誤產(chǎn)生的原因往往是業(yè)務系統(tǒng)不夠健全,在接收輸入信息后沒有進行判斷直接將數(shù)據(jù)寫入后臺數(shù)據(jù)庫導致的,比如數(shù)值數(shù)據(jù)輸成全角數(shù)字字符、字符串數(shù)據(jù)后面有一個回車操作、日期格式不正確等。這類數(shù)據(jù)也需要分類,對于類似于全角字符、數(shù)據(jù)前后有不可見字符問題的只能寫SQL語句查找出來,讓客戶在修正之后抽取。日期格式的錯誤會導致ETL運行失敗,需要去業(yè)務系統(tǒng)數(shù)據(jù)庫用SQL的方式挑出來,修正之后再抽取。這一類數(shù)據(jù)多出現(xiàn)在維護表中,是將重復數(shù)據(jù)記錄的所有字段導出來,讓客戶確認并整理。數(shù)據(jù)清理的方法是通過填寫無效和缺失的值、光滑噪聲的數(shù)據(jù)、識別或刪除離群點并解決不一致性來“清理”數(shù)據(jù)。主要是達到格式標準化、異常數(shù)據(jù)消除、錯誤糾正、重復數(shù)據(jù)的清除等目的。數(shù)據(jù)清理是將數(shù)據(jù)庫中所存數(shù)據(jù)精細化,去除重復無用數(shù)據(jù),并使剩余部分的數(shù)據(jù)轉化成標準可接受格式的過程。重復數(shù)據(jù)3.2數(shù)據(jù)預處理第三章大數(shù)據(jù)采集及預處理第三章大數(shù)據(jù)采集及預處理數(shù)據(jù)清理的方法修改錯誤值用統(tǒng)計分析的方法識別錯誤值或異常值,如數(shù)據(jù)偏差、識別不遵守分布的值,也可以用簡單規(guī)則庫檢查數(shù)據(jù)值,或使用不同屬性間的約束來檢測和清理數(shù)據(jù)。消除重復記錄數(shù)據(jù)庫中屬性值相同的情況被認定為是重復記錄。通過判斷記錄間的屬性值是否相等來檢測記錄是否相等,相等的記錄合并為一條記錄。填充缺失值大部分情況下,缺失的值必須要用手工來進行清理。當然,某些缺失值可以從他本身數(shù)據(jù)源或其它數(shù)據(jù)源中推導出來,可以用平均值、最大值或更為復雜的概率估計代替缺失的值,從而達到清理的目的。數(shù)據(jù)的不一致性從多數(shù)據(jù)源集成的數(shù)據(jù)語義會不一樣,可供定義完整性約束用于檢查不一致性,也可通過對數(shù)據(jù)進行分析來發(fā)現(xiàn)他們之間的聯(lián)系,從而保持數(shù)據(jù)的一致性。。3.2數(shù)據(jù)預處理第三章大數(shù)據(jù)采集及預處理

數(shù)據(jù)集成是將不同應用系統(tǒng)、不同數(shù)據(jù)形式,在原應用系統(tǒng)不做任何改變的條件下,進行數(shù)據(jù)采集、轉換好儲存的數(shù)據(jù)整合過程。其主要目的是在解決多重數(shù)據(jù)儲存或合并時所產(chǎn)生的數(shù)據(jù)不一致、數(shù)據(jù)重復或冗余的問題,以提高后續(xù)數(shù)據(jù)分析的精確度和速度。數(shù)據(jù)集成

3.2數(shù)據(jù)預處理第三章大數(shù)據(jù)采集及預處理

數(shù)據(jù)轉換(datatransfer)時采用線性或非線性的數(shù)學變換方法將多維數(shù)據(jù)壓縮成較少維的數(shù)據(jù),消除他們在時間、空間、屬性及精度等特征表現(xiàn)方面的差異。實際上就是將數(shù)據(jù)從一種表示形式變?yōu)榱硪环N表現(xiàn)形式的過程。數(shù)據(jù)轉換

3.2數(shù)據(jù)預處理第三章大數(shù)據(jù)采集及預處理數(shù)據(jù)轉換方法中心化變換變換之后均值為0,協(xié)方差陣不變,可以用來方便地計算樣本協(xié)方差陣。3.2數(shù)據(jù)預處理第三章大數(shù)據(jù)采集及預處理數(shù)據(jù)轉換方法標準化變換變換之后每個變量均值為0,標準差為1,變換后的數(shù)據(jù)與變量的量綱無關。。3.2數(shù)據(jù)預處理極差標準化變換變換后每個變量樣本均值為0,極差為1,變換后數(shù)據(jù)絕對值數(shù)據(jù)在(-1,1)中,能減少分析計算中的誤差,無量綱。第三章大數(shù)據(jù)采集及預處理數(shù)據(jù)轉換方法極差正規(guī)化變換變換后數(shù)據(jù)在[0,1]之間;極差為1,無量綱。3.2數(shù)據(jù)預處理對數(shù)變換將具有指數(shù)特征的數(shù)據(jù)結構變換為現(xiàn)行數(shù)據(jù)結構第三章大數(shù)據(jù)采集及預處理

數(shù)據(jù)歸約技術可以用來得到數(shù)據(jù)集的歸約表示,它很小,但并不影響原數(shù)據(jù)的完整性,結果與歸約前結果相同或幾乎相同。所以,我們可以說數(shù)據(jù)歸約是指在盡可能保持數(shù)據(jù)原貌的前提下,最大限度地精簡數(shù)據(jù)量保持數(shù)據(jù)的原始狀態(tài)。數(shù)據(jù)規(guī)約 3.2數(shù)據(jù)預處理兩個途徑數(shù)據(jù)采樣屬性選擇針對原始數(shù)據(jù)集中的記錄針對原始數(shù)據(jù)集中的屬性3.2數(shù)據(jù)預處理第三章大數(shù)據(jù)采集及預處理數(shù)據(jù)規(guī)約 數(shù)據(jù)歸約可以分為三類,分別是特征歸約、樣本歸約、特征值歸約。特征歸約是將不重要的或不相關的特征從原有特征中刪除,或者通過對特征進行重組和比較來減少個數(shù)。其原則是在保留、甚至提高原有判斷能力的同時減少特征向量的維度。特征歸約算法的輸入是一組特征,輸出是它的一個子集。樣本歸約就是從數(shù)據(jù)集中選出一個有代表性的子集作為樣本。子集大小的確定要考慮計算成本、存儲要求、估計量的精度以及其它一些與算法和數(shù)據(jù)特性有關的因素。12特征值歸約分為有參和無參兩種。有參方法是使用一個模型來評估數(shù)據(jù),只需存放參數(shù),而不需要存放實際數(shù)據(jù),包含回歸和對數(shù)線性模型兩種。無參方法的特征值歸約有3種包括直方圖、聚類和選樣。33.2數(shù)據(jù)預處理第三章大數(shù)據(jù)采集及預處理第三章大數(shù)據(jù)采集及預處理特征值規(guī)約算法三步驟評估過程輸入一個狀態(tài),通過評估函數(shù)或預先設定的閾值輸出一個評估值搜索算法的目的是使評估值達到最優(yōu)。搜索過程在特征空間中搜索特征子集,每個子集稱為一個狀態(tài)由選中的特征構成。分類過程使用最后的特征集完成最后的算法。3.2數(shù)據(jù)預處理第三章大數(shù)據(jù)采集及預處理3.1大數(shù)據(jù)采集3.2數(shù)據(jù)預處理3.3常用ETL工具

大數(shù)據(jù)應用人才培養(yǎng)系列教材習題3.3常用ETL工具第三章大數(shù)據(jù)采集及預處理常用ETL工具的概念

ETL(Extract-Transform-Load)是一種數(shù)據(jù)倉庫技術,即數(shù)據(jù)抽?。‥xtract)、轉換(Transform)、裝載(Load)的過程,其本質是數(shù)據(jù)流動的過程,將不同異構數(shù)據(jù)源流向統(tǒng)一的目標數(shù)據(jù)??罩堤幚?2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論